Neue Prüfungsordnungen schreiben kompetetive Benotung vor

Ideologieproduktion in der Prüfungsordnung (08.02.2006)

[Bild: Gaußkuve mit eingezeichneten ECTS-Bereichen]

Wenn ihr an der Uni Heidelberg studiert, werdet ihr in nächster Zeit höchstwahrscheinlich eine neue Prüfungsordnung bekommen -- so ist der Plan der Uni, und wenigstens in den alten Magisterfächern haben die Verantwortlichen schon eifrig, wenn auch selten kenntnisreich, gearbeitet. Bachelor und Master müssen eben erstmal geregelt werden.

Unter dem Haufen an Gängelei und Regulierungswahn, der da entwickelt wird, fällt ein Punkt gar nicht mehr auf: Die Uni wünscht im Einklang mit der HRK und anderen ausgewiesenen Pädagogik-Experten, die neuen Studiengänge sollten die ECTS-Noten (A, B, C, D, E) kompetetiv verteilen, was sie sich so vorstellt: Die besten 10% bekommen ein A, die nächsten 25% ein B, die nächsten 30% ein C, die nächsten 25% ein D, die schlechtesten 10% schließlich ein E. Diese Vorschrift trieft vor reaktionärer Ideologie, schwarzer Pädagogik und mathematischer Unkenntnis. Sie allein wäre Grund genug zur Ablehnung dieser Prüfungsordnungen. Wo die einzelnen Probleme liegen, wollen wir im Folgenden untersuchen. Schnallt euch an, ein bisschen Mathematik brauchen wir dazu, aber keine Sorge, wir haben der Lockung des Integralzeichens widerstanden.

Wer misst...

Grundlage dieses Verfahrens ist die Idee der Messbarkeit von "Leistung". Diese Idee ist ungefähr so sinnfrei wie das endlose Geschwafel von "Energie" in Kreisen von WünschelrutengängerInnen -- Arbeit pro Zeit ist hier nicht gemeint und wäre als präzise Definition auch nicht hilfreich, weil niemand eine hier möglicherweise gemeinte Arbeit quantifizieren kann.

Tatsächlich treiben es diese Leute aber noch schlimmer: Um "Leistungen" anordnen zu können, dürfen sie nur aus einer einzigen Zahl bestehen, denn schon Paare von Zahlen können, mathematisch gesprochen, nicht mehr angeordnet werden1, von komplexeren Größen mal ganz zu schweigen. Da mensch immerhin zwei Zahlen braucht, um die Position einer Tasse auf einem Tisch zu bestimmen, implizieren Menschen, die "Leistungen" anordnen wollen, die Qualität einer (am Schluss noch wissenschaftlichen) Arbeit sei einfacher zu bestimmen als die Handlung, eine Tasse auf einem Tisch abzustellen.

Daraus folgt übrigens, dass die traditionellen Noten2 allenfalls als Abkürzungen, keinesfalls aber als Zahlen zu lesen sind: Eine Eins bedeutet was wie "War fein, wir haben uns gefreut", eine Zwei "passt schon", eine Drei "Na ja, geht schon", eine Vier "Wir wollten ihn/sie nicht durchfallen lassen". Jede weitere Verwendung, insbesondere eine Durchschnittsbildung oder Anordnung, ist eigentlich unzulässig, ähnlich wie niemand auf die Idee kommen würde, einen Durchschnitt aus Birnen und Äpfeln zu bilden und auf Pfirsiche zu kommen.

Selbst wenn das nicht so wäre, müsste, wer hier "Messungen" sehen will, irgendwie mit der Tatsache umgehen, dass die Bewertungen ein und derselben Leistung durch verschiedene PrüferInnen regelmäßig um 0.5 Notenstufen abweichen, nicht selten auch mehr. Bei insgesamt vier Notenstufen folgt daraus eine geradezu atemberaubende Ungenauigkeit der Messung -- wenn es denn eine wäre, aber, das ist unser Punkt, es ist keine. Der Bezeichnung der hier definierten Bewertungen durch Zahlsymbole ist nicht mehr als eine bequeme, aber unglückliche Konvention. Die Semantik diese Symbole jedenfalls ist eine ganz andere als die natürlicher Zahlen.

Die Fehlkonzeption, eine irgendwie bestimmte "Leistung" sei tatsächlich zuverlässig messbar, ist aber nur der erste Fehler der kompetetiven Notenvergabe. Um weitere sehen zu können, wollen wir uns das Messbarkeitsideologem erstmal zueigen machen.

Zerschnippelte Glocken

Mit ihm kann mensch sich überlegen, wie wohl diese "Leistungen" verteilt sind und findet in der Literatur allerlei Behauptungen, sie folgten der Normal- oder Gaußverteilung. Wir haben diese in der Abbildung für euch dargestellt -- werft einen Blick drauf und ihr seht, woher die komischen 10/25/30-Zahlen kommen. In der Abbildung läuft auf der x-Achse die "Leistung", in diesem Fall durch vorzeichenbehaftete reelle Zahlen beschrieben (Vereinbarung: Je kleiner die Zahl, desto "besser" sollen unsere Menschen sein). Die Werte der Kurve sind dann ein Maß für die Wahrscheinlichkeit, dass ein zufällig gezogener Mensch gerade eine bestimmte Leistung zeigt.

Wenn mensch nun zwei definierte Teile der Kurve auswählt (etwa von -1 bis -0.5, genannt EliteanwärterInnen, und von 1 bis 2, genannt Dummies), gibt das Verhältnis der Flächen unterhalb der Kurvenstücke an, in welchem Verhältnis die Mitgliederzahlen der Gruppen EliteanwärterInnen und Dummies stehen. Wer das verstanden hat, kann hinter die Herkunft der Prozentvorschrift kommen: Die vier Linien in der Grafik trennen fünf Teile der Fläche unter der Kurve, deren Größen, you guessed it, jeweils 10, 25, 30, 25 und schließlich 10 Prozent der Gesamtfläche ausmachen (wir haben sie schon mit den zugehörigen ECTS-Grades markiert). Die Linien sind nicht zufällig ungefähr äquidistant, nein, die Ziffern wurden genau festgelegt. Das ging so: Ganz rechts und ganz links wurden jeweils "Elite" und "Idioten" (laut Ideologie je 10% jeder Grundgesamtheit) abgeschnitten, der verbleibende Platz wurde nach "Leistung" (also auf der x-Achse und nicht nach Fläche) gleichmäßig auf die mittleren Gruppen verteilt. Also: In der Prüfungsordnung steckt das Ideologem, "Leistungen" seien gaußverteilt.

Das ist das zweite absurde Ideologem, denn die Gaußverteilung ist nicht selbstähnlich. Mensch kann also nicht einfach ein Stück rausschneiden und hat wieder etwas, das aussieht wie die Orignialverteilung. Probiert es selbst: Seht die Kurve an, deckt dann die rechten zwei Drittel der Kurve ab und seht, ob immer noch etwas Glockenförmiges übrig bleibt. Fehlanzeige.3 Warum ist das ein Problem? Nun, auch wer das Idelologem der Gaußverteilung der Schlauheit in der Gesamtbevölkerung kauft (wir tun das nicht), bekommt ein Problem, wenn er/sie mit validen Instrumenten "bessere" Unterpopulationen auswählt -- das Ergebnis sind abgeschnittene Gaußverteilungen. Je stärker ich selektiere, je mehr von der Kurve ich also abschneide, desto weniger Ähnlichkeit werden sie mit einer vollen Gaußverteilung haben, schließlich werden sie nur noch einem (wenn wir von rechts wegschneiden) eleganten Aufschwung ähneln. Da das Benotungssystem auf der Annahme der Gaußverteilung beruht und seine Annahmen falsch werden, wird es selbst hinfällig.

Nun könnten ElitetheoretikerInnen einwenden, der Gauß in der Allgemeinbevölkerung werde halt mit einfachen Problemen bestimmt, während an der Uni komplexe Probleme verhandelt würden, bei denen die Verteilungen wieder anders aussähen. Wir bezweifeln nicht, dass sehr geschickt gewählte Prüfungen4 tatsächlich Gaußverteilungen aus jeder zugrundeliegenden Verteilung machen können, doch vergibt, wer solche Prüfungen macht, jeden Anspruch auf Abbildung der Realität. Misst mensch die Verteilung von etwas, das nicht gaußverteilt ist, sollte nun mal besser keine Gaußverteilung herauskommen. Hier hilft nun, dass Ideologem Nummer eins falsch ist. Wer ohnehin nur Fantasiewerte misst, kann auch alles rauskriegen, was er/sie will.

Pädagogische Katastrophen

Während mensch nicht davon ausgehen kann, dass Überlegungen dieser Art in den Hirnen der Bildungs-KonterreformerInnen überhaupt aufgezuckt sind, dürften die schwarzpädagogischen Konsequenzen beabsichtigt sein. Was nämlich noch der/die größteR SamariterIn auf Studiseite von dieser Sorte Notenvergabe mitbekommt, ist die Irrelevanz tatsächlichen Könnens oder Wissens. Zur Notenvergabe herangezogen wird nur die relative Stellung, gibt es genug Studis, die schlechter sind, kann mensch sich immer noch eine ganz ordentliche Note ausrechnen.

Viel schlimmer noch: Wenn ich einem/r Mitstudi helfe, riskiere ich, dass er/sie in den 35% mit A und B landet und mich selbst in ein C drückt. Mithin ist es rational, Mitstudis zu täuschen und zu verwirren. Je schlechter diese sind, desto besser wird mensch selbst sein. Dieses Klima von Misstrauen und Konkurrenz ist zwar sicher schlecht für Lernerfolge aller Art (diese basieren nämlich meistens mehr auf Kooperation unter Studierenden als auf den großartigen Bemühungen der Lehrenden), passt aber klar zu einer Ideologie, deren VertreterInnen in einem Fort von "Wettbewerb" und "Standort" schwadronieren.

Nicht überlegt

Habt ihr mitgezählt? Wir haben eben die dritte Ebene erreicht, auf der die kompetetive Benotung falsch ist. But wait, there's more down the rabbit hole. Beschließen wir also mal kurz, die Messbarkeits-, Gauß- und Wettbewerbsideologeme zu akzeptieren und versuchen uns endlich an der Implementation (das ist Managersprak für "Umsetzung") des Programms. Auf welcher Basis wollen wir dann die "Besten" bestimmen? Bei Klausuren können wir uns normalerweise recht leicht behelfen, wir nehmen einfach die Punktzahl. Aber leider sind Klausuren auch recht untypisch für die Arbeitsweise einer Uni (oder sollten es jedenfalls sein), ein noch nicht völlig verschulter Studiengang sollte eher auf Referate, Hausarbeiten, gepflegte akademische Diskurse (a.k.a. mündliche Prüfungen) und ähnliches setzen. Und hier brennt es dann, nachdem, wie oben schon angemerkt, bereits die deutschen Noten erhebliche Messfehler haben (übrigens sind die Messfehler auch bei Punktezahlen in Klausuren nicht viel kleiner).

Das ist ein Problem, denn zur Umsetzung des kompetetiven Programms müssen wir die Studierenden vollordnen, das heißt, zu jedem Paar a, b von Studierenden sagen können, ob L(a)>L(b) oder L(a)<L(b) gilt (L soll dabei die hypothetische Funktion repräsentieren, die für einen Studi dessen/deren "Leistung" ausspuckt). Damit das (sinnvoll) geht, muss die Genauigkeit meiner Messung besser sein als der kleinste Unterschied zwischen zwei Studierenden -- liegen zwei Studis nur um einen halben Punkt auseinander, muss ich sicher sein, dass bei keiner/m nicht noch ein halber Punkt rauszuholen wäre (zum Problem L(a)=L(b) unten).

Wenn nun allerdings mein Messfehler typisch 0.5 Notenstufen beträgt, was mache ich dann, wenn L(a)=2.0 und L(b)=1.7 ist? Angesichts des Messfehlers ist nicht unwahrscheinlich, dass "in Wahrheit" (wenn wir uns weiter auf Blödsinn dieser Sorte einlassen) L(a)=1.5 und L(b)=2.3 ist. Was ist nun, ist a besser als b, sind sie gleich, ist b besser? Wie soll unter diesen Umständen eine Vollordnung zustande kommen, die mehr ist als ein fröhliches Umhergewürfele?

Dazu kommt, dass speziell bei der Verwendung deutscher Noten auch nur wenige Werte besetzt sind, so dass L(a)=L(b) häufig auch gilt, wenn a und b verschiedene Studierende sind. Um mal einen Grenzfall anzusprechen: Wie soll das Programm kompetetiver Notengebung umgesetzt werden, wenn kurzerhand alle Studis eine 2 haben? Klar könnte mensch einwenden, dass sowas in einer wettbewerbsorientierten Gesellschaft nicht vorkommen darf, aber Theorien, die schon bei einfachen Grenzfällen spektakulär zusammenbrechen, sind fast immer schlechte Theorien.

Aber damit hört das nicht auf: In kleinen Fächern und in höheren Semestern sitzen nicht hunderte Studis in einer Veranstaltung, sondern häufig nur eine Handvoll. Was passiert denn in einer Veranstaltung mit 9 Studis? 10% von 9 sind 0.9 -- soll dann nur in neun von zehn solcher Veranstaltungen ein A vergeben werden? Gut, mensch könnte natürlich über mehrere Veranstaltungen hinweg Noten sammeln, aber damit wird eben die Vergleichbarkeit noch fraglicher -- ist eine 1.7 in einem Hauptseminar über Quantenfeldtheorie mit einer 1.7 in einem Hauptseminar über die Spiritualität in der neuen Literatur Islands vergleichbar? Oder auch nur die 1.7 in einem Hauptseminar beim Assistenten von Prof. Drache mit der 1.7 in einem Hauptseminar zum gleichen Thema bei der Assistentin von Prof. Tatzelwurm? Ein guter Ausweg ist also auch das Ansammeln von Noten über Veranstaltungen hinweg nicht.

In dem Moment aber muss der Studiengang definieren, wie er mit kleinen Zahlen umzugehen gedenkt, denn einE ElitestudentIn, der/die durchweg ein A bekommen möchte, kann sich eventuell nicht leisten, in Veranstaltungen mit weniger als 10 TeilnehmerInnen Leistungsnachweise zu erbringen...

Schlüsse

Eigentlich sind schon Noten Quatsch, keine Frage. Fernziel ist sicher, von der nachgerade absurden Fiktion Abschied zu nehmen, eine einziges Symbol sei genug, um eine Arbeit zu qualifizieren. Doch kommt mit der auf mindestens vier Ebenen disfunktionalen kompetetiven Notenvergabe eine ganz neue Qualität von ideologietriefendem Wahnsinn auf uns zu. Nachdem das Rektorat diesen Wahnsinn zentral verordnet hat, werden selbst mathematisch vorgebildete Menschen (im Rahmen der jetzt anlaufenden Umstellung der alten Diplomstudiengänge kommen diese jetzt verschärft damit in Kontakt) das Zeug einfach so in ihre Prüfungsordnungen pinnen. Um sie davon abzubringen, muss ihnen klar gemacht werden, dass sie sich damit endlos Probleme einhandeln. Stellt daher (mindestens) folgende Fragen:

Weitere Einwände lassen sich leicht finden (die Frage der Messbarkeit von Leistung solltet ihr allerdings nur mit ausgesprochen vernünftigen Profs erörtern). Wie gesagt: Die Theorie, die hinter dieser Sorte Notenvergabe steht, ist einfach falsch, und deswegen knackt und knirscht es bei jeder Anwendung der Theorie laut. Das ist nichts Neues in der Welt moderner Konterreform -- aber es ist nicht schlecht, dass es hier so offensichtlich ist.


1 Tatsächlich kann mensch (in der Standard-Mathematik) jede Menge anordnen, aber eben nicht notwendig "sinnvoll". Sinnvoll wäre hier, dass aus a<b für alle x auch a+x<b+x folgt, und schon das geht eben schon bei Paaren von Zahlen nicht mehr (Danke an S.M. für diese Präzisierung). [Zurück]

2 Natürlich treten wir auch für deren Abschaffung ein, aber das ist eine andere Diskussion. [Zurück]

3 Hier ein kostenloser Tipp an die MacherInnen: Sagt doch euren HofwissenschaftlerInnen, sie sollten bei ihrer nächsten Untersuchung lieber rausbekommen, die mystischen "Begabungen" seien geometrisch verteilt. Geometrische Verteilungen kann mensch nämlich von links her abschneiden und bekommt wieder eine geometrische Verteilung. Außerdem passt die geometrische Verteilung mit ihrer breiten Menge von dummem Plebs und einer Elite, die mit ausreichender Wahrscheinlichkeit Superman in den Schatten stellt, auch sonst noch besser in euer Weltbild als der Gauß, der ja, ganz sozialdemokratisch, sagt, die breite Mehrheit sei durchaus brauchbar und die Wahrscheinlichkeit für atemberaubende Genies praktisch Null. Für 200000 Euro arbeiten wir euch die Theorie gerne genauer aus und entwerfen auch ein darauf aufbauendes Benotungsschema. [Zurück]

4 In der Realität kann natürlich niemand solche Prüfungen a priori entwerfen, selbst wenn eine Verteilung der Leistungen existieren würde und bekannt wäre. Zum Glück ist das auch nicht nötig, denn natürlich kann mensch in der Korrektur dafür sorgen, dass die erstrebte Verteilung der Noten auch rauskommt. [Zurück]

Link me

Dieser Artikel wurde zitiert am: 19.04.2006