Universität Bonn

Medizinische Fakultät

26. Juli 2023

Was hat das Gefieder von Pfauen-Männchen mit Schulprüfungen zu tun? Was hat das Gefieder von Pfauen-Männchen mit Schulprüfungen zu tun?

Ungewollte Anreizsysteme können zu abstrusen Entwicklungen führen

Wie steht es um die Kompetenzen in den Schulklassen? Verschiedene Tests sollen Aufschluss darüber geben. Doch was passiert, wenn in den Klassen vor allem auf die Tests und nicht auf die erforderlichen Kompetenzen hingearbeitet wird? Indikatoren sind möglichst einfach zu handhabende Maße, die über ein komplexes Geschehen Aufschluss geben sollen. Doch wenn der Indikator zum Ziel einer Maßnahme wird, kann dies zu Verzerrungen führen. Darauf weisen Yohan J. John von der Boston University, Leigh Caldwell von der Irrational Agency in London und Dakota E. McCoy von der Stanford University in einem aktuellen Paper hin. Oliver Braganza von der Universität Bonn zählt ebenfalls zu den Autoren. Er hat unsere Fragen beantwortet.

Der Wissenschaftler Dr. Oliver Braganza - von der Universität Bonn.
Der Wissenschaftler Dr. Oliver Braganza - von der Universität Bonn. © Foto: Kristian Reichelt
Alle Bilder in Originalgröße herunterladen Der Abdruck im Zusammenhang mit der Nachricht ist kostenlos, dabei ist der angegebene Bildautor zu nennen.

Das Paper dreht sich um Proxy-Maße und Stellvertreterversagen. Können Sie bitte kurz das Thema vorstellen?
Ein Proxy-Maß ist ein Indikator oder Stellvertreter, den man benutzt, weil man das Ziel selbst nicht messen kann. Zum Beispiel eine Prüfungsnote soll Kompetenz oder Wissen messen. Nun können aber Studierende beginnen ‚Tricks‘ zu üben, um möglichst gute Testergebnisse zu erzielen ohne die Inhalte wirklich zu verstehen. So kann es passieren, dass das, was ein Test eigentlich messen sollte, also das Wissen der Studierenden, nicht mehr gut gemessen wird. Das wird manchmal als ‚Goodharts Gesetz‘ bezeichnet: „Wenn ein Maß zum Ziel wird, dann hört es auf ein gutes Maß zu sein.“ Dieses Prinzip von Proxy-Maßen und Stellvertreterversagen wurde immer und immer wieder beobachtet und hat zahlreiche Namen erhalten.

Da drängt sich die Frage auf: Warum kommt das so häufig vor?
Genau diese Frage hat uns umgetrieben. Wir haben erstmal gesammelt, wo überall das Phänomen auftritt. Goodhart, ein Ökonom und der Namensgeber des erwähnten Gesetzes, hat es im Kontext von Makroökonomischen Indikatoren beobachtet. Fast zeitgleich wurde der Begriff ‚Campbells Gesetz‘, diesmal mit Bezug auf Proxy-Maße im Bildungsbereich geprägt. Die Liste könnte weitergehen, das Interessante ist aber, dass man in immer neuen Bereichen anfing, dasselbe Phänomen zu beschreiben. Wirklich Interessant wurde es für mich, als ich den Artikel von zwei Harvard-Ökologen las, die erläuterten, wie dieses Prinzip auch in der Biologie auftritt.

Wie tritt Campbells Gesetz in der Biologie auf?
Laut der ‚runaway signalling theory‘ bewerben sich zum Beispiel Pfauen-Männchen durch ihr opulentes Schwanzgefieder als Paarungspartner. Wie kam es zu dieser Federpracht? Die Theorie besagt, dass die Opulenz des Gefieders vielleicht anfänglich ein wertvolles ‚Signal‘ für die ‚Fitness‘ der Männchen war. Wer aufgrund einer Mutation ein größeres Schwanzgefieder hatte, wurde besonders von Paarungspartnerinnen bevorzugt. So konnte eine anfänglich kleine Präferenz der Weibchen zu einem evolutionären Wettlauf führen, und die Größe des Schwanzgefieders explodierte. Der berühmte Ökologe Richard Prum aus Yale geht davon aus, dass wir diesem Mechanismus sogar die Existenz von Vögeln allgemein verdanken, da sich ohne ihn vielleicht Federn selbst nie entwickelt hätten. Pfauenmännchen ‚schummeln‘ nicht bewusst bei ihren ‚Tests‘. Es kommt aber trotzdem zu derselben Dynamik. Das gleiche wurde in der KI-forschung bemerkt.

Weshalb ist auch Künstliche Intelligenz (KI) anfällig für solche Proxy-Verzerrungen?
Der Algorithmus, auf dem eine KI basiert, muss irgendwie messen, was eine ‚gute‘ Performance ist. Dazu wird eine sogenannte ‚loss function‘ oder ‚objective function‘ verwendet, die für jeden Input berechnet wird. Die Option mit dem höchsten Wert wird weiter verwendet. Das sind zum Beispiel die Ergebnisse einer Suchmaschine oder von ChatGPT. Die Krux ist nun, dass die ‚objective function‘ per Definition auch nur ein Proxy-Maß für das darstellt, was wir wirklich wollen. Es scheint fast unmöglich, komplexe Ziele des Menschen mathematisch vollständig zu beschreiben. Deshalb ist Proxy-Versagen in der KI-forschung gerade ein zentrales Thema.

Haben Sie hierfür ein Beispiel?
Der KI-Forscher und Philosoph Nick Bostrom entwirft ein Szenario, in dem die Manager einer Fabrik für Büroklammern eine KI nutzen, um die Produktion zu maximieren. Dabei ist die KI so fortschrittlich, dass sie nicht nur die Produktionsprozesse der Fabrik optimiert, sondern auch ihren eigenen Code immer weiter verbessert und so zu einer ‚Superintelligenz‘ wird. Diese Superintelligenz würde aber immer noch ihr programmiertes Ziel - das Proxy-Maß - verfolgen, nur eben mit unglaublicher Effektivität. Sie wird, so Bostrom, die gesamte Welt in eine riesige Fabrik für Büroklammern verwandeln und alle Menschen, inklusive der ursprünglichen Manager, versklaven.
Dieses hypothetische Beispiel ist besonders anschaulich, aber es gibt inzwischen zahlreiche Beispiele, in denen Proxy-basierte Algorithmen echten Schaden anrichten: So lehnt ein Kreditvergabemodell systematisch Minderheiten ab, weil es Postleitzahlen zur Entscheidung über die Darlehen nutzt.

Solches Proxy-Versagen gab es jedoch auch verbreitet in der Vergangenheit?
Ein gut dokumentiertes Beispiel ist dieses: Die französische Kolonialherrschaft wollte in Vietnam gegen eine Rattenplage vorgehen, indem es eine Kopfgeld-Prämie für jede getötete Ratte auslobte. Um an das Geld heranzukommen, mussten die Menschen abgetrennte Rattenschwänze als Beweis vorlegen. Die vietnamesischen Rattenfänger schnitten den Tieren die Schwänze ab und ließen sie dann wieder frei, damit die Ratten sich weiter vermehren konnten und ein größeres Einkommen ermöglichten. Manche fingen sogar an, Ratten zu züchten.

Ist Campbell’s Gesetz universal gültig?
In unserem Artikel untersuchen wir systematisch die Parallelen zwischen all diesen Fällen. Wir kommen zu dem Schluss, dass es sich um ein generelles Informations- oder Kontrolltheoretisches Prinzip handelt: Die Nutzung von Proxy-Maßen wirkt wie eine ‚Kraft ‘, die dazu neigt, die Maße von ihrem Ziel zu entfernen. Diese Kraft führt aber nicht notwendigerweise dazu, dass die Maße unbrauchbar werden. Der Hauptteil unserer Arbeit untersucht die Mechanismen, die Proxy-Versagen entgegenwirken oder es eindämmen. Zum Beispiel der Markt ist so ein Mechanismus: Ein Unternehmen, das aufgrund von Proxy-Versagen der intern genutzten ‚Performance Indikatoren‘ Unbrauchbares produziert, würde am Markt schlicht nicht überleben. Manager kennen das Problem daher gut. Sie wissen aber, dass wenn sie nicht aufmerksam bleiben und gegensteuern, ihr Job auf dem Spiel stehen könnte.

Unternehmen müssen profitabel sein. Ist das ein effektiver Mechanismus, um Proxy-Versagen zu begrenzen?
Grundsätzlich schon. Man darf aber nicht vergessen, dass Konsum und Profit auch nur Proxy-Maße sind. Laut traditionellen ökonomischen Annahmen messen sie menschliches Wohlsein. In Anbetracht zahlreicher ökologischer Krisen stellt sich aber zunehmend die Frage, ob die uneingeschränkte Maximierung von solchen ökonomischen Proxy-Maßen unser langfristiges Wohlergehen wirklich fördert. Bekannte Ökonomen wie Maja Göpel oder Kate Raworth haben darauf eine eindeutige Antwort: Nein. Es gilt ein gesamtökonomisches Proxy-Versagen, ein ‚Marktversagen‘, einzudämmen, zum Beispiel durch CO2-Steuern oder ähnliche Maßnahmen.

Die Fokussierung auf die Proxy-Maße ähnelt dem Tunnelblick. Wie können wir diese „Scheuklappen“ ablegen?
Eine naheliegende Frage. Leider bleibt die Antwort eher unbefriedigend. Kurzum ist eine der Haupteinsichten unserer Arbeit, dass man die Scheuklappen wohl leider nie ganz ablegen kann. Man kommt in der Praxis einfach nicht um Proxy-Maße herum. Das liegt an mehreren unumgänglichen Limitationen, die alle Entscheidungssysteme, ob Mensch, Tier oder Maschine, betreffen. So ist die für eine Entscheidung relevante Information fasst nie ‚vollständig‘ zugänglich: Wir können nicht in die Köpfe von Schülern schauen.

Wie kommen wir dann zu besseren Regulierungen von komplexen Systemen? Durch mehrere Proxy-Maße?
Eine Kombination von mehreren Proxy-Maßen ist in der Tat fast immer hilfreich, insbesondere wenn die Maße unterschiedliche Aspekte unseres Ziels messen. So kann man vermeiden, dass die Optimierung des ersten Maßes etwas unterminiert, was im zweiten gemessen wird. Wenn man merkt, dass ein neuer, unerwarteter Aspekt korrumpiert wird, fügt man ein drittes Proxy-Maß hinzu. Diese Dynamik scheint tatsächlich in der Biologie und auch in sozialen Systemen stattzufinden - sie wurde vor kurzem die ‚Proxy-Tretmühle‘ getauft. Demnach neigen solche Proxy-Systeme dazu, mit der Zeit immer komplexer zu werden. Ein Stück weit scheint das unvermeidbar.

Wo ist hier das richtige Maß?
Immer kompliziertere und aufwendigere Vermessungs- und Regulierungssysteme verbrauchen selbst auch Ressourcen. Dies beschreibt der Historiker Jerry Muller in seinem Buch ‚The Tyranny of Metrics‘. Demnach führt der Impuls, sich immer mehr auf Indikatoren und Wettbewerb zu verlassen, zu einer ‚Explosion‘ von Bürokratie. Ich habe meinen Vater im Ohr: Er war lange Arzt an einem Klinikum und hat mit Sorge beobachtet, wie sich das Verhältnis immer weiter weg von der medizinischen Versorgung in Richtung Administration zu verschieben scheint. Im Versuch, alles zu messen und zu steuern, und dabei Proxy-Versagen zu vermeiden, bleibt immer weniger Zeit und Geld für das eigentliche Ziel: Die Patientenversorgung. Alle sind weitgehend mit Papierkram beschäftigt. Muller sagt daher, dass man ab irgendeinem Punkt besser auf die zunehmende Regulierung und Überwachung verzichtet. Praktisch heißt das: Weniger Wettbewerbs-Elemente, weniger Proxy-Maße und mehr Fokus auf die Mitarbeiter und ihre ‚intrinsische‘ Motivation, ihren Job gut zu machen.

Wie sind Sie zu diesem Thema gekommen?
Ich selbst habe im Kontext der ‚Metawissenschaft‘ angefangen, an dem Thema zu arbeiten. Metawissenschaft ist die Forschung über das Wissenschaftssystem selbst. Viele Forschende machen sich Sorgen, dass die extreme Wettbewerbsorientierung in der Wissenschaft ihrer Qualität schadet. Dabei spielen ‚Publikations-Maße‘ eine zentrale Rolle. Ich habe zum Beispiel ein mathematisches Modell entwickelt, dass konkrete Vorhersagen darüber macht, wie sich Proxy-Versagen im Publikationssystem in publizierten Stichprobengrößen bemerkbar machen sollte. Die Stichprobengrößen in vielen Disziplinen sind schon seit den 60er Jahren bekanntermaßen zu klein. Die Frage ist also, warum sie nicht größer werden, wenn man doch weiß, dass sie es für eine bessere Aussagekraft der Studien müssten. Auch hier scheinen Proxy-Maße ein Grund zu sein.

Wie geht es nun mit Ihrem Paper weiter?
Beim Journal `Behavioral and Brain Sciences´, in dem das Paper erschienen ist, handelt es sich um ein innovatives wissenschaftliches Format. Das Paper wird vorab veröffentlicht, und dann können Forscher aus allen Disziplinen Kommentare und Kritik dazu schreiben. Die Herausgeber wählen Kommentare aus und veröffentlichen sie zusammen mit dem Hauptartikel. Ich finde das Format toll, weil es erlaubt, die oft auch kritischen Standpunkte zu einem Thema gebündelt zu lesen. In unserem Artikel ist durchaus viel Stoff für Kontroversen. Ich bin aber auch gespannt, ob Autoren aus anderen Bereichen vielleicht völlig neue Beispiele für dieses Phänomen schildern.

Kann jeder mitdiskutieren?
Im Prinzip gibt es hier keine Beschränkung. Man bewirbt sich zunächst beim Journal `Behavioral and Brain Sciences´ für einen Kommentar. Wie das geht, steht auf der Webseite: Informationen. Daraufhin entscheiden die Editoren, ob man zu einem Kommentar eingeladen wird. Bis 10. August sind noch Kommentarvorschläge möglich.

Wie kommen Sie zu „erhärteten“ Ergebnissen?
Tatsächlich sind die Ergebnisse unserer Ansicht nach schon ziemlich hart. In fast jeder der beschriebenen Disziplinen sind die Prozesse grundsätzlich anerkannt, obwohl es natürlich im Detail oft kontrovers zugeht. Das Neue ist, dass wir all diese verschiedenen Bereiche zusammenbringen. Der nächste Schritt ist nun, noch tiefer in die mathematischen Modelle des Phänomens in verschiedenen Disziplinen einzudringen, und diese - wenn möglich - ebenfalls zusammenzuführen.

Zur Person:
Oliver Braganza, geboren 1984 in Fulda, studierte nach dem Abitur zunächst Humanbiologie in Marburg und anschließend Molekulare Biomedizin an der Universität Bonn. Nach seiner Promotion am Labor für Experimentelle Epileptologie und Kognitionsforschung im Life & Brain Zentrum der Universität Bonn forscht er über neuronale Schaltkreise im Gehirn und Proxy-Versagen. Er ist Mitglied im Exzellenzcluster ImmunoSensation2, in den Transdisziplinären Forschungsbereichen „Life & Health“ und „Individuals & Societies“ sowie am Center for Science and Thought der Universität Bonn.

Illustration
Illustration © Oliver Braganza

Yohan J. John, Leigh Caldwell, Dakota E. McCoy, and Oliver Braganza: Dead rats, dopamine, performance metrics, and peacock tails: proxy failure is an inherent risk in goal-oriented systems, Behavioral and Brain Sciences, DOI: https://doi.org/10.1017/S0140525X23002753

Dr. Oliver Braganza
Universität Bonn
Institut für Experimentelle Epileptologie und Kognitionsforschung
Tel. +49 (0)228-6885 157
E-Mail: oliver.braganza@ukbonn.de

Wird geladen