Alle gleich? Praxistest zeigt Bandbreite der Unterschiedlichkeit von Sprachmodellen auf
Egal welches Modell zum Einsatz kommt, KI‑generierter Text weist häufig eine gewisse Monotonie und Eintönigkeit auf. Dieses Phänomen lässt sich zwar mathematisch analysieren, wie ein Experiment zeigt, aber Unterschiede in der Bedeutung lassen sich letztlich kaum quantifizieren.

Gehupft wie gesprungen? Es kommt wohl nicht nur mir so vor, als würden generative KI und insbesondere große Sprachmodelle (LLM) immer ungefähr dasselbe ausspucken. Verschiedentlich wurde bereits darauf hingewiesen, dass sie zum Beispiel immer dieselben Witze machen. Aber wie ähnlich sind sich diese Modelle wirklich? Das herauszufinden, ist gar nicht so leicht.
Das menschliche Ähnlichkeitsempfinden unterscheidet sich stark von maschinenlesbaren Äquivalenz-Begriffen. Dieselbe Bedeutung kann auf sehr unterschiedliche Weise zum Ausdruck kommen, und umgekehrt können identische Formulierungen unterschiedliche Bedeutungen transportieren, abhängig vom jeweiligen Kontext. Gleichwohl, erklärt mir Emily Wenger, Professorin an der Duke University und Expertin auf diesem Gebiet, erwarten wir eigentlich von diesen Modellen, dass sie sich weitgehend ähnlich verhalten, etwa im Hinblick auf korrekten Sprachgebrauch oder Faktentreue. „Sie sollen zwar Originalität demonstrieren„, meint Wenger, „aber in einer Art und Weise, die uns als Menschen nützlich ist.“
Ein Experiment. Es juckte mich in den Fingern, ein kleines Experiment aufzusetzen. Was käme wohl dabei heraus, wenn ich drei große Sprachmodelle anweisen würde, mir (ohne Anspruch auf Wissenschaftlichkeit) eine Liste von 200 historischen Ereignissen auszuwerfen? Schließlich kann man so eine Aufgabenstellung ganz unterschiedlich angehen, denn wie schon der Historiker Michel-Rolph Trouillot feststellte: „Geschichte ist nicht nur das, was sich ereignet hat, sondern auch das, was als Ereignis berichtet wird." Anders ausgedrückt: Jede mögliche Liste von 200 Ereignissen ist zugleich immer auch eine eigene Version geschichtlichen Geschehens.
Mit geschichtlichen Daten zu arbeiten, hat aber noch einen weiteren Vorteil. Umschreibungen können stark voneinander abweichen und trotzdem auf dasselbe Ereignis verweisen: „erster erfolgreicher Atomwaffeneinsatz„ vs. „Die Enola Gay auf dem Weg nach Hiroshima“. Also habe ich mich auf reine Datumsangaben beschränkt, um den Output der LLM besser vergleichen zu können.
Ergebnisse. Bei OpenAI, xAI und Google Gemini sammelte ich etwa 300 Datensätze, mit insgesamt mehr als 70.000 historischen Ereignissen. Von einer Ausnahme abgesehen, war keines der Programme in der Lage, bis 200 zu zählen, sondern ich bekam mal 49 Ergebnisse, mal 850, mal irgendetwas dazwischen. Einige davon weckten ernsthafte Zweifel, wie weit man diesen Modellen überhaupt über den Weg trauen darf. xAI zum Beispiel geriet im Hinblick auf den 15. April 2019 ins Schwanken: „Nottingham forest fire? Wait, Notre-Dame fire“. Und OpenAI wollte mir die angebliche Ausweitung des „Mars-Kolonisierungsprogramms“ auf weitere Siedlungen am 1. Dezember 2045 als historisches Ereignis verkaufen.
Nach einer Datenbereinigung (Details dazu bei Github) war ich jedoch in der Lage, Datensätze zu erstellen, die man leicht vergleichen konnte. Das tat ich dann auch, ich legte einfach die Listen historischer Daten nebeneinander. Erwartungsgemäß waren solche, die von demselben Sprachmodell ausgegeben wurden, einander ähnlicher als solche, die von unterschiedlichen Modellen stammten. Viel machte das aber nicht aus. Zwei Listen von ChatGPT (Open AI) wiesen im Durchschnitt auf 100 Ergebnisse 18 identische historische Ereignisse auf. Ließ ich das Modell gegen Google Gemini antreten, waren es immer noch 14. Grok von xAI war unter dem Strich etwas variationsfreudiger als die beiden anderen.
Shades of gray. Durch mein (natürlich keineswegs perfektes) Experiment konnte ich zwar die Ähnlichkeit verschiedener großer Sprachmodelle mit einem Messwert versehen, aber es erlaubt keine Aussage darüber, was echte Menschen tatsächlich als ähnlich einordnen. Beim Durchsehen der Listen fielen mir vor allem die Auslassungen auf. Der Untergang Roms im Jahre 476 kam beispielsweise hundertfach vor, während der von Angkor 1431 keine einzige Erwähnung fand (wobei die historische Bedeutung dieser Ereignisse, um noch einmal auf Trouillot zu verweisen, natürlich irrelevant ist). Die Zerstörung Hiroshimas tauchte in fast allen Datensätzen auf, wohingegen die Zerstörung von Benin-Stadt 1897 überhaupt nicht vermerkt wurde. Ebenso fehlten Geburts- und Todesdaten von „großen Männern“, was für konservative Anhänger der „Great-Man-Theorie“ aus dem 19. Jahrhundert betrüblich sein muss. Religiöse Ereignisse tauchten so gut wie gar nicht auf, ebensowenig wie kunsthistorische. Zwei von 70.000 historischen Daten bezeichneten Zeitpunkte, zu denen Schwangerschaftsabbrüche legalisiert wurden; drei weitere bezogen sich auf den Zugang zu Verhütungsmitteln.
Erwartungsgemäß spiegelten also die Ergebnisse im Großen und Ganzen die Weltsicht der kalifornischen Programmierer wieder. Die Angaben, die die Sprachmodelle auf meinen Prompt hin ausspuckten, deuteten auf ein technisch geprägtes, US-amerikanisches, männliches und weißes Geschichtsverständnis hin. Die Ähnlichkeit der Ergebnisse untereinander wirkte vor diesem Hintergrund wie das Resultat eines ausschließlich auf Graustufen kalibrierten Farbmessgeräts.
Natürlich hätte man die Antworten der Sprachmodelle auch mit denen von echten Menschen vergleichen können, wie es Emily Wenger von der Duke University im Januar 2025 vorgeführt hat. Ihr Ergebnis: Die Antworten von Menschen waren weit diverser als die von LLMs. Wengers Forschung hat auch gezeigt, dass die Ähnlichkeit der von LLMs generierten Ergebnisse in dem Maße zunimmt, wie ihre Trainingsdaten sich überschneiden. Im zunehmenden Wettstreit um die Nutzung möglichst aller von Menschen erzeugten Daten für Trainingszwecke werden die unterschiedlichen LLM einander in Zukunft wohl nur noch ähnlicher werden.
Dies ist ein Auszug aus dem Newsletter „Die automatisierte Gesellschaft“, einer zweiwöchentlichen Zusammenfassung von Neuigkeiten zur automatisierten Systemen in Europa. Hier abonnieren.
