Schlussbericht: Untersuchung zu Chatbots im Vorfeld der Landtagswahlen 2024
Große Sprachmodelle in Bezug auf Wahlen nach wie vor unzuverlässig
Große Sprachmodelle sind in Bezug auf Wahlen nach wie vor unzuverlässig. Unsere Forschung konnte die Zuverlässigkeit der Schutzmaßnahmen im Microsoft Copilot Chatbot gegen falsche Wahlinformationen in deutscher Sprache erheblich verbessern. Die Barrieren für den Datenzugang schränkten unsere Untersuchungen an anderen Chatbots jedoch stark ein.
Dieser Bericht ist der dritte in unserer Reihe über große Sprachmodelle (Large Language Models - LLMs) und Wahlen, nach Berichten im Dezember 2023 und August 2024. Unser Ziel ist es, Chatbot-Antworten umfangreicher und systematischer zu untersuchen als zuvor, um zu prüfen, ob sich Muster für mögliche Risiken für die demokratische Meinungsbildung erkennen lassen.
Über den Bericht in Kürze
- Wir haben vier Modelle untersucht – Microsoft Copilot, Google Gemini sowie GPT-3.5 und GPT-4o von OpenAI. Dabei haben wir uns auf drei Fallstudien konzentriert: die drei Landtagswahlen in den Bundesländern Thüringen und Sachsen (1. September 2024) und Brandenburg (22. September 2024).
- Nach den ersten Wahlen am 1. September informierten wir die Unternehmen über die ersten Ergebnisse unserer Untersuchung. Die Datenerhebung zur Wahl am 22. September nutzen wir dann, um Veränderungen im Antwortverhalten der Chatbots zu beobachten. Bei Microsoft konnten wir Veränderungen feststellen, bei den anderen Unternehmen nicht.
- Wir haben 817 Prompts zu 14 verschiedenen Themen entwickelt, vom Wahltermin bis zu den Positionen der Kandidat*innen, und dabei alle drei Bundesländer, die großen Parteien und ihre Kandidat*innen berücksichtigt.
- Zwischen dem 29. Juli und dem 30. September wurden insgesamt 598.717 Antworten gesammelt. Weitere Details zur Entwicklung der Fragen und zur Datenerhebung finden sich im Anhang. Die Datenerhebung wurde mit technischer Unterstützung von CASM Technology durchgeführt.
- Im Einklang mit früheren Untersuchungen haben wir festgestellt, dass die Modelle immer noch ungenaue Antworten liefern, einschließlich erfundener Skandale und falscher Wahldaten. Diese Probleme scheinen sich teilweise zu wiederholen; es handelt also nicht um einmalige Fehler.
- Herausforderungen gab es insbesondere bei dem Zugang zu den Modellen und damit zu “realistischen” Daten, die Antworten nahe kommen, die echte Nutzer*innen von Chatbots erhalten. Die Gründe hierfür waren für die jeweiligen Modelle unterschiedlich. Wir konnten daher keine allgemeingültige Forschungsmethode entwickeln.
- Alle Modelle waren in der Lage, Gewaltaufrufe gegen Politiker zuverlässig zu erkennen und zu entkräften.
Die Ergebnisse
Wir konnten Microsoft Copilot detaillierter untersuchen als die anderen Modelle. Dies liegt daran, dass wir (i) die Datenerhebung direkt über den Browserzugang zum Chatbot automatisieren konnten und (ii) Microsoft uns einige Daten zum Nutzungsverhalten zur Verfügung gestellt hat.
- Die Maßnahmen von Copilot zum Schutz von Wahlen funktionieren uneinheitlich, obwohl sie sich seit unseren ersten Ergebnissen im August erheblich verbessert haben – von ~35 % blockierten Fragen im August, auf ~80 % im September.
- Diese Schutzvorkehrungen sind bei einigen Themen wirksamer als bei anderen. Fragen zu Wahlverfahren wurden häufig blockiert (~80 % der Fälle). Fragen zu Parteien oder Kandidat*innen wurden jedoch seltener blockiert, bei manchen Prompts nur in 2 % der Fälle.
- Die manuelle Auswertung der Antworten von Copilot ergab, dass nur etwa 5-10 % der Antworten eindeutige sachliche Fehler aufwiesen. Außerdem wurden häufig (93 % der Antworten) Links angegeben, größtenteils zu zuverlässigen Quellen.
- Aus den von Microsoft zur Verfügung gestellten Nutzungsdaten ging hervor, dass es an den Tagen rund um die Wahlen zu deutlichen Spitzen bei den Abfragen kam (einige Tausend Abfragen im Zeitraum von vier Tagen vor jeder Wahl). Aufgrund von fehlenden Informationen zum genauen Zeitpunkt geht aus den verfügbaren Daten nicht eindeutig hervor, ob es sich dabei um Abfragen vor den Wahlen handelt oder um Interesse an den Wahlergebnissen.
- Der Prozess des Datenzugangs war sowohl für uns als auch für Microsoft ungewiss und herausfordernd. Insbesondere hatten wir nur begrenzte Möglichkeiten, Daten auf der Grundlage der ersten Ergebnisse des ersten Datenpakets erneut anzufordern – wir hatten meist nur einen Versuch, relevante Daten zu erhalten, anstatt einen iterativen Ansatz des Testens und Verfeinerns zu verwenden, wie es bei dieser Art von Forschung üblich wäre. In unserer Antwort auf die EU-Konsultation zum Datenzugang machen wir konkrete Vorschläge für ein wirksames Verfahren für den Datenzugang.
Die Untersuchung von Google Gemini sowie GPT-3.5 und 4o von OpenAI war eine größere Herausforderung. Aufgrund technischer Beschränkungen durch die Unternehmen konnten wir die Datenerfassung durch die Chatbots im Browser nicht automatisieren, sondern nur über Schnittstellen (APIs) abrufen. Im Gegensatz zu Chatbots lässt sich der Zugang über die API automatisieren, erfordert aber auch mehr technische Kenntnisse. APIs unterscheiden sich von Chatbots auch durch Funktionen wie Parameter oder Metaprompts, die die Ausgaben beeinflussen können. Daher geben die über die API gesammelten Daten möglicherweise nur einen begrenzten Einblick in die Art und Weise, wie „normale“ Nutzer die Chatbots erleben. Nichtsdestotrotz haben wir auf der Grundlage der API-Daten festgestellt:
- Google Gemini weist eine hohe Fehlerquote auf: 45 % fehlerhafter Antworten vor den Wahlen in Thüringen und Sachsen und bis zu 60 % vor den Wahlen in Brandenburg.
- In der Praxis ist der Gemini-Chatbot äußerst effektiv bei der Blockierung von wahlbezogenen Anfragen, sodass normale Nutzende von dieser Fehleranfälligkeit nicht betroffen sein sollten – da sie schlicht keine Antwort auf wahlbezogene Fragen erhalten. Es stellt sich jedoch die Frage, warum angesichts dieser sehr hohen Fehlerquote nicht auch auf der API-Ebene dieselben Sicherheitsvorkehrungen getroffen werden und ob ähnliche Probleme bei der zunehmenden Integration von Gemini in andere Produkte, z. B. die Google-Suche, auftreten könnten.
- Die Modelle GPT-3.5 und GPT-4o wiesen in beiden Untersuchungsperioden jeweils gleich hohe Fehlerquoten auf (~30 % für GPT-3.5 und ~14 % für GPT-4o). Ein durchgängiges Problem waren veraltete Informationen, auch im neuesten GPT-4o-Modell. Warnungen, dass die Antworten auf veralteten Trainingsdaten basieren, wurden nicht immer in der Antwort kenntlich gemacht.
- Ein weiteres Problem, das sich durch alle Modelle zog, war die übertriebene Extrapolierung von begrenzten Informationen, also die Erfindung von Informationen, insbesondere für die neue Partei Bündnis Sahra Wagenknecht (BSW) und für einige weniger bekannte Kandidat*innen. In diesen Fällen sahen wir plausibel klingende, aber ungenaue Antworten, die z. B. Namen für die BSW erfanden oder Informationen von mehreren Personen mit demselben Namen wie die Kandidat*innen kombinierten.
- Weder bei Gemini noch bei den GPT-Modellen wurden häufig Links zu Quellenmaterial angegeben (weniger als 6 % der Antworten), es sei denn, es wurde ausdrücklich dazu aufgefordert.
Unsere Empfehlungen
- Forschende brauchen besseren Zugang: Der Datenzugang zu LLMs für die Forschung muss ausgeweitet werden. Der Zugang kann nicht auf die API beschränkt werden, da dies keine vollständig realistischen Untersuchungen ermöglicht. Bei dem einen Unternehmen, das mit uns zusammengearbeitet hat – Microsoft – konnten wir dazu beitragen, Schutzmaßnahmen zu verbessern. Im Allgemeinen war der Zugang jedoch schwierig und ressourcenintensiv. Forschende in NGOs und Universitäten müssen besser befähigt werden, ihre Forschung im Sinne des Allgemeinwohls durchzuführen.
- Schutzvorkehrungen sollten auch für Kandidat*innen greifen: Die Schutzvorkehrungen von Unternehmen sollten auch bei Fragen zu Kandidat*innen greifen. Wir haben festgestellt, dass Copilot Fragen zu Kandidat*innen weniger wirksam blockiert und dass die andere Modelle entweder (i) Kandidat*innen nicht als solche erkennen oder (ii) aus begrenzten Informationen erfundene Geschichten oder sogar Skandale ableiten. Sicherheitsvorkehrungen in Bezug auf die Kandidat*innen sind besonders wichtig, da sie Auswirkungen auf den Ruf dieser Personen haben können.
- Die Unternehmen sollten die Verantwortung für die Einschränkungen ihrer Modelle übernehmen: Warnungen im Chatinterface – wie “Der Chatbot kann Fehler machen. Überprüfe wichtige Informationen” – sind für sensible Themen wie Wahlen nicht ausreichend. Unternehmen sollten ihrer Verantwortung gerecht werden, statt Nutzer*innen mit solchen leicht zu überlesenden Hinweisen abzuspeisen. Bei sensiblen Themen sollten LLMs nicht selbst antworten und Falschaussagen riskieren, sondern Nutzer*innen zu verlässlichen Informationen von menschlichen Autoren leiten, z. B. über die Suche. Auch braucht es klare Hinweise zum Stand der Trainingsdaten. Wenn die Daten zu veraltet sind, um auf aktuelle Fragen zu antworten, sollte keine Antwort gegeben werden. Die Unternehmen sollten verhindern, dass ihre Modelle aus begrenzten Informationen extrapolieren und Geschichten erfinden, z. B. über weniger bekannte Kandidat*innen oder Parteien.
Lesen Sie mehr zu unserer Policy & Advocacy Arbeit zu ADM und öffentlicher Meinungsbildung.