Pressemitteilung
KI zur Bundestagswahl: Untersuchung der Risiken großer Sprachmodelle hängt am Forschungszugang
Sprachmodelle sind weiterhin unzuverlässig und nicht geeignet für sensible Themen. Das ergibt eine erneute Untersuchung von AlgorithmWatch zu KI und Wahlen.

Berlin, 18. Dezember 2024 - Rechtzeitig vor der Bundestagswahl im Februar legt AlgorithmWatch den Abschlussbericht der Untersuchung vor, wie große Sprachmodelle (large language models – LLMs, auf denen zum Beispiel GPT-4 von OpenAI basiert) mit wahlbezogenen Nutzeranfragen umgehen. Im Zuge der Landtagswahlen in den drei ostdeutschen Bundesländern Sachsen, Thüringen und Brandenburg im Jahr 2024 hat die Nichtregierungsorganisation die vier bekanntesten Sprachmodelle systematisch untersucht. AlgorithmWatch sieht neben wenigen positiven Entwicklungen noch erhebliche Transparenz-Probleme bei den Anbietern und fordert neben der zügigen Umsetzung des Digital Services Act (DSA) noch weitere Forschungszugänge, um auch Dienste zu untersuchen, die nicht dem DSA unterliegen. Nur so kann eine umfassende Erforschung erfolgen, ob und welche systemischen Risiken von Sprachmodellen ausgehen. Der gesamte Abschlussbericht mit zahlreichen weiteren Informationen ist auf der Webseite von AlgorithmWatch hinterlegt:
• auf Deutsch: https://algorithmwatch.org/de sprachmodelle_landtagswahlen/
• auf Englisch: https://algorithmwatch.org/en/llms_state_elections/
Die gute Nachricht im nun vorliegenden Abschlussbericht ist aus Sicht von AlgorithmWatch, dass alle Modelle in der Lage waren, Gewaltaufrufe gegen Politikerinnen und Politiker zuverlässig zu erkennen und zumindest zu entkräften. Viele andere Beobachtungen weisen jedoch in eine weniger erfreuliche Richtung:
- fehlerhaft: Die Modelle liefern immer noch fehlerhafte Antworten, einschließlich erfundener Skandale und falscher Wahldaten. Dies sind keine Einzelfälle, sondern wiederkehrende Muster.
- unvollständig: Insbesondere weniger prominente Kandidatinnen und Kandidaten wurden von den Modellen nicht erkannt.
- unsicher: Die Schutzmaßnahmen, um zu verhindern, dass Sprachmodelle falsche Informationen zu Wahlen verbreiten, funktionieren nicht durchgängig.
Mit der Untersuchung hat AlgorithmWatch geprüft, ob sich Muster für mögliche Risiken durch Sprachmodelle für die demokratische Meinungsbildung erkennen lassen, insbesondere mit Blick auf die Bundestagswahl 2025. Für die Untersuchung wollte die Organisation erstmals den Digital Services Act in Anspruch nehmen und die erste Datenzugangs-Anfrage überhaupt stellen. Die Anfrage wurde jedoch von der zuständigen Behörde abgelehnt, da die Umsetzung des Gesetzes noch stockt. Deshalb war AlgorithmWatch gezwungen, bei den Anbietern der Modelle direkt Daten anzufragen. Nur Microsoft stellte einen Teil der angefragten Daten zur Verfügung. Der Versuch, mit OpenAI und Google zusammenzuarbeiten, blieb ohne Erfolg.
Basierend auf den Ergebnissen der Untersuchung leitet AlgorithmWatch daher konkrete Regulierungs-Vorschläge ab:
- Datenzugang für Forschung muss gewährt werden: Mit dem DSA (Digital Services Act) hat die EU ein grundsätzliches Recht für den Zugang zu Daten durch Forschende geschaffen. Dieses Recht muss nun zügig umsetzbar und durchsetzbar sein, und es braucht weitere Regeln für mehr Forschungszugang auch bei Big-Tech-Unternehmen, die nicht dem DSA unterliegen.
- Besserer Schutz der Kandidatinnen und Kandidaten: Die Unternehmen sollten dafür sorgen, dass Schutzmaßnahmen bei Anfragen, die auf konkrete Personen abzielen, tatsächlich funktionieren. Falsche oder lückenhafte Antworten können unmittelbare Auswirkungen auf den Ruf und die Erfolgschancen von Kandidatinnen und Kandidaten haben.
- Funktionierende Schutzmaßnahmen statt leicht zu überlesender Warnhinweise: Abstrakte Warnungen wie “Der Chatbot kann Fehler machen. Überprüfe wichtige Informationen” sind bei sensiblen Themen nicht ausreichend. Stattdessen sollten Sprachmodelle keine Ergebnisse ausgeben und Nutzer*innen zu verlässlichen Informationsquellen leiten, wie Suchmaschinen oder zuverlässige Medien.
AlgorithmWatch informiert die Anbieter der untersuchten Plattformen und Dienste regelmäßig über Untersuchungsergebnisse. Im Fall der Sprachmodell-Untersuchung hat es nur bei Microsofts Copilot eine erkennbare Veränderung gegeben, nachdem AlgorithmWatch auf Lücken bei den Schutzmaßnahmen hingewiesen hat: So hat Microsoft dafür gesorgt, dass der Anteil von unterbundenen Antworten auf Fragen zum Thema Wahlen auf 80 Prozent im September gestiegen ist (von etwa 35 Prozent im August).
Ergänzende Informationen:
• Untersucht wurden Gemini (Google), die ChatGPT zugrunde liegenden Modelle in den Versionen GPT 3.5 und GPT 4o (OpenAI) und Copilot (Microsoft).
• Es wurden 817 Prompts (Eingaben) zu 14 verschiedenen Themen entwickelt, vom Wahltermin bis zu den Positionen der Kandidatinnen und Kandidaten; dabei wurden die drei Bundesländer Sachsen, Thüringen und Brandenburg berücksichtigt sowie die großen Parteien und ihre Kandidat*innen.
• Zwischen dem 29. Juli und dem 30. September 2024 wurden insgesamt 598.717 Ausgaben gesammelt und ausgewertet.
• Weitere Informationen zum Untersuchungsdesign finden sich im Abschlussbericht ab Seite 23.