Pressemitteilung

KI zur Bundestagswahl: Untersuchung der Risiken großer Sprachmodelle hängt am Forschungszugang

Sprachmodelle sind weiterhin unzuverlässig und nicht geeignet für sensible Themen. Das ergibt eine erneute Untersuchung von AlgorithmWatch zu KI und Wahlen.

Berlin, 18. Dezember 2024 - Rechtzeitig vor der Bundestagswahl im Februar legt AlgorithmWatch den Abschlussbericht der Untersuchung vor, wie große Sprachmodelle (large language models – LLMs, auf denen zum Beispiel GPT-4 von OpenAI basiert) mit wahlbezogenen Nutzeranfragen umgehen. Im Zuge der Landtagswahlen in den drei ostdeutschen Bundesländern Sachsen, Thüringen und Brandenburg im Jahr 2024 hat die Nichtregierungsorganisation die vier bekanntesten Sprachmodelle systematisch untersucht. AlgorithmWatch sieht neben wenigen positiven Entwicklungen noch erhebliche Transparenz-Probleme bei den Anbietern und fordert neben der zügigen Umsetzung des Digital Services Act (DSA) noch weitere Forschungszugänge, um auch Dienste zu untersuchen, die nicht dem DSA unterliegen. Nur so kann eine umfassende Erforschung erfolgen, ob und welche systemischen Risiken von Sprachmodellen ausgehen. Der gesamte Abschlussbericht mit zahlreichen weiteren Informationen ist auf der Webseite von AlgorithmWatch hinterlegt:
• auf Deutsch: https://algorithmwatch.org/de sprachmodelle_landtagswahlen/
• auf Englisch: https://algorithmwatch.org/en/llms_state_elections/

Die gute Nachricht im nun vorliegenden Abschlussbericht ist aus Sicht von AlgorithmWatch, dass alle Modelle in der Lage waren, Gewaltaufrufe gegen Politikerinnen und Politiker zuverlässig zu erkennen und zumindest zu entkräften. Viele andere Beobachtungen weisen jedoch in eine weniger erfreuliche Richtung:

Mit der Untersuchung hat AlgorithmWatch geprüft, ob sich Muster für mögliche Risiken durch Sprachmodelle für die demokratische Meinungsbildung erkennen lassen, insbesondere mit Blick auf die Bundestagswahl 2025. Für die Untersuchung wollte die Organisation erstmals den Digital Services Act in Anspruch nehmen und die erste Datenzugangs-Anfrage überhaupt stellen. Die Anfrage wurde jedoch von der zuständigen Behörde abgelehnt, da die Umsetzung des Gesetzes noch stockt. Deshalb war AlgorithmWatch gezwungen, bei den Anbietern der Modelle direkt Daten anzufragen. Nur Microsoft stellte einen Teil der angefragten Daten zur Verfügung. Der Versuch, mit OpenAI und Google zusammenzuarbeiten, blieb ohne Erfolg.

Basierend auf den Ergebnissen der Untersuchung leitet AlgorithmWatch daher konkrete Regulierungs-Vorschläge ab:

AlgorithmWatch informiert die Anbieter der untersuchten Plattformen und Dienste regelmäßig über Untersuchungsergebnisse. Im Fall der Sprachmodell-Untersuchung hat es nur bei Microsofts Copilot eine erkennbare Veränderung gegeben, nachdem AlgorithmWatch auf Lücken bei den Schutzmaßnahmen hingewiesen hat: So hat Microsoft dafür gesorgt, dass der Anteil von unterbundenen Antworten auf Fragen zum Thema Wahlen auf 80 Prozent im September gestiegen ist (von etwa 35 Prozent im August).

Ergänzende Informationen:
Untersucht wurden Gemini (Google), die ChatGPT zugrunde liegenden Modelle in den Versionen GPT 3.5 und GPT 4o (OpenAI) und Copilot (Microsoft).
• Es wurden 817 Prompts (Eingaben) zu 14 verschiedenen Themen entwickelt, vom Wahltermin bis zu den Positionen der Kandidatinnen und Kandidaten; dabei wurden die drei Bundesländer Sachsen, Thüringen und Brandenburg berücksichtigt sowie die großen Parteien und ihre Kandidat*innen.
• Zwischen dem 29. Juli und dem 30. September 2024 wurden insgesamt 598.717 Ausgaben gesammelt und ausgewertet.
• Weitere Informationen zum Untersuchungsdesign finden sich im Abschlussbericht ab Seite 23.