Schlussbericht: Untersuchung zu Microsoft Bing Chat

KI-Chatbot liefert falsche Antworten auf Fragen zu demokratischen Wahlen

Bing Chat, der in Microsofts Suchmaschine Bing integrierte KI-Chatbot, erfindet Skandale, denkt sich Umfragewerte aus und gibt den Wahltermin falsch an. Microsoft scheint nicht in der Lage oder nicht willens zu sein, das Problem zu beheben. Das zeigt eine Studie von AlgorithmWatch und AI Forensics, deren Schlussbericht nun vorliegt. Darin haben wir das Antwortverhalten des Chatbots zu Wahlen in Bayern, Hessen und der Schweiz im Oktober 2023 untersucht.

Bing Chat, kürzlich in Microsoft Copilot umbenannt, ist ein generatives KI-Tool, das Microsoft im Februar 2023 als Teil seiner Suchmaschine Bing veröffentlicht hat. Der Chatbot generiert Antworten auf der Grundlage aktueller Nachrichten, indem es das Sprachmodell GPT-4, auf dem auch ChatGPT basiert, mit den Fähigkeiten der Suchmaschine kombiniert.

Gemeinsam mit AI Forensics haben wir getestet, ob der Chatbot korrekte und informative Antworten auf Fragen zu den bayerischen, hessischen und Schweizer Wahlen im Oktober 2023 geben würde. Wir haben den Chatbot mit Fragen zu Kandidat*innen, Wahl- und Abstimmungsinformationen sowie offeneren Empfehlungsanfragen zu bestimmten Themen, wie etwa der Umwelt, konfrontiert. Vom 21. August 2023 bis zum 2. Oktober 2023 haben wir die Antworten des Chatbots gesammelt.

  • Ein Drittel der Antworten von Bing Chat auf wahlbezogene Fragen enthielt sachliche Fehler. Zu den Fehlern gehören falsche Wahldaten, veraltete Kandidat*innen oder sogar erfundene Skandale über Kandidat*innen.
  • Die Sicherheitsvorkehrungen des Chatbots werden ungleichmäßig angewendet, was in 40 % der Fälle zu ausweichenden Antworten führt. Der Chatbot wich häufig der Beantwortung von Fragen aus. Das muss nichts Schlechtes sein: Chatbots sollten beispielsweise keine politischen Bewertungen vornehmen und Nutzer*innen über ihre eigenen technischen Einschränkungen informieren. Dieser Schutz wird jedoch nicht konsequent angewendet. Oft konnte der Chatbot einfache Fragen zu den Kandidat*innen der jeweiligen Wahlen nicht beantworten.
  • Diese Fehler sind nicht zufällig, sondern strukturell. Die Fehleranfälligkeit des Chatbots ist gleichbleibend. Die Antworten verbesserten sich nicht im Laufe der Zeit, selbst wenn zu einem späteren Zeitpunkt mehr Informationen online zur Verfügung standen. Die Wahrscheinlichkeit, dass eine sachlich falsche Antwort generiert wird, blieb konstant.
  • Sachliche Fehler stellen ein Risiko für den Ruf der Kandidat*innen und der zitierten Medien dar. Während der Chatbot sachlich falsche Antworten generierte, schrieb er sie oft einer Quelle zu, die korrekt über das Thema berichtet hatte. Darüber hinaus erfand Bing Chat Geschichten über skandalöses Verhalten von Kandidat*innen - und schrieb der ausgedachten Geschichte manchmal sogar eine reale Quelle zu.
  • Microsoft ist nicht in der Lage oder nicht willens, das Problem zu beheben. Nachdem wir Microsoft über einige der von uns entdeckten Probleme informiert hatten, kündigte das Unternehmen Gegenmaßnahmen an. Einen Monat später nahmen wir eine weitere Stichprobe, die zeigte, dass sich an der Qualität der den Nutzer*innen zur Verfügung gestellten Informationen wenig geändert hatte.
  • Generative KI muss reguliert werden. Die EU und die nationalen Regierungen sollten dafür sorgen, dass Technologieunternehmen zur Verantwortung gezogen werden, insbesondere wenn KI-Tools in Produkte integriert werden, die bereits weit verbreitet sind.