Kontroverse Dialekterkennung: Das BAMF und sein Pilotprojekt
Nach einer Kleinen Anfrage im Bundestag gibt es Neuigkeiten zur Dialekterkennungssoftware des Bundesamts für Migration und Flüchtlinge (BAMF). Selbst die Einrichtung, aus der das BAMF seine Trainingsdaten bezieht, sieht die Entwicklung kritisch.
Bereits seit einigen Jahren nutzt Deutschland als einziges Land weltweit automatisierte Sprach- und Dialekterkennung in Asylverfahren – angeblich um den Behörden dabei zu helfen, die Angaben von Asylsuchenden über ihre Herkunft zu verifizieren. Der Bürgerrechtsverband European Digital Rights sieht keinen Unterschied zwischen dieser KI-Anwendung und anderen, mit denen die sexuelle Orientierung oder politischen Überzeugungen von Menschen identifiziert werden sollen. Die Datenschutzorganisation fordert von daher ein generelles Verbot solcher Technologien. Die Software macht Fehler und obwohl es von offizieller Seite heißt, dass die Dialekterkennung nur „Hinweise“ liefere, ist bekannt, dass sie einen großen Einfluss auf Asylverfahren haben kann.
Die Bundestagsabgeordnete Clara Bünger von DIE LINKE hat eine Anfrage gestellt, wie Dialekterkennungssoftware im Bundesamt für Migration und Flüchtlinge eingesetzt wird. Die Bundesregierung hat nun darauf geantwortet. Seit Juli 2022 wird die Software verwendet, um Farsi, Dari-Persisch und Pashto zu erkennen. Außerdem werden damit Irakisch-Arabisch, Maghrebinisch, levantinisches Arabisch, Golf-Arabisch und ägyptisches Arabisch identifiziert. Die Erweiterung des Einsatzbereichs auf persische Sprachgruppen sorgt für Skepsis. Der Computerlinguist Mark Liberman leitet das Linguistic Data Consortium (LDC) an der University of Pennsylvania. Das BAMF bezieht den Großteil der Trainingsdaten seiner Software vom LCD. Liberman betont, dass er kein Experte für persische Sprachen ist, aber er glaubt nicht daran, dass gesprochenes Farsi, Dari-Persisch und Pashto maschinell erkannt werden können.
Warum automatisierte Dialekterkennung nicht funktioniert
Die Vorstellung, mittels automatisierter Spracherkennung die Herkunft einer Person bestimmen zu können, wird immer wieder als Glaube an eine Pseudowissenschaft verspottet. Das BAMF bezeichnet gemeinhin seine Tools als Dialekterkennungssoftware („dialect recognition software”, DIAS), manchmal spricht es aber auch von „Sprachbiometrie“. Wie kommt das? Liberman schrieb AlgorithmWatch: „Das BAMF wünscht sich eine Lösung, die schwer herbeizuführen ist. Es gibt keine klare Trennlinie zwischen Sprache und Dialekt.“
In Europa wurden standardisierte Nationalsprachen im Zuge der Bildung der jeweiligen Nationen eingeführt. Vor der Etablierung dieser offiziellen Sprachen war es nicht ausgemacht, dass sich ein Mensch 100 Kilometer von seinem Herkunftsort entfernt mit Angehörigen seiner Nationalität verständigen kann. Selbst heute kann es passieren, dass beispielsweise zwei Spanier*innen ratlos voreinander stehen, wenn sie versuchen, sich in ihren Mundarten zu unterhalten. Ein aus den Abruzzen stammender Mensch, der mit Apulisch aufgewachsen ist, spricht das Standarditalienisch außerdem anders aus als jemand, der mundartlich Nordapulisch spricht – obwohl beide aus derselben Region kommen.
Liberman führt weiter aus: „Meinem Verständnis nach ist die Standardisierung von Dari und Pashto nicht sehr weit fortgeschritten. Es dürfte daher keine Erfolgsaussichten haben, lokale Mundarten den verschiedenen persischen Sprachgruppen eindeutig zuordnen zu wollen.“
Deutschlands Pilotprojekt
Verschiedene EU-Länder sind dennoch erpicht darauf, Deutschlands „innovative technische Lösungen“ selbst einzusetzen. Das BAMF kündigte im Jahr 2020 bei einer Konferenz von EU-Einwanderungsbehörden an, dass es zusammen mit anderen europäischen Staaten an einem Pilotprojekt arbeite, um DIAS in die gängigen Sprachprüfungsverfahren für Asylsuchende zu integrieren. Das Innenministerium hat inzwischen bestätigt, dass Österreich, Finnland, Norwegen, Schweden, Litauen, Griechenland und die Schweiz an dem Projekt teilnehmen. BAMF-Vertreter*innen sind bereits nach Norwegen und in die Schweiz gereist, um zu erklären, wie DIAS funktionieren.
Clara Bünger sagte AlgorithmWatch und netzpolitik.org gegenüber: „Ich habe große Zweifel daran, ob die Dialekterkennungssoftware des BAMF ein geeignetes Mittel ist, um valide Hinweise auf die Identität und Herkunft von Asylsuchenden zu bekommen.” Die im BAMF herrschende Misstrauenskultur führe dazu, dass solche untauglichen technischen Assistenzsystemen eingeführt und Mobiltelefone ausgelesen werden. „Dabei wird unterstellt, dass Asylsuchende massenhaft falsche Angaben zu ihrer Identität und Herkunft machen würden, wofür es jedoch keinerlei Beweise gibt. Besser als der Einsatz fehleranfälliger und teurer technischer Lösungen wäre eine angemessene Schulung der Mitarbeiter*innen im BAMF, um faire Asylverfahren zu ermöglichen.“
Hat dir diese Story gefallen?
Alle zwei Wochen untersucht „Die automatisierte Gesellschaft“ die Auswirkungen automatisierter Systeme auf die Gesellschaft und die Welt um dich herum. Melde dich jetzt an und verpasse keine Story mehr!