Große Sprachmodelle als staatliche Statussymbole

Je eifriger Regierungen sich für KI einsetzen, desto mehr werden Entwicklung und Kontrolle großer Sprachmodelle (Large Language Models, LLM) zu Staatsangelegenheiten. Zahlreiche europäische Länder investieren massiv in sogenannte „Sprachressourcen“, und darüber liegt stets ein großer geopolitischer Schatten.

Story

23. Januar 2026

#llm #publicsector

Prunksaal der Österreichischen Nationalbibliothek
Photo by Iveri MODEBADZE on Unsplash
Dr. Nicolas Kayser-Bril
Head of Journalism

Nationalstaatlichkeit. „Jedes Volk ist Volk: es hat seine National-Bildung wie seine Sprache“, schrieb der Philosoph Johann Gottfried von Herder gegen Ende des 18. Jahrhunderts. Heute wirkt das überholt, und die Gleichung „Ein Volk = Eine Sprache“ geht auch nicht auf (zugegeben, damals war Belgien noch nicht erfunden). Doch das Ringen um Nationalstaatlichkeit fiel ursprünglich mit dem Bemühen um eine Nationalsprache zusammen. Schließlich brauchte der Staatsapparat ein einheitliches Kommunikationsmittel, um “seinem“ Volk die politischen Entscheidungen verkünden zu können. Manchmal kam die eigene Sprache auch erst nach dem eigenen Staat, wie beim Montenegrinischen, das erst nach der Unabhängigkeit des Landes zur Amtssprache wurde.

Nationalsprachliche Wörterbücher und Nachschlagewerke, die in Frankreich oder Deutschland heute selbstverständlich sind, wurden in großen Teilen Mitteleuropas erst vor Kurzem zusammengestellt. Das etymologische Wörterbuch von Estland beispielsweise wurde erst 2013 fertig, das slowakische folgte 2016.

Große Sprachmodelle. Im KI-Entwickler-Kauderwelsch werden solche Werke „Sprachressourcen“ genannt, und sie sind unverzichtbar für das Training der großen Sprachmodelle (Large Language Models), die unter der Oberfläche der meisten KI-Anwendungen zum Einsatz kommen. Hinzu kommen weitere umfangreiche Textkorpora, von Büchern bis zu Webseiten.

Die folgende Tabelle macht deutlich, dass die englischen Ressourcen um ein Vielfaches umfangreicher sind als die für alle anderen Sprachen. Kein Wunder, dass große Modelle bei der Arbeit in „ressourcenarmen“ Sprachen tendenziell schlechter funktionieren.

Externer Inhalt von datawrapper.com

Wir möchten Ihnen Inhalte anzeigen, die nicht auf unseren Servern gehostet werden.

Erst wenn Sie Ihre Zustimmung geben, werden die Inhalte von externen Servern geladen. Bitte beachten Sie, dass der Drittanbieter dann möglicherweise Daten verarbeitet, die Ihr Browser übermittelt. Zusätzlich könnten Informationen auf Ihrem Gerät gespeichert werden, beispielsweise in Cookies. Weitere Details dazu erhalten Sie direkt vom Drittanbieter..

Aufrüstung. Viele Regierungen hätten jetzt gern ein hochleistungsfähiges Sprachmodell für ihre Nationalsprache(n). Erst letzte Woche hat die Leitung des serbischen E-Governments ein neues nationales Sprachmodell angekündigt, das angeblich die eigene staatliche „Souveränität“ stärken soll. In Sprachressourcen wird nicht erst seit dem KI-Boom investiert, aber die Ambitionen sind seither beträchtlich größer geworden. Den slowakischen Nationalkorpus, ein Langzeitprojekt zur Digitalisierung von Texten in slowakischer Sprache, gibt es beispielsweise seit 2002. Jedes Jahr lässt ihn die Regierung sich 30.000 Euro kosten. Andere kleine EU-Staaten greifen noch tiefer in die Tasche. Estland investiert derzeit fast eine Million Euro jährlich in Sprachressourcen, Litauen fast zehn Millionen.

Das Land, das im Verhältnis zu seinem Staatshaushalt am meisten in Sprachressourcen investiert, ist allerdings eine frühere Imperialmacht: Spanien. Die dortige Regierung hat 2022 über einen Zeitraum von fünf Jahren eine Milliarde Euro für ihre „Strategie zur Förderung spanischer Sprachen“ auf den Tisch gelegt, nachdem bereits 2015 ein 90-Millionen-Projekt aufgesetzt worden war. Dabei geht es nicht nur um Linguistik, sondern auch um Geopolitik und Wirtschaft. Einerseits will die spanische Regierung KI-Dienste in Lateinamerika dominieren; andererseits dient der Fokus auf Baskisch, Galicisch, Valencianisch und Katalanisch möglicherweise auch dazu, den autonomiebestrebten Regionalregierungen ein bisschen die Butter vom Brot zu nehmen.

Unerwünschte Aufmerksamkeit. Wenn Regierungen sich in Linguistik einmischen, haben sie dabei meist ihre eigenen Interessen im Blick – etwa die Bevölkerungskontrolle. Schon Mitte der 30er Jahre hat Moskau beispielsweise verfügt, dass in der gesamten Sowjetunion nur kyrillische Schrift verwendet werden durfte. Schriftzeichen, die nicht russisch aussahen, galten als verdächtig. Manche linguistischen Minderheiten fühlen sich heute in ganz ähnlicher Weise bedroht, aber nicht von Schriftzeichen, sondern von Sprachtechnologien. So hat beispielsweise die Entwicklung eines großen Sprachmodells auf Romani Befürchtungen geweckt, es könnte zum Abhören der Roma genutzt werden – und zu noch mehr Repressionen gegen sie. (Allerdings war die Entwicklung des Modells kein Regierungsprojekt.)

Womöglich werden große Sprachmodelle gar noch zur Belastungsprobe für die nationale Sicherheit. KI-generierte Desinformationskampagnen sind mittlerweile eine ebenso verbreitete Praxis der taktischen Kriegsführung wie die automatische Analyse abgehörter oder mitgelesener Kommunikation. Die Grönland-Enthusiasten, die jahrelang die grönländische Wikipedia mit Kauderwelsch vollgemüllt haben (weil sie keine Muttersprachler*innen waren und schlechte automatisierte Übersetzungswerkzeuge benutzten), haben vielleicht unwillkürlich einen bedeutenden Beitrag zur Sicherheit der Insel geleistet. Schließlich haben sie die wenigen in Grönländisch verfügbaren „Ressourcen“ systematisch sabotiert und Feinden des Landes die Entwicklung eines LLM für Grönländisch erschwert.

Für ihre Hilfe bei diesem Artikel danke ich Ľubor Králik und Alexander Maxwell, sowie meinen Kolleginnen Eva Lejla Podgoršek und Naiara Bellio.


Dies ist ein Auszug aus dem Newsletter „Die automatisierte Gesellschaft“, einer zweiwöchentlichen Zusammenfassung von Neuigkeiten zur automatisierten Systemen in Europa. Hier abonnieren.