Datensätze ohne Verfallsdatum: Wie im Namen der Wissenschaft Grundrechte verletzt werden

Ein US-amerikanischer Informatiker hat mit Bildern von trans* Menschen ohne ihre Zustimmung einen Datensatz zum Trainieren von Gesichtserkennungssoftware erstellt. Jetzt haben sich die wahren Dimensionen seiner fahrlässigen Herangehensweise gezeigt.
Foto: EFF Photos auf flickr

Karl Ricanek ist Professor für Informatik an der University of North Carolina at Wilmington. 2013 veröffentlichte er einen neuen Bilderdatensatz zum Trainieren von Gesichtserkennungssoftware. Der aus gescrapten YouTube-Videos generierte Datensatz enthielt etwa 10.000 Bilder von 38 Menschen. Die Videos waren von trans* Menschen hochgeladen worden, die damit ihre Hormonersatztherapie (HET) und den Übergang zu einem anderen Geschlecht dokumentierten. In der Trans-Community sind solche Videos als Informationsmaterial beliebt. Zu diesem Zweck werden sie oft geteilt.

Karl Ricanek wollte mit dem Material die Genauigkeit von Gesichtserkennungsalgorithmen erhöhen. Die Algorithmen konnten damals noch keine Gesichter vor und nach einer HET einander zuordnen. Die Menschen, die die Videos erstellt hatten, wussten nichts von der Zweckentfremdung ihrer Aufnahmen. Karl Ricanek hatte nicht ihre Zustimmung dazu eingeholt. Ihm war ebenso wenig der Gedanke gekommen, dass solch ein Datensatz dazu missbraucht werden könnte, trans* Menschen zu schaden.

Als sich 2017 die Existenz dieses Datensatzes herumgesprochen hatte, nahm die öffentliche Kritik daran zu. The Verge untersuchte den Fall und sprach mit Karl Ricanek. Er sagte, dass er inzwischen eingesehen habe, dass die Daten missbraucht werden könnten. Das sei nicht seine Absicht gewesen. Er habe versucht, die Zustimmung der Menschen in den Videos einzuholen, aber habe nicht alle ausfindig machen können. Allerdings habe er die Daten niemals geteilt, sondern nur Links zu den Videos. Das würde er aber ohnehin bereits seit Jahren nicht mehr tun.

Schlimmer als gedacht

Os Keyes, Doktorand an der University of Washington, und die Informationswissenschaftlerin Jeanie Austin haben nun herausgefunden, dass die Erstellung des Datensatzes und dessen Verbreitung noch problematischer waren als gedacht.

In einem Peer-Review-Artikel, der in Big Data & Society veröffentlicht wurde, schreiben sie, dass der angeblich schon vor fünf Jahren eingemottete Datensatz als Dropbox-Link noch im April 2021 online verfügbar war. Um darauf zugreifen zu können, war nicht einmal ein Passwort nötig. Außerdem bestand der Datensatz mitnichten aus einer Liste mit YouTube-Links, wie Karl Ricanek behauptet hatte. Er enthielt die Videos selbst, auch solche, die mittlerweile nur noch privat zugänglich oder gelöscht worden waren.

Jeanie Austin und Os Keyes fragten bei der Ethikkommission der University of North Carolina nach, wie es dazu kommen konnte, dass dieses Projekt überhaupt jemals abgesegnet wurde. Der Grund war, dass Karl Ricanek nie eine Erlaubnis eingeholt hatte – obwohl an der Universität Forschungsprojekte zwingend zustimmungsbedürftig sind, die Daten enthalten, die eindeutig bestimmten Personen zugeordnet werden können.

Also beriefen sich Jeanie Austin und Os Keyes auf das Informationsfreiheitsgesetz und beantragten, dass sie Einblick in den E-Mail-Verkehr zwischen Karl Ricanek und seinem Team erhalten. Daraus ging hervor, dass er wahrscheinlich nicht versucht hatte, die Zustimmung aller trans* Menschen einzuholen, die die Urheber der Videos waren. Da keines der Videos unter einer Lizenz veröffentlicht worden war, die eine Wiederverwendung erlaubt, handelt es sich wahrscheinlich um eine Urheberrechtsverletzung.

Schließlich stellte sich heraus, dass viele Wissenschaftler*innen, die auf den Datensatz zugreifen konnten, ihren Zugang an Doktorand*innen und andere Forschende weitergaben, ohne sich über die weitere Verbreitung Gedanken zu machen. Unter 16 zugriffsberechtigten Wissenschaftler*innen fühlte sich nur eine Person mit dem Datensatz unwohl und arbeitete nicht damit.

Keine Ausnahme

Diese Untersuchung sollte zeigen, welch ein Chaos sich bei einem prüfenden Blick auf automatisierte Systeme offenbaren und was für ein heikles Terrain sich dahinter verbergen kann. Jeanie Austin und Os Keyes sind trans* Menschen. In ihnen kam während ihrer Recherche Ärger und Misstrauen auf. Sie meinen, dass Prüfungsverfahren immer auch die Gefühle der Prüfenden berücksichtigen sollten.

Ihr detaillierter Bericht über diesen Datensatz, der im Vergleich zu heutigen automatisierten Bilderkennungssystemen relativ klein ist, macht auf ein verbreitetes Problem aufmerksam. Andere von Wissenschaftler*innen zusammengetragene Datensätze weisen ähnliche Defizite auf. In der für Foschungsarbeit genutzten Datenbank von ImageNet befinden sich 14 Million Bilder, darunter Aufnahmen von nackten Kindern, Betrunkenen und Gewaltakten.  Die Wissenschaftler*innen, die die Sammlung zusammenstellen, fragen nicht nach der Zustimmung der abgebildeten Personen oder ihrer gesetzlichen Vertreter*innen.

In der EU wird gerade darüber diskutiert, wie sich automatisierte Systeme regulieren lassen. Der von der Europäischen Kommission vorgeschlagene AI Act, der noch nicht als Gesetz in Kraft getreten ist, stellt in Artikel 10-3 fest, dass das Training, Validieren und Testen von Datensätzen relevant, repräsentativ, fehlerfrei und vollständig sein muss. Für ein durchschnittliches Computersystem zur Bilderfassung werden Millionen oder sogar Milliarden von Bildern benötigt. In Anbetracht dieser Tatsache wird deutlich: Zur konsequenten Umsetzung des AI Act bedürfte es einer ausgereiften Infrastruktur zur Überwachung, dass seine Vorgaben beim Erstellen von Datensätzen eingehalten werden. Wir sind aber noch weit von solch einer Infrastruktur entfernt.

Hat Ihnen diese Story gefallen?

Alle zwei Wochen untersucht „die Automatisierte Gesellschaft“ die Auswirkungen automatisierter Systeme auf die Gesellschaft und die Welt um Sie herum. Melden Sie sich jetzt an und verpassen Sie keine Story mehr!

Nicolas Kayser-Bril

Reporter

Foto: Julia Bornkessel, CC BY 4.0

Nicolas arbeitet für AlgorithmWatch als Reporter. Nach einem Studium der Wirtschaftswissenschaften entwickelte er 2009 interaktive, datengesteuerte Anwendungen für Le Monde. Anschließend baute er das Datenjournalismus-Team bei OWNI auf, bevor er von 2011 bis 2017 Journalism++ mitbegründete und leitete. Nicolas hält regelmäßig Vorträge auf internationalen Konferenzen, unterrichtet an französischen Journalismusschulen und leitet Schulungen für Redaktionen. Er ist einer der Hauptverfasser des Datajournalism Handbook.