Die ethischen Abgründe der Big-Data-Forschung

RP-P-OB-86.777 — Als Lernen noch eine rein menschliche Angelegenheit war.

„Ein Datensatz, den man aus dem Netz herunterladen kann, ist gemeinfrei (“in the public domain„), auch wenn er ursprünglich illegal beschafft wurde, so dass seine Nutzung keiner Genehmigung durch eine Ethikkommission bedarf.“ Das ist die (natürlich übersetzte) originale Antwort eines Forschers auf die Frage von Kalev Leetaru danach, wie Forscher die ethischen Implikationen von Untersuchungen an großen Datensätzen einschätzen. Der sehr lange, hervorragend recherchierte Beitrag von Leetaru, Senior Fellow am George Washington University Center for Cyber & Homeland Security, liefert ein Panoptikum an Aussagen - und vor allem Aussageverweigerungen - der größten Universitäten, Forschungseinrichtungen und Unternehmen der USA zum Thema. Leetarus Fazit: „Es existiert kein eindeutiger Prozess, der es ermöglicht, die ethischen Rechtfertigungen für ein bestimmtes Forschungsprojekt zu prüfen, selbst wenn es von der National Science Foundation aus Steuern finanziert wurde.“ Ganz abgesehen davon, dass viele davon eindeutig nicht gerechtfertigt werden können und daher nach ihrer Veröffentlichung auch wieder zurück gezogen wurden, weil es einen Sturm der Entrüstung durch andere Forscher gegeben hatte.

Aus der Sicht von Algorithm Watch besonders interessant sind Leetarus Recherchen zum Machine Learning:

Even research which is conducted within the university setting is increasingly pushing up against new ethical frontiers in the creation of machine learning algorithms based on vast pools of human-created training data. For example, several researchers I spoke with mentioned situations where colleagues had taken large datasets licensed to the university for strictly non-commercial use or collected from human subjects for strictly academic research and used them to construct large machine learning computer models. These models were then licensed from the university to the faculty member’s private startup, where they were then used for commercial gain. In at least some cases, protected human subjects data was used to create a computer model for academic research, which was approved by IRB, but that model was then allegedly subsequently licensed by the university for commercial use to the faculty member’s startup. None of the researchers were privy to whether IRB had approved the commercial licensing or if that occurred without IRB knowledge and they argued that the very nature of a machine learning model deidentifies such data to the point that it should no longer be considered human subjects data. Even in cases where existing “public” licensed datasets were used for IRB exempt projects, this creates a highly novel ethical and legal landscape as universities leverage their unique academic status to acquire large datasets under free or vastly reduced licensing schemes and then transform that data into commercial products. At what point is human subjects data sufficiently transformed to the point that it no longer is subject to IRB approval? Should IRBs review all commercial licensing of algorithms, datasets and software from universities for ethical oversight?