Das Predictive Privacy Projekt

Datenschutz im Kontext von Big Data und KI

Was ist Prädiktive Privatheit?

Big Data und künstliche Intelligenz stellen eine neue Herausforderung für das traditionelle Verständnis von Privatsphäre dar. Diese Techniken können dazu verwendet werden, Vorhersagen zu treffen – etwa über menschliches Verhalten, den Verlauf einer Krankheit, Sicherheitsrisiken oder Kaufverhalten. Die Grundlage für solche Vorhersagen ist ein Vergleich von Verhaltensdaten (z. B. Nutzungs-, Tracking- oder Aktivitätsdaten) des betreffenden Individuums mit den Daten vieler anderer Individuen. Wenn Technologien des maschinellen Lernens und der Datenanalyse dazu eingesetzt werden, künftiges Verhalten oder unbekannte Informationen über Einzelpersonen durch pattern matching in großen Datensätzen vorherzusagen, bezeichne ich dies als “prädiktive Analytik”.

Mit prädiktiver Analytik sind häufig nützliche Anwendungen verbunden, die zum Beispiel unsere Gesundheitsversorgung verbessern können. Das Missbrauchspotenzial ist aber ebenso groß: Mit prädiktiver Analytik lassen sich auch sensible Merkmale wie Geschlecht, sexuelle Orientierung, Krankheitsdispositionen, psychische Gesundheit oder politische Einstellungen ableiten, ohne dass die Betroffenen davon etwas erfahren. Solche Schätzungen werden zum Beispiel verwendet, um Versicherungsprämien, Kreditwürdigkeit, Werbung und Produktpreise für jede einzelne Nutzer:in individuell festzulegen.

Prädiktive Privatheit im Video erklärt

Vortrag "Prädiktive Privatheit: Warum wir den Datenschutz verbessern müssen, um soziale Ungleichheit und Diskriminierung zu bekämpfen". Weizenbaum-Forum am 8. Februar 2022.

Das Konzept

Unter dem Begriff “prädiktive Privatheit” forsche ich zu einem neuen ethischen und datenschützerischen Ansatz, der auf die Missbrauchsgefahren prädiktiver Analytik gemünzt ist. Prädiktive Privatheit begegnet also den gesellschaftlichen Risiken eines systematischen Missbrauchs von abgeleiteten Informationen durch große Datenunternehmen. Die prädiktive Privatsphäre einer Person umfasst auch Informationen, die durch einen (algorithmischen) Abgleich mit Informationen von vielen anderen Personen über sie geschätzt werden können. Die prädiktive Privatsphäre wird also verletzt, wenn ohne das Wissen und gegen den Willen der Person sensible Informationen über sie vorausgesagt werden. Die prädiktive Privatsphäre wird potenziell durch Datenanalyse und maschinelles Lernen in den Bereichen Risikobewertung, Kreditwürdigkeitsprüfung, automatische Jobauswahl, differential pricing, algorithmische Triage usw. verletzt.

Wissenschaftlicher Artikel

  1. Mühlhoff, Rainer. 2022. „Prädiktive Privatheit: Kollektiver Datenschutz im Kontext von Big Data und KI“. In Künstliche Intelligenz, Demokratie und Privatheit, herausgegeben von Michael Friedewald, Alexander Roßnagel, Jessica Heesen, Nicole Krämer, und Jörn Lamla, 31–58. Nomos. doi:10.5771/9783748913344-31.

Kollektiver Datenschutz: Datenschutz ist keine private Entscheidung

Prädiktive Privatheit erweitert nicht nur den traditionellen und intuitiv bekannten Begriff der (informationellen) Privatsphäre, sondern impliziert auch einen kollektivistischen ethischen Ansatz im Datenschutz. Der Begriff “Datenschutz” bezieht sich hierbei auf Rechtsnormen und Vorschriften, die darauf abzielen, die Grundrechte von Einzelpersonen und Gruppen vor möglichen Verletzungen im Zusammenhang mit Datenverarbeitungstätigkeit zu schützen. Die Idee des Datenschutzes ist es, das durch die Nutzung digitaler Technik entstandene Machtungleichgewicht zwischen datenverarbeitenden Organisationen und Bürgern zu mildern.

Der Datenschutz, wie er durch die EU DSGVO implementiert wird, steht angesichts der Verletzungen prädiktiver Privatheit, die durch moderne prädiktive Analyse-Technologien möglich wird, vor einem grundlegenden Problem. Die Daten, auf denen Vorhersagemodelle trainiert werden, werden nämlich unter aktuellen rechtlichen Bedingungen in der Regel legal erhoben: entweder mit der Einwilligung der Nutzer:innen oder als anonyme Daten. Anonymisierte Daten eignen sich immer noch für das Training von Algorithmen des maschinellen Lernens, fallen aber nicht mehr in den Schutzbereich der DSGVO.

Wissenschaftlicher Artikel

  1. Mühlhoff, Rainer. 2021. „Predictive Privacy: Towards an Applied Ethics of Data Analytics“. Ethics and Information Technology. doi:10.1007/s10676-021-09606-x.

Die Technologie der prädiktive Analytik operiert somit genau im blinden Fleck der individualistischen westlichen Vorstellung von Privatsphäre: Sie wird ermöglicht durch die Massen von Daten (Big Data), die von einzelnen Nutzer:innen freiwillig preisgegeben werden, weil diese für sich selbst meinen, “nichts zu verbergen zu haben”. Während die individuelle Entscheidung, z.B. bei der Nutzung eines digitalen Dienstes Informationen preiszugeben, für die Nutzer:in im Hinblick auf den Verlust ihrer eigenen Privatsphäre oft marginal oder irrelevant erscheint, offenbaren die durch Millionen solcher Entscheidungen gesammelten Daten im großen Maßstab prädiktives Wissen über uns alle. Zugriff auf dieses Wissen haben große Unternehmen, die es aktuell weitestgehend unreguliert verwenden, unter anderem, um Menschen unterschiedlich zu behandeln, also zu diskriminieren.

Individualistische Auslegungen des Datenschutzes stehen einem wirksamen Schutz prädiktiver Privatheit somit im Wege. Statt dessen brauchen wir ein kollektivistisches Verständnis von Datenschutzes. Es muss auf der Einsicht beruhen, dass sensible Informationen über ein Datensubjekt auf der Grundlage der Daten von vielen anderen Personen abgeleitet werden könne. Das heißt, dass die Daten, die jede:r von uns preisgibt, potenziell dazu beitragen, andere Menschen zu diskriminieren. Und die Daten, die andere über sich selbst preisgeben, können verwendet werden, um Vorhersagen über jede:n von uns zu stellen.

Beispiel: Persönliche Attribute anhand von Facebook-Likes abschätzen

Für ein Datenunternehmen wie Facebook ist es möglich, Vorhersagemodelle zu erstellen, die anhand der “Likes” auf die sexuelle Orientierung oder den Beziehungsstatus von Facebook-Nutzer:innen schließen. Forscher:innen haben gezeigt, dass bereits wenige Likes einer Nutzer:in dafür ausreichen (Kosinski et al. 2013). Um ein solches Modell zu trainieren, kann Facebook wie folgt vorgehen: Eine kleine Anzahl von Nutzer:innen, zum Beispiel nur 5 %, geben in ihrem Facebook-Profil ausdrücklich ihre sexuelle Orientierung oder ihren Beziehungsstatus an. Bei insgesamt 2,8 Milliarden Nutzern weltweit sind selbst diese 5 % eine sehr große Kohorte, von der Facebook dann sowohl die Facebook-Likes (Proxy-Variable) als auch die Informationen zur sexuellen Orientierung oder zum Beziehungsstatus (Zielvariable) vorliegen.

Aus diesen Daten lässt sich dann mittels “überwachtem Lernen” ein Vorhersagemodell trainiert, das lernt, die Zielvariable auf der Grundlage der Proxy-Variable vorherzusagen. Ist so ein Modell einmal trainiert, kann es dazu verwendet werden, für alle anderen Facebook-User, die keine expliziten Angaben über ihre sexuelle Identität oder ihren Beziehungsstatus gemacht haben, diese Informationen anhand ihrer Facebook-Likes abzuschätzen. Facebook kann daher fast alle seine Nutzer:innen nach diesen sensiblen Parametern klassifizieren – auch solche Nutzer:innen, die gar nicht wissen, dass sie nach diesen Attributen klassifiziert werden, weil sie diese Informationen in ihren Profilen bewusst nicht angegeben haben.

Andere sensible Informationen über Datensubjekte, die sich aus Facebook-Likes ermitteln lassen, umfassen den ethnischen Hintergrund, religiöse und politische Ansichten, psychologische Persönlichkeitsmerkmale, Intelligenz, „happiness“, Suchtverhalten, Kindheit mit geschiedenen Eltern, Alter und Geschlecht (Kosinski et al. 2013). Weitere Studien zeigen, dass sich zahlreiche Krankheitsdispositionen aus Facebook-Daten ableiten lassen, darunter Suizidalität, Depression, Angststörungen, Psychosen, Diabetes und Bluthochdruck (Mechant et al. 2019).

Vortrag: Prädiktive Privatheit

Wissenschaftliche Artikel über Zweckbindung für Modelle

  1. Mühlhoff, Rainer, und Hannah Ruschemeier. 2024. „Updating Purpose Limitation for AI: A Normative Approach from Law and Philosophy“. SSRN Preprint, Januar. https://papers.ssrn.com/abstract=4711621.
  1. Mühlhoff, Rainer, und Hannah Ruschemeier. 2024. „Regulating AI via Purpose Limitation for Models“. AI Law and Regulation. https://dx.doi.org/10.21552/aire/2024/1/5.
  1. Mühlhoff, Rainer. 2024. „Das Risiko der Sekundärnutzung trainierter Modelle als zentrales Problem von Datenschutz und KI-Regulierung im Medizinbereich“. In KI und Robotik in der Medizin – interdisziplinäre Fragen, herausgegeben von Hannah Ruschemeier und Björn Steinrötter. Nomos. doi:10.5771/9783748939726-27.

Wissenschaftliche Artikel über Prädiktive Privatheit

  1. Mühlhoff, Rainer. 2023. „Predictive Privacy: Collective Data Protection in the Context of AI and Big Data“. Big Data & Society, 1–14. doi:10.1177/20539517231166886.
  1. Mühlhoff, Rainer. 2021. „Predictive Privacy: Towards an Applied Ethics of Data Analytics“. Ethics and Information Technology. doi:10.1007/s10676-021-09606-x.
  1. Mühlhoff, Rainer, und Hannah Ruschemeier. 2022. „Predictive Analytics und DSGVO: Ethische und rechtliche Implikationen“. In Telemedicus – Recht der Informationsgesellschaft, Tagungsband zur Sommerkonferenz 2022, herausgegeben von Hans-Christian Gräfe und Telemedicus e.V., 38–67. Deutscher Fachverlag.
  1. Mühlhoff, Rainer, und Theresa Willem. 2023. „Social Media Advertising for Clinical Studies: Ethical and Data Protection Implications of Online Targeting“. Big Data & Society, 1–15. doi:10.1177/20539517231156127.
  1. Mühlhoff, Rainer. 2022. „Prädiktive Privatheit: Kollektiver Datenschutz im Kontext von Big Data und KI“. In Künstliche Intelligenz, Demokratie und Privatheit, herausgegeben von Michael Friedewald, Alexander Roßnagel, Jessica Heesen, Nicole Krämer, und Jörn Lamla, 31–58. Nomos. doi:10.5771/9783748913344-31.
  1. Mühlhoff, Rainer. 2020. „Prädiktive Privatheit: Warum wir alle »etwas zu verbergen haben«“. In #VerantwortungKI – Künstliche Intelligenz und gesellschaftliche Folgen, herausgegeben von Christoph Markschies und Isabella Hermann. Bd. 3/2020. Berlin-Brandenburgische Akademie der Wissenschaften.

Essays zum Thema

  1. Mühlhoff, Rainer. 2020. „We Need to Think Data Protection Beyond Privacy: Turbo-Digitalization after COVID-19 and the Biopolitical Shift of Digital Capitalism“. Medium, März. doi:10.2139/ssrn.3596506.
  1. Mühlhoff, Rainer. 2020. „Digitale Grundrechte nach Corona: Warum wir gerade jetzt eine Debatte über Datenschutz brauchen“. Netzpolitik.org 31.03.2020.
  1. Mühlhoff, Rainer. 2020. „Die Illusion der Anonymität: Big Data im Gesundheitssystem“. Blätter für Deutsche und Internationale Politik 8: 13–16.