post privacy – entfesselte Daten?

Nun habe ich die deutsche Post-privacy Fibel ganz gelesen. Alles um das Umfeld (die Spackeria) ist im Blog von Stefan Münz informativ beschrieben. Plakativ verkürzt geht es darum: Privatspäre ist nicht mehr, ist auch nicht mehr zu halten, und anstelle von vergeblichen Datenschutzbemühungen sollten wir lieber die Transparenz hochleben lassen, das führt die Gesellschaft zu neuen, nicht privaten Ufern.

Die gut geschriebene Fibel präsentiert sich in 7 Kapiteln: 1. Das Ender der Privatspäre, 2. Eine kleine Geschichte des Privaten, 3. Die Entfesselung der Daten, 5. Informationsmacht, 6. Post-privacy Taktiken, 7. Abwägungen.

In meinem letzten Block zur Nacktheit im Netz habe ich die Wirksamkeit der Daten als Indikatoren für Persönlichkeit, für Privatsphäre etwas infrage gestellt. Auch Algorithmen brauchen Theorien und Regeln nach denen sie die Daten-Wühlarbeit und Korrelationen vollziehen. Nackt ist zunächt einmal das Datum. Ein Buchkauf, ein Aufenthaltsort, eine Suchanfrage – das sind Daten, die erst durch kategoriale Zuordnung zu Informationen werden. Bei diesen Zuordnungen können gravierende Fehler unterlaufen, besonders wenn sie automatisch erfolgen müssen. Und der Glaube, dass die Menge von Daten die Fehlerhaftigkeit wett mache, ist mathematisch nicht haltbar. Es gibt kein Gesetz das sagen würde, immer mehr Daten machen eine Sache genauer, sie können im worst case das Rauschen erhöhen, so dass sich nichts Signifikantes mehr herausfiltern läßt. Z.B., wer die FR abboniert hat, ist bereits mit diesem einzigen Indikator mit ziemlicher Sicherheit dem linksliberalen Spektrum zuzuordnen. Wer ein „linkes“ Buch kauft (da muss vorher jemand diese Zuordnung getroffen haben), wer auf einer „linken“ Demo per Bilderkennung gesichtet wurde, wer in Google nach linken Autoren, oder gesellschaftskritischen Begriffen recherchiert, der könnte auch links sein, aber jedes Datum (der Buchkauf, der Demoanlass, die Recherche) ist selbst aussagelos und wird zum Indikator erst, wenn a) die entsprechende „linke“ Zuordnung geleistet wurde, und b) wenn aus dem Akt auf die Neigung des Akteurs geschlossen werden kann (Z.B. ein „Rechter“ kann seinem „linken“ Arbeitskollegen über Amazon ein Buch kaufen). Bei Riesenmenegen können diese Zuordnungen nicht von einem Facebookteam geleistet werden. Die Zuordnungen müssen wieder „automatisch“ durch Programmierung über Ähnlichkeitscluster und Korrelationen in den Datenmengen hergestellt werden. Das Datum „Buchkauf“ wird nicht semantisch erkannt, sondern es ist nur als Cluster identifizierbar, dass durch Auftrittshäufigkeiten in Verbindung mit anderen Häufigkeiten als Merkmal destillierbar ist. Das muss alles sehr aufwändig von Programmierern konstruiert werden, die keineswegs theorielos auf Patternsuche mit ihren Programmen gehen. Was die Algorithmen sehr warscheinlioch schon ganz gut können, und was durchaus mit noch mehr Entäußerungsmöglichkeiten an Differenziertheit zunehmen kann ist, dass sie uns in Merkmalsklassen werfen. Es ist also nicht ein Persönlichkeitsprofil, was mir in der Filter Bubble gespiegelt wird, oder was an Marketingexperten verkauft wird, es ist ein Milieuprofil bzw. ein Clusterprofil, in das ich falle. X Leute fallen in das gleiche Profil – und da wäre meine Gegenthese zu post privacy, diese X Leute sind jeweis sehr unterschiedliche Persönlichkeiten mit ganz unterschiedlichen Privatwelten. Meine Privatspähe ist mitnichten verloren.

Schaun wir bei Eli Pariser nach, auf den sich die Spackeria mit ihrer Kündigung der Privatsphäre wesentlich bezieht, dann hat er sehr eindringlich mit seiner filter bubble beschrieben, wie die Algorithmen bei Google und Facebook das Userverhalten analysieren und bei der Suchanfrage oder beim Newsstream steuernd (manipulierend) Ähnlichkeitsdaten des eigenen früheren Userverhaltens einspielen. Nicht mehr der Zeitungslektor selektiert den Newsstrom für den Leser, sondern ein Algorithmus steuert den Strom, der sich nur aus der eigenen Seifenblase speist – und der User bemerkt das selbst kaum (Kontrollverlust). Das klingt nach großer Macht der Algorithmen. Gesellschaftlich läßt sich befürchten, dass das Bestehende, das Konservative Bestätigung findet, während Neues, Kritisches unterbunden wird – oh, böses Facebook!

Ich halte dagegen, die können gar nicht anders. Es war immer schon, und ist auch mit den modernsten Algorithmen gut möglich, die Verganenheit zu extrapolieren, und diese in die Zukunft zu projezieren. „Wie Du früher gesucht hast, wirst Du auch zukünftig suchen!“ Das ist das billige Rezept. Wer bei Amazon erst drei Bücher gekauft hat, wird mit einer ziemlich dümmlichen Prognose beworben, wer schon Jahre dabei ist, erhält da schon Treffsicheres. Aber die kleinste Systemänderung, eine neue Freundin, die neue Interessen einbringt, ein neuer Job der Umlernen erfordert, wird nicht prognostiziert, die Krake ist „zu blöd“ dazu, denn da verlasse ich mein Ähnlichkeitscluster, für das der Filter berechnet war. Parisers Vision, wir bräuchten Algorithmen, die uns innovativ werden lassen, die uns Dinge zuspielen, die uns auf neue Wege führen können, halte ich für sehr kühn. Die Suchmaschinenkonkurrenz zwingt Google, die Suchalgorithmen so effizient zu gestalten, dass ein Suchender hier schneller findet, was er sucht, als bei der Konkurrenz. Dieser Druck, schnell zum gewünschten Ergebnis zu kommen, ist in die Algorithmen einprogrammiert. Ein Soziologe (bzw. dessen Cluster) der in Google nach einem Begriff sucht, erhält „vorne“ nicht alles alpabetisch oder häufigkeitsmäßig angeordnet, sondern zunächst die soziologisch konnotierten Bedeutungen (das funktioniert wieder über Ähnlichkeiten). Es wird also versucht, möglichst zielgenau und schnell das Gewünschte Suchergebnis zu finden. Würden jetzt Zufallsalgorithmen ein paar Querschläger einbauen, damit der Suchende auch mal auf Unerwartetes stößt, würde das die durchschnittliche Effizienz senken, ein Nachteil gegenüber der Konkurrenz. Würde gar in pädagogisch demokratischer Absicht, bei konsumeristisch konnotierten Clustern immer wieder mal politisch Korrektes erscheinen, würden die User das schnell merken, und sich bei Google beschweren – also ziemlich schwierig, einen Algorithmus zu bauen, der aus der Filter Bubble Falle heraushilft.

Zur Klärung: Es gibt zwei Arten von Datenzugriffen in die Privatspäre. Die altbekannte, und lange bekämpfte besteht in dem Zusammenlegen von Datenbanken, die ein gemeinsames Merkmal verbindet. Wer z.B. einen Personalbeurteilungsdatensatz, mit einem Gesundheitsdatensatz verbindet, wobei sich in beiden Sätze eine identische Identifikationsnummer der Personen befindet, kann mit ganz wenigen Datenbankabfragen sehr präzise herausfinden, was mit einer Person XY der Fall ist. Ich vermute, die Rasterfandung war noch vom ersten Typ der Datenauswertung. Gegen diesen Typus kann man auch in DEmokratien politisch-gesetzlich vorgehen. In der neueren Algorithmendebatte hat man weder die Kennung der Person noch die eindeutige Bedeutung der Daten. Mit dem klassischen Suchbefehl einer Datenbank läßt sich da nichts mehr machen. Und mit einem Zugriffsverbot wohl auch nicht. Da kommen die verschiedensten mathematischen Prozeduren zum Zuge, die aus Datenmengen Ähnlichkeiten, bzw. Gemeinsamkeitscluster, destillieren können. Wir sprechen hier über diesen neueren Typus, der Algorithmen erfordert.

Mein Fazit, ja die Daten sind entfesselt. Aber was da entfesselt wird, das sind die Kleider, die die Leute machen, die Datenkrake sammelt diese Stoffetzen, und kriegt daraus mühsam wieder Kleider zusammen, aber ob das die usprünglichen Kleider waren, und ob damit die Leute getroffen wurden, die sich diese Kleider zulegten?

Wir sollten viellcht zukünftig weniger Angst vor der Entprivatisierung durch Datenentfesselung haben, als davor, dass diese Datenalchemie unprofessionelle Anwendungen provoziert. Milieuzuordnungen sind Vorurteilskisten, die im Einzelfall ziemlich daneben liegen können. Jemand, der in der Kiste der „Montagskranken“ zu finden ist, kann in anderen Arbeitskontexten ein sehr produktives, wertbringendes Individuum eines Unternehmens werden – und umgekehrt.