DOAG Datenbank Kolumne: "Datenschutz – Anonymisierung und Pseudonymisierung"

  • Erstellt von Andreas Buckenhofer
  • Datenbank Kolumne, Datenbank

Pseudonymisierung und Anonymisierung werden genannt, wenn es um die Verarbeitung personenbezogener Daten geht.

Was sind personenbezogene Daten?
Name, Geburtsdatum, E-Mail-Adresse oder Wohnort sind offensichtlich personenbezogen. Aber auch Daten wie IP-Adressen, Kfz-Kennzeichen oder die Fahrzeugidentifikationsnummer (FIN) gehören zu den personenbezogenen Daten. Darüber hinaus existieren sogenannte besondere Kategorien von personenbezogenen Daten wie Gehalt, Religion, ethnische Herkunft, uvm., die insbesondere sensibel und schutzbedürftig sind.

Anonymisierung und Pseudonymisierung
Personenbezogene Daten dürfen gespeichert oder verarbeitet werden, wenn es hierfür eine rechtliche Grundlage gibt oder die Person Ihre Zustimmung erteilt hat. Andernfalls müssen die Daten anonymisiert werden  – übrigens erfordert auch die Durchführung einer Anonymisierung eine Einwilligung. Anonymisierungstechniken entfernen die persönliche Referenz unwiederbringlich, so dass kein Rückschluss auf die Person möglich ist. Die Datenschutzgrundverordnung (DSGVO) gilt nicht mehr für anonyme Daten.
Dagegen ist es bei einer Pseudonymisierung weiterhin möglich, Personen zu identifizieren. Pseudonymisierung basiert auf Techniken wie Hashing oder Tokenisierung. Die DSGVO ist weiterhin anwendbar.

Das folgende Beispiel zeigt die Unterschiede:

1) Personenbezogene Daten

NameKfz-Kennzeichen    Versicherung   
Max Mustermann    UL-WB 134ABC-Versicherung

 

2) Pseudonyme Daten nach zum Beispiel Anwendung eines Hash-Verfahrens. Mit Brute-Force-Methoden oder Rainbow-Tabellen könnte man wieder die personenbezogenen Daten herausbekommen.

NameKfz-Kennzeichen     Versicherung   
DRE244RT2ZZ     HG3FABC-Versicherung

 

3) Anonyme Daten nach Gruppierung in Cluster wie Wohnort oder Modell.

Dabei müssen die Cluster groß genug sein, das heißt es darf nicht nur einen Datensatz mit einem A180 in Ulm und der ABC-Versicherung geben. Die weiteren Attribute dürfen zu keiner Identifizierung der Person führen, sonst müssen diese auch gruppiert oder entfernt werden.

Wohnort    Modell    Versicherung
UlmA180ABC-Versicherung

 

Anwendungsfälle
Im Folgenden sind Anwendungsfälle und mögliche Techniken aufgeführt.

  • Test- und Entwicklungsdatenbanken
    In Test- und Entwicklungsdatenbanken dürfen keine personenbezogenen Daten vorkommen, die aus Produktivumgebungen kopiert werden. Eine Anonymisierung dieser Daten ist zwingend notwendig, beispielsweise mit Hilfe eigener Skripte, des „Oracle Data Masking and Subsetting Packs“ oder eines anderen Tools. Natürlich kann alternativ in diesen Umgebungen mit synthetischen Daten gearbeitet werden. Eine Pseudonymisierung reicht nicht aus.
     
  • Analytics
    Sollen personenbezogene Daten ausgewertet werden oder für Machine Learning verwendet werden, so wird eine Anonymisierung typischerweise mittels Gruppierung, Löschung und Filterung durchgeführt. Das oben erwähnte Beispiel zeigt eine mögliche Gruppierung: Personen (Max Mustermann) werden in Wohnorte (Ulm) gruppiert sowie Fahrzeuge in Modelle (A180). Dadurch verschwinden einzelne, identifizierbare Merkmale, was dazu führen kann, dass diese anonymisierten Daten schnell unbrauchbar sind. Paul Ohm schrieb 2010: „Data can be either useful or perfectly anonymous but never both“. Typische Generalisierungstechniken sind k-anonymity/l-diversity/t-closeness oder auch "Differential Privacy".
     
  • Anzeige von Daten in Produktivsystemen
    Werden Daten wie Kreditkartennummern angezeigt, können diese teilweise unterdrückt werden, etwa mittels „Data Redaction“ (Anzeige einer Kreditkartennummer wie ****1234). Hierbei handelt es sich natürlich um keine Anonymisierung oder Pseudonymisierung. Techniken wie "Data Redaction" sind gebräuchlich bei den oben erwähnten besonderen Kategorien von personenbezogenen Daten.

Pseudonymisierung reicht häufig nicht aus, da eine Re-Identifikation möglich ist. Anonymisierung ist eine komplexe Aufgabe. Anwendungsfälle und ihre Anforderungen sind sehr unterschiedlich. Die Anonymisierung ist nicht nur ein einmaliger Schritt. Der Anonymisierungsprozess und dessen Ergebnis müssen kontinuierlich überprüft werden. Vertrauen wird bei der Arbeit mit Daten immer wichtiger – Datenschutz und Ethik sind unerlässlich: Jeder ist für den vertrauensvollen Umgang mit personenbezogenen Daten verantwortlich.
 

Andreas Buckenhofer
DOAG DB Community Stellv. Themenverantwortung Soft Skills,
Mitglied der Delegiertenversammlung Data Analytics  

 

----

Bild von Martin Meyer

 

© Martin Meyer