Anonymisierte und synthetisch erzeugte Testdaten

Raus aus der Stolperfalle der DSGVO-Konformität

Ein Aspekt könnte bei der Erfüllung der Europäischen Datenschutz-Grundverordnung vergessen werden: Die Richtlinien greifen nicht nur bei der offensichtlichen Verwendung von Live-Daten oder Datenbanken, sondern gelten auch für Testdaten in Testumgebungen.

Mann verheddert sich in DSGVO-Absperrband

DSGVO: Nicht ausbremsen lassen.

 Viele Daten, die in Unternehmen zu Testzwecken genutzt werden, stammen aus Live-Umgebungen. Somit sind Rückschlüsse auf persönliche Daten möglich – und genau darin liegt das Problem: Denn damit handelt es sich bei Testdaten um reale Daten, die auch Dienstleistern wie externen Entwicklern zukommen.

Laut den Vorgaben der DSGVO muss für die Nutzung von Daten nicht nur nachgewiesen werden können, woher sie stammen, sondern es muss auch eine Zustimmung seitens des Datengebers vorliegen, dass seine Daten für einen bestimmten Zweck verwendet werden dürfen. Im Gegensatz zu Live-Daten werden für Testfälle jedoch häufig Daten verwendet, die schon längere Zeit zum Datenbestand gehören. Die Rückverfolgung der Wege, die diese Daten im eigenen Unternehmen durchlaufen haben, gestaltet sich entsprechend schwer.

Wege zu DSGVO-konformen Testdaten

Es gibt dennoch verschiedene Verfahren, die verhindern, in die Testdatenfalle zu stolpern. Zunächst einmal müssen Unternehmen prüfen, woher ihre Testdaten stammen und welche Rückschlüsse sie erlauben. IT-Verantwortliche müssen dokumentieren und kritisch prüfen, wo und wie sensible Daten abgelegt sind, wer Zugriff auf welche Daten hat und wo ein Risiko für Datenverlust oder sogar Datenmissbrauch besteht. Darauf aufbauend kann überlegt werden, wie diese Daten anonymisiert werden können.


Möglich ist dies durch eine klassische Anonymisierung oder Verschlüsselung. Beide Verfahren sind jedoch mit Vorsicht zu genießen: Denn unter einer Anonymisierung versteht die DSGVO nur ein Verfahren, bei dem Daten so weit anonymisiert sind, dass sie sich auch bei einer vernetzten Verwendung von separat abgespeicherten Informationen nicht entschlüsseln lassen. Das heißt: Alle persönlichen Informationen, mit denen Testdaten demaskiert werden können, müssen ebenfalls anonymisiert werden. Das ist ein hochkomplexes und fehleranfälliges Verfahren. Ist dies nicht der Fall, werden die Daten als „pseudoanonymisiert“ angesehen – und das kann Unternehmen wiederum eine Menge Ärger bringen und hohe Kosten verursachen.

Synthetisch generierte Daten

Ein höherer Anonymisierungsgrad kann bei kritischen Datensätzen erreicht werden, indem Datenbankschlüssel, also Datenbeziehungen, gelöscht werden. Damit wird eine Rückverfolgung der verfremdeten Personendaten fast unmöglich. Es muss jedoch bedacht werden, dass es dabei auch zu Inkonsistenzen und fehlerhaften Testergebnissen kommen kann. Während bei den genannten Verfremdungsmethoden vorhandene Live-Daten maskiert werden, können Testdaten natürlich auch von Grund auf neu erstellt werden. Der Vorteil synthetisch generierter Daten ist, dass man sich keine Gedanken über kritische oder sensible Dateninhalte machen muss. Der Aufwand ist hierbei jedoch deutlich höher.

Realistisch betrachtet wird es selbst mit leistungsfähigen Tools kaum möglich sein, alle Daten in produktionsfremden Umgebungen auf einmal zu ersetzen. In einigen Fällen kann es Hunderte oder Tausende voneinander abhängige Systeme geben, deren Daten in unterschiedlichen Formaten gespeichert sind. Die Lösung kann dann ein hybrider Ansatz sein, betont der IT-Anbieter CA.

Entwicklungssysteme sollten dabei wie Produktionssysteme behandelt werden, während die Benutzeraktivität simuliert und an verschiedenen Stellen eingebracht werden müsste. Auf diese Weise können fiktive, synthetische Daten, die wie Produktionsdaten agieren, in das System eingepflegt werden

©2018Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok