Mit OCR-Erkennung Briefkastenfirmen auf der Spur

Nuix: Analyse-Tool der Panama Papers

Nuix heißt die Big-Data-Analyse-Software mit deren Hilfe rund 11,5 Millionen Dokumente und 2,6 Terabyte an Daten im Rahmen der Recherchen rund um die „Panama Papers“ durchforstet und gleichzeitig auch schlüssige Ergebnisse geliefert werden konnten.

Panama Papers: Daten von Mossack Fonseca

Panama Papers: Eine anonyme Quelle lieferte 2,6 Terabyte Daten von der Kanzlei Mossack Fonseca aus Panama und deren Geschäfte rund um Briefkastenfirmen.

Die Nachricht schlug gestern Abend ein wie eine Bombe: 2,6 Terabyte an Daten wurden über ein Jahr von rund 400 Journalisten von mehr als 100 Medienorganisationen in rund 80 Ländern weltweit durchforstet, um den finanziellen Machenschaften von 214.000 Briefkastenfirmen auf die Spur zu kommen. Dabei laufen alle Informationen über die Briefkastenfirmen bei der Kanzlei Mossack Fonseca aus Panama zusammen. Laut dem International Consortium for Investigative Journalists (ICIJ) und der Süddeutschen Zeitung handelt es sich dabei um eine Firma, die weltweit anonyme Briefkastenfirmen verkauft, mit deren Hilfe sich wiederum so ziemlich alle illegalen und höchst skrupellosen Geschäfte verschleiern lassen sollen.

Bereits 24 Stunden nach Bekanntgabe erster Rechercheergebnisse aus den ca. 11,5 Millionen Dokumenten drangen prominente Namen von Betroffenen in die Öffentlichkeit, darunter Mitglieder aus dem Dunstkreis des russischen Präsidenten Vladimir Putin, Fifa-Funktionäre oder Fußballstars wie Lionel Messi. Generell handelt es sich mit 2,6 Terabyte (TB) um das bislang größte bekannt gewordene Datenleck überhaupt. Während die NSA-Veröffentlichungen von Edward Snowden auf einen herkömmlichen USB-Stick passten, umfassten auch die Luxemburg-Leaks aus dem Jahr 2014 nur 4 GB und Swiss-Leaks 2015 lächerliche 3,3 GB.

Die angeblich von einer einzigen anonymen Person bereitgestellten Informationen belaufen sich insgesamt auf 2,6 Terabyte Daten. Dabei entspricht 1 Terabyte genau 1012 Bytes – sprich 1.000.000.000.000 Bytes. Dieser riesige Datenberg basiert auf verschiedenen Digitalformaten aus dem Zeitraum der 70er-Jahre bis ins Frühjahr 2016 hinein.

Laut den beteiligten Journalisten handelt es sich im Detail „hauptsächlich um E-Mails, PDFs und Fotodateien sowie Auszüge aus einer internen Datenbank von Mossack Fonseca“. Demzufolge musste die panamaische Kanzlei bereits in der Vergangenheit sämtlichen Schriftwechsel mit ihren Mandanten digitalisiert haben, ansonsten hätte man insbesondere auf Dokumente der 70er-Jahre keinen so einfachen Zugriff nehmen können.

Technologische Basis der Panama Papers

Laut Süddeutscher Zeitung ist man bei der Recherche der Dokumente technologisch wie folgt vorgegangen: Für jede Briefkastenfirma hatte sich Mossack Fonseca einen „Arbeitsordner“ angelegt, der E-Mails, Verträge, Abschriften, eingescannte Dokumente und weitere Schriftstücke, die mit der jeweiligen Offshore-Firma in Verbindung standen, beinhaltete. Um den Wust an Dokumenten überhaupt durchsuchen zu können, mussten die Dateien zuerst indiziert, also systematisch erfasst werden. Die Süddeutsche Zeitung nutzte hierfür eigenen Angaben zufolge das Software-Programm Nuix, mit dem auch internationale Ermittlungsbehörden arbeiten.

Im Rahmen der technischen Umsetzung nahm man eine optische Zeichenerkennung (Optical Character Recognition, OCR) der bereitgestellten Dokumente vor. Durch die damit verbundene Indexierung und Verschlagwortung im Sinne des Dokumenten-Managements konnte man die Millionen Dokumente schließlich auf hochleistungsfähigen Rechnern in eine maschinenlesbare – und damit durchsuchbare – Form bringen. So wurde aus Bildern wie eingescannten Ausweisen und unterschriebenen Verträgen recherchierbarer Text.

Dieser Schritt war eigenen Angaben zufolge wichtig, damit die beteiligten Journalisten einen möglichst großen Teil der Daten über eine einfache Suchfunktion durchforsten konnten. „Durch die digitale Aufbereitung war es möglich, die Daten mit Hilfe von Listen zu durchsuchen. Die Liste „Parteispenden-Affären“ umfasste am Ende 130 Namen, die UN-Sanktionsliste mehr als 600. In wenigen Minuten glich der mächtige Suchalgorithmus die Listen mit den 11,5 Millionen Dokumenten ab“, heißt es auf sueddeutsche.de

Big-Data-Analyse mit Nuix

Hinter Nuix steckt eine Palette an Softwaretools für digitale forensische Untersuchungen. Neudeutsch wird dabei gerne von „E-Discovery“ gesprochen. Laut Herstellerangaben lassen sich damit „auf einem einzelnen Highend-Server mehr als zehn Terabyte an Daten pro Tag untersuchen“. Die Untersuchung von „nur“ 2,6 Terabyte gleicht dabei eher wie ein Kinderspiel. Zudem ist die oben erwähnte, wichtige OCR-Erkennung bereits seit der Version 5 der Software serienmäßig integriert.

Alles in allem arbeitet Nuix im Sinne einer Big-Data-Analyse-Software äußerst intelligent: „Die Software entnimmt automatisch Informationsobjekte und stellt Querverweise her wie Namen, Firmen, Geldsummen, E-Mailadressen, IP Adressen so wie Telefon- und Kreditkartennummern. Dies kann Verbindungen quer durch mehrere Datenquellen und Untersuchungen aufzeigen“, heißt es auf der Webseite von MH Service.

Der Anbieter für „Digitale Forensik“ aus Karlsruhe vertreibt die Software hierzulande. Auf der Webseite der Badener wird auch beschrieben, inwieweit sich mit dem Tool Suchergebnisse übersichtlich darstellen lassen. Möglich mache dies die Datenvisualiserung, einschließlich Netzwerkdiagramme, Zeitleisten und Datentrendschaubilder. Dies soll die Entdeckung von Trends und isolierten Ausreißern quer durch große Mengen und verschiedene Quellen von Beweisen erleichtern.

Nicht zuletzt könnte es sich bei den „hochleistungsfähigen Rechnern“um ein webbasiertes IT-Cluster handeln, das einen weltweiten verschlüsselten und damit sicheren Zugriff aller Beteiligten auf die Daten ermöglichte. Öffentlich wurde bereits, dass sämtliche Kommunikation sowohl mit der anonymen Quelle als auch der Journalisten untereinander verschlüsselt ablief.

Bildquelle: Thinkstock/Ingram Publishing

©2018Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok