Interview mit Heinz Wietfeld, Sinequa

Anonyme Daten für Big-Data-Analysen

Interview mit Heinz Wietfeld, Vice President Sales DACH bei Sinequa, über die Anonymisierung von Daten bei Big-Data-Analysen sowie einen optimierten Wissenstransfer

Heinz Wietfeld, Sinequa

Heinz Wietfeld, Vice President Sales DACH bei Sinequa

IT-DIRECTOR: Herr Wietfeld, mit welchen Investitionen müssen Großunternehmen rechnen, wenn Sie ein Big-Data-Projekt in Angriff nehmen wollen?
H. Wietfeld:
Unsere Erfahrungen decken sich mit aktuellen Zahlen des Analyseinstituts Wikibon. Demnach entfallen auf Hardware 38 Prozent, Software 22 Prozent und Services 40 Prozent. Bei Open-Source-Produkten folgen auf einen niedrigen Softwareanteil im weiteren Projekt üblicherweise hohe Service- und Anpassungskosten. Sinequa dagegen funktioniert auch in großen, komplexen Projekten skalierbar: 140 Out-of-the-box-Konnektoren zu Datenquellen, Integration von Branchen- und Firmenvokabular, Taxonomien  und Ontologien ohne Programmierung. Klassische Anwendungsszenarien starten bei rund einer Million Dokumenten und gehen in heutigen Projekten bis über 200 Millionen Dokumente. Das Verhältnis von Software und Service ist hier also genau umgekehrt. Als Richtlinie für Einstiegsprojekte, ohne Hardware, wäre eine Größenordnung von ab 100.000 Euro anzusetzen.

IT-DIRECTOR: Bitte nennen Sie uns eine Größenordnung für die Kosten der aufgezählten Komponenten.
H. Wietfeld:
Eine „typische“ Größenordnung gibt es noch nicht. Unsere Projekte können von 100.000 Euro bis 1,6 Mio. Euro für Software gehen. Laut Wikibon sind das dann 22 Prozent der Gesamtkosten. Hardware-Anteile können auch geringer sein, so dass sich der Gesamtpreis erniedrigt.

IT-DIRECTOR: Welche Anschaffungen sind für reibungslose Big-Data-Analysen Pflicht? Auf welche könnte man eher verzichten bzw. an welcher Stelle könnte man vorhandene (Alt-)Systeme nutzen?
H. Wietfeld:
Such- und Analysetechniken für strukturierte und nicht-strukturierte Daten müssen angeschafft werden: 80 bis 90 Prozent des Big-Data-Bestandes in Unternehmen sind unstrukturiert! Zur Analyse unstrukturierter Daten sind semantische Analysetools in verschiedenen Sprachen unerlässlich. Keyword-Suche reicht nicht aus für relevante und vollständige Ergebnisse. Wenn die Such- und Analysetechniken im Kundenverkehr eingesetzt werden sollen, kommt man an einer Realtime-Suche nicht vorbei. Das 360°-Bild eines Kunden muss in weniger als zwei Sekunden zur Verfügung stehen, auch wenn es aus Big-Data-Beständen von mehr als 20 Applikationen zusammengesetzt werden muss.

„Altsysteme“ wie transaktionelle Systeme müssen weiter eingesetzt werden. Nicht mehr aktiv genutzte Altsysteme (einschließlich „fossilisierter“ transaktioneller Systeme) können durch Suchtechnologie abgelöst werden („Dekommissionierung“). Mit Anschaffung neuer Big-Data-Analyse-Techniken muss nicht das bisher aufgebaute BI-Instrumentarium komplett abgelöst werden. Es geht eher darum, eine agile Lösung zu finden, die Daten aus vielen Quellen analysiert und so aufbereitet, dass sie von (vielen) unterschiedlichen Applikationen genutzt werden können (Stichwort: Unified Information Access). Die Schaffung solcher Applikationen auf der Basis eines „Rich Index“ ist im Wochenrhythmus möglich anstatt im Jahresrhythmus.  

IT-DIRECTOR: In der Praxis treffen wir aktuell immer wieder auf Anwender, die bereits in Big-Data-Lösungen investiert haben. Allerdings wissen viele davon nicht, was sie mit den Analysetools anfangen sollen. Was geben Sie diesen Anwendern mit auf den Weg?
H. Wietfeld:
Erst die Problem- und Opportunity-Analyse, dann die Lösung, muss es hier heißen. Ein Unternehmen sollte sich vorab im Klaren darüber sein, welche Daten vorhanden sind und welche Informationen daraus generiert werden können. Geben die vorhandenen Daten statistisch überhaupt etwas her, um darüber Analysen zu fahren? In welchen Datenquellen liegen die potentiell wertvollsten Informationen? Wertvoll für welches Unternehmensziel und für welche Anwendergruppe? Big Data ist für viele noch eine große Illusion. Deshalb muss man sich Gedanken über den generellen Geschäftsnutzen einer Big-Data-Analyse machen.

IT-DIRECTOR: Welche Algorithmen erweisen sich im Rahmen von Big-Data-Analysen dabei als besonders sinnvoll?
H. Wietfeld:
Sinequa verwendet bislang eigene Algorithmen, ist aber dabei, in der aktuellen Version 9 der Software mit semi-maschinenlernenden Algorithmen zu arbeiten, wie sie das Apache-Projekt Mahout bietet. Das bedeutet: Anstatt selbst zu entscheiden, welche Suchkriterien sinnvoll sein könnten, gibt man der Analysesoftware eigene Kategorien vor nebst Beispielen kategorisierter Daten. Das System untersucht dann, warum welcher Begriff in welche Kategorie eingeordnet wurde und lernt daraus für kommende Anfragen. In einem Siemens-Projekt zum Beispiel hat unser Partner BSS mit der Lösung einen solchen Machine-Learning Classifier eingebaut.

IT-DIRECTOR: Können Sie uns ein kurzes Beispiel für die erfolgreiche Anwendung von Big-Data-Analysen beschreiben?
H. Wietfeld:
Der Pharmakonzern Astra Zeneca nutzt unsere Plattform seit Anfang 2014 für einen optimierten Wissenstransfer im Bereich Forschung & Entwicklung. Wissenschaftler weltweit, darunter auch aus der F&E Abteilung von Astra Zeneca Deutschland, finden über die Plattform relevante Informationen über Medikamente, Krankheiten, Gene, Moleküle, Wirkmechanismen und andere wissenschaftliche Konzepte. Sie finden Experten, die an ähnlichen Themen arbeiten wie sie selbst oder komplementäres Wissen beisteuern können. So können schnell und einfach interdisziplinäre Teams zusammenstellt werden, um an neuen Medikamenten zu arbeiten oder bereits verfügbare Medikamente neu zu positionieren (für neue Anwendungsfelder). Rund 200 Millionen interne und externe Dokumente werden mit unserer Lösung indiziert.

IT-DIRECTOR: Big-Data-Analysen können auf strukturierten wie unstrukturierten Daten basieren. Insbesondere letztere werden gerne zur Auswertung des Kundenverhaltens (z.B. Kassendaten, soziale Medien) herangezogen. Wie kann man dafür sorgen, dass solche Auswertungen weder Compliance-Vorgaben noch die Privatsphäre (vgl. Datenschutz) von Kunden verletzen?
H. Wietfeld:
Hierfür gibt es klare Richtlinien, die man beachten muss. In Frankreich zum Beispiel dürfen keine personenbezogenen Daten willkürlich gespeichert werden. Auswertungen des Kundenverhaltens lassen sich einfach anonymisieren. Bei anderen Funktionen, wie zum Beispiel unserer Find-the-Expert-Suche, sollte ein Unternehmen von vornherein Möglichkeiten schaffen, sich proaktiv als Experte im System zu registrieren (oder eine Opt-Out-Möglichkeit zu schaffen). Damit gibt dieser seine Einwilligung, bei entsprechenden Suchen aufgefunden zu werden. Generell empfehlen wir, bei Aufbau und Einsatz solcher Technologien den Betriebsrat mit einzubeziehen.

IT-DIRECTOR: Wer in den Unternehmen sollte überhaupt mit solchen Daten Analysen durchführen dürfen? Worauf gilt es, bei der Vergabe von Nutzerrechten sowie generell beim Nutzermanagement, besonders zu achten?
H. Wietfeld:
Generell sollte gelten, dass relevante Informationen den Mitarbeitern zur Verfügung stehen, die sie für ihre Arbeit brauchen, die dadurch effizienter und effektiver arbeiten können. Eine Such- und Analysesoftware führt Informationen sinnvoll zusammen, die verteilt im Unternehmen ja bereits vorliegen. Zum Beispiel Kundendaten aus ERP- oder CRM-Systemen. Dort sind dezidierte Zugriffsrechte bereits angelegt. Dieses Berechtigungskonzept muss automatisch auch bei der Suche gelten. Bei Sinequa ist dies so gelöst, dass die Zugriffsrechte aus dem ERP/CRM-System parallel mit den gefundenen Daten extrahiert werden. Wer über die Lösung sucht, erhält deshalb nur die Informationen, die er aufgrund seiner Rechte auch im zuliefernden System gefunden hätte. Für Kunden wie Siemens oder Astra Zeneca waren dies entscheidende Kriterien bei der Auswahl über Analysesoftware.

IT-DIRECTOR: Was denken Sie: Mit welchen Big-Data-Analysen überschreiten Unternehmen bereits heute bzw. könnten sie in Zukunft schnell ethische und gesetzliche Grenzen überschreiten?
H. Wietfeld:
Persönliche Daten zu Gesundheit oder gar Genetik sollten nur anonym genutzt werden können. Aber auch bei persönlichen Vorlieben, familiärer Situation, etc. ist für viele Menschen schnell eine Verletzung der Intimsphäre gegeben. Unternehmen, die aus solchen Informationen einen Vorteil gewinnen wollen, können sich dabei ins Abseits manövrieren und Kunden verlieren, anstatt ihren „Life-Time-Value“ zu erhöhen – ganz abgesehen von der Rechtslage oder ethischen Überlegungen.

©2020Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok