Angst vor Datenschutzverstößen

Zurückhaltung bei Big Data

Zu hohe Investitionen, keine Ideen für Analysen und Angst vor Datenschutzverstößen – viel zu zögerlich ­gehen IT-Verantwortliche mitunter das Abenteuer „Big ­Data“ an. Dabei kann sich der Aufwand durchaus lohnen.

Cowboy, Bildquelle: Thinkstock/Ingram Publishing

Abenteuer "Big Data": Häufig hört man, dass die IT-Verantwortlichen nach der Anschaffung von Big-Data-Technologien nicht genau wissen, was sie damit anfangen sollen.

Die gute Nachricht vorneweg: Wer Big-Data-Analysen etablieren möchte, muss sich weder von seiner Business-Intelligence-Strategie (BI) noch von eingesetzten Altsystemen verabschieden. Vielmehr können Big-Data-Lösungen die bisherige IT-Landschaft ergänzen. Dies bestätigt Aaron Auld, Geschäftsführer der Exasol AG: „Das Durchführen von Big-Data-Analysen erfordert keinen Austausch vorhandener Systeme. Vielmehr geht es um eine gezielte Ergänzung.“ Wichtig sei allerdings, die vorhandene IT-Infrastruktur dahingehend zu prüfen, ob sie mit den anfallenden Informationsmengen entsprechend der Anforderungen umgehen kann. „Dabei ist die Geschwindigkeit entscheidend, denn immer häufiger sind IT-Systeme mit Big Data überlastet und reagieren schwerfällig“, berichtet Auld. Und auch Heinz Wietfeld, Vice President Sales bei Sinequa, betont, dass mit der Anschaffung neuer Big-Data-Analyse-Techniken das bislang aufgebaute BI-Instrumentarium nicht komplett abgelöst werden muss. „Es geht eher darum, eine agile Lösung zu ­finden, die Daten aus vielen Quellen analysiert und so aufbereitet, dass sie von (vielen) unterschiedlichen Applika­tionen genutzt werden können“, meint Wietfeld.

Investitionen sind unumgänglich

Doch ein erster Haken folgt auf dem Fuß: So ganz ohne Investitionen wird die Umsetzung von Big-Data-Analysen nicht möglich sein. Dabei hängt die Höhe der Kosten – wie bei den meisten IT-Projekten – von den individuellen Anforderungen und Begebenheiten des jeweiligen Anwenderunternehmens ab. Von daher wundert es kaum, dass sich die Branchenexperten mit einer genauen Bezifferung der Kosten für ein Big-Data-Projekt zurückhalten. Dennoch lässt sich mittels realistischer Einschätzung ein grober Investitionsrahmen abstecken. So beschreibt Yves de Montcheuil, Vice President bei Talend, den möglichen Aufwand wie folgt: „Man wählt zuerst eine Hadoop-Distribution von einem der vier großen Anbieter (Hortonworks, Cloudera, MapR, Pivotal) und richtet diese in der Cloud ein. Im nächsten Schritt sucht man nach einer Lösung für die Datenintegration und -qualität, um damit Daten aus allen Quellen in Hadoop zu bringen und dort umzuwandeln“, so de Montcheuil. Eventuell benötige man überdies noch eine NoSQL-Datenbank. „Je nach Anwendungsfall extrahiert man danach entweder mittels Datenintegration die zu analysierenden Daten aus Hadoop und sendet sie an sein BI- bzw. Berichtstool oder man wählt ein spezielles BI-Tool für Big Data aus“, erklärt Yves de Montcheuil.

Eine andere Rechnung macht Heinz Wietfeld auf. „Unsere Erfahrungen decken sich mit aktuellen Zahlen des Analyseinstituts Wikibon. Demnach entfallen in einem Big-Data-Projekt 38 Prozent der Kosten auf Hardware, 22 Prozent auf Software und 40 Prozent auf Services“, so Wietfeld. Bei Open-Source-Produkten folgen auf einen niedrigen Softwareanteil im weiteren Projekt üblicherweise hohe Service- und Anpassungskosten. Eine ähnliche Schätzung macht Benjamin Schulte, Geschäftsbereichsleiter bei Comma Soft. Seiner Meinung nach gibt es viele Big-Data-Anwendungen, die auf normaler x64-Bit-Architektur arbeiten. „Von daher müssen Investitionen in Hard- und Software nicht unbedingt den größten Aspekt darstellen“, so Schulte, „häufig stellen die Projekte und die Beratung, was genau mit den Daten gemacht werden soll, einen großen Kostenanteil dar.“

Desweiteren kommt es darauf an, ob die Anwender die Big-Data-Technologien selbst intern vorhalten oder auf eine externe Cloud-Lösung setzen wollen. „Entscheiden sich Kunden für ersteres müssen sie – je nach Reifegrad der eigenen Organisation – sowohl Investitionen in den kompletten Technologie-Stack als auch das eigene Personal für die Entwicklung und den Betrieb einer solchen Lösung stecken“, erklärt Uwe Weiss, Geschäftsführer bei Blue Yonder. Dagegen investieren Kunden, die auf Software-as-a-Service-Anbieter setzen, vor allem in Projektaufwände für die Integration sowie in operative Ausgaben für den bezogenen Dienst.

Hinsichtlich ihrer eigenen Lösungen sind die Anbieter eher bereit, konkrete Zahlen zu nennen. So besitzt die Analyseplattform Sinequa eigenen Angaben zufolge 140 Out-of-the-box-Konnektoren zu Datenquellen, Integration von Branchen- und Firmenvokabular, Taxonomien und Ontologien ohne Programmierung. „Klassische Anwendungsszenarien starten bei rund einer Million Dokumenten und gehen in heutigen Projekten bis über 200 Millionen Dokumente. Als Richtlinie für Einstiegsprojekte, ohne Hardware, wäre eine Größenordnung von ab 100.000 Euro anzusetzen“, konkretisiert Wietfeld. Daneben kostet bei der Analysesoftware Tableau die Lösung „Desktop“ 1.999 US-Dollar pro Nutzer und das Cloud-Produkt „Online“ 500 US-Dollar pro Nutzer. Und das quelloffene Analysetool von Jaspersoft lasst sich Herstellerangaben zufolge bereits ab 0,35 Euro die Stunde mieten.

Auf der Erfolgsspur mit Big Data

Soviel zum Kostenrahmen. Doch lohnt sich der ganze Aufwand überhaupt? Häufig hört man, dass die Verantwortlichen nach der Anschaffung von Big-Data-Technologien nicht genau wissen, was genau sie damit anfangen sollen. Sicherlich profitieren Finanzwesen und Controlling von deutlich schnellerem Reporting; weitere Anwendungsfelder bleiben jedoch meist außen vor. Das muss nicht sein, meint Uwe Weiss. Insbesondere mit vorausschauenden Prognosen – neudeutsch Predictive Analytics – könnten sich Anwender eine weite Spielwiese schaffen. „Wir weisen unsere Kunden immer auf die Potentiale hin, die sich etwa durch den Einsatz im Bereich der massenhaften Automatisierung von operativen Prozessen ergeben“, so Weiss. Dabei kommen Predicitive Analytics beispielsweise in der Absatzplanung, der automatisierten Disposition, der Retourenoptimierung, bei Risikoanalysen und der dynamischen Preisgestaltung oder auch der Kundenanalyse zum Einsatz.

Im Hinblick auf den Branchenfokus könnten laut Yves de Montcheuil beispielsweise für Finanzinstitute Muster zur Betrugserkennung nützlich sein. Bei Versicherungen gehe es hingegen eher um die Ermittlung von möglichen Risiken. Generell gilt laut de Montcheuil, dass Unternehmen klein anfangen und ihre Daten erforschen sollten, um ein paar schnelle Erfolgserlebnisse zu schaffen, die den Wert der Technologie demonstrieren. „Wichtig ist es, die Möglichkeiten des Projekts nicht zu übertreiben. Man sollte auch nicht erwarten, alle Fragen einer Organisation damit zu lösen“, so de Montcheuil. Aber man könne mit wenig Aufwand ein paar Gebiete finden, in denen neue Analysen hilfreich sind. „Konzentriert man sich zunächst auf solche Fälle, werden die Mitarbeiter bald mit Anfragen und Ideen kommen und das Projekt wird von allein wachsen“, ist sich de Montcheuil sicher.

Alles in allem zeigen erste Referenzen, dass ein Big-Data-Einsatz durchaus Vorteile mit sich bringen kann. So nutzt der Pharmakonzern Astra Zeneca seit Anfang 2014 die Such- und Analyseplattform Sinequa für seinen Wissenstransfer im Bereich Forschung & Entwicklung. „Wissenschaftler weltweit, darunter auch aus der F&E Abteilung in Deutschland, finden über die Plattform relevante Informationen über Medikamente, Krankheiten, Gene, Moleküle, Wirkmechanismen und andere wissenschaftliche Konzepte. Sie finden Experten, die an ähnlichen Themen arbeiten wie sie selbst oder komplementäres Wissen beisteuern können“, berichtet Wietfeld. So können schnell interdisziplinäre Teams zusammenstellt werden, um an neuen Medikamenten zu arbeiten oder bereits verfügbare Arzneimittel neu zu positionieren. Laut Wietfeld werden dabei mit der Lösung rund 200 Millionen interne und externe Dokumente indiziert.

Ein weiteres Beispiel hat Henrik Jorgensen, Country Manager für die DACH-Region von Tableau Software, in petto: Visa Europe wickelt den elektronischen Zahlungsverkehr in 36 europäischen Ländern ab. Die damit verbundenen Daten liegen zwar fast ausschließlich strukturiert vor, gestalten sich aber kontinuierlich stark anwachsend. „Mithilfe unserer Software ist der Finanzdienstleister nun in der Lage, seine Auswertungen wesentlich schneller zu erstellen und darüber hinaus mit visuellen Darstellungen aufzuwerten“, berichtet Henrik Jorgensen.

Nicht zuletzt sei auf ein E-Commerce-Beispiel verwiesen: Bereits seit vier Jahren setzt der Sportartikelhändler Sportscheck auf Big Data Analytics mithilfe von Blue Yonder, um so die Qualität der Absatzprognosen bis auf die Einzelartikelebene zu verbessern und Fehleinschätzungen zu vermeiden. Laut Hersteller analysiert die SaaS-Lösung hierfür präzise das Besucherverhalten im Onlineshop und bezieht viele interne wie externe Einflussfaktoren mit ein, wodurch der Artikelbedarf in Echtzeit vorausgesagt wird. Damit kann der Händler flexibel und schnell auf kurzfristige Entwicklungen reagieren. „Insgesamt konnte das Unternehmen die Prognosequalität seines Webshops um bis zu 40 Prozent verbessern. Auch die mittlere absolute Abweichung der Vorhersage zu den tatsächlichen Verkaufszahlen ließ sich um 50 Prozent reduzieren. Und nicht zuletzt kann das Unternehmen seine Retourenquote nun präziser bestimmen“, zählt Uwe Weiss auf.

Datenschutz und Privatsphäre

Bleiben zuletzt die Punkte Datenschutz und Privatsphäre. Heikle Themen, insbesondere wenn bei Big-Data-Analysen nicht nur die bereits vorliegenden strukturierten Daten, sondern auch unstrukturierte Quellen aus den Tiefen des Internets oder sozialen Medien herangezogen werden. Generell sollten die Verantwortlichen dabei beherzigen, persönliche Informationen zur Gesundheit oder gar Genetik nur anonym zu nutzen. „Aber auch hinsichtlich der Berücksichtigung persönlicher Vorlieben oder der familiärer Situation ist für viele Menschen schnell eine Verletzung der Intimsphäre gegeben“, glaubt Heinz Wietfeld, und warnt gleichzeitig: „Unternehmen, die aus solchen Informationen einen Vorteil gewinnen wollen, können sich dabei ins Abseits manövrieren und Kunden verlieren, anstatt ihren „Life-Time-Value“ zu erhöhen – ganz abgesehen von der Rechtslage oder ethischen Überlegungen.“ Einen Schritt weiter geht gar Ben Connors, Head of Alliances bei dem Open-Source-Anbieter Jaspersoft. Seiner Meinung nach ist über Gesundheitsdaten hinaus die Anonymisierung sämtlicher gesammelter Daten wichtig, um die Privatsphäre zu schützen. Allerdings weißt er daraufhin, dass die Sache nach Zustimmung der Betroffenen auch anders liegen kann: „Denn persönliche Informationen sind eine neue Art von Währung geworden. Wir handeln oft mit unseren Identifikationsinformationen und Verhaltensmustern im Austausch gegen Güter, Services und Informationen. Solange wir als Kunden darüber informiert werden und diese Entscheidung bewusst treffen können, kann jeder davon profitieren“, glaubt Connors.

Generell können Firmen laut Aaron Auld von Exasol eine Verletzung der Privatsphäre dadurch umgehen, indem sie ihre Mitarbeiter kontinuierlich schulen und dazu anhalten, Daten als das zu sehen was sie sind: äußerst sensible Informationsquellen, die eine besondere Behandlung verdienen. Da in der deutschen Gesetzgebung klar definiert ist, wann Unternehmen beim Datenschutz Grenzen überschreiten, werde – so Aaron Auld – dabei künftig eine Datenhaltung in Deutschland zunehmend zu einem wichtigen Wettbewerbsvorteil. Nicht zuletzt, betont Ben Connors, können Big-Data-Analysen ethische und gesetzliche Grenzen überschreiten, wenn sie Konsumenten einerseits Risiken und Peinlichkeiten aussetzen und ihnen andererseits keine Möglichkeit mehr bieten, aufdringlichem Verhalten zu entgehen.

Nützliche Eigenschaften von Big-Data-Tools

  •   Schnelligkeit
  •   unabhängige, vielseitige Nutzung
  •   übersichtliche visuelle Darstellungen
  •   größen- und formatunabhängig hinsichtlich Datenquellen
  •   abteilungsübergreifender Einsatz
  •   flexibel konfigurierbar

Quelle: Henrik Jorgensen, Tableau Software

 

Was kosten Big-Data-Analysen?

Mögliche Investitionen in Big-Data-Technologien können sich wie folgt zusammensetzen:

Hardware: Fast alle der führenden Big-Data-Technologien sind darauf ausgerichtet, auch auf kostengünstiger Hardware zu laufen. „Don’t Scale Up, Scale Out“ lautet das Motto. Dies bedeutet, man rüstet sein bestehendes System besser auf, indem man zahlreiche kostengünstige Komponenten hinzufügt, anstatt sich eine teure, zentralisierte Hardware anzuschaffen. Darüber hinaus können diese Systeme in die Cloud verlagert werden, wodurch man erst gar nicht in Hardware investieren muss.
Datenbanken: Viele führende Big-Data-Datenbanken sind quell-offen und kommerzielle Open-Source-Dienstleister typischerweise nicht so teuer wie die klassischen Unternehmensdatenbanken. Zudem sind Big-Data-Datenbanken auch in der Cloud verfügbar und lassen sich mitunter gar stundenweise mieten.
Analysetools: Ebenso wie Datenbanken sind auch Analysetools auf Open-Source-Basis, Standardlösung oder als Cloud-Service erhältlich.
Beratung und Schulungen: Die Kosten in diesem Bereich ­hängen stark von den Anforderungen des Kunden ab. Mittlerweile erkennen Consultinghäuser dieses Wachstumspotential. Es gibt also immer mehr qualifizierte Berater, was langfristig dazu führen sollte, das die Kosten hier sinken werden.
Außerdem gibt es zahlreiche kostenlose Onlinetrainings
(z.B. www.bigdatauniversity.com), um Mitarbeiter besser zu schulen.

Quelle: Ben Connors, Jaspersoft

Bildquelle: Thinkstock/Ingram Publishing

©2020Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok