Interview mit Yves de Montcheuil, Talend

Nützliche Open-Source-Tools für Big Data

Interview mit Yves de Montcheuil, Vice President Marketing bei Talend, über nützliche Open-Source-Tools im Big-Data-Umfeld und die neue Art der Datenanalyse

Yves de Montcheuil, Talend

Yves de Montcheuil, Vice President Marketing bei Talend

IT-DIRECTOR: Herr de Montcheuil, mit welchen Investitionen müssen Großunternehmen rechnen, wenn Sie ein Big-Data-Projekt in Angriff nehmen wollen?
Y. de Montcheuil:
Um ein Big-Data-Projekt zu initiieren, wählt man zuerst eine Hadoop-Distribution von einem der vier großen Anbieter (Hortonworks, Cloudera, MapR, Pivotal) und richtet diese in der Cloud ein. Dafür ist keine Hardware erforderlich. Im nächsten Schritt sucht man sich eine Lösung für Datenintegration und -qualität aus, um damit Daten aus allen Quellen in Hadoop zu bringen, und innerhalb von Hadoop umzuwandeln. Optional benötigt man vielleicht eine NoSQL-Datenbank. Danach, je nach Anwendungsfall, extrahiert man entweder mittels Datenintegration die zu analysierenden Daten aus Hadoop und sendet sie an sein normales BI- beziehungsweise Berichtstool oder wählt ein spezielles BI-Tool für Big Data aus. Man wird auch in das Know-how der Mitarbeiter investieren müssen, aber dank neuer Werkzeuge ist die Komplexität von großen Daten schon deutlich zurückgegangen.

IT-DIRECTOR: Welche Kosten machen Ihrer Ansicht nach dabei den größten Batzen aus, und warum?
Y. de Montcheuil:
Durch die Verbreitung von Cloud-Installationen hat sich der größte Kostenblock erheblich reduziert. Die meisten Tools im Big-Data-Umfeld sind Open Source. Das bedeutet, dass sie kostenlos heruntergeladen werden können. Wenn das nicht der Fall ist, lassen sie sich meist in einer „Sandbox“ unter die Lupe nehmen. Wenn Kunden zu unterstützten Enterprise-Versionen übergehen möchten, lassen diese sich in der Regel in der Cloud einrichten, was die Investitionen minimiert.

IT-DIRECTOR: Bitte nennen Sie uns eine Größenordnung für die Kosten der aufgezählten Komponenten.
Y. de Montcheuil:
Die meisten Komponenten sind frei verfügbar. Für ein paar tausend Euro im Monat – oder sogar weniger – kann man sie in der Cloud nutzen.

Welche Anschaffungen sind für reibungslose Big-Data-Analysen Pflicht? Auf welche könnte man eher verzichten bzw. an welcher Stelle könnte man vorhandene (Alt-)Systeme nutzen?
Y. de Montcheuil:
Big-Data-Plattformen ersetzen alte Analyseplattformen üblicherweise nicht, sondern ergänzen sie, indem sie neue Datenquellen zugänglich machen und neue Arten von Analysen ermöglichen. Als Basis sind eine Hadoop-Distribution und Big-Data-Integration unbedingt erforderlich. NoSQL-und Big-Data-BI sind nicht immer notwendig, ihr Einsatz hängt vom jeweiligen Projekt ab.

IT-DIRECTOR: In der Praxis treffen wir aktuell immer wieder auf Anwender, die bereits in Big-Data-Lösungen investiert haben. Allerdings wissen viele davon nicht, was sie mit den Analysetools anfangen sollen. Was geben Sie diesen Anwendern mit auf den Weg?
Y. de Montcheuil:
Sie sollten klein anfangen und ihre Daten erforschen, um ein paar schnelle Erfolgserlebnisse zu schaffen, die den Wert der Technologie demonstrieren. Am wichtigsten ist es, die Möglichkeiten des Projekts nicht zu übertreiben. Man sollte auch nicht erwarten, alle Fragen einer Organisation damit zu lösen. Aber man kann vielleicht mit wenig Aufwand ein paar Gebiete finden, in denen neue Analysen helfen können. Oder einen Bereich, in dem der Zugang zu mehr Daten in nahezu Echtzeit positive Auswirkungen auf das Geschäft hat. Auf solche sollte man sich zunächst konzentrieren. Sehr bald werden dann Mitarbeiter mit Anfragen und Ideen kommen und das Projekt wird von allein wachsen.

IT-DIRECTOR: Welche Algorithmen erweisen sich im Rahmen von Big-Data-Analysen dabei als besonders sinnvoll?
Y. de Montcheuil:
Das hängt von der Branche ab. Für Finanzinstitute sind beispielsweise Muster zur Betrugserkennung nützlich. Bei Versicherungen geht es um Risiken. Aber nicht alle Big-Data-Projekte beschäftigen sich mit komplexer Verarbeitung. Meist geht es um den Zugriff auf mehr Daten – sowohl in Bezug auf die Menge als auch die Vielfalt.

IT-DIRECTOR: Können Sie uns ein kurzes Beispiel für die erfolgreiche Anwendung von Big-Data-Analysen beschreiben?
Y. de Montcheuil:
Buffalo Studio, eine Tochtergesellschaft von Caesars Interactive Entertainment, betreibt ein Online-Bingo-Spiel. Sie haben jeden Monat mehrere Millionen aktiver Nutzer und müssen 10.000 Ereignisse pro Sekunde und mehr als 100 GB an Daten täglich verarbeiten. Sie setzen Big-Data-Analysen ein, um nahezu in Echtzeit die Wirksamkeit neuer Funktionen zu messen (positiv oder negativ). Dann entscheiden sie, welche Funktionen sie einrichten, ändern oder erweitern, um das Gaming-Erlebnis ihrer Kunden zu verbessern und damit Kundenwachstum und -bindung zu erhöhen.

IT-DIRECTOR: Big-Data-Analysen können auf strukturierten wie unstrukturierten Daten basieren. Insbesondere letztere werden gerne zur Auswertung des Kundenverhaltens herangezogen. Wie kann man dafür sorgen, dass solche Auswertungen weder Compliance-Vorgaben noch die Privatsphäre von Kunden verletzen?
Y. de Montcheuil:
Hier gelten dieselben Regeln wie in der Zeit vor Big Data. Je nach Land, muss die Zustimmung der Kunden eingeholt, Zugang zu den Daten für den Verbraucher ermöglicht werden etc. Aber es ist extrem wichtig, sehr vorsichtig vorzugehen und die unbeabsichtigte Verwendung von Daten zu vermeiden. Es gibt eine rote Linie, bei der man aufpassen muss, ihr zwar nahe zu kommen, sie aber auf keinen Fall zu überschreiten.

IT-DIRECTOR: Wer in den Unternehmen sollte überhaupt mit solchen Daten Analysen durchführen dürfen? Worauf gilt es, bei der Vergabe von Nutzerrechten sowie generell beim Nutzermanagement, besonders zu achten?
Y. de Montcheuil:
Es gibt keine einheitliche Antwort. Diese Frage kann man in allen Branchen und für alle Datentypen stellen. Am besten stellt man sicher, dass die Anwender geschult werden, was in Bezug auf die Daten vertretbar ist und was nicht. Bei Nachfragen sollte ein internes Ethikkomitee bereit stehen, das mit den Anwendern konstruktiv zusammenarbeitet und nicht gegen alles ein Veto einlegt oder sie drangsaliert, wenn sie auch einmal verrückte Ideen auf den Tisch bringen.

IT-DIRECTOR: Was denken Sie: Mit welchen Big-Data-Analysen überschreiten Unternehmen bereits heute bzw. könnten sie in Zukunft schnell ethische und gesetzliche Grenzen überschreiten?
Y. de Montcheuil:
Ein Anbieter von Navigationslösungen hat in den Niederlanden anonymisierte Geschwindigkeitsdaten an die Polizei verkauft, damit diese entscheiden konnte, wo sie Radarfallen aufbaut. Das war nicht illegal – aber war es ethisch korrekt? Radarfallen sorgen für weniger Unfälle, kosten die Autofahrer aber Geld! Target hat in den USA (angeblich) bestimmte Werbung nur an Schwangere gerichtet. War das ethisch vertretbar? Die Antwort darauf fällt ganz unterschiedlich aus, je nachdem, ob sie Vater eines schwangeren Teenagers sind oder eine junge Familie, die glücklich ist, wenn sie einen Rabatt auf einen neuen Kinderwagen bekommen kann. Es gibt keine einfachen Antworten auf ethische Fragen in diesem Bereich. Wahrscheinlich werden Gerichte die rechtlichen Aspekte beantworten, aber das wird noch eine Weile in Anspruch nehmen.

©2020Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok