Komplexität von Hadoop im Griff

Demokratisierung von Big Data

Interview mit Christopher Hackett, Vice President Northern Europe bei Talend, darüber, wie Anwenderunternehmen die Komplexität von Hadoop in den Griff bekommen können

Christopher Hackett, Talend

Christopher Hackett, Vice President Northern Europe bei Talend

IT-DIRECTOR: Herr Hackett, seit Jahren wachsen die Datenbestände rasant, aber noch nie so schnell wie heute. In diesem Zusammenhang hört man seit Anfang letzten Jahres immer wieder von dem Begriff „Big Data“. Ist dies nur eine neue Begrifflichkeit für ein bekanntes Phänomen oder steckt mehr dahinter?
C. Hackett: Es liegt in der DNA von Unternehmen, Daten zu sammeln, um aus der Vergangenheit Trends für die Zukunft abzuleiten. Früher hieß das Business Intelligence, heute redet jeder von Big Data. Unabhängig von den Begrifflichkeiten ist die Auswertung von Unternehmensdaten für Firmen jeder Größe und aus allen Branchen sinnvoll. Je mehr man über seine Kunden weiß, umso besser kann man Services und Produkte auf diese zuschneiden.

Bei großen Organisationen hat das Volumen der Daten aber ein Ausmaß angenommen, das mit dem klassischen Data-Warehouse-Ansatz nicht mehr in den Griff zu bekommen ist. Für das exponentielle Wachstum der Daten sind viele Faktoren verantwortlich: Echtzeit-Transaktionssysteme, mobile Endgeräte, soziale Netze oder das Internet der Dinge, in dem Maschinen untereinander Informationen austauschen. Allein die Lizenzkosten für klassische Datenbanken verschlingen dabei nicht selten sechsstellige Summen, hinzukommen erhebliche Investitionen in performante Server.

IT-DIRECTOR: Nicht klassische Software-Anbieter dominieren das Thema Big Data, sondern vor allem die Open-Source-Software Hadoop. Haben die Branchengrößen hier einen Trend verschlafen oder wie konnte es dazu kommen?
C. Hackett:
Die Großen der Branche haben von der Datenflut ja ganz hervorragend gelebt: Mehr Daten bedeuten für sie automatisch höhere Lizenzeinnahmen. Wieso sollte man diese Gelddruckmaschine ohne Not abstellen?

Mit Hadoop steht jedoch eine Technologie zur Verfügung, mit der Unternehmen Big Data für sich nutzen können, ohne gleich Millionenbeträge in die Hand nehmen zu müssen. Die Software selbst ist als Open-Source-Lösung kostenlos erhältlich und für den Aufbau eines Clusters kann man handelsübliche Standardrechner nutzen. Wir haben zu Demo-Zwecken einen Cluster aus mehreren ausgemusterten Notebooks aufgebaut und bereits damit lassen sich erstaunliche Resultate erzielen. Das Budget ist bei Hadoop also nicht das entscheidende Problem. Im Prinzip kann jeder sich die Software herunterladen, einen Rechencluster aufbauen und loslegen.

IT-DIRECTOR: So einfach ist es aber wahrscheinlich dann doch nicht. Wo liegen die Schwierigkeiten bei der Einführung und dem Betrieb einer solchen Installation?
C. Hackett:
Die größte Hürde für den Einsatz von Hadoop ist die Komplexität der Technologie. Man muss nicht nur einen Hadoop-Cluster installieren und konfigurieren, sondern auch die Unterschiede zwischen HDFS, Hive und HBase, Sqoop und Flume verstehen, um Daten zu laden. Man muss HCatalog füllen, um Metadaten zu erhalten, HiveQL und Pig Latin lernen, um Daten zu verarbeiten, sowie Projekte und Patches für all diese Bereiche aktuell halten. Kaum ein Unternehmen verfügt heute über die dafür notwendigen Spezialisten. Genau darin liegt das größte Problem beim professionellen Einsatz von Hadoop.

IT-DIRECTOR: Welchen Rat würden Sie Unternehmen geben, die über den Einsatz von Hadoop nachdenken. Sollten Sie eigenes Know-how aufbauen?
C. Hackett:
Bei Autos will man ja eigentlich nicht wissen, wie es unter der Motorhaube aussieht, sondern einfach fahren. Genauso sehe ich auch Hadoop. Für die Einrichtung bieten sich Distributionen von Anbietern wie Cloudera oder Hortonworks an. Hier sind viele Schritte vorkonfiguriert und die Bedienung ist erheblich leichter. Bleibt noch das Problem mit dem Laden und Extrahieren von Daten in und aus Hadoop. Hier bieten wir mit „Talend Open Studio for Big Data“ eine Lösung, die auch an dieser Stelle Hadoop die Komplexität nimmt. Die Anwendung ist ebenfalls quelloffen und enthält Konnektoren für alle wichtigen Datenquellen. Eine grafische Entwicklungsumgebung ermöglicht die Erstellung von Integrationsjobs per Mausklick. Daraus wird dann automatisch Hadoop-Code generiert. So müssen Mitarbeiter nicht mehr alle Technologien beherrschen, sondern können sich auf die Nutzung fokussieren. Damit kommt Big Data nicht nur technologisch, sondern auch benutzerfreundlich in Unternehmen aller Größenordnung an. Wir sprechen in dem Zusammenhang hier gerne von der „Demokratisierung von Big Data“.

©2019Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok