Intelligente Big-Data-Analysen

Was bringt die Zukunft für Hadoop?

Im Interview erläutert Herb Cunitz, President von Hortonworks, die Zukunftsaussichten für Hadoop und wie intelligente Big-Data-Analysen künftig die Unternehmens-IT durchdringen werden.

  • Was bringt die Zukunft für Hadoop?

    Was bringt die Zukunft für Hadoop?

  • Herb Cunitz, Hortonworks

    Herb Cunitz, President von Hortonworks

IT-DIRECTOR: Herr Cunitz, in den letzten Jahren gab es weitreichende Entwicklungen im Hadoop-Markt. Wie sieht die Zukunft für Apache Hadoop aus?
H. Cunitz:
Unternehmen wie Microsoft, HP, SAP und Pivotal haben Hadoop inzwischen zu einem festen Bestandteil ihrer modernen Datenarchitektur gemacht und arbeiten mit verschiedenen kommerziellen Distributoren zusammen. Auch große Anbieter, die bisher abgewartet haben, werden sich jetzt beteiligen und im Marktausbau engagieren, denn es wird immer schwieriger, diesen Weg alleine zu gehen und gleichzeitig Einfluss auf die Entwicklungen in der Hadoop-Umgebung zu nehmen.

IT-DIRECTOR: Wie sehen Sie hierbei Ihr Unternehmen aufgestellt?
H. Cunitz:
Wir sind erfolgreich, da wir die größte Zahl von Apache-Hadoop-Anwendern in der Community zusammengebracht haben. Die Gründung der Open Data Platform (ODP) durch uns mit Partnern wie GE, IBM, Pivotal oder Teradata, ist eine wichtige strategische Weichenstellung für die Zukunft von Hadoop.

Mit dieser Plattform wurde ein gemeinsamer Kern von Apache-Technologien (z.B. Hadoop, Yarn, Ambari) definiert, auf dessen Grundlage Unternehmen professionelle Lösungen testen, zertifizieren und realisieren können. Alle ODP-Mitgliedsunternehmen bieten nun die gleiche ODP-Kernversion von Apache Hadoop 2.6 und Apache Ambari an. Dies soll allerdings keine Entwicklungen in der Apache Software Foundation ersetzen, was in der bisherigen Form vollständig bestehen bleibt.

IT-DIRECTOR: Welche neuen Technologien und Entwicklungen für Hadoop können die Anwender erwarten?
H. Cunitz:
Hadoop entwickelt sich besonders in den Bereichen Sicherheit, Governance und Operations weiter. Überdies verbessert die Community diese Fähigkeiten ständig weiter, um mehr Unternehmensanforderungen erfüllen zu können.

Vor diesem Hintergrund haben wir etwa Anfang 2015 die Data-Governance-Initiative (DGI) mit Kunden und Partnern wie Aetna, Target, Merck und SAS ins Leben gerufen, um den Wünschen nach mehr Governance Rechnung zu tragen sowie eine erweiterungsfähige Open-Source-Grundlage zu erarbeiten.

Darüber hinaus haben wir mit der Übernahme der Firma XA Secure das Framework „Apache Ranger“ realisiert. Ranger bietet umfassende Sicherheit im Hadoop-Cluster und damit zentrale Sicherheitsfunktionen für Autorisierung, Administration und Audit. Auch Apache Ambari wird mit seiner fortschreitenden Weiterentwicklung den erforderlichen operativen Rahmen bieten, um die Bereitstellung, das Management und die Überwachung von Hadoop-Clustern zu vereinfachen. Jede dieser Weiterentwicklungen wird dazu beitragen, dass Apache Hadoop flächendeckend in datenorientierten Unternehmen eingesetzt werden kann.

IT-DIRECTOR: Sollten mit der zunehmenden Entwicklung der Hadoop-Umgebung alle Anwendungen letztlich umgestellt werden? Gibt es machbare Zwischenschritte?
H. Cunitz:
Genau dafür gibt es Yarn, das zentrale Element unserer Plattformarchitektur. Unternehmen können mittels Yarn ihre bevorzugten Datenverarbeitungssysteme nutzen, um mehrere Applikationen auf einem gemeinsamen Datenset aufzubauen. Es war eine wichtige Erweiterung für Hadoop 2.0, da es die Handhabung gemischter Anwendungen auf der Plattform ermöglichte. Hierdurch wurde Hadoop von einer Single Workload MapReduce-/Batch-Only-Plattform zu einer Multi-Workload-Plattform, die auch interaktive sowie Streaming- und Echtzeitzugriffe handhaben kann.

IT-DIRECTOR: Stichpunkt „Industrie 4.0“: Welche Auswirkungen hat Hadoop auf Unternehmen in diesem Sektor und wie können sie von Big Data profitieren?
H. Cunitz:
Egal wie verschieden ihre Produkte im Detail sind, jeder Hersteller hat das Ziel sein Produktionsvolumen zu steigern und dabei gleichzeitig die Kosten- und Qualitätsfaktoren zu verbessern. Seitens der Lieferkette reduzieren Sensoren und RFID-Etiketten die Kosten für die Erfassung von Supply-Chain-Daten, während Hightech-Produzenten über Sensoren Daten in kritischen Abschnitten des Fertigungsprozesses erfassen und eventuelle Probleme hierdurch frühzeitig erkennen können. Auch die Transparenz der Vorgänge wird verbessert, da die Produzenten forensische Prüfungen an fehlerhaften Produkten durchführen und diese Daten mit den Daten von der Produktion vergleichen können.

Hadoop speichert die in diesen Prozessen generierten und ständig in großem Umfang eintreffenden unstrukturierten Daten. So erhalten die Hersteller mehr Einblicke in ihre Abläufe und können große Muster erkennen, die in kürzeren Erfassungszeiträumen eventuell nicht sichtbar werden. Da in den heutigen komplexen Produktionsprozessen eine Störung einer einzigen Maschine eine gesamte Fertigungsstraße lahmlegen kann, ist auch die Unterstützung der proaktiven Anlagenwartung ein wichtiger Aspekt. Maschinen-Lernalgorithmen können Wartungsmaßnahmen und Maschinendaten für jeden Anlagenteil mit der zugehörigen Störungshistorie abgleichen und aus diesen Daten dann optimale Wartungspläne ableiten.

IT-DIRECTOR: Was sind derzeit die größten Anliegen Ihrer Kunden?
H. Cunitz:
Die IT-Verantwortlichen wissen, dass Hadoop ein Bestandteil ihrer modernen Datenarchitektur wird. Viele haben als ersten Schritt ihre Rechenzentren optimiert oder neue analytische Applikationen eingeführt und die Anwendungsgebiete von hier aus rasch erweitert. Mit zunehmender Verwendung von Hadoop auf Firmenebene müssen bestimmte Anforderungen im Hinblick auf Sicherheit, betriebliche Abläufe und Governance erfüllt werden.

Wichtig ist auch zu verstehen, dass Hadoop vorhandene Investitionen in IT-Infrastruktur nur ergänzt und nicht ersetzt, damit die Kunden mehr Daten zu ihrem Vorteil nutzen können. Das von uns aufgebaute, breite Partnernetzwerk leistet ebenfalls einen Beitrag dazu, dass Hadoop mit Technologien unserer strategischen Partnern wie Microsoft, Redhat, HP, Teradata, SAP und SAS zusammenarbeitet. Diese Anbieter bleiben weiterhin in gemeinsame Entwicklungsprojekte eingebunden, um die nahtlose Integration zwischen den Technologien sicherzustellen.

IT-DIRECTOR: Thema „Governance“: Wie genau werden die Daten für die Analyse genutzt? Gibt es ein Problem mit dem Datenschutz? Können anonymisierte Daten verwendet werden?
H. Cunitz:
Wir kennen die Herausforderungen im Hinblick auf die Governance im Hadoop-Umfeld sehr genau, etwa dass jedes Projekt derzeit eigene Strukturen für Datenverarbeitung und Metadaten verwendet. Zur Lösung dieses Problems wurde unter unserer Führung die bereits erwähnte Data-Governance-Initiative geschaffen, um die weitere Vorgehensweise für die Umsetzung eines umfassenden Konzeptes im Hadoop-Umfeld festlegen und mit bestehenden Governance-Frameworks verbinden können.

Auf dem Hadoop Summit in Brüssel haben wir hierfür einen neuen Projektvorschlag namens Apache Atlas vorgestellt. Atlas soll Datenklassifizierung, zentrales Auditing sowie Such- und Abstammungsfunktionen über eine spezielle Security-/Policy-Engine ermöglichen.

Hadoop-Governance bedeutet für uns vor allem, flexible und leistungsstarke Metadaten-Services sowie ausführliche Audit-Speicherung und eine fortschrittliche Policy-Engine anzubieten. Weitere wichtige Bereiche für uns sind Daten-Lifecycle-Management, globale Sicherheitsrichtlinien und die transparente Gestaltung auf den Datenzugriff innerhalb von Hadoop. Datenschutzvorschriften und die Verwendung anonymisierter Daten bleiben jedem Unternehmen, das Hadoop verwendet, selbst überlassen. Es liegt in der Verantwortung des Endanwenders, bei der Gestaltung ihrer Datenbestände die geltenden Compliance-Bestimmungen und gesetzlichen Vorschriften zu berücksichtigen.

Bildquelle: Thinstock/Stockbyte

©2019Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok