Interview mit Stefan Weidner, SGI

Warum Hadoop?

Interview mit Stefan Weidner, Technical Services Manager Central Europe bei SGI, über den Einsatz von Hadoop zur Auswertung großer Datenmengen

Stefan Weidner, SGI

Stefan Weidner, Technical Services Manager Central Europe bei SGI

IT-DIRECTOR: Herr Weidner, warum sollten sich Unternehmen mit dem Thema ­Hadoop beschäftigen?
S. Weidner:
Grundsätzlich spielt Hadoop drei Vorteile gegenüber klassischen Datenbanksystemen aus. Es ist schneller bei ausreichend großer Datenmenge durch Parallelisierung der Bearbeitung. Die Daten können in einem unstrukturierten Format vorliegen und trotzdem noch genutzt werden. Während bei relationalen Datenbanksystemen das Schema zur Speicherung der Daten vor der Speicherung der Daten bekannt und definiert sein muss, ist dies bei Hadoop nicht notwendig. Vielmehr lege ich das Schema zum Zeitpunkt der Abfrage immer neu fest und bin dementsprechend flexibler.

IT-DIRECTOR: Warum ist gerade Hadoop beziehungsweise der Algorithmus „MapReduce“ so interessant für die Auswertung großer Datenmengen?    
S. Weidner:
„MapReduce“ bietet die Möglichkeit, auf Basis eines existierenden und bewährten Frameworks wie Hadoop Software zur Analyse beliebig großer Datenmengen zu entwickeln. Es entlastet die Entwickler von der Aufgabe, die Bearbeitung und Verarbeitung der Datenmenge mit entwickeln zu müssen. Man kann sich auf die eigentliche Analyseaufgabe beschränken, ohne die Skalierung des Systems beherrschen zu müssen.

IT-DIRECTOR: Welche hardwareseitigen Voraussetzungen sind erforderlich?
S. Weidner:
Kleinere In­stallationen beginnen mit einer ­Anzahl von ca. 100 Servern. Bei einigen unserer Großkunden sind mehrere 10.000 Server hierfür im Einsatz. Da Hadoop interne Möglichkeiten bietet, sich gegen Datenverlust und -beschädigung abzusichern, wird in den Servern selbst auf Redundanz verzichtet und der Server hierdurch kostenoptimiert.

IT-DIRECTOR: Welche Kosten fallen bei der Installation, welche beim Betrieb an?
S. Weidner:
Die Hardware besteht oft nur aus ein bis zwei CPUs, einer relativ geringen Menge an RAM, zwei Festplatten pro Server einfacher Bauart ohne RAID-Controller und üblicherweise einer Gigabit-Ethernet-Anbindung. Als Betriebssystem für solche Serverumgebungen kommen in der Regel Suse oder Redhat zum Einsatz. Hinzu kommt Hadoop als ein auf Open Source basierender Software-Stack. Einige Kunden wünschen sich hier jedoch schon Service und Support aus einer Hand für die Hard- und Software. Über einen Zeitraum von drei Jahren muss man auch den Stromverbrauch im Auge behalten; dieser kann in diesem Zeitraum die Kosten für die Anschaffung übersteigen.

IT-DIRECTOR: Inwieweit lassen sich bestehende BI-Systeme für solche Szenarien erweitern?
S. Weidner:
In nahezu allen Fällen im ersten Schritt durch eine Erweiterung der bestehenden Storage-Infrastruktur durch eine Hadoop-Umgebung. Entweder unterstützt der Lieferant des Data-Warehouse-Systems ­HDFS (Hadoop Filesystem) bereits als native Datenbasis oder es werden Gateways zur Anbindung genutzt.

IT-DIRECTOR: Gibt es Alternativen?
S. Weidner:
Hadoop ist nicht für jedes Problem die richtige Lösung. Hadoop löst mehrere Probleme nicht. Hadoop sollte nicht als reine Storage-Plattform oder gar als Archiv-Plattform missbraucht werden. Objektbasierte Storage-Ansätze eröffnen überall dort neue Möglichkeiten, wo Amazon (AWS) kompatible S-3-Storage-Umgebungen benötigt werden oder man dem Kunden Cloudstorage als Leistung und Produkt zur Verfügung stellen will.

 

Apache Hadoop...

...ist ein in Java programmiertes Framework für skalierbare, verteilt arbeitende Software. Die Open-Source-Software verspricht, rechenintensive Prozesse mit großen Datenmengen zu bewältigen. Basis ist ein Algorithmus von Google: „MapReduce“, ein Framework für nebenläufige Berechnungen über große Datenmengen auf Computer-Clustern.

©2019Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok