Rivalen oder Kollegen?

Big-Data-Technologien Hadoop und NoSQL

Mit einer Hadoop-Plattform lassen sich Daten aus verschiedenen Quellen integrieren und auch riesige Datenvolumen verarbeiten. Daneben gehört auch NoSQL zu den Big-Data-Technologien, die heute in Unternehmen eingesetzt werden. Beide können große und schnell wachsende Datensets verwalten und gut mit verschiedenen Datenformaten umgehen, auch wenn diese sich über die Zeit ändern.

Sind Hadoop und NoSQL Rivalen oder Kollegen?

Rivalen oder Kollegen? – Die Big-Data-Technologien Hadoop und NoSQL im Vergleich

Beide Technologien erlauben es, herkömmliche Hardware zu nutzen und daraus einen Cluster zu bilden. Um größere Datensets zu verarbeiten, wird einfach weitere Hardware zum Cluster hinzugefügt – dies nennt sich horizontales Skalieren oder „Skalieren in die Breite“. Vertikales oder Hochskalieren dagegen würde bedeuten, bereits bestehende Server mit leistungsfähigerer Hardware zu versehen.

Sowohl NoSQL wie Hadoop verarbeiten verschiedene Datentypen, etwa Log-Dateien, Dokumente oder Rich Media, also optisch und akustisch angereicherte Inhalte. Auch strukturierte Daten, bei denen sich der Aufbau diverser Datensätze unterscheidet oder in der Zukunft ändern wird, sind keine Herausforderung.

Betrachtet man diese Überschneidungen beider Technologien, könnte man zum Schluss kommen, dass NoSQL und Hadoop direkte Konkurrenten sind. Doch obwohl für Big Data ausgelegt, unterscheiden sich beide in der Art der Workloads, die für sie bestimmt sind.

NoSQL liefert üblicherweise interaktiven Datenzugriff in Echtzeit. Anwendungsszenarien dieser Technologie beinhalten oft Interaktionen mit dem Nutzer, etwa in Webanwendungen; im Grunde ist ihr Vorzug, dass sie Daten sehr schnell lesen und schreiben kann.

Hadoop dagegen bewältig enorme Datenmengen. Dazu werden die Datenberge aufgeteilt, die Verarbeitung erfolgt meist parallel auf mehrere Server verteilt. Hadoop erledigt diese Arbeitsteilung mittels der MapReduce-Methodik. Da jeder Server ein Subset des gesamten Datensatzes beinhaltet, bringt MapReduce die Verarbeitung so nah wie möglich an die Daten heran, um verlangsamende Netzwerkzugriffe zu vermeiden.

In jeder Umgebung mit echten Big-Data-Ansprüchen sollten Hadoop und NoSQL daher zusammen eingesetzt werden. In einer typischen Architektur kümmert sich der NoSQL-Teil um interaktive Daten, der Hadoop-Cluster besorgt die Datenverarbeitung und groß angelegte Analyse. NoSQL kann etwa Nutzertransaktionen, Sensordaten oder Kundenprofile verwalten. Hadoop kann diese Daten analysieren und daraus verschiedene Empfehlungen generieren, Predictive Analytics durchführen oder Betrugsversuche aufdecken.

Zwei Cluster für Big Data

Bisher waren beide Technologien meist getrennt. Für manche Unternehmen ist dies auch akzeptabel, etwa wenn sie Big Data schrittweise abarbeiten wollen – sozusagen im Batch-Verfahren – oder ihnen zeitkritische Ergebnisse weniger wichtig sind. Diese Unternehmen können mit der Trennung von Hadoop- und NoSQL-Work­loads gut umgehen. Dabei werden beide Technologien in getrennten Clustern gehalten. Auf der NoSQL-Seite werden dabei Daten erzeugt und aktualisiert, um sie schrittweise in „batch jobs“ auf die Hadoop-Seite zu überführen, wo die umfangreichen Analysen durchgeführt werden.

Durch die Transporte entstehen Overhead und Verzögerungen, doppelte Administrationen beider Cluster sowie eine Duplizierung von Tool Sets durch zwei Instanzen derselben Daten. Um diesen Auswirkungen entgegenzuarbeiten und Unternehmen zufrieden zustellen, die zunehmend auf eine Echtzeitbearbeitung ihrer Daten abzielen, werden Big-Data-Anbieter bald diesen unnötigen Overhead eliminieren müssen.

Es gibt bereits jetzt Lösungen für dieses Problem von Spezialisten wie MapR. Die Distribution des Unternehmens vereint Hadoop und NoSQL mandantenfähig und ausfallssicher in einer Plattform. Beide Technologien sind von Anfang an integriert; so können mehrere Workloads im selben Cluster verarbeitet werden. Durch die Zusammenführung ersparen sich Unternehmen, ihre Daten im Netzwerk hin und her zu kopieren, und senken so das Risiko, das mit mehreren getrennten Dateninstanzen einhergeht – etwa bei den Themen Governance, Administration und Sicherheit.

Ein guter Einstieg in Big Data

Big Data lässt sich heute produktiv einsetzen. Die Pionierarbeit wurde bereits geleistet, das Lehrgeld haben andere gezahlt – vor allem musste man lernen, dass die Trennung von Datensammlung und Analyse, etwa in Form der Technologien NoSQL und Hadoop, langsamere Verarbeitung und kostenintensive Dopplungen zur Folge hatte. Spätestens mit der Integration beider Technologien wird Big Data auch für Mittelständler interessant.

NoSQL und Hadoop sind keine Konkurrenten, sondern arbeiten zusammen unter dem Big-Data-Mantel und erlauben optimierte Produktionsprozesse, transparentere Qualitätsprüfung und Bedarfsanalyse in Echtzeit.

 

Bildquelle: © Thinkstock/iStockphoto

©2020Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok