Open Source für die Datenanalyse

Data Mining mit Hadoop – ein Leitfaden

Mit der zunehmenden Zahl von Datenquellen, die praktisch bei jeder Interaktion Daten generieren, kann es für fast jedes Unternehmen finanziell interessant werden, Data Mining zu betreiben. Doch inwieweit eignet sich die Open-Source-Plattform Hadoop für eine intelligente Datenanalyse?

Mittels Data Mining auf Basis von Hadoop haben die Unternehmen sämtlich Datenquellen im Griff.

Nicht nur Early Adopter wie Finanzdienstleister, Versicherungswesen und der Einzelhandel nutzen Data Mining, auch Stromversorger und Anbieter im Gesundheitswesen setzen die Technologien ein: So kann mittels in Namensschilder integrierten RFID-Chips kontrolliert werden, wie oft sich Ärzte bei der Visite die Hände waschen, was wiederum die Ausbreitung von Krankheiten verhindern kann.

Generell verfügen die meisten Unternehmen bereits über eine Form von Data Warehouse (DW). Damit könnten sie also schnell im angemessenen Rahmen mit der Datenerfassung und -speicherung beginnen und von der Datenanalyse profitieren. Die entsprechenden Architekturen für Data Mining boten bisher nur einige große Unternehmen wie IBM, Microsoft oder SGI an. Inzwischen werden jedoch auch Open-Source-Lösungen immer leistungsfähiger und beliebter, die vielversprechendste von ihnen ist das Apache-Hadoop-Framework.

Vorteile der Hadoop-Nutzung

Apache Hadoop ist eine Kernkomponente jeder „Modern Data Architecture“ und erlaubt es, große Datenmengen gemäß ihrem eigenen Bedarf zu erfassen, zu speichern, auszuwerten und zu bearbeiten – unabhängig davon, aus welcher Quelle diese Daten stammen, wie alt sie sind, wo sie gespeichert sind oder in welchem Format sie vorliegen. Anbeiter wie Hortonworks bieten ihren Kunden beispielsweise Architekturen auf Hadoop-Basis an, da es verschiedene Vorteile bietet:

  • „Besser für Big Data“: Hadoop wurde speziell für die Analyse großer Mengen von unstrukturierten Daten entwickelt und erfordert weniger Ressourcen für das Data Mining, sodass es eine gute Alternative für Big-Data-Einsatzmöglichkeiten bietet.
  • Augmentation und Integration: Die meisten Unternehmen müssen ihre Systeme modernisieren, um größere Datenmengen für komplexere Data-Mining-Verfahren wie Web- oder Text-Mining sowie die vorausschauende Analytik zu verwenden. Statt die komplette Infrastruktur zu ersetzen, beginnt man zumeist mit der Optimierung mit Hadoop, da sich hiermit die vorhandene DW-Struktur weiter ausbauen lässt. Hadoop lässt sich mit den meisten Programmen implementieren und kann in fast alle Codesprachen im Hadoop-Framework eingesetzt werden. Die gewonnenen Daten können dann mit Standardprogrammen wie Microsoft Excel einfach darstellt werden.
  • Lineare Skalierbarkeit: Wenn größere Datenmengen zur Verfügung stehen, lässt sich die handelsübliche Hardware zur Ausführung der Hadoop-Cluster leicht aufrüsten. Da zur Ausführung keine Spezialsysteme erforderlich sind, können neue Server zu geringen Kosten hinzugefügt werden. Ein Fehler wäre es demnach, auf die Einführung von Data Mining zu verzichten, weil der anfängliche Investitionsaufwand um den Faktor zehn zu hoch eingeschätzt wird.
  • Kreativität ist gefragt: Ein weiterer wichtiger Schritt besteht darin, die Daten nicht „einzukochen“, d. h. eventuell gar nicht alle Daten zu nutzen und zu speichern oder sogar einen Großteil der verfügbaren Daten als unnütz zu verwerfen. Somit bleiben Auswertung und Interpretation der gesammelten Daten weiterhin Schlüsselfaktoren und müssen im Auge behalten werden.

Im Einzelhandel beschränkte man sich lange auf die Analyse des Warenkorbes als Kontrolle der Verkäufe, um den Warenbestand zu regulieren. Die Verfügbarkeit neuer Daten wie z.B. GPS-Geo-Ortungsdaten bei Smartphones erlaubt außerdem die Analyse des Verhaltens der Kunden und Bewegungspfade im Laden. Dies ermöglicht wiederum die Gestaltung des Warenangebotes, um die häufigsten Zugriffskanäle optimal zu nutzen.

Neue Anwendungen infolge der erhöhten Verfügbarkeit von Daten finden sich auch im Facility Management. Früher wurden hier Daten vorwiegend dazu genutzt, um die Temperatur im Gebäude gleichbleibend zu halten. Durch neue Datenquellen besteht die Zielsetzung heute darin, die Klimatisierung nur dann zu aktivieren, wenn sich Mitarbeiter über ihre Chipkarte Zugang zum Gebäude verschaffen und in leerstehenden Teilen des Gebäudes können Beleuchtung und Klimatisierung dann vollständig ausgeschaltet bleiben. Dasselbe System kann auch die Temperatur in den einzelnen Büros auf exakt den Wert einstellen, den der betreffende Mitarbeiter gewöhnlich bevorzugt, so dass hier zusätzlich zu einer (kostensparend) vorausschauenden Regelung auch ein hoher Komfort gewährleistet wird.

* Der Autor Jim Walker ist Director of Product Marketing bei Hortonworks und spezialisiert auf Open-Source-Geschäftsmodelle sowie die Weiterentwicklung und Integration von Apache Hadoop.

Bildquelle: Thinkstock/iStockphoto

©2020Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok