Pentaho Data Integration bei ProSiebenSat.1

Hybride Datenarchitektur

Um schnell übersichtliche Berichte und Analysen zu erhalten, kombiniert die ­ProSiebenSat.1 Digital GmbH eine hybride Datenarchitektur mit einem klassischen ­Data Warehouse und Hadoop. Unterstützung erhält sie dabei von Inovex, einem IT-Projekthaus mit Erfahrung im Bereich Big Data sowie Pentaho-Partner.

Farben, Bildquelle: Thinkstock/iStock

Bunter Mix für schnelle Datenanalysen: eine hybride Datenarchitktur mit klassischem Data Warehouse und Hadoop

In der Vergangenheit suchte ProSiebenSat.1 Digital eine zentrale Data-Warehouse-Lösung (DWH), die die Basis für eine integrierte Betrachtung, Berichterstellung sowie Analyse von Vermarktungs- und Tracking-Daten der verschiedenen Unternehmensbereiche und Abteilungen bilden sollte. Denn die Datenhaltung des Unternehmens war zuletzt rasant gewachsen. Dabei betreuten die Abteilungen ihre eigenen Quellsysteme und erstellten auf deren Basis Analysen und Berichte. Diese dezentrale Datenhaltung brachte verschiedene Probleme mit sich. So war es zum Beispiel nur mit ­hohem manuellen und zeitlichen Aufwand möglich, Daten aus den vielen unterschiedlichen Datensilos für gesamtheitliche Berichte und Analysen zusammenzufassen.

Daher entschieden sich die Verantwortlichen dazu, eine zentrale DWH-Lösung zu suchen, die verschiedene Kriterien erfüllen musste. Eines der wichtigsten war der Umgang mit dem stetig wachsenden Datenvolumen generiert aus dem Onlinegeschäft des Unternehmens, das u.a. Webtracking- und Adserver-Daten umfasst. Wichtig war hier, dass die Lösung zukunftssicher ist, d.h. sie sollte auch die Datenwelt der Zukunft abdecken können. Damit zusammenhängend sollte die Lösung in der Lage sein, die vielen sehr unterschiedlichen Datenformate zu verarbeiten. Das Preis-Leistungs-Verhältnis war daneben ein weiterer zentraler Aspekt.

Die Inovex GmbH, ein IT-Projekthaus mit Erfahrung im Bereich Big Data und Pentaho-Partner, erkannte schnell, dass ein klassisches DWH hier rasch an seine Grenzen gelangen würde und schlug, über den eigentlichen Ausschreibungsumfang hinausgehend, ein hy­brides Konzept aus klassischer Datenbank und Big-Data-Technologien vor, bei dem sowohl die Integration der Daten in die verschiedenen Systeme als auch die Verknüpfung der Daten und die Bereitstellung für das Reporting-Frontend von Pentaho Data Integration (PDI) übernommen wird. Das Konzept überzeugte das Medienhaus und der Dienstleister wurde mit der Implementierung des Systems beauftragt.

Das IT-Projekthaus realisierte eine hybride Datenarchitektur mit einem relationalen DWH auf Basis von PostgreSQL für die Speicherung aktueller Daten sowie einem vorgelagerten Storage- und Compute-Cluster auf Basis von Apache Hadoop. Begonnen hat man mit einem Cluster aus acht Hadoop-Knoten, in denen vor allem die historischen Daten gespeichert und verarbeitet werden. Um die Installation und Konfiguration des Hadoop-Clusters zu vereinfachen, wurden Cloudera CDH Images eingesetzt.

Die Nutzung von Hadoop für die historischen Daten macht die Datenhaltung zukunftssicher, da diese einfach und kostengünstig durch Hinzufügen weiterer Knoten zu skalieren ist. Dass die Daten über die Knoten des Hadoop-Clusters verteilt redundant gespeichert werden, stellt darüber hinaus die Ausfallsicherheit des Systems sicher.

Die Datenübertragung zwischen DWH und Hadoop-Cluster sowie die Datenakquise in das Hadoop-Cluster wird mit dem Reporting-Frontend PDI durchgeführt. Dieses bietet eine native Hadoop-Integration und ermöglicht den BI-Anwendern dank grafischer Benutzeroberfläche, die komplizierten Mapreduce-Jobs, mit denen die ­Daten im Hadoop-Cluster verarbeitet werden, auch ohne Java- oder Script-Programmierkenntnisse durchzuführen. Auch Data Blending, d.h. die Kombination von Daten aus dem DWH mit den historischen Daten aus Hadoop zur weiteren Bereitstellung für das Reporting-Frontend, kann damit schnell und einfach durchgeführt werden.

Die hybride Datenarchitektur mit dem Datenintegrations-tool, das das Zusammenspiel von Big Data und relationalen Daten sicherstellt, ist seit März 2013 im Einsatz und wird kontinuierlich weiter ausgebaut.

 

Die ProSiebenSat.1 Digital GmbH …
… ist als Multimedia-Unternehmen der ProSiebenSat.1 Group für neue digitale Medienangebote zuständig. Das Unternehmen betreibt u.a. mit der ProSiebenSat.1 Networld (z.B. Sat1.de, ProSieben.de, Myvideo.de, Lokalisten.de) eines der führenden Onlinenetzwerke in Deutschland. Mit 20 verschiedenen Marken bildet man zudem das größte deutsche Netzwerk mobiler Internetseiten. Das Unternehmen hat seinen Firmensitz in Unterföhring bei München.
Im Internet: www.prosiebensat1digital.de

 

Bildquelle: Thinkstock/iStock

©2019Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok