Neue Rolle des Data Warehouse

Datenmanagement im Fokus

Die Rolle des Data Warehouse hat sich gewandelt; aktuelle Trends wie Big Data und ln-Memory-Computing führen zu einer Wiederbelebung des Backends.

  • Speichermanagement mit Datavard Out Board

  • Die SAP-BW-Architektur mit Nearline-Speicher

Viele Unternehmen haben in den vergangenen drei bis fünf Jahren primär die Weiterentwicklung ihres Data Warehouse zur integrierten BI-Landschaft vorangetrieben. Dabei hat sich der Fokus auf das mobile Frontend und die flexible Bereitstellung von Informationen für den Endanwender verlagert. Doch alle Geister der Vergangenheit wurden so nicht vertrieben. Ein intelligentes Datenmanagement, das Datenqualität, Performance und nutzenoptimale Speicherung entlang des gesamten Lebenszyklus einer Information gewährleistet, ist mehr denn je essentiell. Neue Technologien wie „Nearline Storage“ (NLS) eröffnen hierbei neue Möglichkeiten.

Ein „Business Warehouse“ verdient strenggenommen erst bei einer Systemgröße von über 50 Terabyte das Prädikat „Big Data“. Doch entscheidend ist nicht die absolute Größe, sondern das Datenwachstum. Wächst ein System pro Jahr um mehr als 30 Prozent, dann sollte sein Management überdacht werden, damit Kosten und Performance nicht aus dem Ruder laufen.
Es gibt viele Gründe, warum ein Data Warehouse immer größer wird. Einerseits kann das operative Datenvolumen aufgrund einer starken Zunahme der Geschäftstransaktionen und neuer nationaler und internationaler Standorte wachsen. Neben der Nachfrage der Benutzer nach mehr Daten mit zunehmender Granularität steigt auch der Nutzungsumfang durch neue Applikationen. Und auch die Sicherstellung der Hochverfügbarkeit der Daten verschlingt viel Speicherkapazität.

So benötigt ein Terabyte strukturierter Daten zehn- bis zwanzigmal so viel Speicherplatz, bedingt durch Spiegelung, Hochverfügbarkeit, Umsysteme und Backups. Andererseits spielen auch rechtliche Gründe und Regularien wie der Sarbanes-Oxley-Act für börsennotierte Unternehmen oder die „Data Retention“-Direktive der EU eine signifikante Rolle. Sie machen ein cleveres Datenmanagement nötig, das granulare Daten für eine lange Historie speichert. Die begrenzten Zeitfenster für Ladeprozesse und die nötige Performanz der Auswertungen machen aus dem Datenwachstum einen Hauptgrund für Leistungsverlust und steigende Betriebskosten.

Ungenutzte Daten blockieren Ressourcen


Zumal nicht alle Daten, die aktiv im System vorgehalten werden müssen, wertvoll sind. Eine Analyse, der „BW Fitness Test“ in über 150 Kundensystemen, zeigt, dass produktiv genutzte und berichtsfertige Daten in Info­cubes nur rund sieben bis elf Prozent der Systemgröße ausmachen. Der Rest sind Stammdaten (vier bis zehn Prozent), temporäre Daten (20 bis 31 Prozent), Daten in Datastore-Objekten (DSOs, 30 bis 48 Prozent) und Daten in Cubes, die älter als zwei Jahre sind (drei bis sieben Prozent).

Mit zunehmendem Datenvolumen nimmt der Anteil der aktiv genutzten Daten rapide ab. Gerade ältere historische („kalte“) Daten werden oftmals nur noch für eventuelle Prüfungen vorgehalten, jedoch weiter in gleicher Weise wie die aktiv genutzten (warmen und heißen) Daten verwaltet. Das heißt, ein Terabyte aktiv genutzter Daten verursacht die gleichen Kosten wie ein Terabyte unregelmäßig genutzter oder sogar ungenutzter temporärer Daten.

Diese überflüssigen Daten verursachen nicht nur hohe Betriebskosten – sie stehen zudem einer optimalen Performance des Systems im Weg. Die Folge sind Verzögerungen in den täglichen Auswertungen. Deshalb gilt es aufzuräumen, die Daten richtig zu klassifizieren, den Wert der Daten richtig einzuschätzen und dann in Einklang mit den Kosten bringen – mit Hilfe eines durchdachten „Information Lifecycle Management“.

Die Reduktion der Systemgröße und die Verlangsamung des Datenwachstums sparen direkt und indirekt Kosten bei Business Warehouse, Accelerator, Hana oder auch IBM BLU; darüber hinaus wird die Leistungsfähigkeit des Systems gesteigert und die Systemadministration erleichtert.

Ansätze für das Information Lifecycle Management


Für das Data Warehouse gibt es im Hinblick auf das physische Speichermanagement mehrere Optionen. Neben der normalen Speicherung („online“) können die Daten klassisch auf Band oder DVD archiviert werden („offline“).

Es gibt aber auch noch eine Zwischenform: die Nearline-Speicherung (NLS). Sie zeichnet sich durch zwei Eigenschaften aus: Zum einen können die Daten mit Hilfe von Komprimierung und dedizierten Systemen besonders kostengünstig vorgehalten werden. Zum anderen, und das ist für Analyse und Reporting von Bedeutung, haben die User durch die Integration der NLS-Schnittstelle in die OLAP-Engine weiterhin Zugriff auf die Daten. Sie können daher in einem ihrem Alter und ihrer Stellung im Informationslebenszyklus entsprechenden Speichermedium abgelegt werden und adressieren so die unterschiedlichen Anforderungen an die „Service Level Agreements“ (SLAs).

Der NLS-Einsatz empfiehlt sich vor allem für Infocubes und DSOs. Gerade zur Verwaltung großer Datenmengen mit ihren besonderen Anforderungen an Performance und Skalierbarkeit gibt es Konzepte, die große Verbesserungen versprechen. Um die Komplexität bei Hochverfügbarkeit, Betrieb und Systemkopien zu reduzieren, hat sich die Nutzung eines Nearline-Repositories innerhalb des Business Warehouse bewährt. Dabei erfolgt die komprimierte Ablage der NLS-Daten in spezifischen komprimierten Speicherbereichen der BW-Datenbank.

Im Zuge der Big-Data-Diskussion sind darüber hinaus Technologien wie SAP IQ und Hadoop zukunftsträchtig. Die klassische Datenarchivierung bleibt kostengünstig für alte Daten, Daten aus der Akquisitionsschicht und einige temporäre Daten. Temporäre Daten werden dabei aber nur kurz aufbewahrt und regelmäßig gelöscht. 

©2019Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok