11.10.2017 Bitwise: Hadoop-Adapter für Host-Daten

„Big Data“ meets Cobol

Von: Berthold Wesseler

Das amerikanische Softwarehaus Bitwise hat jetzt einen Hadoop-Adapter vorgestellt, mit dem Cobol-Programme auf dem System i (oder auch auf dem Mainframe) auf die sogenannten „Daten-Seen“ zugreifen können. Dabei wandelt der Adapter die Host-Daten im Ebcdic-Format in das Hadoop-freundliche Datenformat Ascii um und nutzt auch die Apache-Standards Avro oder Parquet.

Bildquelle: Thinkstock / iStock

Der neue Adapter soll die Einbindung vorhandener Cobol-Programme in moderne Analytics-Anwendungen oder in Szenarien des Cognitive Computing erleichtern. Das 1996 gegründete und in Chicago beheimatete Sofwarehaus Bitwise will damit die wichtigen Host-Daten mit den von Hadoop verwalteten „Data Lakes“ so kombinieren, dass auch wichtige Stamm- oder Produktdaten aus db2 for i oder vom Großrechner in Hadoop bereitstehen und die Analyse-Ergebnisse schneller bereitstehen, weil alle Daten in einem Schritt in diese Analyse einfließen.

Zwar konvertieren viele marktgängigen ETL-Tools bereits heute schon die Daten vom Ebcdic- ins Ascii-Format, allerdings bisher noch auf dem Host bzw. in ihrer eigenen Infrastruktur und nicht nativ auf Hadoop. Das bringt laut Bitwise zwei Probleme mit sich:

  1. Kosten, weil für diese ETL-Tools entsprechend aufwendige Hardware-Systeme, teure Software-Lizenzen und eigene Expertise notwendig ist.
  2. Performance-Probleme wegen der schieren Datenmenge, sobald die ETL-Tools nicht mehr vernünftig skalieren und die Konvertierung zum Engpass wird, weil sie außerhalb von Hadoop erfolgt.

Ein drittes Problem kann dann entstehen, wenn die Datenstrukturen der Cobol-Programme sehr komplex und verschachtelt sind. Cobol-Kenner wissen um mögliche Ursachen: Copy Books mit Compfields (Stichwort: Komprimierung), Platzhalter und verschachtelte Arrays oder „Redefines“ im Flatfile, die eine schnelle und akkurate Code-Übersetzung sehr schwierig machen können. Hier springt der Hadoop-Adapter von Bitwise ein, der einerseits die komplexen Datenstrukturen der Cobol-Programme „versteht“ und andererseits diese Daten Hadoop-gerecht konvertiert und abspeichert. Das heißt: Nicht nur im Ascii-Format, sondern auch im spaltenorientierten Haadop-Format Parquet und gemäß den Avro-Standards.

Avro ist ein Remote-Procedure-Call- und Serialisierungs-Framework, das für Hadoop entwickelt worden ist und mit JSON arbeitet, um Datentypen und Protokolle zu definieren. JSON wird neuerdings auch vollständig von db2 für i unterstützt. Die eigentlichen Daten werden in einem kompakten Binärformat serialisiert, das auch als Datenübertragungsformat für die Kommunikation zwischen Hadoop-Knoten untereinander sowie zwischen Hadoop-Services und Client-Programmen verwendet werden kann.

Dank der Unterstützung von Parquet und Avro verspricht Bitwise höhere Effizienz und bessere Wirtschaftlichkeit als klassische ETL-Anbieter. Der neue Adapter wird von Bitwise sowohl stand-alone angeboten als auch eingebaut in die Open-Source-basierte ETL-Umgebung Hydrograph, mit der sich eine hochintegrierte Middleware-Lösung auf Basis von Hadoop und dem Cluster-Computing-Framework Spark aufbauen lässt.

Bildquelle: Thinkstock / iStock

©2017 Alle Rechte bei MEDIENHAUS Verlag GmbH