Bitwise: Hadoop-Adapter für Host-Daten

„Big Data“ meets Cobol

Das amerikanische Softwarehaus Bitwise hat jetzt einen Hadoop-Adapter vorgestellt, mit dem Cobol-Programme auf dem System i (oder auch auf dem Mainframe) auf die sogenannten „Daten-Seen“ zugreifen können. Dabei wandelt der Adapter die Host-Daten im Ebcdic-Format in das Hadoop-freundliche Datenformat Ascii um und nutzt auch die Apache-Standards Avro oder Parquet.

Bildquelle: Thinkstock / iStock

Der neue Adapter soll die Einbindung vorhandener Cobol-Programme in moderne Analytics-Anwendungen oder in Szenarien des Cognitive Computing erleichtern. Das 1996 gegründete und in Chicago beheimatete Sofwarehaus Bitwise will damit die wichtigen Host-Daten mit den von Hadoop verwalteten „Data Lakes“ so kombinieren, dass auch wichtige Stamm- oder Produktdaten aus db2 for i oder vom Großrechner in Hadoop bereitstehen und die Analyse-Ergebnisse schneller bereitstehen, weil alle Daten in einem Schritt in diese Analyse einfließen.

Zwar konvertieren viele marktgängigen ETL-Tools bereits heute schon die Daten vom Ebcdic- ins Ascii-Format, allerdings bisher noch auf dem Host bzw. in ihrer eigenen Infrastruktur und nicht nativ auf Hadoop. Das bringt laut Bitwise zwei Probleme mit sich:

  1. Kosten, weil für diese ETL-Tools entsprechend aufwendige Hardware-Systeme, teure Software-Lizenzen und eigene Expertise notwendig ist.
  2. Performance-Probleme wegen der schieren Datenmenge, sobald die ETL-Tools nicht mehr vernünftig skalieren und die Konvertierung zum Engpass wird, weil sie außerhalb von Hadoop erfolgt.

Ein drittes Problem kann dann entstehen, wenn die Datenstrukturen der Cobol-Programme sehr komplex und verschachtelt sind. Cobol-Kenner wissen um mögliche Ursachen: Copy Books mit Compfields (Stichwort: Komprimierung), Platzhalter und verschachtelte Arrays oder „Redefines“ im Flatfile, die eine schnelle und akkurate Code-Übersetzung sehr schwierig machen können. Hier springt der Hadoop-Adapter von Bitwise ein, der einerseits die komplexen Datenstrukturen der Cobol-Programme „versteht“ und andererseits diese Daten Hadoop-gerecht konvertiert und abspeichert. Das heißt: Nicht nur im Ascii-Format, sondern auch im spaltenorientierten Haadop-Format Parquet und gemäß den Avro-Standards.

Avro ist ein Remote-Procedure-Call- und Serialisierungs-Framework, das für Hadoop entwickelt worden ist und mit JSON arbeitet, um Datentypen und Protokolle zu definieren. JSON wird neuerdings auch vollständig von db2 für i unterstützt. Die eigentlichen Daten werden in einem kompakten Binärformat serialisiert, das auch als Datenübertragungsformat für die Kommunikation zwischen Hadoop-Knoten untereinander sowie zwischen Hadoop-Services und Client-Programmen verwendet werden kann.

Dank der Unterstützung von Parquet und Avro verspricht Bitwise höhere Effizienz und bessere Wirtschaftlichkeit als klassische ETL-Anbieter. Der neue Adapter wird von Bitwise sowohl stand-alone angeboten als auch eingebaut in die Open-Source-basierte ETL-Umgebung Hydrograph, mit der sich eine hochintegrierte Middleware-Lösung auf Basis von Hadoop und dem Cluster-Computing-Framework Spark aufbauen lässt.

Bildquelle: Thinkstock / iStock

©2019Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok