Informatica: Fokus auf vertrauenswürdige und zugriffsbereite Daten

Data-Engineering mit i-Anschluss

Mit neuen Data-Engineering-Tools will das US-Softwarehaus Informatica es für Dateningenieure einfacher machen, saubere, zuverlässige, vertrauenswürdige und zugriffsbereite Daten für KI-, Machine-Learning- und Analytics-Initiativen auch in hybriden Cloud- und Multi-Cloud-Umgebungen bereitzustellen.

Bildquelle: Markus Spiske/Unsplash

Das neue Tool-Paket unterstützt die Integration mit der Apache/Spark-basierten Analyseplattform Databricks für solche Kunden, die eine Cloud-Plattform mit Spark, Delta Lake und Serverless-Support nutzen möchten, denn damit lassen sich Nutzer-Datensätze leicht erkennen und große Datenmengen aus verschiedenen Quellen aufnehmen.

Dank der Serverless-Funktionalität sollen die Kunden ihre Kosten für die Erstellung und Wartung von Data-Engineering-Pipelines kräftig senken können. Über Power-Exchange-Konnektoren werden dabei auch Midrange-Systeme unter IBM i, i5/OS und sogar noch OS/400 eingebunden. Zu den Produkten der neuen Suite gehören:

  • Data-Engineering-Integration für die Verwaltung von Analyse- und Machine-Learning-Pipelines mit Datenaufnahme und -verarbeitung.
  • Data-Engineering-Streaming wandelt voluminöse Streaming- und IoT-Daten in kontextualisierte Erkenntnisse mit Handlungsempfehlungen um.
  • Data-Engineering-Quality zur Datenverwaltung soll gewährleisten, dass die Daten vertrauenswürdig und relevant sind.
  • Data-Engineering-Masking anonymisiert die Daten und senkt so das Risiko bei ihrer Verarbeitung.
  • Enterprise-Data-Catalog klassifiziert und organisiert die Datenbestände in jeder Umgebung. Damit dokumentiert EDC die Historie der Daten, schützt ihren Wert und erleichtert ihre Wiederverwendung.
  • Enterprise-Data-Preparation hilft beimAuffinden und Bereitstellen von Daten in der nötigen Qualität für Analyse- und KI-Anwendungen. Daten-Analysten sind damit in der Lage, ihre Entscheidungen schneller zu treffen.
  • Mass-Ingestion erlaubt es, dass der Nutzer Daten aus einer Vielzahl von Quellen, (einschließlich Streaming-Daten, Dateien und Datenbanken) mithilfe eines Assistenten unkompliziert verwenden können.

KI-basierte Automatisierung

Bereits im vergangenen Mai hatte Informatica seine neue Data-Governance- und Privacy-Anwendung vorgestellt. Sie unterstützt Unternehmen dabei, eine Strategie für den Schutz sensibler Daten und die Einhaltung globaler Vorschriften robust umzusetzen. Und das in einer Zeit, in der immer mehr Menschen auf immer mehr Daten zugreifen und diese nutzen,

Diese End-to-End-Lösung ermöglicht die Umsetzung solcher Strategien über „Data Warehouses“, „Data Lakes“, „Data Hubs“ und Unternehmensanwendungen hinweg –und das on-premises im Rechenzentrum, in der Cloud oder in hybriden Umgebungen. Dieser ganzheitliche Ansatz erleichtert dann Self-Service-Analysen, hilft Datenwissenschaftlern, Machine-Learning-Modelle auf Basis hochwertiger Daten schneller zu entwickeln und unterstützt insgesamt die Einhaltung gesetzlicher Vorschriften. Außerdem wird die Entwicklung neuer Anwendungen mit Datenmaskierung und Testdatenmanagement beschleunigt und ein sicherer Datentransfer in die Cloud ermöglicht, inklusive Verschlüsselung und Archivierung.

„Ein starkes Data-Governance-Framework […] gewährleistet, dass Daten ordnungsgemäß gepflegt und geschützt werden“, erklärt William McKnight, President der McKnight Consulting Group. „Wachsende Datenmengen und der Wunsch nach einer schnellen Reaktion auf Geschäftsereignisse erfordern eine Plattform, die Unternehmensdaten erfolgreich und konsistent über die gesamte Unternehmensarchitektur hinweg verwalten kann.“

„Unternehmen arbeiten daran, intern eine Datenkompetenz und -demokratisierung aufzubauen“, ergänzt Jitesh Ghai, General Manager bei Informatica. „Mitarbeiter müssen auf allen Ebenen und in allen Abteilungen in der Lage sein, wichtige Erkenntnisse durch hochwertige Daten zu gewinnen. Darüber hinaus müssen sie die entsprechenden Datenschutzbestimmungen einhalten und so das Vertrauen ihrer Kunden schützen!“

Intelligente Datenkataloge

Ein wichtiger Baustein der Suite sind die „Enterprise Data Catalogs“ (EDCs), die Informatica dank Integration in die vorhandene IT-Umgebung „füttert“ und zum intelligenten Datenkatalog ausbaut. Mit Hilfe AI-gestützter Datenerkennung wird ein „Katalog von Katalogen“ inklusive Konnektivität für Metadaten aufgebaut, um die datengesteuerte digitale Transformation zu unterstützen. Die Integrationen in Tableau und neue EDC-Metadatenscanner für Delta Lake, das Open-Source-Projekt des Herstellers Databricks, sowie für Microsoft Azure Data Lake Storage Gen2 wurden entsprechend erweitert. Die Konnektivität der Metadaten wird über das gesamte Spektrum von Datenquellen und Anwendungen hinweg sichergestellt – einschließlich „Data Warehouses“, „Data Lakes“, Cloud-Datenspeicher, ETL- und Business-Intelligence-Tools sowie anderer Unternehmensanwendungen.

Analyse-Tools helfen dann, die Herkunft der Daten selbst in dynamischen Datenlandschaften besser zu verstehen und auch die Auswirkungen von Änderungen zu bewerten. Funktionen für „Datenkollaboration“ und „Social Curation“ ermöglichen sogar eine Crowdsourcing-Kuration der Daten inklusive Zertifizierungen, Bewertungen und Reviews. Unter Crowdsourcing-Kuration versteht man eine Art der Datenpflege, die nicht auf der Aktivität erfahrener Daten-Ingenieure und entsprechender Algorithmen basiert, sondern auf der Meinung von Benutzern oder auch interessierten Kreise. Mit Q&A-Foren rückt EDC auch bisher isoliertes Datenwissen in den Vordergrund.

Bildquelle: Markus Spiske/Unsplash

©2019Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok