Das Big-Data-Ökosystem

Sieben Big Data Trends

Welche Trends wird das wachsende Big-Data-Ökosystem hervorbringen?

Das Thema Big Data prägt den IT-Markt weiterhin nachdrücklich. Dies zeigt die Vielzahl beinahe täglich auftauchender Innovationen zur Datennutzung und der Experten, die mit Erfolg kontinuierlich die Entwicklung und Nutzung von Big Data-Lösungen vorantreiben. Wir erreichen einen Wendepunkt im Markt, an dem der Hype und die Unsicherheiten in Verbindung mit „Big Data“ bald abgelöst werden durch echte Kundenerfahrungen. Bereits heute gibt es einige erfolgreiche Bespiele, da Unternehmen zunehmend bereit sind, ihre Erfahrungen zu teilen.

Darüber hinaus kann man in solchen Fällen die Entstehung eines Ökosystems beobachten, das schnell die Fähigkeiten der Basistechnologie ergänzt oder erweitert. In diesem Fall sind es Technologien wie Hadoop, Cassandra, Accumulo und Lösungen von Branchenriesen wie Oracle und IBM – die Big Data-Systeme.

Welche Trends wird dieses Big-Data-Ökosystem hervorbringen?

1. Kontinuierliche Erweiterung und Vereinheitlichung der „Structured Query Language“ (SQL) auf Hadoop

Eine Reihe von Technologie-Unternehmen arbeiten hart daran Technologien für nicht SQL-fähige Big Data-Lösungen wie Hadoop zu entwickeln. Die Tiefe und Breite der Unterstützung für SQL unterscheidet sich stark, aber kluge SQL-Profis werden in der Lage sein, die Vorteile dieser neuen Technologien zu nutzen, um hochgradig interaktives SQL auf große Datenmengen anzuwenden. Beispiele hierfür sind Hadapt, Impala, Teradata Aster und EMC Greenplums Pivotal HD.

2. Einheitliche Unterstützung für strukturierte, unstrukturierte und semi-strukturierte Daten

IDC prognostiziert, dass die Menge an digitalen Daten, meist in Form von unstrukturierten Daten, 40 bis 50 Prozent pro Jahr wachsen wird. Und bis zum Jahr 2020 wird diese Menge voraussichtlich auf insgesamt bis zu 40 Zettabyte anwachsen. Diese unstrukturierten Daten stammen aus E-Mails, Foren, Blogs, sozialen Netzwerken, Point-of-Sale-Systemen und maschinengenerierten Daten. Um diese Unmenge an unterschiedlichsten Daten zu erfassen und zu analysieren, gehen innovative Big Data-Lösungen über die reine Erfassung hinaus.
Darüber hinaus werden wir die Entstehung und Einführung von Lösungen wie der Oracle MDEX Engine, Accumulo und Attivio erleben, die diese unterschiedlichen Daten in einem einzigen Speicher halten können.

3. Verbesserte Suchmöglichkeiten

Die riesige Mengen an Daten zu durchsuchen, um die sprichwörtliche Nadel im Heuhaufen zu finden, ist bekanntlich keine einfache Aufgabe. Deshalb wird es im Laufe der Zeit wahrscheinlich mehr Big Data-Lösungen mit integrierter Suchunterstützung geben. Führend bei diesen Bemühungen sind LucidWorks, IBM, Oracle durch die Übernahme von Endeca, Autonomy und MarkLogic. LucidWorks kombiniert beispielsweise eine Open-Source Stack-Technologie von Lucene/Solr, Hadoop, Mahout und NLP.

4. Erweiterter ETL (Extract, Transform, Load) und ELT (Extract, Load & Transform)-Support

Es wurde bereits viel über die Verwendung von Hadoop bei der Verarbeitung von ETL-Workflows gesprochen. Unter Betrachtung aller Infrastruktur-Komponenten, die notwendig sind, um eine komplexe Hadoop basierte ETL Lösung aufzubauen und zu pflegen, steht am Ende eventuell die Entscheidung für eine reine ETL-Lösung von Informatica, Talend, Syncsort oder CloverETL. Seit Jahren konzentrieren sich diese Unternehmen auf marktführende ETL Lösungen, die heute meist als Datenintegrationslösungen bezeichnet werden.

Auf ETL spezialisierte Anbieter haben sich darum bemüht den Support für Big Data Lösungen zu gewährleisten. Dazu gehört nicht nur die Unterstützung für ETL, sondern auch für ELT, wenn die Datentransformationen von Hadoop innerhalb von Hadoop ausgeführt werden. Dadurch können die Umgebungen gebräuchlicher ETL-Lösungen mit den leistungsstarken Funktionen von Hadoop mithalten. Langfristig werden diese reinen ETL-Lösungen eine breite Palette an Big Data Lösungen verschiedener NewSQL und NOSQL Provider unterstützen.

Viele der großen Daten-Lösungen werden ETL und ELT Support in ihre Stacks integrieren, ähnlich wie viele der traditionellen Datenbank-Anbieter dies zuvor getan haben durch die Einbettung oder Übernahme von ETL-Lösungen.

5. Big Data In Motion

Das Open-Source-Framework Apache Hadoop wurde ursprünglich für die Batch-orientierte Verarbeitung sehr großer Datenmengen in einer verteilten Umgebung eingesetzt, in erster Linie im analytischen Zusammenhang. Da Marken sich immer mehr darauf konzentrieren wie man diese riesigen Datenbestände, die heute für Echtzeit-Entscheidungsfindung zur Verfügung stehen, kontrollieren und nutzen kann, erwarten wir, dass "Big Data in Motion" einen erheblichen Einfluss auf diese Entwicklung haben und stetig anwachsen wird. Das "in motion" steht für den Informationsfluss in Echtzeit, um extrem große Datenströme die in einer Vielzahl von Unternehmen „fließen“, darunter Kapitalmärkte, Gesundheitswesen, Energie und Social Media, in den Griff zu bekommen.

6. Hinzugefügte Data Mining- und Analysefunktionen

Branchenführer in der Welt der großen Daten verstehen die Anforderungen, die zugrunde liegenden analytischen und statistischen Funktionen in ihren Plattformen zu erweitern. Dies geht über die typischen analytischen Funktionen der sehr anspruchsvollen Data Mining-Funktionalitäten hinaus. Durch die Unterstützung von Zementis umfasst Teradata Aster Data eine Vielzahl von Analysefunktionen, einschließlich der Unterstützung für Statistiken, Textanalysen, Grafiken, Stimmungsanalysen und der Ausführung einer in der Datenbank enthaltenen Predictive Model Markup Language (PMML). Andere Unternehmen, darunter IBM Netezza, haben die Unterstützung für die beliebte statistische Programmiersprache R eingebettet, und ebenso wie Matrix Engine, ein parallelisiertes, lineares Algebra-Paket integriert. Im Laufe der Zeit werden wir eine deutliche Ausweitung dieser Fähigkeiten in einem breiten Spektrum von Big Data-Lösungen sehen.

7. Programmiersprache R wird immer beliebter

Es besteht kein Zweifel, dass R als eine offene statistische Sprache immer beliebter wird. Revolution Analytics hat bedeutende Fortschritte bei der Entwicklung einer produktionsreifen Version von R mit Leistungsverbesserungen und andere Enterprise-Features gemacht. Darüber hinaus wurden weitere Lösungen entwickelt, einschließlich R für Hadoop, R für IBM PureData sowie R für Big Data.

Universitäten bieten deshalb auch zunehmend mehr Kurse zu R an, wodurch viele Studenten Zugang bekommen zu den leistungsstarken Funktionen dieser Sprache und mit dem erforderlichen Wissen ausgestattet werden, um komplexe statistische Analysen durchzuführen. Als Resultat daraus wird sie wahrscheinlich bald in vielen weiteren Big Data-Lösungen integriert sein, zusammen mit signifikanten Verbesserungen der Sprache und leistungsfähigeren Funktionen.

Ebenso wie sich das Big Data Ökosystem entwickelt, muss es daher auch Ihr Unternehmen tun. Diese datengetriebenen Implementierungsstrategien werden Konkurrenzprodukte überflügeln und sich auf dem heutigen Markt erfolgreich etablieren.

Bildquelle: Thinkstock / iStock

*Der Autor ist Senior Vice President of Products bei Epsilon

©2020Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok