Die richtige Datengrundlage

Eine Frage der Qualität

Die Datenqualität spielt für KI-Projekte eine entscheidende Rolle: Je besser die Beschaffenheit der Basis, desto belastbarer fallen die die Ergebnisse aus. Eine Gleichung, die bereits für die initialen Trainingsdaten gilt.

Eine Frage der Qualität

Keine Kompromisse bei der Datenqualität: Für den Algorithmus nur das Beste.

Künstliche Intelligenz, Machine Learning, Big Data – all diese Technologien basieren auf Daten. Je größer die zugrunde gelegte Datenbasis, umso mehr Lern- und Analysefähigkeit stecken darin, so die Auffassung. Das ist jedoch zu kurz gedacht. Ein gemeinsames Forschungsprojekt der Experten für Geschäftspartnerdaten bei Uniserv und dem spanischen KI-Startup Recogn.ai zeigt, dass nicht die Datenmenge allein, sondern auch die Datenqualität ausschlaggebend für den Erfolg von KI-Projekten sind. Es leuchtet ein: Aus qualitativ schlechten Daten kann eine KI nur unzureichend lernen und fehlerbehaftete Schlüsse ziehen. 

Das Szenario für das Forschungsprojekt lautete: Eine Organisation mit umfangreichen Geschäftspartnerdatenbeständen (Kunden, Lieferanten, Dienstleister), also etwa eine Bank oder Versicherung, ein E-Commerce-Unternehmen oder ein Energieversorger, möchte automatisiert eine Unterscheidung zwischen personenbezogenen Daten und Unternehmensdaten treffen. Das könnte zum Beispiel aus Compliance- oder datenschutzrechtlichen Gründen, oder auch für Marketing-Zwecke erforderlich sein. Eine KI-Lösung könnte hier effizienter zum Ziel führen als Listenabgleiche und regelbasierte Algorithmen, so die Hypothese. Während der mehrmonatigen Projektlaufzeit wurden verschiedenste Machine-Learning-Modelle getestet und die Ergebnisse verglichen.

Die Problemstellung bestimmt das Modell

Schon bei der Planung eines KI-Projekts gibt es Aspekte, die maßgeblich zum Erfolg verhelfen. Die Problemstellung und das Ziel müssen so genau und detailliert wie möglich definiert sein – denn dies ist einer der wesentlichen Faktoren für die Wahl des geeigneten KI-Modelltyps.

Die Wahl ist unter anderem abhängig von verschiedenen Eigenschaften, wie etwa Menge, Art oder Struktur der verfügbaren Daten. Hierbei ist es unerlässlich, auf eine ausreichende Expertise zurückzugreifen. Dazu kann entweder eigenes Wissen im Unternehmen aufgebaut werden, oder man greift auf externes Wissen über Partner zurück. Von dem gewählten Modelltyp, dem Kern des KI-Systems, lassen sich dann Modellinstanzen trainieren und verfeinern. Nach der Wahl des Modelltyps lohnt sich ein exploratives Vorgehen. Um zu erkennen, wie Vorhersage und Genauigkeit der unterschiedlichen Modellinstanzen bei unterschiedlichem Dateninput variieren, sind genügend Zeit und Ausdauer zum Testen und Experimentieren nötig. 

Die Qualität der Trainingsdatenbasis sichern

Die Datenbasis, mit der die KI angelernt wird, entscheidet über den Erfolg. Die Trainingsdaten müssen dabei den späteren realen Daten möglichst genau entsprechen. Das können im Unternehmen bereits vorhandene Daten sein oder Daten aus externen Quellen – unter Einhaltung der datenschutzrechtlichen Vorgaben, versteht sich. Es ist auch möglich, Daten zu diesem Zweck synthetisch zu generieren. Allerdings birgt das die Gefahr, keinen repräsentativen Querschnitt der Realdaten abzubilden, so ein unerwünschtes Muster in die KI zu übertragen und damit einen negativen Lerneffekt zu erzeugen. Die Qualität der Trainingsdaten hat also großen Einfluss auf die Lernkurve der KI, ganz nach dem Prinzip „Garbage-In/Garbage-Out“. Je korrekter die Trainingsdatenbasis, umso besser die Schlüsse der KI. Die Datensätze müssen also korrekt, vollständig und widerspruchsfrei sein – das bedarf der aufmerksamen Prüfung, gegebenenfalls Aufbereitung und der Qualitätssicherung. Eine Bereinigung der Datenbestände bringt aber einen erheblichen Zeitaufwand mit sich.

Neben der Datenqualität sind die richtige Menge an Trainingsdaten und ihre Beschaffenheit weitere Erfolgskriterien. Sowohl ein Zuwenig als auch ein Zuviel an Daten schadet. Hier gibt es keine goldene Regel. Die ideale Menge kann je nach Anwendungsfall, Datenbasis, Art oder Struktur variieren. Bei ungünstiger Verteilung innerhalb der Daten, sprich ein gemessen an der Gesamtmenge zu niedriger oder zu hoher Anteil eines bestimmten Datums, kann das Problem des „Overfitting“ entstehen. Durch diese ungünstige Verteilung spezialisiert sich die KI auf einzelne Aspekte, was als übermäßige Anpassung an die Trainingsdaten zu erkennen ist.

Der KI vertrauen lernen

Ein nicht zu unterschätzender Aspekt: Ab einem Zeitpunkt der Interpretation und Bewertung muss das Vertrauen in die KI erlangt sein. Stimmt für das Training die Qualität der Datenbasis, fällt dieser Schritt bedeutend leichter.

Ist das KI-Projekt einmal gestemmt, profitieren laut einer Studie von Microsoft aus diesem Jahr 80 Prozent der Unternehmen direkt vom Nutzen des Projekts. Auch wenn es Ressourcen beansprucht, so treiben KI-Anwendungen also Innovationen voran und können dem Unternehmen und den Beteiligten Gewinn bringen. Den Weg dorthin sollte man aber als einen kreativen Prozess begreifen, der Unternehmen ein gutes Stück Geduld und Experimentierbereitschaft abverlangt. 

Bildquelle: Getty Images/iStock/Getty Images Plus

©2021Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok