Deep Training

Daten als Flaschenhals für Machine Learning

Neuronetze müssen mit enormen Datenmengen trainiert werden. Die müssen oft erst erzeugt werden, durch Clickworker oder Algorithmen.

Künstliche Intelligenz aus dem Datenkopf

Deep Learning erfordert viele Trainingsdaten

Unternehmen (oder deren Digitalisierungsberater) hoffen, mit Deep Learning und Neuronalen Netzen durch leistungsfähige Analyse Datenschätze heben zu können. Doch leider ist das nicht ganz so einfach. Der Knackpunkt: Das Neuronetz muss zunächst einmal mit Musterdaten trainiert werden. Ein typisches Beispiel ist die Verschlagwortung von Bildern. Die Leistungsfähigkeit eines Neuronetzes für diesen Zweck kann beispielsweise auf der Website des Fotodienstes EyeEm erprobt werden. Doch bis es in der Lage ist, Objekte wie Pflanzensorten oder Tierarten, aber auch Alltagsgegenstände korrekt zu erkennen, muss es mit möglichst vielen Beispielbildern trainiert werden.

In allen Anwendungsbereichen von Deep Learning ist eine große Masse an Trainingsdaten erforderlich, mit denen Neuronetze auf ihre Aufgabe vorbereitet werden. Diese Anforderung hat zwei wichtige Konsequenzen: Erstens benötigt die Verarbeitung großer Datenmengen sehr viel Rechenleistung und Speicherkapazität. Zweitens müssen die Trainingsdaten erst einmal gewonnen und aufbereitet werden. Die erste Konsequenz kann durch spezialisierte Prozessoren und High-Performance-Rechenzentren deutlich gemildert werden, doch Daten lassen sich nicht so leicht „herstellen“ wie Rechenkraft.

Künstlich erzeugte Trainingsdaten

Ein Indizierungs-Algorithmus wie bei EyeEm benötigt große Menge an korrekt verschlagworteten Trainingsbildern. Hierzu greifen die Entwickler auf bereits vorgefertigte Datasets zu, die speziell für die Anforderungen des Deep Learning optimiert sind. Das Zusammenstellen solcher Bilddatenbanken ist nicht einfach, denn durch inhaltliche Verzerrungen (etwa das Fehlen bestimmter Realitätsbereiche) können systematische Fehler entstehen und bei der Anwendung der Neuronetze zu falschen Schlüssen führen.

Doch in vielen Fällen müssen die Anbieter eines solchen Bilderkennungsverfahrens noch deutlich mehr Bilder als vorhanden in das Neuronetz einspeisen, um die Ergebnisse zu optimieren. Hierzu ist dann oft menschliche Arbeit notwendig: Clickworker verschlagworten auf herkömmliche, „analoge“ Weise Massen an Fotos, beispielsweise beim Amazon Mechanical Turk. Möglich ist auch ein Crowdsourcing über die eigene Plattform. EyeEm etwa bittet Fotografen, die automatisch erzeugten Schlagwörter für ihre Fotos zu prüfen und zu korrigieren.

Diese Form der Datengenerierung wird in Zukunft womöglich noch wichtiger, da dialogfähige Roboter mehr als nur Sprache verstehen sollen. Ein Beispiel: Ein Serviceroboter in einem Supermarkt soll Hilfe suchende Kunden aktiv ansprechen und seine Unterstützung anbieten. Doch wie unterscheidet man eine Person, die auf der Suche nach einem „Verkäufer“ ist, von einer, die lediglich irgendwohin unterwegs ist und dabei nicht gestört werden möchte? Menschen können diesen Unterschied problemlos erkennen, Roboter mit Neuronetz benötigen dafür spezifische Trainingsdaten.

Solche Trainingsdaten könnten zum Beispiel aus Videos bestehen, die menschliche Handlungen zeigen und zwar in allen üblichen Varianten. So wird die Handlung „Ein Objekt aus einem Regal nehmen“ oder „Ein Objekt in einen Einkaufskorb legen“ bei jedem Menschen etwas anders ausgeführt, keiner wird genau dieselbe Bewegung machen. Für ein Neuronetz ist das eine Hürde. Deshalb ist ein gutes Dataset notwendig, in diesem Fall beispielsweise eines aus möglichst vielen Videos mit den entsprechenden Handlungen, die von unterschiedlichen Menschen in unterschiedlichen Umgebungen ausgeführt werden.

Crowdworker oder Algorithmen

Das Berliner KI-Startup TwentyBN (Twenty Billion Neurons) besitzt ein bereits recht umfangreiches „Verhaltens-Dataset“ mit dem Namen Jester. Es besteht aus beinahe 150.000 Videos mit unterschiedlichen Fingergesten, die von zahlreichen „Crowd Actors“ ausgeführt wurden. Dabei sind für die am häufigsten vorkommenden Gesten wie Fingertrommeln, Händeschütteln, Daumen auf oder Daumen ab jeweils mehr als 5.000 Videos vorhanden. Ein damit trainiertes Neuronetz kann anschließend die entsprechenden Gesten recht zuverlässig in Videomaterial wiedererkennen.

Doch es gibt andere Methoden, die Menge an vorhandenen Trainingsdaten zu erhöhen. Ein Trick beispielsweise ist es, plausible Daten mit einem entsprechend trainierten neuronalen Netzwerk zu erzeugen. Amazon nutzt beispielsweise ein Neuronetz, das realistisch wirkende Warenkörbe erzeugt. Mit ihnen wird dann der Algorithmus für die Auswertung von Warenkörben und Kauf-Historien trainiert.

Ein anderer Datengenerator für bilderkennende Neuronetze ist kürzlich von Google veröffentlicht worden. Er nutzt die Technik der Datenaugmentierung, bei der die vorhandenen Bilder durch Transformationen wie Spiegeln, Beschneiden oder Verzerren vervielfältigt werden. Ein Beispiel: Um das Dataset für das Training zu verdoppeln, reicht es bereits aus, alle Bilder zu spiegeln. Anschließend kann jedes Bild weiter verändert werden. So ist es etwa mit Verfahren der Bildbearbeitung möglich, aus schlanken Katzen dicke Katzen zu machen.

Trotzdem bleiben die für das Training notwendigen Datenmassen ein Flaschenhals in der Anwendung von neuronalen Netzen. Die automatische Generierung von Trainingsdaten ist nicht in jedem Bereich nutzbar. Der Einsatz von Crowdworkern ist wegen der notwendigen Menge an Daten teuer, obwohl sie nur sehr gering bezahlt werden. Der einzige wirklich sinnvolle Ausweg ist die Weiterentwicklung der Neuronetze und Deep-Learning-Verfahren selbst, um in Zukunft mit weniger Daten auszukommen als das bisher üblich war.

Bildquelle: Thinkstock

©2019Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok