Machine Learning in der Krise

KI-Ergebnisse oft nicht nachvollziehbar

Damit Neuronetze in der Praxis funktionieren, müssen ihre Ergebnisse reproduzierbar sein. Doch genau das funktioniert oft nicht.

Verzweifelte Frau am Notebook

KI in der Krise, Ergebnisse sind oft nicht nachvollziehbar

Ein Machine-Learning-Modell lässt sich nicht so einfach reproduzieren, wie das bei einem herkömmlichen Algorithmus der Fall ist. Hierbei gibt es eine zumeist einlinige Verbindung zwischen Eingabe- und Ausgabedaten. Vereinfacht ausgedrückt: 1 + 1 ist immer 2. Bei neuronalen Netzen ist das nicht so einfach. Zu jedem Modell gehören zwei Datensätze, Trainingsdaten und die eigentlichen Nutzdaten. Nun sollten bei einem gegebenen neuronalen Netz die gleichen Ergebnisse entstehen, wenn die gleichen Trainings- und Nutzdaten genutzt werden. Bei Datengleichheit sollte es auch eine Ergebnisgleichheit geben.

Diese Anforderung ist allerdings weit entfernt von der Realität des Maschinenlernens. So werden die Rahmenbedingungen beim Training der Modelle häufig nicht so penibel kontrolliert, wie das bei Anlegen wissenschaftlicher Standards der Fall sein sollte. Trainingsdaten werden nicht sauber versioniert und undokumentiert bereinigt, Parameter werden aus Zeitgründen während des Trainings verändert, Programmierfehler im neuronalen Netz beim Training korrigiert, die genauen Abläufe und Änderungen der Randbedingungen werden nicht sauber protokolliert und vieles mehr.

Der KI-Experte Pete Warden nennt in seinem Blog zahlreiche solcher „Sünden“. Diese Probleme sind nicht neu. In den Sozialwissenschaften, etwa der empirischen Soziologie oder der psychologischen Forschung, reden viele Wissenschaftler von einer Reproduzierbarkeitskrise. Es gibt Tausende von Aufsätzen mit Ergebnissen aus Umfragen, Tests und Experimenten, die einer Nachprüfung nur schwer standhalten. Entweder lassen sich die Ergebnisse gar nicht oder nur sehr grob angenähert reproduzieren. Zwar „bauen“ die prüfenden Wissenschaftler die Rahmenbedingungen genau nach, doch das scheint nicht auszureichen. Trotzdem gibt es Abweichungen in den Ergebnissen. Da Machine Learning ähnlich wie empirische Forschung von Menge, Güte und Validität der Ausgangsdaten abhängt, sprechen inzwischen zahlreiche KI-Experten ebenfalls von einer Reproduzierbarkeitskrise.

220 Stunden für den Nachbau eines Modells

Sie führt dazu, dass häufig nicht einmal der ursprüngliche Entwickler des Modells beim zweiten Durchlauf genau dieselben Ergebnisse erzielt. Teilweise kostet es monatelange Arbeit, auch nur die Ergebnisse eines einzigen Neuronetzes zu reproduzieren. Das hat neben dem oben geschilderten noch andere Gründe, die mit dem genutzten Quellcode zusammenhängen. Zum einen befinden sich der Funktionsumfang und die Quellcodebasis der genutzten Deep-Learning-Framework in einem ständigen Fluss und werden fortlaufend ausgebaut und aktualisiert. Zum anderen sind die Original-Quellcodes der genutzten Modelle häufig nicht offen verfügbar und können für den Versuch des „Nachbaus“ nicht eingesetzt werden. Darüber hinaus sind auch die Trainingsdaten oft nicht frei verfügbar. Es gibt zwar bereits einige „Repositories“ für Trainingsdaten und ML-Modelle, doch noch sind viele Codes und Daten unveröffentlicht.

Auf welche Schwierigkeiten auch ein erfahrener KI-Experte stoßen kann, wenn er ein Forschungspapier aus dem Bereich „Deep Reinforcement Learning“ nachvollziehen will, zeigt ein ziemlich langer Aufsatz von Matthew Rahtz, der an der ETH Zürich Computational Neuroscience and Machine Learning studiert. Er resümiert, dass ein ML-Modell von enorm vielen Details abhängt, die genau richtig sein müssen. Dadurch wird die Fehlersuche langwierig. Auf ihn wirkt die Sache eher wie das Lösen eines schwierigen mathematischen Problems als die Anwendung eines vorgegebenen Algorithmus.

Hinzu kommt der enorme Aufwand: Die Implementation des Lernmodells hat „nur“ etwa 30 Stunden gedauert. Danach begann aber erst die eigentliche Arbeit: Nach 130 Stunden hat das Modell endlich in einer Spielumgebung funktioniert und nach weiteren 60 Stunden hat es die ersten ernstzunehmenden Ergebnisse produziert. Der größte Teil der Zeit ging für das Ausflöhen von Fehlern verloren. Diese Statistik zeigt, dass praktische Anwendungen sicher noch in weiter Ferne liegen. Für einen (hoffentlich exzellenten) Masterabschluss ist eine solche Höllentour noch akzeptabel, in einem Unternehmen würde dem Projekt wohl eher der Stecker gezogen.

Bildquelle: Thinkstock 

©2018Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok