Deep Learning

Open Source - Frameworks und Datasets für KI

Die wichtigsten Werkzeuge für Deep-Learning-Projekte sind kostenlos und frei verfügbar. Doch reicht das wirklich aus?

Geht noch nicht auf Knopfdruck: Deep Learning

Zahlreiche Deep-Learning-Frameworks sind „Open Source“ geworden. Die ursprünglichen Entwickler erweitern damit wie bei anderen OSS-Projekten den Bereich der Beiträger, so dass der Entwicklungsprozess insgesamt schneller wird. Außerdem ist es dadurch den Anwendern möglich, die Lernumgebungen besser an ihre eigenen KI-Projekte anzupassen. Darüber hinaus dient der Verzicht auf eine kommerzielle Lizenz auch der Verbreitung der Frameworks. Vor allem Deep-Learning-Projekte sind auch ohne Lizenzkosten recht teuer, da enorme Mengen an Daten für das Training der neuronalen Netze bereitgestellt werden müssen.

Frameworks und Datasets als Open Source

Auch Trainingsdaten gibt es als Open-Source-Dataset. So hat vor kurzem das schwedische Startup Mapillary 25.000 Verkehrsbilder aus Autoperspektive freigegeben, die sich zum Trainieren von Software für die Objekterkennung in fahrerlosen Autos eignet. Jedes Bild des Datasets gibt es in zwei Varianten, als herkömmliches Foto und als für KI-Frameworks aufbereitete Variante.

Innovationsführer DeepMind hat sechs Datasets in die Open Source gegeben, unter anderem 300.000 klassifizierte Videoclips für die Erkennung menschlicher Handlungen und 1,5 Millionen Frage/Antwort-Paare für Anwendungen im Bereich Textverständnis. Auf rund 100 unterschiedliche Datasets verweist eine Liste, die vom Open-Source-Projekt Deeplearning4j geführt wird. Hier finden sich spezialisierte Datasets für Objekt- und Gesichtserkennung, Textverständnis und die Verarbeitung gesprochener Sprache. Eine weitere Liste mit zum Teil anderen Datasets bietet die englischsprachige Wikipedia.

Auch die Zahl der freien Frameworks steigt. Eine Zusammenstellung von PC Quest umfasst 15 OSS-KI-Tools. Hier finden sich Verweise auf große und populäre Frameworks wie Caffee, Theano, Torch und TensorFlow. Seit dem Erscheinen Mitte Februar sind noch weitere Tools hinzugekommen. So hat beispielsweise Facebook das Framework Caffe2 veröffentlicht, dass den Einsatz von vortrainierten KI-Modellen auf Mobilgeräten ermöglicht.

Noch recht neu auf dem Markt ist auch der umfassende Deep Learning Stack von AMD, der High-Performance-Computing auf Radeon-Grafikprozessoren ermöglicht und eine speziell angepasste Versionen von Caffe mitbringt. Ein weiterer Neuzugang ist Leaf, das Framework des Berliner Startups Autumn AI. Ähnlich wie Caffe2 erzeugt das Framework portable Modelle, die auch auf Mobilgeräten oder Embedded-Systemen arbeiten. Aus China kommt das ursprünglich von Baidu entwickelte Deep-Learning-Framework PaddlePaddle, das vor allem für eine einfache Anwendung optimiert ist.

Nicht nur der Quellcode sollte „open“ sein

Mit diesem weit gespannten Spektrum an Frameworks und Datasets lassen sich bereits sehr viele Deep-Learning-Projekte verwirklichen. Trotzdem steht es vor großen Hürden, vor allem wenn es nicht um Forschungsprojekte geht, sondern um konkrete Anwendungen in Unternehmen. Die frei verfügbaren Trainingsdaten sind eher allgemeiner Natur und berücksichtigen beispielsweise nicht die speziellen Bedürfnisse von Industrieunternehmen, etwa für die Auswertung von Sensordaten. Hier müssen die Daten vor dem Einsatz der Frameworks selbst gewonnen werden.

Dies ist auch ein wichtiger Grund dafür, dass die bisherigen Open-Source-Modelle für KI-Anwendungen nicht mehr ausreichen, findet Investor Kumar Srivastava in einem TecCrunch-Beitrag. Es reiche nicht, lediglich den Quellcode verfügbar zu machen. Ebenso wichtig seien die trainierten Modelle zusammen mit den Trainingsdaten sowie aller während des Piloteinsatzes entstandenen Detailinformationen. All dies gehört für ihn ebenfalls in die Open Source.

Als Grund nennt er die völlig neue Art von Software, die beim Einsatz von Deep-Learning-Frameworks entsteht. Herkömmliche Software ist deterministisch und vorhersagbar, sodass der Quellcode ausreicht. KI-Lösungen dagegen sind anders. Es führt kein direkter und im Quellcode nachvollziehbarer Weg von den Eingabedaten zu den Ergebnissen. Durch den Lernprozess verändern KI-Systeme ihre Vorgehensweise, sodass die für den Lernprozess benutzten Daten dazu gehören - anders bestehe keine Chance, eventuelle Fehler der KI aufzudecken.

Bildquelle: Thinkstock

©2019Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok