10.02.2017 Microsoft ermöglicht die KI-Integration

Künstliche Intelligenz für Drittanbieter

Microsoft hat die Möglichkeit zur Integration der eigenen KI-Technologien in die Anwendungen von Drittanbietern angekündigt. Mit Künstlicher Intelligenz sollen sich Dialekte erkennen, Störgeräusche herausfiltern und Texte, Bilder sowie Videos maschinell auf kritische Inhalte untersuchen lassen.

Integration von KI-Technologien

Microsoft brachte kürzlich drei Tools für die Integration seiner KI-Technologien in Drittanwendungen heraus.

Der ab sofort verfügbare Custom-Speech-Service soll Sprache in unterschiedlich lauten Umgebungen sowie dialektisch, mundartlich oder fachlich gefärbte Formulierungen erkennen. Das Tool „Content Moderator“ erlaubt es, Texte, Bilder oder Videos nach unerwünschtem Material zu durchsuchen und etwa Gewaltszenen oder hetzerische Sprache herauszufiltern. Das dritte Integrationswerkzeug, die „Bing Speech API" verwandelt Audiomaterial in Text, versteht den Inhalt solcher Texte und kann Texte auch in gesprochene Sprache (zurück-)verwandeln. Die beiden letztgenannten Tools sollen ab März 2017 verfügbar sein. Eigenen Angaben zufolge sind die neuen „kognitiven Dienste“ sind ein weiterer Schritt Microsofts, künstliche Intelligenz zu „demokratisieren“.

Hinter den „Cognitive Services“ der Redmonder stecken aktuell 25 Dienste, die die Integration von Sprach-, visueller oder Stimmungserkennung sowie Sprachverständnis in Apps ermöglichen. Über REST APIs sollen Entwickler die Anwendungen von Drittanbietern aller Unternehmensgrößen und Branchen mit Künstlicher Intelligenz anreichern können.

Virtual-Reality-Unterhaltungen führen

Die Integration einer funktionierenden Sprachsteuerung erlaubt z.B. in Virtual-Reality-Spielen, dem Spieler die volle Kontrolle über den Erzählstrang einer Geschichte zu geben. Wie in Starship Commander von Human Interact: Das Spiel nutzt die Cognitive Services für die (Sprach-)Steuerung von Raumschiffen, die auch in Lichtgeschwindigkeit noch auf ihre Kapitäne hören, anstatt eine vorprogrammierte Geschichte abzuspielen.

Bei Starship Commander kommt auch der „Language Understanding Intelligent Service“ zum Einsatz, um zu verstehen, mit welcher Absicht Spieler bestimmte Aussagen treffen. Ein „Raus hier!“ könnte sowohl die Aufforderung an den Maschinenraum sein, Vollgas zu geben, als auch der Befehl an jemanden, den Raum zu verlassen. Der Sprachservice, derzeit in einer Public Preview verfügbar, erlaubt Entwicklern laut Anbieter das Trainieren von Sprachmodellen mit unterschiedlichen Bedeutungen von Sprache.

Kundenindividuelle Sprachmodelle

Moderne Spracherkennung ist abhängig von statistischen Modellen, die maschinelles Lernen (Machine Learning) und die Skalierbarkeit der Cloud nutzen, um aus einer großen Datenmenge akkurate Übersetzungen gesprochener Wörter zu produzieren. Über kognitive Services soll es möglich sein, akustische Modelle zu bauen, die aus kurzen Audioschnipseln Phoneme oder Toneinheiten in einer gegebenen Sprache erkennen. In Kombination mit den Phonemen in der unmittelbaren Nachbarschaft lassen sich gesprochene Wörter sicher erkennen. Die Vorhersage wird von einem speziellen Wörterbuch unterstützt, das alle Wörter der Zielsprache auf Phoneme-Ebene enthält. Um ähnlich klingende Wörter im Kontext zu bewerten, ziehen akustische Modelle auch kontextuelle Wahrscheinlichkeiten hinzu. So ist das Wort „Tor“ im Fußball wahrscheinlicher als „Treffer“ zu verstehen, denn als „Narr“. Ein Beispiel: McDonald’s setzt die Spracherkennung ein, um einen möglichst effizienten, reibungslosen Ablauf der Drive-ins zu ermöglichen.

Das Akustikmodell der „Speech Recognition API“ beruht auf einem neuronalen Netzwerk, das wiederum Theorien des menschlichen Spracherwerbs nutzt und mit tausenden Stunden Audiodateien aus der Cloud trainiert wurde. Diese Enginge war im Oktober 2016 erstmals in der Lage, Wörter einer seit 20 Jahren als Benchmark für Spracherkennung verwendeten Unterhaltung genauso gut zu erkennen wie ein Mensch.

Allerdings funktioniert das Modell nicht automatisch in unterschiedlichen, z.B. lauten Umgebungen. Hier sollen die „Custom Speech Services“ zum Tragen kommen, die das Anpassen der Modelle an typische Umgebungen oder Sprachgewohnheiten erlaubt: Ob ein Geräusch ein Wort oder eine Hydraulikpresse ist, mag für Menschen einfach zu entscheiden sein. Maschinen müssen diesen Unterschied erst lernen – um das künftig dann zuverlässig zu erkennen.

Bildquelle: Thinkstock/iStock

©2017 Alle Rechte bei MEDIENHAUS Verlag GmbH