Gesichts- und Spracherkennung

Intelligente Analysen: Werbung nach Profil

Aktuell ergeben sich für Gesichts- und Spracherkennung immer mehr Anwendungsfälle. Allerdings müssen die ­dabei gesammelten Daten zunächst entsprechend ­aufbereitet werden, bevor sie in den Unternehmen für ­intelligente Analysen herangezogen werden können.

Im Zuge der Digitalisierung sämtlicher Arbeits- und Lebenswelten finden neue Technologien wie Gesten-, Gesichts- oder Sprach­erkennung zunehmend Verbreitung.

Im Zuge der Digitalisierung sämtlicher Arbeits- und Lebenswelten finden neue Technologien wie Gesten-, Gesichts- oder Sprach­erkennung zunehmend Verbreitung.

Glaubt man den Werbebotschaften von Software-Anbietern sollen sich mittels Big-Data-Analysen, sämtliche strukturierten wie unstrukturierten Datenquellen einfach durchforsten und intelligent auswerten lassen – angefangen bei firmeninternen Informationssystemen über soziale Netzwerke und Internet-Veröffentlichungen bis hin zu externen Datentöpfen etwa im Zuge von Open Data. In erster Linie geht es dabei darum, HTML-Seiten oder Textdateien zu durchsuchen, auszuwerten und entsprechend intelligent aufzubereiten. Doch wie funktioniert dieses Vorgehen, wenn es einmal nicht um klassische Texte, sondern um komplexere Formate wie Audio- oder Videosequenzen geht?

Die Frage ist insofern berechtigt, da im Zuge der Digitalisierung sämtlicher Arbeits- und Lebenswelten neue Technologien wie Gesten-, Gesichts- oder Sprach­erkennung zunehmend Verbreitung finden. Die Erfassung, Speicherung und Auswertung der dadurch entstehenden Daten verspricht nicht nur verschiedenen Branchen neue, lukrative Geschäftsmodelle – man denke an die Werbeindustrie –, sondern auch die öffentliche Hand will davon profitieren. So glauben die Verfechter einer groß angelegten Videoüberwachung im öffentlichen Raum etwa, dass man mittels Gesichtserkennung Verbrechern schneller auf die Spur kommen oder gar Terrorgefahren bannen könne.

Aus Sprache wird Text


Während sich die Auswertung von Videos mitunter (noch) recht schwierig gestaltet, lässt sich die Analyse von Sprachdaten schon ganz gut handhaben. Man denke nur an digitale Sprachassistenten wie Apples Siri, Microsofts Cortana oder Alexa von Amazon. Deren Sprachverständnis geht bereits weit über die stupide Beantwortung der Frage nach den Wetteraussichten hinaus. Andere Beispiele funktionierender Spracherkennung und -steuerung findet man bei autonomen, vernetzten Fahrzeugen oder auch in der Industrie 4.0 bei der intelligenten Maschinensteuerung.

Technologisch betrachtet wird hierbei Sprache in Text umgewandelt, entsprechend verschlagwortet und anschließend ausgewertet. Franz Kögl, Vorstand der Intrafind Software AG, erläutert anhand der eigenen Software-Lösung, wie dies in der Praxis funktionieren kann: „Über Speech-to-Text-Konvertierung erzeugen wir aus Audiodaten für unsere Analyse-Engine lesbaren Text (XML mit Sprungmarken), den wir dann indizieren und mit Machine-Learning-Verfahren wie Textklassifikation, Faktenextraktion oder Eigennamenerkennung anreichern.“ Im nächsten Schritt greift man auf eine (Unternehmens-)Suchmaschine zurück, an die alle relevanten Datenquellen angebunden sind. „Mittels dieser Insight Engine können wir über den gesamten Informationsrahmen, den die Kunden analysiert haben möchten, Infos automatisch durchsuchbar machen, klassifizieren und zueinander in Beziehung setzen. So werden Zusammenhänge der Inhalte aus Audio­daten mit allen anderen Informationen eines Unternehmens hergestellt“, berichtet Franz Kögl weiter.

Auch der Schweizer Digital-Banking- und Learning-Anbieter Crealogix ist in diesem Bereich aktiv und hat sich zuletzt vergangenen September mit dem Erwerb des Anbieters Koemei verstärkt. Die skalierbare Plattform des ebenfalls eidgenössischen Start-ups und Spin-offs des Forschungsinstituts IDIAP (Partner der Eidgenössischen Technischen Hochschule Lausanne EPFL) soll dank Machine Learning die automatisierte Umsetzung von Audio- und Videoinhalten in Textdaten für Analytics ermöglichen. Dadurch werde insbesondere die Verwertung multimedialer Inhalte erleichtert, heißt es. Zudem könnten so Datenkategorien, die in Zukunft massiv wachsen und deren Analyse bei Unternehmen heute noch stark vernachlässigt wird, effizient genutzt werden.

Eigenen Angaben zufolge erreicht die Lösung von Koemei eine hohe Erkennungsqualität bei der Inhaltsanalyse von Audibles, Podcasts und Videos. Die Inhalte werden hierfür über Automated Speech Recognition (ASR), also der automatisierten Spracherkennung, in Texte umgewandelt. Anschließend werden die Texte mit Künstlicher Intelligenz (KI) und Natural Language Processing (NLP) analysiert und die Inhalte gemäß den vordefinierten Taxonomien und Themen automatisch klassifiziert, wobei die Datensicherheit zu jeder Zeit gewährleistet sein soll.

In den Videos werden spezifische Schlüsselbegriffe automatisch erkannt und mit Tags versehen. Nutzer sollen dank diesen die für sie relevanten Aussagen in jedem Video finden und direkt dort hinspringen können. Laut Hersteller hat die Universität Genf bereits über 5.000 Stunden Vorlesungen mit der Technologie benutzerfreundlich aufbereitet und diese in die Suche von Textdokumenten integriert. Dabei passe Crealogix die intelligenten Funktionen mit Konzeptsuche, Inhalts-Analytics und Statistiken jeweils den spezifischen Anforderungen der Kunden an.

So weiß man, was Kunden glücklich macht

Auf ein weiteres Praxisbeispiel stößt man bei der SAP AG: Vergangenen Oktober hat man ein aktualisiertes Hybris-Cloud-Portfolio für die Bereiche Kundenbindung und E-Commerce vorgestellt. Dabei nutzt der Software-Anbieter Technologien wie Gesichtserkennung, maschinelles Lernen und das Internet der Dinge, um passgenaue Marketingkampagnen zu ermöglichen. So sollen die Kunden etwa in der „Hybris Marketing Cloud“ ein umfangreiches Instrumentarium vorfinden, das sicherstellt, dass die richtige Botschaft bei den richtigen und wertvollsten Kunden landet, während Privatsphäre und Kundendaten geschützt bleiben.

Ein Anwendungsfall widmet sich dabei speziell der Gesichtserkennung mittels maschinellen Lernens: Dabei ergänzt SAP Leonardo die Marketing Cloud um Funktionen für die Gesichtserkennung, was neue Möglichkeiten der In-Store-Interak­tion mit den Konsumenten ermöglichen soll. In diesem Anwendungsszenario verknüpft die Software die Filialbesucher ausgehend von ihrem Geschlecht und Alter mit dem jeweiligen Warenangebot und ermöglicht die Anzeige personalisierter Produktempfehlungen auf großen Bildschirmen.

Auch bei IBM weiß man, wie man sich entsprechende Einblicke in Videoinhalte verschaffen kann. Hierfür wird ein kognitiver Watson-Service für die cloud-basierte Videoanalyse genutzt. Dabei sollen etwa Firmen der Medien- und Unterhaltungsbranche über die Cloud unstrukturierte Videoinhalte erfassen und auswerten können. Indem Watson den semantischen Kontext eines Videos versteht, lassen sich Bewegtbilder in logische Szenen unterteilen. Laut Hersteller können Unternehmen so Live-Kommentare zu Sport- oder Musik­events analysieren, um noch während der Veranstaltung mit passender Werbung oder individuellen Angeboten zu reagieren.

Dies ist ein Artikel aus unserer Print-Ausgabe 01-02/2018. Bestellen Sie ein kostenfreies Probe-Abo.

Die Nutzung bei Fußballspielen wäre ebenfalls denkbar. So ließen sich z. B. aus Aufnahmen von Bundesligaspielen in kurzer Zeit die zentralen und spannendsten Szenen zusammenstellen. Gerade beim Schlussspurt der Liga, bei dem es um Meisterschaft, Europacup oder Abstieg geht, könne das Programm individuell auf die Fans zugeschnitten werden. Der Cloud-Service lässt sich so nutzen, dass gezielte Angebote und Werbung in die Berichterstattung eingebaut werden. Unternehmen oder Vereine können so den Fans in Echtzeit persönliche Trikots oder Accessoires anbieten, die sich auf den jüngsten Sieg, den Aufstieg oder die gewonnene Meisterschaft beziehen.

Analyse von Sprach- und Videoinhalten

Grob vereinfacht gibt es zwei Möglichkeiten, um Software das Denken beizubringen:

  1. Das System befolgt Regeln und lernt, diese auf das Datenmaterial immer besser anzuwenden.
  2. Das System wird mit einer immensen Menge „guter Entscheidungen“ gefüttert und erkennt nach dem Prinzip von Versuch und Irrtum, wie eine bestimmte Aufgabe am besten zu lösen ist. Dieses „Trial and error“-Prinzip nennt man Machine Learning, ein Teil von Künstlicher Intelligenz (KI).

Eine Teilmenge des Machine Learning wiederum ist das sogenannte „Deep Learning“. Dabei handelt es sich um ein aufwendiges, datenintensives Verfahren, mit dem neuronale Netze menschliche Entscheidungen simulieren. Die neuronalen Netze sind Recheneinheiten mit künstlichen Nervenzellen, die miteinander zu Schaltkreisen verbunden sind. Diese „Nervenzellen“ schicken dem Rechner erst ein Signal ab, wenn die Summe des Inputs einen gewissen Schwellenwert überschreitet.

Sprach- und Videoinhalte können auf Basis dieser Technolo­gien mit folgenden Methoden analysiert werden:

  •   ASR (Automated Speech Recognition), mit der Video- und Audioaufzeichnungen in Text übertragen werden
  •   NLP (Natural Language Processing), mit dem die Texte inhaltlich analysiert und Schlüsselbegriffe erkannt und indexiert werden
  •   NLU (Natural Language Understanding) Deep Learning

Quelle: Jasmin Epp, Corporate Communications Officer bei Crealogix in der Schweiz

Bildquelle: Thinkstock/iStock

©2018Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok