Captchas

Lustige Bilderrätsel für Roboter

Die Unterscheidung zwischen Mensch und Maschine wird zunehmend schwieriger. Verzerrte Buchstaben haben als Hürde ausgedient.

Zugangskontrolle am Computer mit Smartphone

Zugangskontrolle mit Captcha und Smartphone

„Ich bin kein Roboter“ ankreuzen und anschließend wegen Alterssichtigkeit dreimal am Bilderrätsel scheitern – eines der letzten Abenteuer der digitalisierten Menschheit. Wie eine Seuche haben sich diese Kästchen und die gelegentlich folgenden Ratespielchen im Web verbreitet: Schlecht aufgelöste Minifotos, auf denen man all jene mit Markisen, Hunden, Hühnern, Katzen, Autos, Zebrastreifen und vielem mehr anklicken muss. Als Lohn winkt dann endlich die Möglichkeit, ein Benutzerkonto zu eröffnen, ein Newsletter zu abonnieren oder in einem Blog zu kommentieren.

Diese auf den ersten Blick kurios wirkenden Tests werden als CAPTCHA bezeichnet, ausgeschrieben „Completely Automated Public Turing Test“. Sie helfen dabei, Computer und Menschen voneinander zu unterscheiden. Im Prinzip geht es eigentlich nur darum, Missbrauch zu verhindern. Denn wo immer Internetnutzer Daten in ein Formular eingeben müssen, sind Bots nicht weit, die Schabernack treiben oder Spam loswerden wollen. Um das zu vermeiden, nutzen viele Betreiber von Websites diese Captchas.

Und ähnlich wie bei der Spam- oder Virenerkennung ist schnell ein Rattenrennen zwischen Mensch und Maschine entstanden. Als die ersten Captchas um die Jahrtausendwende herum auftauchten, waren sie ziemlich schlicht: Es reichte, die Zahlen und Buchstaben in einer Grafik abzutippen, um weiterzukommen. Doch die Texterkennungs-Software wurde immer besser und so wurden die Captchas immer unlesbarer gemacht, durch Striche, wechselnde Schriftgrößen, ineinander geschobene Buchstaben und vieles mehr.

Simple Text-Captchas funktionieren nicht mehr

So etwas ist allerdings heute kein Hindernis für Bots mehr. Sie erkennen selbst extrem verzerrten Text in mehr als 99 Prozent aller Fälle. Lustiger Fakt am Rande: Menschen erkennen dieselben Texte nur zu etwa 33 Prozent richtig. Als Reaktion auf das Versagen des ursprünglichen Captcha-Algorithmus führte Google ein zweistufiges Verfahren ein, als „NoCaptcha ReCaptcha“ bezeichnet. Es besteht erstens aus dem Ich-bin-kein-Roboter-Ankreuzfeld und zweitens aus einem oder mehreren Bilderrätseln, in dem Objekte erkannt werden müssen.

In vielen Fällen kommt ein Anwender schon nach dem Anklicken des No-Robot-Feldes weiter. Die erste Hürde für die Bots ist die Tatsache, dass sich nicht um eine Grafik handelt, sondern um eine Javascript-Miniaturapp, die eine Benutzeroberfläche anzeigt – das Feld zum Ankreuzen. Dadurch fallen schon einmal die primitiven Bots weg. Die zweite Hürde ist noch schwerer zu bewältigen, denn hinter dem Kästchen verbirgt sich eine recht aufwändige Software, die das Verhalten des Anwenders registriert und ihn daraufhin als Mensch oder Maschine identifiziert.

Das erledigt ein Machine-Learning-Modell, das mit Mausbewegungen von Menschen trainiert worden ist. Doch nicht immer kann es präzise zwischen Bots und echten Usern unterscheiden. In diesem Fall erscheint dann das Bilder-Captcha, das Spambots nicht bewältigen können. Es kann mehrere Male angezeigt werden, etwa wenn ein Mensch Schwierigkeiten hat, die Bilder korrekt zu identifizieren.  

Anti-Captcha-Software wird immer leistungsfähiger

Doch bereits 2016 konnte der Informatiker Jason Polakis zeigen, dass sich die Captchas von den seinerzeit aktuellen Deep-Learning-Verfahren knacken lassen. Sie bewältigten etwa 70 Prozent der Bilderrätsel. Das brachte Google dazu, seine Verfahren zu verbessern und dabei stärker auf die Beobachtung des Benutzerverhaltens zu setzen. Bei ReCaptcha v3 geht es darum, ungewöhnlichen Traffic ohne direkte Benutzerinteraktion aufzudecken.

Dafür sollte die Captcha-Funktion in viele Einzelseiten einer Website integriert werden, um möglichst umfassende Daten über das Benutzerverhalten zu sammeln. Das Ergebnis ist ein Wert, der die Wahrscheinlichkeit angibt, mit der ein bestimmter Benutzer ein Bot ist. Nun können die Website-Betreiber reagieren, etwa indem sie eine (erneute) Zwei-Faktor-Authentifizierung anstoßen. Darüber hinaus eignen sich die generierten Daten auch für Machine-Learning-Modelle, die Angriffe auf die IT-Infrastruktur erkennen.

Diese Entwicklung zeigt, dass KI-Verfahren immer schwieriger abzuwehren sind. Der im Moment beste Weg für Website-Betreiber ist eine anfängliche Zwei-Faktor-Authentifizierung. Sie sollte aber auf einem Gerät nur einmal ausgeführt werden. Anschließend werden alle Benutzer überwacht und beim kleinsten Anzeichen von Bot-Verhalten erneut um eine Authentifizierung gebeten. Dieses Verfahren hat zudem den Vorteil, dass die Anwender schneller zum Ziel kommen und dabei nicht durch lästige-lustige Bilderrätsel genervt werden.

Bildquelle: Thinkstock

©2019Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok