Gesten sagen in der zwischenmenschlichen Kommunikation meist mehr als tausend Worte – wir legen den Finger auf die Lippen, wenn wir um Ruhe bitten, zeigen mit ausgestrecktem Finger auf Gegenstände oder Personen, über die wir gerade reden, oder formen mit Zeige- und Mittelfinger ein „V“, um einen Erfolg zu verdeutlichen. In unserer Kommunikation mit Menschen begleiten uns Gesten seit jeher, in der Kommunikation mit Maschinen sind sie bisher allerdings im Verhältnis zur Sprachsteuerung noch ein Randphänomen. Intelligente Gestenerkennung bietet dabei allerdings den Vorteil, die Customer Experience der Nutzer zu verbessern, indem sie ihnen natürlichere und bequemere Möglichkeiten eröffnet, mit Geräten oder Anwendungen zu interagieren. In Zeiten des Internet of Things und der damit verbundenen digitalen Durchdringung des Berufs- und Privatlebens ergibt sich eine schier unbegrenzte Zahl an Einsatzmöglichkeiten.
Gestenerkennung – mehr als nur Nischentechnologie
Bisher scheiterte die erfolgreiche Integration von Gestenerkennungssoftware trotz der erkennbaren Vorteile zumeist an ungeeigneter Technologie sowie zu hohen Kosten und dem enormen Aufwand für die Entwicklung und Implementierung einer Gestenschnittstelle. Diese fehlenden Einbettungsmöglichkeiten sowie unrentable Preise führten dazu, dass die Technologie für Gestenerkennung in der Vergangenheit zumeist nur für Nischenbereiche wie zum Beispiel Virtual Reality und ausschließlich dem hochpreisigen Automobilsektor vorbehalten war. Signifikante Weiterentwicklungen in der Gestenerkennungstechnologie ermöglichen es allerdings nun, das Potenzial der Gestensteuerung auch außerhalb des Premiumsektors und Nischenbereichs zugänglich zu machen. Ähnlich erging es vor wenigen Jahren der Sprachsteuerung, die dank neuer Entwicklungen und rasanter Fortschritte bezüglich Kosten und Einsetzungsmöglichkeiten den Sprung vom hochpreisigen Nischenprodukt in den Verbrauchermainstream vollzog.
Neue Entwicklungen führen zu drastischen Kostensenkungen
Das Beispiel der Automobilbranche verdeutlicht das Potenzial der neuen Entwicklungen in der Gestenerkennungstechnologie. Bisher zählten hohe Kosten, begrenzte Anzahl an Gesten, ungenügende Genauigkeit sowie unzureichendes Tracking zu den größten Herausforderungen bei der Entwicklung von Gestensteuerungen.
Die hohen Kosten resultierten bisher daraus, dass die Programmierung von Gestenerkennung aufwendig und kompliziert war. Darüber hinaus mussten auch noch umfangreiche Trainingsdaten für maschinelle Lernmodelle gesammelt und aufbereitet werden. Neuartige Entwicklungen ermöglichen nun eine drastische Kostenreduzierung, sodass Gestensteuerung womöglich bald nicht mehr nur im hochpreisigen Segment, sondern auch in Einstiegsmodellen zu finden sein wird. Dafür muss der Entwickler nur die gewünschte Geste auf seinem Smartphone-Bildschirm mit der Fingerspitze zeichnen. Das System übersetzt die Zeichnung dann in eine Bewegungsbahn, die der Entwickler mit einem einfachen, aber leistungsfähigen Editor nach Belieben verändern kann. Der Anwender muss darüber hinaus keine Daten für das Training des Gestenerkennungsmodells sammeln und bereitstellen. Das System generiert automatisch Trainingsdaten, die für den Einsatz in der Praxis ausreichen, während eine spezielle Klasse von maschinellen Lernalgorithmen in der Lage ist, aus einer kleinen Menge von Trainingsdaten schnell zu lernen.
Sobald eine Geste fertig ist, kann sie der Entwickler mit einem beliebigen Bewegungs-, Berührungs- oder Vision-Sensor verwenden. Beispielsweise erkennt ein Bewegungssensor die Geste, wenn ein Gerät in der Flugbahn der Geste bewegt wird, während ein Berührungssensor sie erkennt, wenn die Geste auf einem Bildschirm gezeichnet wird. Der Vision-Sensor hingegen reagiert auf die Geste, wenn diese vor der Kamera ausgeführt wird. Die eingebettete Implementierung für Bewegungs- und Berührungssensoren ist effizient genug, um auch auf ARM Cortex-M und ähnlichen Prozessoren zu laufen.
Mehr Gesten führen zu einer natürlicheren Interaktion – mehr dazu erfahren Sie auf Seite 2.
Individuell definierbare Gesten ermöglichen natürliche Interaktion
Weitere Herausforderung waren bisher die begrenzte Anzahl sowie die limitierte Vielfalt von erkennbaren Gesten. In der Regel gibt es bisher nur etwa ein Dutzend Gesten. Dies behindert die Natürlichkeit in der Interaktion und schränkt zudem den Umfang stark ein. Außerdem sind die Gesten zumeist auf einfache Bewegungen beschränkt, was die Nutzer zwingt, sich die programmierten und zum Teil unnatürlichen Gesten aufwendig zu merken. Dabei sollte sich die Gestensteuerung weg von einfachen Grundbewegungen hin zu natürlicheren und komplexeren Bewegungen entwickeln, die sich dann auch auf den jeweiligen Kontext anpassen lassen. Letzteres ist besonders wichtig für Anwendungen in nicht-westlichen Kulturen mit anderen Schriftzeichen. Als Beispiel wären hier China oder Japan zu nennen, die beide zu aufstrebenden oder gar führenden Nationen im Automobilsektor zählen.
Hinzu kommt, dass Nutzer bisher die Erkennungsgesten sehr exakt ausführen mussten; so führten individuelle Unterschiede in der Gestik zum Teil dazu, dass die Sensoren, die entsprechenden Gesten nicht erkennen konnten. Allerdings sind Menschen bekanntlich keine Roboter, die vordefinierte Gesten in jeder Situation präzise ausführen können, weshalb das System deshalb ein gewisses Maß an Toleranz akzeptieren muss. In diesem Zusammenhang steht auch die Tatsache, dass Nutzer bisher meist recht raumgreifende, große Bewegungen ausführen mussten, damit die Sensoren diese als solche erkennen. Aufgrund von räumlichen und situativen Gegebenheiten ist dies allerdings nicht immer im gleichen Maße möglich und auch nicht unbedingt zweckführend. Die Lösung dazu liegt darin, das Tracking von Fingern und Händen für Bewegungsgesten zu optimieren. Insbesondere in Kontexten, in denen große Bewegungen nicht möglich sind, ist dies maßgebend.
Anwendungsbereiche für Gestenerkennung
Der Wegfall der Programmierung, die automatische Generierung von Trainingsdaten und neue Algorithmen reduzieren den Bedarf an Rechenressourcen so weit, dass anspruchsvolle Gesten in gewöhnliche, kostengünstige und stromsparende Mikrocontroller mit geringem Platzbedarf eingebettet werden können. Das alles ermöglicht nun die Erstellung von Gestensteuerungen jeder Art und Komplexität in wenigen Minuten und reduziert den Zeit- und Kostenaufwand um mehr als 90 Prozent. Die definierten Gesten können dabei mit Bewegungs-, Berührungs- oder Vision-Sensoren verwendet werden. Dadurch wird es nun auch attraktiv, anspruchsvolle auf Bewegungs- oder Berührungssensoren basierende Gesten in normale, kostengünstige Mikrocontroller wie ARM Cortex-M oder ähnliche einzubetten, die in Alltagsgeräten verwendet werden. Daraus ergeben sich schier unbegrenzte Anwendungsmöglichkeiten in den Schlüsselbranchen Automotive, Haushaltsgeräte, Verschleißteile, Halbleiter, Sensoren, Mobile, Spielzeug, Robotik, Drohnen, Videospiele, Virtual Reality, Augmented Reality, Einzelhandel, Gesundheitswesen und Home Automation.
Die Technologie zur Spracherkennung hat es vorgemacht – anfangs noch als Nischenprodukt angesehen, hat sie sich mittlerweile sogar in die privaten Haushalte hinein entwickeln können und damit eindeutig den Massenmarkt erreicht. Mit der Technologie zur Gestenerkennung stehen wir heute noch am Beginn eines langen, aber sehr vielversprechenden Weges.
(prm)