"Sprachsteuerung wird auch in der Industrie ein spannendes Thema." Klaus Rottmayr, Geschäftsführer Spectra

„Sprachsteuerung wird auch in der Industrie ein spannendes Thema.“ Klaus Rottmayr, Geschäftsführer Spectra Spectra

Herr Rottmayr, Spectra ist als IPC-Spezialist bekannt, warum das ungewöhnliche Engagement für ein exotisches Thema?

Klaus Rottmayr: Sprachsteuerung ist kein exotisches Thema, sondern das kommende Thema in der Industrie. Die Sprachsteuerung verleiht der Mensch-Maschine-Schnittstelle eine neue Dimension. Daher sind wir mit der Firma voice inter connect eine strategische Partnerschaft eingegangen. VIC beschäftigt sich seit 2001 mit dem Thema Kommunikation. Und zusammen werden wir das Thema Sprachsteuerung für Maschinen vorantreiben.

Für welche Bereiche eignet sich Sprachsteuerung, für welche nicht?

Klaus Rottmayr: VIC und wir sind uns einig, dass die Sprachsteuerung ihre Vorteile dort ausspielen kann, wo eine dritte Hand benötigt wird, wo Steuerungs- und Protokolieraufgaben parallel durchgeführt werden müssen,  mehrere Prozessparameter gleichzeitig ausgewählt werden müssen, schnell auf Funktionen zugegriffen werden muss und wo ein komplexer Informations- und Assistenzbedarf besteht. Zudem bietet die Sprache den Vorteil der Unschärfe, so dass die zu steuernde Funktion nicht zu 100% korrekt benannt werden muss. Ähnlichkeiten und Synonyme helfen bei der eindeutigen Erkennung.

Würde sich die Spracherkennung auch für eine laute Maschinenhalle mit wechselnden Hintergrundgeräuschen eignen?

Klaus Rottmayr: Die Fortschritte bei der Spracherkennung und bei den Technologien zur Spracherfassung und -bereinigung von Störgeräuschen sowie akustischen Echos und Raumhall ermöglichen heute eine Sprachbedienung in lauten Industriehallen und mit mehreren konkurrierenden Sprechern.

Was sagt denn die Maschinenrichtlinie zu einer Sprachsteuerung?

Klaus Rottmayr: Durch sorgfältige Beachtung prozessbezogener und ergonomischer Faktoren sowie Risikobetrachtungen zu Projektbeginn können solche Gefährdungen bereits beim Entwurf der Lösung erkannt und vermieden werden. Deshalb sehen wir in erster Linie die Sprachsteuerung zuerst in den begleitenden Funktionen einer Anwendung. Die Sprachsteuerung soll bestehende Funktionen nicht ersetzen, sondern diese um eine neue Dimension der Bedienung ergänzen und somit die Bedienung noch ergonomischer und effizienter machen.

Wie viele Sprachen beherrscht das System und verseht es mehrere Sprachen gleichzeitig ohne Sprachumschaltung?

Siri und Co. machen die Sprachsteuerung auch an Maschinen zu einer erwarteten User experience.

Siri und Co. machen die Sprachsteuerung auch an Maschinen zu einer erwarteten User experience. Spectra

Klaus Rottmayr: Derzeit sind 30 Sprachen für die Sprachsteuerung verfügbar und somit ist ein weltweiter Einsatz realisierbar. In der Konfiguration jeder Anwendung wird festgelegt, welche Inhalte in welchen Sprachen enthalten sein sollen. Da die finale Anwendung offline, also ohne Internetverbindung als Embedded Lösung funktioniert, macht eine Reduzierung der Sprachen nicht nur wegen des Pflegeaufwandes Sinn, sondern auch wegen des Datenumfangs. Bei der Inbetriebnahme durch den Nutzer wird eine Sprache ausgewählt. Technisch sind aber auch Anwendungen mit zwei oder mehreren gleichzeitig aktiven Spracherkennern denkbar.

Versteht die Software auch Klangfarben wie schwäbisch?

Klaus Rottmayr: Der Spracherkenner ist so intelligent, dass er auch Umgangssprache versteht. Die Datenbank des Spracherkenners beziehungsweise das akustische Modell, die spezifisch für eine Sprache und deren Lautelemente trainiert wurde, repräsentiert Daten einer Vielzahl von Sprechern dieser Sprache. So sind Männer, Frauen und Kinder aller Altersklassen und Dialekte enthalten und können deshalb auch erkannt werden.

Ist eine klare Semantik einzuhalten oder erkennt die Software den Sinn eines gesprochenen Satzes?

Klaus Rottmayr: Das System versteht normale umgangssprachliche Sätze und erkennt sogar mehrere Kommandos und Variablen in einem Satz. Der Erkenner kann regelbasiert die Steuerungssemantik bereits bei der Erkennung der Steuerphrase ermitteln sowie Variable und Wert extrahieren oder fließenden Text erzeugen, der einer semantischen Analyse unterworfen werden muss. Bei letzterem Verfahren werden Wörter, deren Stellung und Funktion im Satz und somit der inhaltliche Gehalt des Satzes ermittelt. Unter Berücksichtigung des Kontextes wie Situation, Tageszeit, Ort sowie der Nutzergewohnheiten, etwa die bevorzugte Wortwahl, Interessen und Vorlieben, kann eine Entschlüsselung des Befehls vereinfacht werden.

Wie sieht der Teach-Vorgang konkret aus?

Klaus Rottmayr: Grundsätzlich können bei einem NLU-Erkenner, das heißt Natural Language Understanding, der natürliche Sprache verarbeiten kann, Beispielsätze in Form von Text vorgegeben werden. Für einen Befehl lassen sich mehrere Beispielsätze angegeben. Wortwahl, Struktur des Satzes und Funktionen der einzelnen Inhaltswörter werden dann in einem Trainingsschritt zu einer Datenbank verarbeitet. Ein NLU-Erkenner versteht Befehle und Parameter in beliebiger Reihenfolge, auch wenn sie in Trägerphrasen eingebettet sind. Die Formulierung eines Befehls ist also nicht an starre Regelwerke gebunden, sondern dieser kann ganz frei und komfortabel formuliert werden.

Für dieses Teachen stellt voice inter connect ein Online-Tool bereit, das derzeit in der Finalisierung ist. Nach der Konfiguration wird das Ergebnis als Projekt gespeichert und auf das Embedded System übertragen, wo es versionssicher für den Offline­betrieb einsetzbereit ist.

Mit welchen Steuerungen/HMI-Tools funktioniert die Spracherkennung?

Ein OPC-UA Interface für Industrie 4.0 und Automationsanwendungen ist in Vorbereitung.

Ein OPC-UA Interface für Industrie 4.0 und Automationsanwendungen ist in Vorbereitung.

Spectra

Klaus Rottmayr: Wir verfolgen hier einen offenen Ansatz und unterstützen mit MQTT ein offenes Protokoll. Die Software setzt Sprachbefehle auf MQTT um und kann dann an jede Applikation übergeben werden, die dieses Protokoll implementiert hat.

MQTT ist noch nicht wirklich verbreitet. Was ist mit OPC UA?

Klaus Rottmayr: Ein OPC-UA Interface für Industrie 4.0 und Automationsanwendungen ist in Vorbereitung.

Reicht auch ein Bluetooth/Telefon-Headset als Eingabesystem?

Klaus Rottmayr: Die Spracheingabe über ein Bluetooth-Headset ist durchaus vorteilhaft, da das Mikrofon-Signal direkt am Mund aufgenommen wird. Dies erlaubt eine saubere Sprachqualität ohne viele Hintergrundgeräusche. Für die Sprachbedienung ist es zu empfehlen, BT2.0 Headsets zu verwenden, die die Übertragung von Breitband-Sprache bis 16 kHz Abtastfrequenz erlauben. Bei einer Beschränkung auf das Telefonie-Band mit 8 kHz Abtastfrequenz gehen mitunter für das Sprachverstehen wichtige Anteile verloren

Welche Systemvoraussetzungen sind notwendig?

Klaus Rottmayr: Neben dem echzeitfähigen Soundsystem mit mindestens 16 Bit und 16 kHz, einem leistungsfähigem Mikrofon sowie ausreichend großen  Lautsprechern sind die Performance- Anforderungen nicht hoch. Die Spracherkennung läuft auf embedded Plattformen wie auch auf klassischen PC-Plattformen mit Windows und Linux sowie auf Mobilgeräten mit Android. Um es dem Kunden so einfach wie möglich zu machen, werden wir auf unseren Panel PCs PowerTwin und Embedded Systemen PowerBox ein Linux-Betriebssystem mit vorinstallierter Sprachsteuerung anbieten. Die Installation der Sprachsteuerung auf bestehende Kundensysteme ist derzeit nur im Rahmen von Projektentwicklungen vorgesehen.

Das Interview führte Stefan Kuppinger, Chefredakteur IEE

SPS IPC Drives 2018: Halle 7, Stand 420