Die Spracheingabe wird sich für bestimmte Aufgaben auch in der Industrie etablieren. Klaus Rottmayr, Geschäftsführer Spectra Industrie-PC & Automation

Die Spracheingabe wird sich für bestimmte Aufgaben auch in der Industrie etablieren. Klaus Rottmayr, Geschäftsführer Spectra Industrie-PC & Automation Spectra

Herr Rottmayr, hat sich das ungewöhnliche Engagement für das exotische Thema Sprachsteuerung in der Fertigung schon ausgezahlt?

Klaus Rottmayr: Aus unserer Sicht ist die Sprachsteuerung das kommende Thema in der nächsten Zeit, nicht nur im Privaten oder im Auto, sondern auch in der Industrie und kommerziellen Anwendungen, etwa an Verkaufsautomaten. Die Sprachsteuerung verleiht der Mensch-Maschine-Schnittstelle eine neue Dimension. Dass es seine Zeit braucht zwischen Interesse wecken, Ideen mit Anwendern diskutieren und dann zu implementieren, versteht sich von selbst.

Für welche Bereiche eignet sich Sprachsteuerung, für welche nicht?

Klaus Rottmayr: Sprachsteuerung spielt ihre Vorteile dort aus, wo eine dritte Hand benötigt wird, wo Steuerungs- und Protokolieraufgaben parallel durchgeführt werden müssen, mehrere Prozessparameter gleichzeitig ausgewählt werden müssen, schnell auf Funktionen zugegriffen werden muss und wo ein komplexer Informations- und Assistenzbedarf besteht.

Darüber hinaus bietet die Sprache den Vorteil der Unschärfe, so dass die zu steuernde Funktion nicht zu 100 % korrekt benannt werden muss. Ähnlichkeiten und Synonyme helfen bei der eindeutigen Erkennung. Und Künstliche Intelligenz hilft bei der Erkennung von unterschiedlichen Aussprachen, Betonungen und Dialekten.

Würde sich die Spracherkennung auch für eine laute Maschinenhalle mit wechselnden Hintergrundgeräuschen eignen?

Klaus Rottmayr: Das ist mitunter einer der wesentlichen Unterschiede zwischen einer Sprachsteuerung für den Consumer-Bereich und einer für die Industrie. Die Fortschritte bei der Spracherkennung und bei den Technologien zur Spracherfassung und -bereinigung von Störgeräuschen sowie akustischen Echos und Raumhall ermöglichen heute eine Sprachbedienung auch in lauten Industriehallen und mit mehreren konkurrierenden Sprechern.

Zur Messe zeigen Sie nun ein spezielles Hardware-Paket. Haben die Standard-Rechner zu wenig Power?

Klaus Rottmayr: Das ist keine Frage der Rechenleistung, sondern eine Frage der Kompatibilität der Komponenten. Und zusätzlich wollen wir dem Anwender einen sehr einfachen Einstieg in das Thema Sprachbedienung geben. Hierfür bietet sich ein Set an, bestehend aus einem Mikrofon, der Spectra PowerBox 100-IVC und der vorinstallierten Sprachverarbeitungssoftware vicControl sowie der Lizenz für die Konfigurationsumgebung, übrigens: IVC steht für Industrial Voice Control.

Entscheidend ist, dass bei unserer Lösung die Spracherfassung und -verarbeitung lokal und nicht in der Cloud erfolgen, das heißt es handelt sich um eine industrielle Embedded Lösung. Und die Definition des Wortschatzes auf eine bestimmte Anwendungsdomäne erlaubt mit geringem Aufwand eine Optimierung hinsichtlich Erkennungsgenauigkeit, schnelle Sinnerfassung sowie hohe Zuverlässigkeit und Robustheit.

Brauchen Sie die Rechenpower, um die Signalwörter und Sprachen schnell zu identifizieren?

Klaus Rottmayr: Die Besonderheit unserer Lösung ist, dass sich die benötigte Rechenleistung in Grenzen hält. In der Konfiguration jeder Anwendung wird festgelegt, welche Inhalte in welchen Sprachen enthalten sein sollen. Bei der Inbetriebnahme durch den Nutzer wird eine Sprache ausgewählt. Technisch sind aber auch Anwendungen mit mehreren gleichzeitig aktiven Spracherkennern denkbar. Derzeit sind 30 Sprachen verfügbar und somit ist ein weltweiter Einsatz realisierbar. Da die Anwendung offline, also ohne Internetverbindung als Embedded Lösung funktioniert, macht eine Reduzierung der Sprachen wegen des Datenumfangs und auch wegen des Pflegeaufwands durchaus Sinn.

Die Spracherkennung erfolgt ohne Onlineverbindung direkt vor Ort und verlangt keine High-End-Rechner.

Die Spracherkennung erfolgt ohne Onlineverbindung direkt vor Ort und verlangt keine High-End-Rechner. Spectra

Mit welchen Steuerungen oder HMI-Tools funktioniert denn Ihre Spracherkennung?

Klaus Rottmayr: Wir verfolgen grundsätzlich einen offenen Ansatz und unterstützen mit der ersten Version das offene MQTT-Protokoll. Die Software setzt Sprachbefehle auf MQTT um, die dann an jede Applikation übergeben werden können, die dieses Protokoll implementiert hat. In der Version, die wir jetzt auf der SPS vorstellen, haben wir einen Protokollkonverter implementiert. Mit dem ist es dann möglich über Modbus-TCP mit Steuerungen und HMI verschiedener Hersteller zu kommunizieren.

Gibt es von Ihrem Kooperationspartner VIC belastbare ROI-Betrachtungen?

Klaus Rottmayr: Hier müssen wir ganz klar zwischen einer Einzelplatzlösung, wie der PowerBox 100-IVC und einer implementierten Serienlösung unterscheiden. Nach den Erfahrungen unseres Partners VIC amortisiert sich eine implementierte Sprachsteuerungslösung in der Regel im Laufe des ersten Jahres bei Projektkosten zwischen 10 000 und 60 000 Euro. Dabei wird ein Produktivitätszuwachs zwischen 20 und 50 Prozent erreicht.

Aber, wie wollen Sie Ergonomie, Bedienerfreundlichkeit, Parallelbedienung, Fehlerreduzierung in Zahlen fassen? Diese ROI-Diskussionen gab es bereits bei der Einführung von Touchscreens im Vergleich zum Tastenfeld oder aktuell bei der Bedienung durch Gestenerkennung. Dennoch erwartet heute jeder, dass sich ein Display per Berührung bedienen lässt.

Vor dem Hintergrund von Siri, Alexa und Co. erwartet der Maschinenbediener von morgen möglicherweise, dass er mit seiner Maschine genauso sprechen kann.

Das Interview führte IEE-Chefredakteur Stefan Kuppinger

Spectra auf der SPS 2019: Halle 7, Stand 430