Menschen können lernen, wie eine Maschine im Normalzustand klingt. Ändert sich das Maschinengeräusch, nimmt der Hörer es als anormal wahr. Der Mensch kann lernen, was das Problem ist und dementsprechend Schall und Problem assoziieren. Die Fähigkeit, Anomalien zu erkennen, lässt sich in wenigen Minuten trainieren. Geräusche, Vibrationen und deren Ursachen zu verbinden, um Diagnosen durchzuführen, kann jedoch ein ganzes Leben lang dauern. Techniker und Ingenieure mit dieser Expertise sind selten und daher von hohem Wert, da sie nur mit ihrem Gehör Maschinendiagnosen erstellen können. Wie vermitteln diese Experten ihr Wissen? Das können sie kaum, auch nicht mit Tonaufnahmen oder durch beschreibende Frameworks. Bis zum Experten für Maschinenzustände ist es ein weiter Weg.

Eck-daten

Die Otosense-Technologie von Analog Devices verfolgt das Ziel, Fachwissen über Klang und Vibrationen kontinuierlich und auf jeder Maschine zur Verfügung zu stellen, ohne dass eine Netzwerkverbindung für Ausreißer-und Ereigniserkennung erforderlich ist. Techniker mit der Expertise Maschinengeräusche richtig zu deuten, helfen das System klanggenau zu konfigurieren. Durch das System verfügt somit jede Anlage über einen „potenziellen Experten“ mit KI zur Geräuscherkennung.

Bild 1: 2D-Ähnlichkeitskarte für Klänge.

Bild 1: Der S-Platter wählt die interessantesten und repräsentativsten Klänge im gesamten Datensatz aus und stellt sie als zweidimensionale Ähnlichkeitskarte dar. ADI

Analog Devices hat sich die letzten 20 Jahre darauf konzentriert herauszufinden, wie Menschen Geräusche und Vibrationen verstehen. Das Ziel bestand darin, ein System zu entwickeln und zu realisieren, das in der Lage ist, Maschinengeräusche und Vibrationen und ihre Bedeutung von Experten zu lernen, anormales Verhalten zu erkennen und Diagnosen durchzuführen. Und dies für jede Maschine, in Echtzeit, ohne Netzwerkanbindung und angepasst an industrielle Anwendungen. Kurz: Ermöglichung eines skalierbaren und effizienten Systems für die Zustandsüberwachung von Maschinen mithilfe der Frühindikatoren für Maschinenverhalten, Vibrationen und Geräusche. Das Resultat dieser Bestrebungen ist Otosense, ein System mit der Fähigkeit, Geräusche oder Vibrationen zu deuten.

Um robust, agnostisch und effizient zu sein, haben sich die Entwickler an einige Leitlinien gehalten. Die Basis für die Entwicklung des Systems bildet daher die Inspiration durch die Neurologie des Menschen. Dies erfordert angepasste Funktionen und kontinuierliche Überwachung. Zudem sollte das System in der Lage sein, stationäre und transiente Geräusche zu lernen. Dies erforderte angepasste Funktionen und kontinuierliche Überwachung. Eine weitere Richtlinie war die Durchführung der Erkennung am Rand des Netzwerks (Edge) in der Nähe des Sensors. Es sollte keine Netzwerkverbindung zu einem entfernten Server erforderlich sein, um eine Entscheidung zu treffen. Außerdem sollte die Interaktion mit Experten, die nötig sind, um von ihnen zu lernen, mit minimalen Auswirkungen auf ihre tägliche Arbeitsbelastung erfolgen und so angenehm wie möglich sein.

Übertragung auf Otosense

Sound Widgets Grafik

Bild 2: Mit „Sound Widgets“ oder „SWidgets“ lassen sich Klänge visualisieren. ADI

Der Prozess, dass der Mensch Geräusche nutzvoll einsetzen kann, lässt sich in vier Schritte einteilen: Analoge Geräuscherfassung, digitale Wandlung, Extraktion von Merkmalen und Interpretation.

Eine Membran (Trommelfell) und drei Gehörknöchelchen im Mittelohr des Menschen erfassen Geräusche und übertragen die entsprechenden Vibrationen auf einen mit Flüssigkeit gefüllten Kanal. Dort befindet sich eine weitere Membran (Vorhof-Fenster), auf die die Schallwellen vom Trommelfell übertragen werden. Abhängig von den spektralen Frequenzkomponenten im Signal wird das Vorhof-Fenster angeregt und es entsteht je nach Stärke und Beschaffenheit des Signals ein entsprechendes Ausgangssignal.

Bei der Otosense-Technologie übernehmen Sensoren, Verstärker und Codecs diese Funktion. Die Digitalisierung erfolgt mit einer festen Abtastrate, die zwischen 250 Hz und 196 kHz einstellbar ist, wobei die Wellenform auf 16 Bit kodiert und das System in Puffern von 128 bis 4096 Abtastungen abspeichert.

Die Extraktion von Merkmalen geschieht im primären Kortex: Frequenzbereichsmerkmale wie dominante Frequenzen, Harmonizität, Spektralform und Zeitbereichsmerkmale wie Impulse, Intensitätsschwankungen und Hauptfrequenzkomponenten über ein Zeitfenster von etwa 3 s.

Otosense verwendet ein Zeitfenster, genannt „Chunk“, und bewegt sich mit einer festen Schrittweite. Abhängig von den zu erkennenden Ereignissen und der Abtastrate kann die Chunk-Größe zwischen 23 ms und 3 s liegen, ebenso wie die Schritte. Die Extraktion der Merkmale erfolgt am Rand.

Confusion Matrix

Bild 3: Ereigniserkennungsmodelle werden als runde Verwirrungsmatrix (Confusion Matrix) dargestellt, die es ermöglicht, diese Verwirrungen zu untersuchen. ADI

Die Interpretation findet im assoziativen Kortex statt, was bedeutet, dass sie alle Wahrnehmungen und Erinnerungen zusammenführt und dem Klang, auf den sich unsere Aufmerksamkeit konzentriert, eine Bedeutung verleiht.

Die Otosense-Interaktion mit einem Menschen geht von einer visuellen, unbeaufsichtigten Klangkartierung (Sound Mapping) aus, die nur auf der Neurologie des Menschen basiert. Dann können Experten die unscharfen Cluster auf dem Bildschirm organisieren und benennen, wie sie es für sinnvoll halten, ohne zu versuchen, künstlich begrenzte Kategorien zu erstellen, und anschließend selbst eine semantische Karte erstellen, die auf ihr Wissen, ihre Wahrnehmungen und Erwartungen an die Endausgabe von Otosense ausgerichtet ist.

Von Klang und Vibration zu Merkmalen

Ein Merkmal ist eine individuelle Zahl, die ein bestimmtes Attribut beziehungsweise eine bestimmte Qualität von Klang oder Vibration über einen bestimmten Zeitraum beschreibt.

Merkmale sollten die Umgebung so vollständig und mit so vielen Details wie möglich beschreiben, sowohl im Frequenz- als auch im Zeitbereich. Sie müssen stationäre Brummtöne, Klicks, Klappern, Quietschen und jede Art von vorübergehender Instabilität beschreiben.

Analyse-Tool für ungewöhnliche und extreme Klänge.

Bild 4: Ausreißer können über eine Schnittstelle untersucht und gekennzeichnet werden, die alle ungewöhnlichen und extremen Klänge im Laufe der Zeit anzeigt. ADI

Außerdem sollten sie eine möglichst orthogonale Anordnung bilden. Wenn ein Merkmal „durchschnittliche Amplitude auf dem Chunk“ ist, sollte es kein anderes Merkmal geben, das stark mit diesem korreliert ist, ebenso wenig wie „gesamte Spektralenergie auf dem Chunk“. Natürlich wird die Orthogonalität nie erreicht. Es ist jedoch zu vermeiden, ein Merkmal als Kombination anderer Merkmale auszudrücken.

Zuletzt sollten Merkmale die Berechnung minimieren. Das Gehirn kennt nur Addition, Vergleich und Zurücksetzen auf 0. Die meisten Otosense-Merkmale sind inkrementell, sodass jedes neue Sample das Merkmal mit einer einfachen Operation modifiziert, ohne dass sie bei vollem Puffer, oder schlimmer „Chunk“, neu zu berechnen ist. Die Minimierung der Berechnung ermöglicht es auch, sich nicht um die üblichen physikalischen Einheiten kümmern zu müssen.

Ein Teil der zwei bis 1024 Merkmale beschreibt den Zeitbereich. Sie lassen sich entweder direkt aus der Wellenform oder aus der Entwicklung jedes anderen Merkmals über dem Chunk extrahieren. Die im Frequenzbereich verwendeten Merkmale lassen sich aus einer FFT (Fast Fourier Transformation) extrahieren. Die Berechnung der FFT erfolgt auf jedem Puffer und ergibt 128 bis 2048 individuelle Frequenzbeiträge. Der Prozess besteht dann darin, einen Vektor mit der gewünschten Anzahl von Dimensionen zu erstellen, natürlich viel kleiner als die FFT-Größe, aber dennoch sehr gut geeignet, die Umgebung zu beschreiben.

Zunächst beginnt Otosense mit einer agnostischen Methode, die gleich große Buckets auf dem Log-Spektrum erzeugt. Abhängig von der Umgebung und den zu erkennenden Ereignissen passen sich die Buckets dann an, um sich auf Bereiche des Spektrums mit hoher Informationsdichte zu konzentrieren, entweder aus einer unbeaufsichtigten Perspektive, welche die Entropie maximiert, oder aus einer halbüberwachten Perspektive, die gekennzeichnete Ereignisse zur Orientierung verwendet. Dies imitiert die Architektur menschlicher Innenohrzellen, die dort dichter sind, wo die Sprachinformation maximal ist.

Von Merkmalen zur Anomalie-Erkennung

Die Bewertung von Normalität und Anormalität erfordert nicht viel Interaktion mit Experten: Der einzige Input, den Experten liefern müssen, ist eine Zeitspanne, in der sich das Verhalten der Maschine als „normal“ bezeichnen lässt und somit eine Basislinie darstellt. Die Basislinie wird in ein Ausreißermodell auf dem Server umgewandelt und auf das Gerät übertragen.

Um die Normalität eines eingehenden Klangs oder einer Vibration zu bewerten, kommen zwei verschiedene Strategien zum Einsatz: Die erste heißt „Gewöhnlichkeit“. Dabei überprüft jeder neue eingehende Klang, der im Merkmal-Raum landet, seine Umgebung und bestimmt, wie weit er von Basislinienpunkten und Clustern entfernt ist und wie groß die Nachbarcluster sind. Je größer die Entfernung und je kleiner die Cluster, desto ungewöhnlicher ist der neue Klang und desto höher ist sein Ausreißerwert. Liegt der Ausreißerwert über einem von Experten definierten Schwellenwert, ist der entsprechende Chunk als ungewöhnlich zu bezeichnen und an den Server zu senden, um für Experten verfügbar zu sein.

Die zweite Strategie ist sehr einfach: Jeder eingehende Chunk mit einem Merkmal-Wert über oder unter dem Maximum oder Minimum aller Merkmale, die die Basislinie definieren, ist als extrem zu kennzeichnen und ebenfalls an den Server zu senden.

Cloud-Architektur

Bild 5: Eine Cloud-Architektur ist sinnvoll, um mehrere aussagekräftige Datenströme wie die Ausgabe von Otosense-Geräten zu bündeln. ADI

Die Kombination von ungewöhnlichen und extremen Strategien bietet eine gute Abdeckung von anormalen Klängen oder Vibrationen und liefert sowohl bei progressivem Verschleiß als auch bei unerwarteten, dramatischen Ereignissen gute Ergebnisse.

Von Merkmalen zur Ereigniserkennung

Merkmale gehören zum physischen Bereich, Bedeutung gehört zur menschlichen Wahrnehmung. Um Merkmale mit Bedeutung zu verbinden, ist Interaktion erforderlich.

Ein Sound Splatter ermöglicht das Erkunden und Markieren von Klängen mit einer vollständigen Übersicht über den Datensatz. Der Splatter wählt die interessantesten und repräsentativsten Klänge im gesamten Datensatz aus und stellt sie als zweidimensionale Ähnlichkeitskarte dar, indem er gekennzeichnete und nicht gekennzeichnete Klänge mischt (Bild 1). Jeder Klang oder jede Vibration lässt sich mit seinem Kontext auf vielfältige Weise visualisieren. Nachfolgend zum Beispiel die Verwendung von Sound Widgets (Bild 2).

Es lässt sich jederzeit ein Ausreißermodell oder ein Ereigniserkennungsmodell erstellen. Ereigniserkennungsmodelle lassen sich als runde Verwirrungsmatrix (Confusion Matrix) darstellen, die es ermöglicht, diese Verwirrungen zu untersuchen (Bild 3). Ausreißer lassen sich über eine Schnittstelle untersuchen und kennzeichnen, die alle ungewöhnlichen und extremen Klänge im Laufe der Zeit anzeigt (Bild 4).

Leistung zum Netzwerkrand und Daten auf das Gelände

Ausreißer- und Ereigniserkennung mit Otosense erfolgen am Netzwerkrand, ohne die Beteiligung von Remote Assets. Die Architektur stellt sicher, dass ein Netzwerkausfall das System nicht beeinträchtigt und vermeidet, alle Rohdaten zur Analyse versenden zu müssen. Ein Edge Device, auf dem Otosense läuft, ist ein in sich geschlossenes System, welches das Verhalten der zu beobachtenden Maschine in Echtzeit beschreibt.

Der Otosense-Server, auf dem die KI und das HMI laufen, ist normalerweise vor Ort gehostet. Eine Cloud-Architektur ist sinnvoll, um mehrere aussagekräftige Datenströme wie die Ausgabe von Otosense-Geräten zu bündeln. Es ist weniger sinnvoll, eine KI zur Verarbeitung großer Datenmengen und der Interaktion mit Hunderten von Geräten an einem einzigen Standort in einer Cloud zu hosten (Bild 5).