Inspektion von Einweg-Aluminiumschalen

Inspektion von Einweg-Aluminiumschalen für Lebensmittel mithilfe von Machine Learning-Algorithmen: Dabei übernimmt ein Embedded PC die Auswertung aller Bilder von vier Produktionslinien – 120 Bilder pro Linie und Minute. Fehlerhafte Schalen können so sofort aussortiert werden. Stemmer Imaging

Konventionelle Bildverarbeitungssysteme und Algorithmen zur Bildauswertung haben sich in den vergangenen Jahren stetig weiterentwickelt und waren außerordentlich erfolgreich, wie die jährlichen Umsatzzahlen des Verbands Deutscher Maschinen- und Anlagenbauer VDMA eindrücklich belegen: Um rund 18 % konnten die in der VDMA-Statistik erfassten Bildverarbeiter ihren Umsatz von 2016 auf 2017 steigern und somit erheblich schneller wachsen als die meisten vergleichbaren Technologie-Branchen. Diese eindrucksvolle Entwicklung könnte in den kommenden Jahren dank der Methoden aus dem Bereich des maschinellen Lernens anhalten: Machine Learning und Deep Learning heißen die aktuellen Zauberformeln, die der Bildverarbeitung ganz neue Horizonte eröffnen.

Doch wie unterscheiden sich diese beiden derzeit so hochgelobten Ansätze von konventionellen Bildverarbeitungssystemen und was macht Machine Learnig und Deep Learning so besonders? “Konventionelle Bildverarbeitungssysteme und -methoden arbeiten in der Regel mehr oder weniger streng analytisch”, erklärt Volker Gimple, Gruppenleiter Bildverarbeitung bei Stemmer Imaging. “So wird beispielsweise für eine geometrische Mustererkennung eine Anzahl an Regeln und ein Modell definiert, mit dessen Hilfe ein Objekt beschrieben wird. Während der nachfolgenden Überprüfung wird dann zur Laufzeit in den aufgenommenen Bildern nach Merkmalen gesucht, die mit dem Modell übereinstimmen. Wenn der Algorithmus genügend viele dieser Merkmale findet, können daraus Rückschlüsse auf die Position und den Transformationszustand des Objekts gezogen werden.”

Eck-daten

  • Machine Learning beziehungsweise Maschinelles Lernen ist ein Oberbegriff für die ‘künstliche’ Generierung von Wissen aus Erfahrung, die auf Gelerntem beruht.
  • Deep Learning ist eine von mehreren Methoden des Maschinellen Lernens die auf neuronalen Netzen mit mehreren Hidden Layern basiert.
  • Konventionelle Methoden der Bildverarbeitung sind mehr oder weniger analytisch und basieren etwa bei der Mustererkennung auf Regeln und einem definierten Modell des Objekts.
  • Die Mustererkennung durch Maschinelles Lernen benutzt keine vorgegebenen Regeln oder Modelle, sondern die eingesetzten Algorithmen bauen ein statistisches Modell auf, das auf Trainingsdaten beruht.
  • Die Stärke der Machine Learning-Methoden liegt darin, dass ein solcher Ansatz flexiblere Entscheidungen treffen kann als ein Satz vorgegebener Regeln in konventionellen Ansätzen.

Machine Learning ist ein anderer Ansatz

Machine Learning-Ansätze gehen grundsätzlich anders als vor. Sie basieren auf der Idee, einem Satz von Inputs einen bestimmten Output zuzuordnen. Als Input dienen in der Bildverarbeitung naheliegenderweise die Pixel, auf denen gearbeitet wird. Mögliche Outputs sind Entscheidungen, ob ein Objekt als Gut- oder Schlechtteil erkannt wird, welcher Kategorie es angehört oder welchen Qualitätsgrad es erreicht. Typisch hierbei ist, dass die Anzahl der zur Verfügung stehenden Inputs in der Regel zu hoch ist, um mit konventionellen analytischen Methoden in vertretbarer Zeit eine ausreichend robuste Lösung zu finden. Stattdessen bedient man sich bei Machine Learning-Methoden mathematischer Modelle, die aufgrund von Datensätzen – die zum Anlernen verwendet wurden – versuchen, eine möglichst optimale Näherung für die Abbildung der Inputs auf die Outputs zu ermitteln.

Die Stärke der Machine Learning-Methoden liegt darin, dass ein solcher Ansatz flexiblere Entscheidungen treffen kann, als ein Satz vorgegebener Regeln in konventionellen Ansätzen: Die Beschreibung dieser Regeln in den konventionellen Ansätzen engt die Sichtweise auf die Daten im Gegensatz zu Machine Learning-Methoden bereits ein.

Deep Learning oder Machine Learning?

Die Begriffe Deep Learning und Machine Learning werden häufig gleichgesetzt. Machine Learning ist der Oberbegriff und wesentlich breiter gefasst als Deep Learning. Deep Learning ist eine von mehreren Methoden des Machine Learning und bezeichnet eine Methodik, die auf neuronalen Netzen mit mehreren versteckten Ebenen (sogenannten ‘Hidden Layers’) basiert. Deep Learning ist damit wiederum eine Teilmenge der neuronalen Netze. Machine Learning hingegen reicht über neuronale Netze hinaus und schließt auch andere mathematische Methoden wie Support Vector Machines oder Regularisierungsansätze mit ein.

Deep Learning-Ansätze basieren auf neuronalen Netzen mit mehreren Hidden Layers.

Deep Learning-Ansätze basieren auf neuronalen Netzen mit mehreren Hidden Layers. Stemmer Imaging

All diese Verfahren eignen sich nicht nur für den Einsatz in der Bildverarbeitung, sondern für eine ganze Reihe von anderen Aufgaben, und zwar immer dann, wenn es um Lösung von Problemen mit großen Datenmengen geht. Eine sehr bekannte Anwendung des maschinellen Lernens hat Google verwirklicht: Das IT-Unternehmen hat Zugriff auf riesige Datenbestände an Übersetzungen und verfügt über Systeme mit enormer Rechenleistung. Ende 2016 hat Google bekanntgegeben, dass es Machine Learning erfolgreich zur Verbesserung von Google Translate, dem Übersetzungsservice des Unternehmens, eingesetzt hat. Die Untersuchungen haben gezeigt, dass neuronale Netze mit relativ kleinen Datenmengen ähnliche Übersetzungsresultate liefern wie die bis dahin genutzten Übersetzungen auf der Basis von Wörterbüchern und syntaktischen Regeln. Durch weitere Tests und Methoden des so genannten unüberwachten Lernens (‘unsupervised learning’) konnten Übersetzungsfehler um bis zu 85 % vermindert werden. Google hat sein dafür entwickeltes internes Software Development Kit (SDK) namens TensorFlow inzwischen auch als Open-Source-Software der Öffentlichkeit zugänglich gemacht. Einige Deep Learning-Produkte aus dem Bereich der industriellen Bildverarbeitung verwenden dieses Google-SDK als technische Grundlage.

Bild eines Bauteils beim Anlernen innerhalb der Machine Learning-Software CVB Polimago und die Suchergebnisse (Bild unten) der Software für dieses Bauteil in beliebiger Lage und vermengt mit anderen Bauteilen einem aufgenommenen Bild. Die Bildverarbeitungs-Software basiert auf einer speziellen Machine Learning-Technik, die einen vergleichsweise moderaten Lernaufwand erfordert und auf gängiger PC-Hardware schnelle Ausführungszeiten erzielt.

Bild eines Bauteils beim Anlernen innerhalb der Machine Learning-Software CVB Polimago und die Suchergebnisse (Bild unten) der Software für dieses Bauteil in beliebiger Lage und vermengt mit anderen Bauteilen einem aufgenommenen Bild. Die Bildverarbeitungs-Software basiert auf einer speziellen Machine Learning-Technik, die einen vergleichsweise moderaten Lernaufwand erfordert und auf gängiger PC-Hardware schnelle Ausführungszeiten erzielt. Stemmer Imaging

Schnelle Grafikprozessoren verbessern neuronale Netze

Die Bildverarbeitung ist für den Einsatz von Deep Learning-Algorithmen prädestiniert und profitiert von den Vorzügen dieser Technologie in besonderer Weise. Ein Grund dafür ist unter anderem, dass bei Bildverarbeitungsanwendungen häufig sehr große Datenmengen anfallen, die in vielen industriellen Anwendungen extrem schnell verarbeitet werden müssen. Die Erforschung neuronaler Netze erhielt in den letzten Jahren neue Impulse durch die Verfügbarkeit immer schnellerer und leistungsfähigerer Grafikprozessoren (GPUs), auf denen sich der Lernvorgang und die Anwendung neuronaler Netze effizient durchführen lässt. Diese GPUs wurden ursprünglich speziell zur Erzeugung von Bilddaten entwickelt; sie haben sich dann aber auch als hervorragend für die Verarbeitung von Bilddaten erwiesen. Und dann wurden sie für diese Aufgabe weiter optimiert. Für die Bilddatenverarbeitung mit Deep Learning-Methoden stellen GPUs somit derzeit eine extrem leistungsfähige Basis dar.

Suchergebnisse für das eingelernte Bauteil (siehe Bild oben) innerhalb der Machine Learning-Software CVB Polimago. Das Bauteil liegt in beliebiger Lage und und ist vermengt mit anderen Bauteilen in einem aufgenommenen Bild.

Suchergebnisse für das eingelernte Bauteil (siehe Bild oben) innerhalb der Machine Learning-Software CVB Polimago. Das Bauteil liegt in beliebiger Lage und und ist vermengt mit anderen Bauteilen in einem aufgenommenen Bild. Stemmer Imaging

Machine Learning wird seit Jahren schon eingesetzt

Heute existieren zahlreiche Bildverarbeitungsanwendungen auf Basis von Machine Learning-Methoden, berichtet Gimple: “Etliche unserer Kunden verwenden bereits seit über 15 Jahren erfolgreich Machine Learning-Methoden, hauptsächlich für anspruchsvolle Texterkennungs-Anwendungen und die Inspektion von Oberflächen.” Eine aus seiner Sicht sehr beeindruckende beispielhafte Anwendung auf Basis von Machine Learning stellt die Inspektion von Einweg-Aluminiumschalen für die Lebensmittelindustrie dar. Eine wesentliche Rolle spielt dabei die Software CVB Polimago aus der Bildverarbeitungsbibliothek Common Vision Blox von Stemmer Imaging. In dieser Software werden Machine Learning-Algorithmen eingesetzt, die auf herkömmlichen Industrie-PCs und mittlerweile auch auf Embedded-Systemen laufen. “Auf dieser Basis ist es möglich, fehlerhafte Behälter zu erkennen, den Materialaufwand zu reduzieren und so letzten Endes auch einen Beitrag zum Umweltschutz leisten”, erklärt Gimple.

„Die Schwierigkeit bestand darin dass sich die Risse bei den tiefgezogenen Aluschalen, die bei zu dünnem Material entstehen können, einer analytischen Beschreibung entziehen: Man findet keine Beschreibung oder jedenfalls nicht mit vertretbarem Aufwand, die es durch einen einfachen Modellvergleich gestattet, ein Loch in der Aluschale zuverlässig als Loch und die normale Oberflächenstruktur zuverlässig als normale Oberflächenstruktur zu kategorisieren. Ausschlaggebend für den Einsatz einer Machine Learning-Methode war in diesem Fall also die Unmöglichkeit, ein analytisches Modell zu definieren.“

“Machine Learning- und Deep Learning-Methoden ermöglichen Bildverarbeitungslösungen, die mit konventionellen Methoden nicht oder nur mit unwirtschaftlich hohem Aufwand realisierbar wären”, sagt Volker Gimple, Gruppenleiter Bildverarbeitung bei Stemmer Imaging, über diese Technologie.

“Machine Learning- und Deep Learning-Methoden ermöglichen Bildverarbeitungslösungen, die mit konventionellen Methoden nicht oder nur mit unwirtschaftlich hohem Aufwand realisierbar wären”, sagt Volker Gimple, Gruppenleiter Bildverarbeitung bei Stemmer Imaging, über diese Technologie.

Stemmer Imaging

Die zu verarbeitenden Datenmengen sind in beiden Fällen – sowohl beim modellbasierten Ansatz als auch bei der Klassifikation mit Machine Learning – auf den ersten Blick die gleichen. „Genau genommen untersucht man beim modellbasierten Ansatz aber nur diejenigen Pixel, die für die An-/Abwesenheitsentscheidung der Einzelmerkmale von Interesse sind – das Modell definiert sozusagen die Untermenge der Eingabedaten, die verarbeitet werden“, erläutert Gimple. „Dagegen  werden bei den Klassifikationsansätzen vom Prinzip her immer alle Pixel mit einbezogen“.

Der Experte sieht für Bildverarbeitungslösungen auf Basis von Machine Learning- und Deep Learning-Methoden ein extrem hohes Potential für die Zukunft: “Damit lassen sich neue Anwendungen beispielsweise in der Landwirtschaft und in der Lebensmittelindustrie angehen, deren Lösung mit konventionellen Methoden nicht oder nur mit unwirtschaftlich hohem Aufwand realisierbar wäre.”

Ausführungszeiten und Trainingsaufwand minimieren

Es gibt jedoch noch einige Herausforderungen zu meistern, bevor sich Deep Learning in der Bildverarbeitung auf breiter Ebene etablieren kann. Hier nennt Gimple die Ausführungszeiten und den Trainingsaufwand für neuronale Netze als wesentliche Kriterien. “Eine praxistaugliche Anwendung in der industriellen Bildverarbeitung muss häufig Taktzeiten von Sekundenbruchteilen einhalten. Dies ist mit Deep Learning-Ansätzen heute zwar schon realisierbar, läuft aber nicht selten auf einen Kompromiss aus Ausführungszeit und Qualität des Ergebnisses hinaus und erfordert daher oft entsprechend hochgezüchtete Hardware.”

Was den Trainingsaufwand betrifft, erfordern die meisten Machine Learning-Ansätze für das Gewinnen eines Klassifikators laut Gimple eine mehr oder minder große Menge an manuell klassifizierten Trainingsdaten. “Diese sind jedoch nicht immer leicht und kostengünstig zu beschaffen. Wer hier Ansätze präsentiert, die mit möglichst wenigen Bildern auskommen, bietet Anwendern einen erheblichen Vorteil.”

Die Bildverarbeitungs-Software CVB Polimago erlaubt eine robuste Klassifizierung verschiedener Objektkategorien sowie die Ermittlung von Positionen und Transformationszuständen mit einer Präzision, die bei reinen Klassifikationsansätzen kaum erreichbar ist.

Die Bildverarbeitungs-Software CVB Polimago erlaubt eine robuste Klassifizierung verschiedener Objektkategorien sowie die Ermittlung von Positionen und Transformationszuständen mit einer Präzision, die bei reinen Klassifikationsansätzen kaum erreichbar ist. Stemmer Imaging

Dieses Ziel verfolgt Stemmer Imaging mit einem Machine Learning-Ansatz, der in der Bildverarbeitungssoftware CVB Polimago realisiert ist. Diese Software kombiniert bewährte Methoden aus dem Bereich Ridge Regression mit innovativen neuen Anwendungsstrategien. “CVB Polimago erlaubt dadurch nicht nur eine robuste Klassifizierung verschiedener Objektkategorien in anspruchsvollen Anwendungsfällen, sondern ermöglicht auch die Ermittlung von Positionen und Transformationszuständen mit einer Präzision, die bei reinen Klassifikationsansätzen normalerweise kaum erreicht werden kann”, betont Gimple. Nach seinen Worten erfordert CVB Polimago einen vergleichsweise moderaten Lernaufwand und erzielt dabei auf gängiger PC-Hardware Ausführungszeiten, die für viele industrielle Anwendungen ausreichend sind.

Konventionelle Bildverarbeitungs-Technologie wird sich behaupten

Dass die beschriebenen neuen Methoden die konventionelle, auf programmierten Algorithmen basierende Bildverarbeitung verdrängen werden, das glaubt Volker Gimple nicht: “Machine Learning-Ansätze werden konventionelle Algorithmen sicher in einigen Bereichen marginalisieren, und zwar vor allem dort, wo die Lösung einer Aufgabe mit konventionellen Methoden entweder nicht stabil oder nur mit unverhältnismäßig hohem Aufwand umgesetzt werden kann. Dennoch werden sich konventionelle Methoden in vielen Bereichen behaupten können.” Als wesentlichen Grund dafür nennt Gimple die Nachvollziehbarkeit von Entscheidungen und Fehlentscheidungen bei herkömmlichen Ansätzen: “Dieses Kriterium fehlt Machine Learning-Methoden in der Regel: Sie werden von den Anwendern überwiegend als Blackbox wahrgenommen.” Verständlich, dass der Mensch die Entscheidungen eines technischen Systems gerne noch nachvollziehen können möchte.