Dell-Laptops nutzen Emza Visual Sense von Synaptics für intelligente Datenschutz- und Effizienzfunktionen wie die adaptive Bildschirmabdunklung (Look-Away Detect)

Dell-Laptops nutzen Emza Visual Sense für intelligente Datenschutz- und Effizienzfunktionen wie die adaptive Bildschirmabdunklung (Look-Away Detect) (Bild: Synaptics)

Drei wichtige technologische Trends prägen den Fortschritt der digitalen Bildverarbeitung (Computer Vision, CV):

  • Neue schlanke Algorithmen für neuronale Netze passen heute zum Speicherplatz und zur Rechenleistung von Kleinstgeräten.
  • Fortschrittliche Chiparchitekturen verarbeiten neuronale Netze um Größenordnungen effizienter als herkömmliche Mikrocontroller.
  • Die KI-Frameworks für kleinere Mikroprozessoren werden immer ausgereifter, sodass die Hürden für die Implementierung von maschinellem Lernen am Netzwerkrand (Tiny ML) deutlich sinken.

Dort, wo diese Trends zusammenfließen, können bereits winzige Prozessoren mit Milliwatt-Leistungsbedarf auf performante neuronale Recheneinheiten zurückgreifen, um effiziente faltende neuronale Netze (Convolutional Neural Networks, CNNs) zu verarbeiten. Dies ist die am häufigsten verwendete Architektur für maschinelles Lernen in der Bildverarbeitung. Im Rahmen einer ausgereiften und benutzerfreundlichen Entwicklungs-Toolchain eingesetzt, kann diese Hardware neue Applikationen bedienen, die in allen Industriezweigen und Lebensbereichen entstehen.

Das Potenzial von Edge-CV

Anwendungen KI-gestützter Computer Vision reichen von der Halbleiterfertigung und -inspektion über automobile Fahrerassistenzsysteme (Advanced Driver Assistance Systems, ADAS), wie Spurhalte- und Totwinkelassistenten bis zur Bildmanipulation auf mobilen Geräten. Mit Blick in die Zukunft wird CV die nächste Entwicklungsstufe der Mensch-Maschine-Schnittstelle (Human Machine Interface, HMI) prägen und Geräte hervorbringen, die den Anwender kontextbezogen in seiner Umgebung wahrnehmen. So können sie bessere Entscheidungen für nützlichere automatische Interaktionen treffen: Ein Laptop erkennt zum Beispiel visuell, ob ein Benutzer aufmerksam ist, und kann sein Verhalten und seine Energierichtlinien dementsprechend anpassen. Dies ermöglicht bereits die Emza-Visual-Sense-Technologie von Synaptics. OEMs können damit über ein adaptives Dimmen des Displays, wenn der Benutzer es nicht ansieht, den Strombedarf optimieren (Bild 1). Mittels der Verfolgung der Augen des Betrachters (On-Looker Detect) kann die Technologie auch die Sicherheit erhöhen, indem der Benutzer gewarnt und der Bildschirminhalt ausgeblendet wird, bis die Privatsphäre wiederhergestellt ist.

Weitere Beispiele: Ein intelligentes Fernsehgerät erkennt, ob und von wo aus jemand zuschaut und passt dann Bildqualität und Ton daran an. Es kann sich automatisch ausschalten, um Strom zu sparen, wenn niemand anwesend ist. Oder eine Klimaanlage optimiert Strom und Luftstrom entsprechend der Raumbelegung, um Energiekosten zu sparen. Industrielle Anwendungsgebiete für die visuelle Erfassung reichen von der Objekterkennung für Sicherheitsvorschriften, wie Sperrzonen, sichere Durchgänge oder Schutzausrüstungspflicht, bis zum Erkennen von Anomalien für die Steuerung von Fertigungsprozessen. Für die Agrartechnik sind Ernteinspektionen sowie die Status- und Qualitätsüberwachung mittels CV von Bedeutung.

Ambient-Computing-Fähigkeiten dieser Art sind jedoch nur dann möglich, wenn winzige und erschwingliche Mikroprozessoren, Tiny Neural Networks und optimierte KI-Frameworks die Geräte intelligenter und energieeffizienter machen.

Bildverarbeitung in neuronalen Netzen

Das Jahr 2012 markierte den Wendepunkt, als mit der Veröffentlichung von AlexNet durch Alex Krizhevsky und seine Kollegen der Wechsel von heuristischen CV-Methoden zum Deep CNN begann. Nachdem dieses im selben Jahr die ImageNet Large-Scale Visual-Recognition Challenge (ILSVRC) gewonnen hatte, gab es kein Zurück mehr. Seitdem haben sich Teams auf der ganzen Welt um eine höhere Erkennungsleistung bemüht – ohne sich jedoch groß um die Effizienz der zugrundeliegenden Hardware zu kümmern. CNNs waren also weiterhin sehr daten- und rechenintensiv. Diese Konzentration auf die Leistung in Ordnung war für Anwendungen, die innerhalb einer Cloud-Infrastruktur ausgeführt werden.

2015 wurde ResNet152 eingeführt. Es hatte 60 Millionen Parameter, benötigte mehr als elf Gigaflops für den Single-Inference-Betrieb und wies eine Top-5-Genauigkeit von 94 Prozent für den ImageNet-Datensatz auf. Damit nahmen die Leistung und die Genauigkeit von CNNs weiter zu. Aber erst 2017, mit der Veröffentlichung von MobileNets durch eine Forschergruppe von Google, gab es einen Schub in Richtung der Effizienz.

MobileNets, für Smartphones gedacht, war weit weniger ressourcenintensiv als die damals existierenden neuronalen Netzarchitekturen (NN). MobileNetV2 zum Beispiel hatte 3,5 Millionen Parameter und benötigte 336 Megaflops. Diese drastische Verringerung wurde anfangs mit harter Arbeit erreicht: über die manuelle Identifizierung von Schichten im Deep-Learning-Netzwerk, die nicht viel zur Genauigkeit beitrugen. Später ermöglichten automatisierte Tools für die Architektursuche weitere Verbesserungen bei der Zahl und Organisation der Schichten. MobileNetV2 reduzierte sowohl den Speicher als auch auf die Rechenlast auf etwa ein Zwanzigstel im Vergleich zu ResNet192 und erreichte eine Top-5-Genauigkeit von 90 Prozent. Neue Mobilgeräteanwendungen konnten nun KI nutzen.

Die Hardware entwickelt sich weiter

Mit kleineren NNs und einem klaren Verständnis der damit verbundenen Workloads konnten die Entwickler nun für Tiny KI optimierte Chips entwerfen. Dies führte zur sogenannten Micro Neural Processing Unit (Micro NPU). Dank straffer Verwaltung der Speicherorganisation und des Datenflusses und unter Ausnutzung der massiven Parallelität können diese kleinen dedizierten Kerne die Neural-Network-Inferenz zehn- oder 100-mal schneller ausführen als die CPU eines typischen Mikrocontrollers. Ein Beispiel ist die Micro NPU Arm Ethos U55.

Betrachten wir nun ein konkretes Beispiel für die Auswirkungen von Micro NPUs. Eine der grundlegenden Aufgaben der Computer Vision ist Objekterkennung. Sie erfordert im Wesentlichen zwei Schritte (Bild 2):

  • die Lokalisierung, um zu bestimmen, wo sich ein Objekt im Bild befindet,
  • die Klassifizierung, um das erkannte Objekt zu identifizieren.

Emza hat ein Gesichtserkennungsmodell auf einer Micro NPU Ethos U55 implementiert und ein Objekterkennungs- und -klassifizierungsmodell trainiert, bei dem es sich um eine leichtgewichtige Version des Single-Shot Detector handelt, der von Synaptics nur für die Erkennung der Gesichterklasse optimiert wurde. Die Ergebnisse haben mit Modellausführungszeiten von weniger als 5 ms verblüfft: Das ist vergleichbar mit der Ausführungsgeschwindigkeit auf einem leistungsstarken Smartphone-Anwendungsprozessor, wie dem Snapdragon 845. Die Ausführung desselben Modells auf dem Raspberry Pi 3B mit vier Cortex-A53-Kernen dauert sechsmal länger.

Emzas Gesichtserkennungstechnologie trainiert Objekterkennungs- und Klassifizierungsmodelle mit Ausführungszeiten von weniger als 5 ms.
Bild 2: Emzas Gesichtserkennungstechnologie trainiert Objekterkennungs- und Klassifizierungsmodelle mit Ausführungszeiten von weniger als 5 ms. (Bild: Synaptics)

KI-Frameworks und Demokratisierung

Die breite Einführung einer so komplexen Technologie wie ML erfordert gute Entwicklungswerkzeuge. TensorFlow Lite for Microcontrollers (TFLM) von Google ist ein Framework, das das Training und den Einsatz von KI für Tiny ML erleichtert. Für eine Teilmenge der Operatoren, die der vollständige TensorFlow abdeckt, gibt TFLM Mikroprozessor-C-Code für einen Interpreter und ein Modell aus, das auf einer Micro NPU läuft. Das PyTorch Mobile Framework und der Glow Compiler von Meta fokussieren ebenfalls auf dieses Gebiet. Darüber hinaus gibt es heute eine Reihe von KI-Automatisierungsplattformen (bekannt als AutoML), die einige Aspekte der Tiny-KI-Implementierung automatisieren können. Beispiele hierfür sind Edge Impulse, Deeplite, Qeexo und SensiML.

Für die Ausführung auf spezifischer Hardware und Micro NPUs müssen jedoch Compiler und Toolketten angepasst werden. Arm hat den Vela-Compiler entwickelt, der das Ausführen von CNN-Modellen für die U55 Micro NPU optimiert. Er reduziert die Komplexität eines Systems, das sowohl eine CPU als auch eine Micro NPU enthält, indem er die Aufgabe der Modellausführung automatisch zwischen beiden aufteilt.

Apache TVM ist ein quelloffenes, durchgängiges ML-Compiler-Framework für CPUs, GPUs, NPUs und Beschleuniger. TVM Micro zielt auf Mikrocontroller mit der Vision, jedes beliebige KI-Modell auf jeder beliebigen Hardware ausführen zu können. Diese Entwicklung von KI-Frameworks, AutoML-Plattformen und Compilern macht es Entwicklern leichter, die neuen Micro NPUs für ihre spezifischen Anforderungen zu nutzen.

Allgegenwärtige KI am Netzwerkrand

Der Trend zu allgegenwärtiger Bildverarbeitung mittel Machine Learning an der Edge ist eindeutig. Die Hardwarekosten sinken, die Rechenleistung nimmt deutlich zu, und neue Methoden erleichtern das Trainieren und Bereitstellen von Modellen. All dies führt dazu, dass die Hemmschwelle für die Einführung sinkt und die CV-KI an der Netzwerk-Edge verstärkt zum Einsatz kommt.

Doch auch wenn wir eine zunehmend allgegenwärtige Tiny-Edge-KI sehen, bleibt noch einiges zu tun. Damit das Ambient Computing Wirklichkeit werden kann, müssen wir den Long Tail, die unzähligen Varianten von Anwendungsfällen in vielen verschiedenen Segmenten, bedienen. Sie können eine wirkliche Herausforderung für die Skalierbarkeit darstellen. Denn in der Konsumgüterindustrie, in Fabriken, in der Landwirtschaft, im Einzelhandel und in sämtlichen anderen Applikationsfeldern erfordert jede neue Aufgabe eigene Algorithmen und einzigartige Datensätze für das Training. Die F&E-Investitionen und die Fähigkeiten, die all diese Einzelfälle erfordern, stellen auch heute noch ein großes Hindernis dar. Dieses können KI-Unternehmen am besten überwinden, indem sie die Software rund um ihre NPU-Angebote aufwerten und umfangreiche Modellbeispiele sowie Anwendungs-Referenzcode entwickeln. So können sie ein breiteres Spektrum von Applikationen für den variantenreichen Long Tail erschließen. Die richtigen Algorithmen für die Zielhardware zu optimieren ist dabei entscheidend für den Entwicklungserfolg. Denn dies ist die Grundvoraussetzung, um spezifische Anforderungen innerhalb des Kostenrahmens zu erfüllen, ohne die definierten Grenzen für Platzbedarf und Leistungsaufnahme des Designs zu sprengen.

Elad Baram

Director, Low-Power AI, bei Synaptics

Sie möchten gerne weiterlesen?