Mehr und mehr Wearables integrieren fortschrittliche KI-Funktionen. Um trotz hoher Leistung eine lange Akkulaufzeit zu gewährleisten, ist die Energieeffizienz entscheidend. MCUs von Alif lösen die Herausforderung, indem sie CPU und NPU miteinander kombinieren.
Mark RootzMarkRootz
Wie steigern KI-MCUs die Leistung von Wearables? Kombination aus CPU, NPU und Energiemanagement sorgt für Effizienz und Sicherheit.Aozora - stock.adobe.com
Anzeige
Der Einsatz von Methoden der künstlichen Intelligenz (KI)
kann den Wert elektronischer Endgeräte erheblich steigern. Beispielsweise
lassen sich im medizinischen Bereich durch Wearables mit KI-Funktionen das
Erkennen und die Diagnose bedrohlicher Zustände von den Kliniken hin zum Alltag
nach Hause verlagern. Ein weiteres Beispiel sind Hörgeräte, die sich mithilfe
von KI-Algorithmen von einem einfachen Verstärker zu einem intelligenten
Stimmenerkennungstool upgraden lassen. KI-Fähigkeiten können den Wert fast
aller Wearables und tragbaren batteriebetriebenen Geräte um ein Vielfaches
erhöhen. Allerdings lassen sich die KI-Algorithmen aufgrund zahlreicher Gründe,
beispielsweise des hohen Energiebedarfs, der geringen geforderten Latenz der
Übertragung oder der hohen Sicherheit häufig nicht in der Cloud ausführen.
Deshalb benötigen die Wearables selbst eine ausreichend hohe Leistung, um
KI-Funktionen direkt im Gerät verarbeiten zu können.
Um KI erfolgreich lokal auf Wearables und anderen tragbaren
Geräten auszuführen, müssen Entwickler allerdings verschiedene Hürden
überwinden. So sind beispielsweise der Platz in tragbaren Geräten sowie die
Energieversorgung begrenzt. Das stellt neue und hohe Anforderungen an die
Microcontroller (MCUs) in den Endgeräten. MCUs, die KI-Funktionen integrieren,
sogenannte „KI-MCUs“, müssen mehr Funktionen als herkömmliche MCUs integrieren
und gleichzeitig so energiesparend arbeiten, dass sie die Ladezeit der Endgeräte
nicht unnötig in die Höhe treiben.
Anzeige
Hierbei reicht es nicht aus, die KI-Funktionen einfach auf
eine herkömmliche MCU aufzusatteln, es braucht eine neue Generation von
KI-fähigen MCUs für Endgeräte wie Wearables. Entwickler, die KI-Funktionen in
MCUs integrieren möchten, müssen dabei verschiedene Faktoren berücksichtigen.
Enge Anbindung der NPU an die CPU
Die erste Antwort des Mikrocontroller-Markts auf die
Nachfrage nach KI-Funktionen bestand darin, Software Development Kits (SDKs)
mit KI-Funktionen bereitzustellen. So lassen sich zum Beispiel KI- oder Machine
Learning (ML)-Algorithmen auf derselben Arm-Cortex-M-CPU ausführen, welche
ebenfalls die herkömmlichen Steuerfunktionen ausführt.
Anzeige
Der bessere Weg ist, eine MCU, mit der man ML-Applikationen
ausführt, ebenfalls mit einer Neural Processing Unit (NPU) auszustatten. Sie
ist für das Ausführen von Multiply Accumulate (MAC)-Funktionen optimiert, die
zu den Grundoperationen von Anwendungen für neuronale Netze gehören. Eine
Embedded-CPU allein hat Mühe mit sinnvollen ML-Aufgaben, da sie Inferenzen aus
dem hochgradig parallelen ML-Netzwerk lösen muss, was übermäßig viel Zeit und
sehr viel Energie erfordert.
Bild 1 zeigt den Unterschied der KI-Leistung zwischen der
CPU eines Mikroprozessors von Alif Semiconductor und einer kombinierten CPU und
NPU. Die in den Alif-MCUs eingesetzte Cortex-M55-Architektur gehört zu den
leistungsstärksten Embedded-CPU-Architekturen und liefert bei ML-Workloads
bereits rund fünffach bessere Werte als frühere Generationen der Cortex-M CPUs.
So gut die Cortex-M55 auch ist, zeigen die Werte in den gelben Spalten eine
erhebliche Leistungserhöhung, und zwar verbessert um mehr als zwei Größenordnungen,
beim Einsatz von NPU und CPU im Vergleich zur CPU allein.
Ein weiterer wichtiger Faktor bei der engen Anbindung der
NPU an die CPU ist die Software-Entwicklungsumgebung. Die Ethos-U55 NPU ist im
Wesentlichen ein Co-Prozessor, der nahtlos mit der Cortex-M55 CPU
zusammenarbeitet. Hierbei teilt der Arm-Vela-Compiler die ML-Aufgaben
automatisch auf, wobei gewöhnlich 95 Prozent oder mehr auf die NPU entfallen.
Das hat den Vorteil, dass die Cortex-M CPU in den Sleep-Modus versetzt wird
oder andere Aufgaben ausführen kann, während sie die ML-Inferenz löst.
Anzeige
Bild 1: Benchmark-Tests zeigen die überlegene Leistung beim Einsatz einer NPU gegenüber einer CPU bei der Ausführung üblicher ML-Funktionen.Alif Semiconductor
Die Integration der richtigen Peripherie
Bei einer integrierten KI/ML-MCU steht die NPU im
Mittelpunkt des Interesses. Ebenfalls interessant ist jedoch, welche Peripherie
man um die Prozessorkerne herum integriert und wie man die Integration
vornimmt. Falls Entwickler sie nicht richtig ausführen, bleiben die Ergebnisse
hinter den Erwartungen zurück. Ganz oben auf der Liste stehen Speicher- und
Peripheriebausteine.
Bild 2 stellt die Speichertopologie der Ensemble-MCU von
Alif vereinfacht dar. In der oberen Hälfte ist der Echtzeitteil mit sehr
schnellem eng angebundenem Speicher (Tightly Coupled Memory, TCM) dargestellt,
der mit den CPU- und NPU-Kernen verbunden ist. Für eine schnelle Inferenz muss
das TCM-SRAM ausreichend groß sein, um die sogenannte Tensor-Arena des
ML-Modells aufzunehmen.
Bild 2: Die
Darstellung zeigt die interne Speichertopologie der Ensemble-MCU von Alif.
(Bild: Alif Semiconductor)
Anzeige
Bild 2: Die Darstellung zeigt die interne Speichertopologie der Ensemble-MCU von AlifAlif Semiconductor
Die untere Hälfte der Grafik zeigt den weiteren Speicher im
System, der über einen gemeinsamen Hochgeschwindigkeitsbus angebunden ist.
Hierbei ist eine große Menge an geteiltem SRAM erforderlich, um die
Sensordaten, beispielsweise von Kamera und Mikrofonen, aufzunehmen. Außerdem
enthält ein großer nicht-flüchtiger Speicher das ML-Modell selbst und den
Anwendungscode. Verteilt man einen großen On-Chip-Speicher auf solche Weise,
dass konkurrierender Datenverkehr auf dem Bus minimiert wird, läuft der gleichzeitige
Datenaustausch vom und zum Speicher reibungslos. So lassen sich Engpässe
beheben, die Speicherzugriffszeiten minimieren und der Energiebedarf aus einer
kleinen Batterie decken.
Eine korrekt zusammengestellte Peripherie ist bei MCUs in
ML-Applikationen am Edge in den drei häufigsten Bereichen – Vision, Sprache und
Vibration – ebenso kritisch. Das heißt, dass zusätzlich zur herkömmlichen
Peripherie einer MCU, weitere Peripherie wie Bildsensoren, Mikrofone oder
Trägheitsmesseinheiten anzuschließen sind. Bei KI-Geräten zum Einsatz am Edge
sollte man diese Funktionen in die MCU integrieren.
Bei einer Integration in das gesamte System können nicht nur
zusätzliche Stromschienen und Spannungswandler entfallen, sondern die
Energieversorgung lässt sich auf dem Chip sehr viel dynamischer und gezielter
steuern. Das ist das dritte wünschenswerte Feature einer integrierten KI-MCU.
Anzeige
Adaptives Energiemanagement für eine längere
Batterielaufzeit
Alif hatte vorausgesehen, dass die Nachfrage nach lokalen
ML-Fähigkeiten am Edge enorm zunehmen würde, während Produkte für das Edge,
insbesondere Wearables, immer kleiner würden – und damit ebenfalls die
Batterien. Aus diesem Grund verfolgt der Hersteller verschiedene Ansätze, um
die Herausforderung der Batterielaufzeit anzugehen. Zwei wichtige Beispiele
hierfür sind:
Aufteilen des Systems, sodass ein Teil des Chips mit geringer Leistungsaufnahme ständig eingeschaltet sein kann. Der ständig eingeschaltete Teil bietet eine robuste Rechenleistung und kann selektiv einen Teil des Chips mit sehr viel höherer Leistung wecken, um größere Workloads auszuführen. Anschließend kann er ihn wieder in den Sleep-Modus versetzen.
Das System zum Energiemanagement schaltet dynamisch lediglich die jeweils benötigten Teile des Chips ein und anschließend wieder aus, wenn sie nicht benötigt werden – all das sehr viel gezielter.
Anzeige
Um die Funktionen einfacher aufzuteilen, haben viele MCUs
der Ensemble-Familie von Alif zwei Paare an Cortex-M55- und Ethos-U55-Kernen,
wie in Bild 3 dargestellt:
Ein Kern-Paar im Bereich des Chips mit hoher Effizienz, das aus Transistoren mit niedrigem Leckstrom aufgebaut ist und ständig bei bis zu 160 MHz in Betrieb sein kann.
Das andere Paar an Kernen im Bereich mit hoher Leistung, das mit bis zu 400 MHz arbeitet.
Bild 3: Blockschaltbild der Ensemble-E3-MCU mit den Bereichen des Chips für eine hohe Effizienz und Leistung.Alif Semiconductor
Um sich die Vorteile der Anordnung vor Augen zu führen, kann
man sich eine intelligente Kamera zum Erkennen der Anwesenheit vorstellen, die
einen Raum ständig mit niedriger Bildrate über das Kern-Paar mit hoher
Effizienz scannt, um ein gültiges Ereignis wie eine stürzende Person zu
erkennen. In dem Fall weckt das Effizienz-Kern-Paar den Hochleistungsabschnitt
auf, um etwa Personen zu identifizieren, blockierte Ausgänge zu erkennen oder
Hilfe anzufordern.
In dem Fall überwacht die Kamera „intelligent“, erzeugt
weniger Fehlalarme und kann mit einer einzigen Batterieladung länger arbeiten.
In ähnlicher Weise können die beiden Paare aus CPU- und NPU-Kernen zum
Klassifizieren von Geräuschen, Stimmen, Wörtern, Text, Vibrationen und
Sensordaten in vielen weiteren Applikationen zum Einsatz kommen.
Außerdem setzen alle Ensemble-MCUs Alifs „aiPM“-Technologie
(autonomous intelligent Power Management) ein, um in Echtzeit bis zu zwölf
individuelle Leistungsbereiche auf dem Chip so zu steuern, dass sie zum gerade
ausgeführten Anwendungsfall passen. Hierbei werden lediglich die Bereiche mit
Spannung versorgt, die gerade aktiv Aufgaben ausführen, während die übrigen
Bereiche ausgeschaltet bleiben. Dieser Vorgang ist für den Softwareentwickler
transparent.
Schutz wertvoller ML-Modelle und anderer IP
Das letzte wichtige Feature ist der Schutz der Intellectual
Property (IP). Bei vielen OEM ist der Schutz ihrer in KI-Modellen enthaltenen
IP besonders wichtig, da sie sehr viel Zeit und Kosten in das Zusammenstellen
von Trainingsdatensätzen, das Erstellen von KI-Modellen und das Entwickeln und
Verfeinern ihrer Algorithmen zur Inferenz investieren. Für skrupellose
Hersteller ist es ein starker Anreiz die teure IP zu stehlen, indem sie diese
aus unzureichend geschützten Produktionseinheiten auslesen.
Eine externe sichere MCU würde es dem OEM erlauben, einen
Vertrauensanker zu erstellen, sichere Schlüssel und Zertifikate zu verwalten
sowie sicheres Booten zu erleichtern. Eine umfassende Secure Enclave mit diesen
Funktionen und mehr findet sich in einer konventionellen MCU lediglich selten.
Batteriegespeiste KI-Produkte und Wearables profitieren
besonders von der Platz- und Energieersparnis und der hohen Sicherheit, wenn
Entwickler die Funktion in die MCU integrieren. Die Secure Enclave (Bild 4),
die standardmäßig in allen Alif-Komponenten enthalten ist, ist ein dediziertes,
isoliertes Subsystem für das Verwalten wichtiger Sicherheitsfunktionen,
darunter:
sichere Schlüssel
sicheres Booten mit einem unveränderlichen Vertrauensanker
Laufzeit-Zertifizierung
Hardware-Kryptographiedienste
sicheres Debuggen
Ausleseschutz
sichere Firmware-Updates
vollständiges Lifecycle-Management
Bild 4: Die Secure Enclave in den Ensemble-MCUs bestimmt die Sicherheit des gesamten Chips.Alif Semiconductor
Eine KI-fähige MCU-Plattform
Die vier Merkmale einer KI-MCU – enge Anbindung von NPU und
CPU mit einem standardisierten Entwicklungs-Ökosystem, Integration der
richtigen Peripherie, adaptives Energiemanagement sowie eingebauter IP-Schutz –
werden von den Herstellern batteriegespeister Endgeräte stark nachgefragt.
Entwickler, welche die Ensemble-Familie evaluieren, finden
eine große Auswahl skalierbarer und kompatibler Komponenten, von einem
einzelnen CPU-Kern bis hin zu Derivaten mit vier Kernen. Sie unterstützen das
Betriebssystem Linux und passen für verschiedene Projekte, wobei die Software
auf allen Projekten zum Einsatz kommen kann. (ts)
Fußnoten zu Bild 1:
[1] KWS (Keyword Spotting): Arm MicroNets Paper.
Quantisiertes int8, trainiert mit dem „Google-Speech-Commands“-Datensatz.
Footprint des Modells: 154 KB MRAM, 28 KB SRAM.
[2] Object Detection (Objekterkennung): 192 x 192 Auflösung,
Graustufen und Farbe. Quantisiertes int8, trainiert mit dem
„WIDER-FACE“-Datensatz. Footprint des Modells: 431 KB MRAM, 433 KB SRAM.
[3] Image Classification (Bildklassifizierung): 224 x 224
24-Bit-Auflösung % Farbe. Quantisiertes int8, trainiert mit dem
„ImageNet“-Datensatz. Footprint des Modells: 3.552 KB MRAM, 1.47 KB SRAM.
[4] Auto
Speech Recognition (ASR): Tiny Wav2letter Pruned. Integriert in Arm ML
Demo-App, auf ASR Anwendungsfall. Footprint des Modells: MRAM = 2346,06 KB
(weitgehend Vela-optimiert aus 3903,43 KB), SRAM = 1197,20 KB.
Autor:
Mark Rootz, Vice President of Marketing bei Alif Semiconductor