MCUs mit KI-Funktionen

Leistungs-Boost für Wearables & Co.

Mehr und mehr Wearables integrieren fortschrittliche KI-Funktionen. Um trotz hoher Leistung eine lange Akkulaufzeit zu gewährleisten, ist die Energieeffizienz entscheidend. MCUs von Alif lösen die Herausforderung, indem sie CPU und NPU miteinander kombinieren.

Wie steigern KI-MCUs die Leistung von Wearables? Kombination aus CPU, NPU und Energiemanagement sorgt für Effizienz und Sicherheit.
Wie steigern KI-MCUs die Leistung von Wearables? Kombination aus CPU, NPU und Energiemanagement sorgt für Effizienz und Sicherheit.

Der Einsatz von Methoden der künstlichen Intelligenz (KI) kann den Wert elektronischer Endgeräte erheblich steigern. Beispielsweise lassen sich im medizinischen Bereich durch Wearables mit KI-Funktionen das Erkennen und die Diagnose bedrohlicher Zustände von den Kliniken hin zum Alltag nach Hause verlagern. Ein weiteres Beispiel sind Hörgeräte, die sich mithilfe von KI-Algorithmen von einem einfachen Verstärker zu einem intelligenten Stimmenerkennungstool upgraden lassen. KI-Fähigkeiten können den Wert fast aller Wearables und tragbaren batteriebetriebenen Geräte um ein Vielfaches erhöhen. Allerdings lassen sich die KI-Algorithmen aufgrund zahlreicher Gründe, beispielsweise des hohen Energiebedarfs, der geringen geforderten Latenz der Übertragung oder der hohen Sicherheit häufig nicht in der Cloud ausführen. Deshalb benötigen die Wearables selbst eine ausreichend hohe Leistung, um KI-Funktionen direkt im Gerät verarbeiten zu können.

Um KI erfolgreich lokal auf Wearables und anderen tragbaren Geräten auszuführen, müssen Entwickler allerdings verschiedene Hürden überwinden. So sind beispielsweise der Platz in tragbaren Geräten sowie die Energieversorgung begrenzt. Das stellt neue und hohe Anforderungen an die Microcontroller (MCUs) in den Endgeräten. MCUs, die KI-Funktionen integrieren, sogenannte „KI-MCUs“, müssen mehr Funktionen als herkömmliche MCUs integrieren und gleichzeitig so energiesparend arbeiten, dass sie die Ladezeit der Endgeräte nicht unnötig in die Höhe treiben.

Hierbei reicht es nicht aus, die KI-Funktionen einfach auf eine herkömmliche MCU aufzusatteln, es braucht eine neue Generation von KI-fähigen MCUs für Endgeräte wie Wearables. Entwickler, die KI-Funktionen in MCUs integrieren möchten, müssen dabei verschiedene Faktoren berücksichtigen.

Enge Anbindung der NPU an die CPU

Die erste Antwort des Mikrocontroller-Markts auf die Nachfrage nach KI-Funktionen bestand darin, Software Development Kits (SDKs) mit KI-Funktionen bereitzustellen. So lassen sich zum Beispiel KI- oder Machine Learning (ML)-Algorithmen auf derselben Arm-Cortex-M-CPU ausführen, welche ebenfalls die herkömmlichen Steuerfunktionen ausführt.

Der bessere Weg ist, eine MCU, mit der man ML-Applikationen ausführt, ebenfalls mit einer Neural Processing Unit (NPU) auszustatten. Sie ist für das Ausführen von Multiply Accumulate (MAC)-Funktionen optimiert, die zu den Grundoperationen von Anwendungen für neuronale Netze gehören. Eine Embedded-CPU allein hat Mühe mit sinnvollen ML-Aufgaben, da sie Inferenzen aus dem hochgradig parallelen ML-Netzwerk lösen muss, was übermäßig viel Zeit und sehr viel Energie erfordert.

Bild 1 zeigt den Unterschied der KI-Leistung zwischen der CPU eines Mikroprozessors von Alif Semiconductor und einer kombinierten CPU und NPU. Die in den Alif-MCUs eingesetzte Cortex-M55-Architektur gehört zu den leistungsstärksten Embedded-CPU-Architekturen und liefert bei ML-Workloads bereits rund fünffach bessere Werte als frühere Generationen der Cortex-M CPUs. So gut die Cortex-M55 auch ist, zeigen die Werte in den gelben Spalten eine erhebliche Leistungserhöhung, und zwar verbessert um mehr als zwei Größenordnungen, beim Einsatz von NPU und CPU im Vergleich zur CPU allein.

Ein weiterer wichtiger Faktor bei der engen Anbindung der NPU an die CPU ist die Software-Entwicklungsumgebung. Die Ethos-U55 NPU ist im Wesentlichen ein Co-Prozessor, der nahtlos mit der Cortex-M55 CPU zusammenarbeitet. Hierbei teilt der Arm-Vela-Compiler die ML-Aufgaben automatisch auf, wobei gewöhnlich 95 Prozent oder mehr auf die NPU entfallen. Das hat den Vorteil, dass die Cortex-M CPU in den Sleep-Modus versetzt wird oder andere Aufgaben ausführen kann, während sie die ML-Inferenz löst.

Bild 1: Benchmark-Tests zeigen die überlegene Leistung beim Einsatz einer NPU gegenüber einer CPU bei der Ausführung üblicher ML-Funktionen.

Die Integration der richtigen Peripherie

Bei einer integrierten KI/ML-MCU steht die NPU im Mittelpunkt des Interesses. Ebenfalls interessant ist jedoch, welche Peripherie man um die Prozessorkerne herum integriert und wie man die Integration vornimmt. Falls Entwickler sie nicht richtig ausführen, bleiben die Ergebnisse hinter den Erwartungen zurück. Ganz oben auf der Liste stehen Speicher- und Peripheriebausteine.

Bild 2 stellt die Speichertopologie der Ensemble-MCU von Alif vereinfacht dar. In der oberen Hälfte ist der Echtzeitteil mit sehr schnellem eng angebundenem Speicher (Tightly Coupled Memory, TCM) dargestellt, der mit den CPU- und NPU-Kernen verbunden ist. Für eine schnelle Inferenz muss das TCM-SRAM ausreichend groß sein, um die sogenannte Tensor-Arena des ML-Modells aufzunehmen.

Bild 2: Die Darstellung zeigt die interne Speichertopologie der Ensemble-MCU von Alif. (Bild: Alif Semiconductor)

Bild 2: Die Darstellung zeigt die interne Speichertopologie der Ensemble-MCU von Alif

Die untere Hälfte der Grafik zeigt den weiteren Speicher im System, der über einen gemeinsamen Hochgeschwindigkeitsbus angebunden ist. Hierbei ist eine große Menge an geteiltem SRAM erforderlich, um die Sensordaten, beispielsweise von Kamera und Mikrofonen, aufzunehmen. Außerdem enthält ein großer nicht-flüchtiger Speicher das ML-Modell selbst und den Anwendungscode. Verteilt man einen großen On-Chip-Speicher auf solche Weise, dass konkurrierender Datenverkehr auf dem Bus minimiert wird, läuft der gleichzeitige Datenaustausch vom und zum Speicher reibungslos. So lassen sich Engpässe beheben, die Speicherzugriffszeiten minimieren und der Energiebedarf aus einer kleinen Batterie decken.

Eine korrekt zusammengestellte Peripherie ist bei MCUs in ML-Applikationen am Edge in den drei häufigsten Bereichen – Vision, Sprache und Vibration – ebenso kritisch. Das heißt, dass zusätzlich zur herkömmlichen Peripherie einer MCU, weitere Peripherie wie Bildsensoren, Mikrofone oder Trägheitsmesseinheiten anzuschließen sind. Bei KI-Geräten zum Einsatz am Edge sollte man diese Funktionen in die MCU integrieren.

Bei einer Integration in das gesamte System können nicht nur zusätzliche Stromschienen und Spannungswandler entfallen, sondern die Energieversorgung lässt sich auf dem Chip sehr viel dynamischer und gezielter steuern. Das ist das dritte wünschenswerte Feature einer integrierten KI-MCU.

Adaptives Energiemanagement für eine längere Batterielaufzeit

Alif hatte vorausgesehen, dass die Nachfrage nach lokalen ML-Fähigkeiten am Edge enorm zunehmen würde, während Produkte für das Edge, insbesondere Wearables, immer kleiner würden – und damit ebenfalls die Batterien. Aus diesem Grund verfolgt der Hersteller verschiedene Ansätze, um die Herausforderung der Batterielaufzeit anzugehen. Zwei wichtige Beispiele hierfür sind:

  1. Aufteilen des Systems, sodass ein Teil des Chips mit geringer Leistungsaufnahme ständig eingeschaltet sein kann. Der ständig eingeschaltete Teil bietet eine robuste Rechenleistung und kann selektiv einen Teil des Chips mit sehr viel höherer Leistung wecken, um größere Workloads auszuführen. Anschließend kann er ihn wieder in den Sleep-Modus versetzen.
  2. Das System zum Energiemanagement schaltet dynamisch lediglich die jeweils benötigten Teile des Chips ein und anschließend wieder aus, wenn sie nicht benötigt werden – all das sehr viel gezielter.

Um die Funktionen einfacher aufzuteilen, haben viele MCUs der Ensemble-Familie von Alif zwei Paare an Cortex-M55- und Ethos-U55-Kernen, wie in Bild 3 dargestellt:

  • Ein Kern-Paar im Bereich des Chips mit hoher Effizienz, das aus Transistoren mit niedrigem Leckstrom aufgebaut ist und ständig bei bis zu 160 MHz in Betrieb sein kann.
  • Das andere Paar an Kernen im Bereich mit hoher Leistung, das mit bis zu 400 MHz arbeitet.
Bild 3: Blockschaltbild der Ensemble-E3-MCU mit den Bereichen des Chips für eine hohe Effizienz und Leistung.
Bild 3: Blockschaltbild der Ensemble-E3-MCU mit den Bereichen des Chips für eine hohe Effizienz und Leistung.

Um sich die Vorteile der Anordnung vor Augen zu führen, kann man sich eine intelligente Kamera zum Erkennen der Anwesenheit vorstellen, die einen Raum ständig mit niedriger Bildrate über das Kern-Paar mit hoher Effizienz scannt, um ein gültiges Ereignis wie eine stürzende Person zu erkennen. In dem Fall weckt das Effizienz-Kern-Paar den Hochleistungsabschnitt auf, um etwa Personen zu identifizieren, blockierte Ausgänge zu erkennen oder Hilfe anzufordern.

In dem Fall überwacht die Kamera „intelligent“, erzeugt weniger Fehlalarme und kann mit einer einzigen Batterieladung länger arbeiten. In ähnlicher Weise können die beiden Paare aus CPU- und NPU-Kernen zum Klassifizieren von Geräuschen, Stimmen, Wörtern, Text, Vibrationen und Sensordaten in vielen weiteren Applikationen zum Einsatz kommen.

Außerdem setzen alle Ensemble-MCUs Alifs „aiPM“-Technologie (autonomous intelligent Power Management) ein, um in Echtzeit bis zu zwölf individuelle Leistungsbereiche auf dem Chip so zu steuern, dass sie zum gerade ausgeführten Anwendungsfall passen. Hierbei werden lediglich die Bereiche mit Spannung versorgt, die gerade aktiv Aufgaben ausführen, während die übrigen Bereiche ausgeschaltet bleiben. Dieser Vorgang ist für den Softwareentwickler transparent.

Schutz wertvoller ML-Modelle und anderer IP

Das letzte wichtige Feature ist der Schutz der Intellectual Property (IP). Bei vielen OEM ist der Schutz ihrer in KI-Modellen enthaltenen IP besonders wichtig, da sie sehr viel Zeit und Kosten in das Zusammenstellen von Trainingsdatensätzen, das Erstellen von KI-Modellen und das Entwickeln und Verfeinern ihrer Algorithmen zur Inferenz investieren. Für skrupellose Hersteller ist es ein starker Anreiz die teure IP zu stehlen, indem sie diese aus unzureichend geschützten Produktionseinheiten auslesen.

Eine externe sichere MCU würde es dem OEM erlauben, einen Vertrauensanker zu erstellen, sichere Schlüssel und Zertifikate zu verwalten sowie sicheres Booten zu erleichtern. Eine umfassende Secure Enclave mit diesen Funktionen und mehr findet sich in einer konventionellen MCU lediglich selten.

Batteriegespeiste KI-Produkte und Wearables profitieren besonders von der Platz- und Energieersparnis und der hohen Sicherheit, wenn Entwickler die Funktion in die MCU integrieren. Die Secure Enclave (Bild 4), die standardmäßig in allen Alif-Komponenten enthalten ist, ist ein dediziertes, isoliertes Subsystem für das Verwalten wichtiger Sicherheitsfunktionen, darunter:

  • sichere Schlüssel
  • sicheres Booten mit einem unveränderlichen Vertrauensanker
  • Laufzeit-Zertifizierung
  • Hardware-Kryptographiedienste
  • sicheres Debuggen
  • Ausleseschutz
  • sichere Firmware-Updates
  • vollständiges Lifecycle-Management
Bild 4: Die Secure Enclave in den Ensemble-MCUs bestimmt die Sicherheit des gesamten Chips.
Bild 4: Die Secure Enclave in den Ensemble-MCUs bestimmt die Sicherheit des gesamten Chips.

Eine KI-fähige MCU-Plattform

Die vier Merkmale einer KI-MCU – enge Anbindung von NPU und CPU mit einem standardisierten Entwicklungs-Ökosystem, Integration der richtigen Peripherie, adaptives Energiemanagement sowie eingebauter IP-Schutz – werden von den Herstellern batteriegespeister Endgeräte stark nachgefragt.

Entwickler, welche die Ensemble-Familie evaluieren, finden eine große Auswahl skalierbarer und kompatibler Komponenten, von einem einzelnen CPU-Kern bis hin zu Derivaten mit vier Kernen. Sie unterstützen das Betriebssystem Linux und passen für verschiedene Projekte, wobei die Software auf allen Projekten zum Einsatz kommen kann. (ts)

Fußnoten zu Bild 1:

[1] KWS (Keyword Spotting): Arm MicroNets Paper. Quantisiertes int8, trainiert mit dem „Google-Speech-Commands“-Datensatz. Footprint des Modells: 154 KB MRAM, 28 KB SRAM.

[2] Object Detection (Objekterkennung): 192 x 192 Auflösung, Graustufen und Farbe. Quantisiertes int8, trainiert mit dem „WIDER-FACE“-Datensatz. Footprint des Modells: 431 KB MRAM, 433 KB SRAM.

[3] Image Classification (Bildklassifizierung): 224 x 224 24-Bit-Auflösung % Farbe. Quantisiertes int8, trainiert mit dem „ImageNet“-Datensatz. Footprint des Modells: 3.552 KB MRAM, 1.47 KB SRAM.

[4] Auto Speech Recognition (ASR): Tiny Wav2letter Pruned. Integriert in Arm ML Demo-App, auf ASR Anwendungsfall. Footprint des Modells: MRAM = 2346,06 KB (weitgehend Vela-optimiert aus 3903,43 KB), SRAM = 1197,20 KB.

Autor:

Mark Rootz, Vice President of Marketing bei Alif Semiconductor