Wie ermöglichen Dragonwing-SoCs auf Embedded-Modulen Edge-KI mit hoher Leistung und Effizienz? Anwendungen, Architekturen und Vorteile im Überblick.(Bild: Netsai - stock.adobe.com)
Embedded-Module mit Dragonwing-SoCs bringen KI-Rechenleistung direkt ans Edge. Tria kombiniert die Hexagon-Architektur mit SMARC-Standards, um skalierbare Lösungen für Industrie, IoT und Vision-Applikationen zu liefern – sicher, effizient und zukunftsorientiert.
Anzeige
Nur wenige Bereiche bleiben in Zukunft von künstlicher Intelligenz (KI) unberührt. Neben den vielfältigen Einsatzbereichen auf Unternehmensebene, entstehen zahlreiche Applikationen für maschinelles Lernen (ML), KI für Edge-Computing sowie Internet of Things (IoT)-Geräte, häufig in Kombination mit Signal- und Bildverarbeitung. Ein signifikanter Anteil der Applikationen ist dabei der Sicherheit zuzuordnen. So ermöglicht die Technologie beispielsweise das Erkennen von Eindringlingen oder das Aufspüren von Anomalien in Menschenmengen. Letzteres kann als Indikator für Situationen dienen, die ein menschliches Eingreifen erfordern.
KI-Modelle finden darüber hinaus in zahlreichen weiteren Bereichen ihren Einsatz, etwa der industriellen Automation oder der Landwirtschaft. In diesen Bereichen werden Informationen aus verschiedenen Sensoren in ein einziges zusammenhängendes KI-Modell zusammengeführt, das daraufhin Muster in den aufgenommenen Daten erkennt. Hingegen erweist sich zum Beispiel das Beurteilen des Zustands einer Werkzeugmaschine mit deterministischen Modellen als schwierig. Hier gibt es einfach zu viele Möglichkeiten, wie die verschiedenen Komponenten versagen könnten. Einfacher ist hier das Beurteilen, wann und aus welchem Grund ein bestimmtes Werkzeug der Maschine zu warten ist, da ML-Daten aus der realen Welt nutzen kann.
Demnach ist es mit KI möglich, die Qualitätskontrolle in der Produktion oder etwa in kommunalen Bereichen wie der Wasserversorgung zu verbessern. Ein Modell, das beispielsweise auf erwartete Anomalien trainiert ist, kann frühzeitig anzeigen, wenn die Produktion außerhalb der Toleranzgrenzen liegt. So lässt sich Ausschuss vermeiden, denn das System meldet sich, noch bevor Teile und Teilsysteme aussortiert und nachbearbeitet werden müssen.
Des Weiteren eröffnet die Verbindung von KI und Signalverarbeitung Potenziale in den Bereichen Konnektivität und Kommunikation. ML und KI können Trainingsdaten nutzen, um Signalrauschen zu optimieren und fundierte Routing-Entscheidungen für ein Minimieren von Engpässen zu treffen. Jenseits der sensorfokussierten Applikationen verbessert KI die Benutzeroberfläche etwa von HMIs durch Sprach- und Handgestensteuerung. Wo ein freihändiges Bedienen wichtig ist, können die Funktionen Sicherheit, Hygiene und Produktivität verbessern.
Anzeige
Keine Einheitslösung möglich
Aufgrund der Vielzahl an Einsatzbereichen ist eine einheitliche KI-Lösung allerdings nicht denkbar. Jeder Anwendungsfall erfordert ein eigenes KI-Modell. So profitieren beispielsweise Sprach- und Gestensteuerungen von derselben Sprachmodelltechnologie, welche die Basis für generative KI bildet. Zudem lässt sich beobachten, dass sensororientierte Applikationen vermehrt auf Convolutional Neural Network (CNN)-Architekturen zurückgreifen. Jedoch besteht die Möglichkeit, dass einige Applikationen von den Funktionen eines Vision Transformers (ViT) – einer Art der neuronalen Netze, die für Computer Vision entwickelt wurde – profitieren. Allerdings geht dieser Vorteil mit einer höheren Leistungsanforderung einher.
Bild 1: Sensororientierte KI-Applikationen greifen vermehrt auf Convolutional-Neural-Network-Architekturen (CNN) zurück.(Bild: Tomasz Wyszolmirski DABARTI - stock.adobe.com)
KI erweist sich als ausgesprochen leistungshungrig. Vor dem Aufkommen generativer KI stieg die jährliche Modellkapazität um das Dreifache. Mit Transformer-basierten Modellen hat sich dieses Wachstum auf mehr als das Zehnfache pro Jahr erhöht und serverbasierte KI bietet Zugriff auf die leistungsstärksten Modelle. In einer Vielzahl von Embedded- und Industrie-Applikationen ist der Zugriff auf diese Systeme jedoch nicht optimal. Sowohl Betreiber als auch Anwender legen großen Wert auf die Sicherheit ihrer Daten. Allerdings sind die Netzwerkverbindungen vor Ort in vielen Fällen nicht zuverlässig genug, um cloudbasierte KI zu unterstützen.
Deshalb müssen Nutzer KI-Modelle auf dem Gerät selbst – also am Edge – ausführen können. Dies erreicht man zum Teil mit dem Einsatz leistungsfähiger Embedded-Prozessoren, die für die jeweilige Umgebung optimiert sind und eine hohe Datensicherheit sowie geringe Latenzzeiten bieten. Weil Edge-KI keine zuverlässige Internetverbindung benötigt, eignet sie sich insbesondere für solche Einsatzbereiche. Beispielsweise passen Entwickler serverbasierte KI-Modelle so an, dass sie in Embedded-Systemen effizient laufen.
Für Edge-KI optimierte Modellarchitekturen
Um Edge-KI weiter voranzutreiben, haben Entwickler CNN-Architekturen wie ResNet und Mobilenet entwickelt. Hiermit erreicht man eine hohe Bilderkennungsgenauigkeit mit einer geringeren Anzahl an Matrixmultiplikationen, verglichen mit früheren Modellen. Die Modellarchitekturen teilen große, rechenintensive Filter in kleine zweidimensionale Faltungen auf. Zudem nutzen sie Techniken wie Layer Fusing, bei denen aufeinanderfolgende Operationen Daten durch die Gewichtungsberechnung und Aktivierungsoperationen von mehr als einer Schicht leiten. So nutzen die Techniken die Datenlokalität, um externe Speicherzugriffe zu vermeiden, die hinsichtlich Energie und Latenzzeit kostspielig sind.
Anzeige
Entwickler haben diese und andere für den Edge-Bereich optimierten Modellarchitekturen mit Techniken wie Netzwerkbeschneidung und Quantisierung kombiniert. Aufgrund der Beschneidung reduziert sich die Gesamtzahl der Operationen, die zum Verarbeiten jeder Schicht erforderlich sind. Allerdings eignet sich dieses Verfahren oft nicht für die optimierten Matrixmultiplikations-Engines, die für das neuronale Verarbeiten entwickelt wurden. Im praktischen Einsatz führt das Quantisieren zu besseren Ergebnissen bei geringeren Overheads, da es die Vorteile von Single Instruction Multiple Data (SIMD)-Arithmetik-Engines nutzt, die für Matrix- und Vektoroperationen entwickelt wurden.
Verwendet man 8-Bit-Ganzzahlarithmetik und möglicherweise noch kleinere Wortbreiten anstelle der breiteren, während des Modelltrainings genutzten Gleitkommaformate, so lässt sich der Rechen- und Energiebedarf massiv reduzieren. Weil anstelle einer einzigen hochpräzisen Gleitkommaeinheit viele 8-Bit-Arithmetik-Engines parallel nutzbar sind, kann ein eingebetteter Prozessor bei gleichen Energie- und Chipkosten den Durchsatz erheblich steigern.
Beispielsweise nutzt die Hexagon Neural Processing Unit (NPU) von Qualcomm diese Techniken für seine System-on-Chips (SoCs) der Snapdragon-Serie, die ursprünglich für Mobiltelefone entwickelt wurden. Hierbei unterstützen die SoCs Funktionen wie Gesichts- und Spracherkennung. Der gleiche Prozessor ist ebenfalls für industrielle Anwender in der Dragonwing-SoC-Serie erhältlich, zusammen mit Arm-basierten Cortex-A-Anwendungsprozessoren und Adreno-Grafikprozessoren (GPUs).
Bild 2: Neural Processing Units (NPUs) nutzen SoCs der Snapdragon-Serie für Funktionen wie Gesichts- und Spracherkennung.(Bild: danter -stock.adobe.com)
Die aktuellen Hexagon-Generationen spiegeln das langjährige Engagement des Herstellers für Signalverarbeitung, ML und KI-Workloads wider. 2007 wurde bereits die erste Hexagon-Version vorgestellt und unterstützte anfänglich digitale Signalverarbeitungs-Workloads (Digital Signal Processing, DSP) mit einer Skalar-Engine, die auf einer Very Long Instruction Word (VLIW)-Architektur basierte. Ziel war es dabei, einen hohen Datendurchsatz zu erzielen.
Eine signifikante Innovation, die auf diese Implementierung zurückzuführen ist, ist der Einsatz von symmetrischem Multithreading (Simultaneous Multi Threading, SMT). Zudem ermöglicht das Nutzen von Parallelität auf Thread-Ebene der Architektur, viele Probleme zu umgehen, die externe Speicherlatenzen verursachen. Alle folgenden Hexagon-Generationen haben diese Designphilosophie beibehalten, wobei der Schwerpunkt auf dem Schaffen einer einheitlichen Architektur lag, mit der Entwickler die Hardware-Ressourcen von Hexagon voll ausschöpfen konnten.
Anzeige
Spätere Generationen der Hexagon-NPU unterstützen parallele Vektorarithmetik sowie mehrdimensionale Tensoren. Das koppelte man mit einem vollständigen Skalarprozessor, der Linux ausführen kann, ohne auf die Unterstützung der Arm-CPUs im SoC zurückgreifen zu müssen. Außerdem ermöglicht das Zusammenführen der Skalar-, Vektor- und Tensor-Engines eine hohe Flexibilität, da diese alle Zugriff auf einen zentralen Speicher haben.
Des Weiteren arbeitet die NPU mit Micro Tile Inferencing, einer Technik für kleine KI-Modelle mit geringer Leistungsaufnahme. So lässt sich ein einfaches Modell über lange Zeiträume in einem energiesparenden Zustand betreiben, um spezifische Arten von Geräuschen, beispielsweise die menschliche Stimme, zu identifizieren. Hierbei lassen sich mehrere Mikro-Kacheln gleichzeitig ausführen, sodass das Modell weiterlaufen kann, während andere Modelle die Aufgabe der Spracherkennung übernehmen. Aufgrund der Common-Memory-Architektur können Entwickler Techniken wie Layer Fusing voll auszunutzen. Zudem ermöglicht die Technik die Kombination von bis zu zehn oder mehr Layern, sodass keine Zwischenergebnisse in den externen Speicher zu schreiben sind.
Die jüngste Akquisition von Edge Impulse durch Qualcomm ist ein Indikator für das anhaltende Engagement des Unternehmens im Bereich des Edge-KI- und Embedded-Markts. Ein weiterer Beleg dafür sind die SoCs der Dragonwing-Reihe, die verschiedene Versionen der Hexagon-, Adreno- und Cortex-A-Kerne für unterschiedliche Leistungsbereiche nutzen.
Module von Tria bedienen Edge-KI-Applikationen
Da Qualcomm den Bedarf am Zugang zu einer Vielzahl an Modellen erkannt hat, eröffnet der AI Hub Zugang zu Hunderten verschiedener Modellimplementierungen. Diese sind jeweils für die Snapdragon- und Dragonwing-Plattformen optimiert. Für das Nutzen von KI ist es lediglich erforderlich, dass Entwickler die entsprechenden Modelle auswählen und herunterladen. So können sie verschiedene Ansätze ausprobieren, um die für die jeweilige Applikation am besten geeignete Option zu finden.
Bild 3: Die TRIA SM2S-QCS6490 SMARC-2.1.1-Modulfamilie wird vom Qualcomm QCS6490-Prozessor angetrieben, einem 6-nm-Prozessor mit hoher Leistung bei gleichzeitig geringer Leistungsaufnahme.(Bild: Tria)
Auch Computer-on-Modules (CoMs) auf Basis des offenen SMARC-Standards unterstützen das effiziente Erstellen und Entwickeln von Prototypen. Die Kooperation von Tria mit Qualcomm ermöglicht das Anpassen von Modulen gemäß dieses Standards, beschleunigt die Markteinführung und erhöht die Skalierbarkeit in Bezug auf CPU und Speicher. Aktuell in diesem Format verfügbaren Prozessoren umfassen die Modelle QCS5490 und QCS6490 sowie das Vision-AI-Kit des Herstellers. Hierbei weist der für die Hochleistungs-Videoverarbeitung optimierte IQ9075-Prozessor im Vision-AI-Kit eine Rechenleistung von bis zu 100 TOPS (Tera Operations per Second) auf.
Bild 4: Das Vision AI-KIT 6490 verfügt über ein energieeffizientes SMARC-2.1.1-Rechenmodul für mehrere Kameras, das auf dem Qualcomm QCS6490 SoC basiert.(Bild: Tria)
KI findet in Edge- und Embedded-Applikationen einen zunehmend breiten Einsatz. Entwickler benötigen daher einfachen Zugang zu einer Vielzahl an Modellen und Leistungsmerkmalen, um ihre Kosten- und Serviceerwartungen zu erfüllen. Dragonwing-KI-Beschleuniger von Qualcomm auf Modulen von Tria in Verbindung mit einer umfangreichen Bibliothek von Modellen und Support-Software, leistet einen signifikanten Beitrag zur weiteren Verbreitung der Technologie. (ts)