Energieeffizienz trifft auf künstliche Intelligenz
Intelligente Systeme erfordern mehr als nur Rechenleistung. Energieeffiziente Plattformen mit leistungsstarker KI-Hardware und flexibler Software legen den Grundstein für moderne Edge-Anwendungen – von Prototyp bis Serie.
Christian BauerChristianBauer
Gerado com IA - @stock.adobe.com
Anzeige
In den letzten Jahren hat sich künstliche Intelligenz
(KI) zu einem der wichtigsten Innovationstreiber in der Industrie entwickelt.
KI benötigt jedoch leistungsfähige Hard- und Software-Plattformen in
Zusammenarbeit mit Cloud-Computing. Hiermit können Ingenieure KI für das
Entwickeln sogenannter Smart Agents („intelligenter Agenten“) nutzen, die
beispielsweise wichtige Geschäftsprozesse, oft in Echtzeit, steuern und
optimieren. Solche Smart Agents laufen meist auf Embedded-Systemen, die über
die Cloud KI-Funktionen bereitstellen können.
Laufen KI-Funktionen dauerhaft über Cloud-Dienste,
entstehen jedoch einige Nachteile wie ein erhöhter Datenschutz, die Abhängigkeit
von Cloud-Anbietern oder hohe Kosten für die Infrastruktur. Aus diesem Grund
besteht ein wachsender Bedarf an lokaler KI-Verarbeitung, auch Edge-KI genannt,
um die Probleme der Cloud-Dienste zu überwinden. So haben beispielsweise
zahlreiche Halbleiterhersteller spezielle KI-Beschleuniger-Chips entwickelt,
die oftmals in universellen Multicore-Prozessoren integriert sind.
Anzeige
Schlanke KI-Modelle schonen Ressourcen
Allerdings ist die Leistungsfähigkeit von Embedded-KI-Beschleunigern
durch die von ihnen genutzte Leistung und die nutzbare Chipfläche begrenzt – das
führt zu einer Lücke zwischen den Funktionen, die sie bieten können, und jenen,
die in der Cloud verfügbar sind. Mit dem Trend zu großen generativen
KI-Modellen wird diese Lücke immer deutlicher. Sie bilden mittlerweile die
Grundlage für die meisten Smart-Agent-Applikationen und den Einsatz von
Benutzeroberflächen in natürlicher Sprache.
So hat das Weiterentwickeln effizienter KI-Algorithmen
Technologien wie MobileNet für die Bilderkennung auf mobilen Geräten wie
Smartphones hervorgebracht. Sie bilden heute die Grundlage für effiziente KI-Modelle
in den Bereichen Sicherheit, Einzelhandel, Logistik oder industrieller Automation.
Ein ähnlicher Fokus auf kompakte und effiziente Modelle führt dazu, dass
Entwickler durch den Einsatz größerer Trainingsdatensätze trotzdem eine hohe
Genauigkeit erreichen. So entstehen generative KI-Modelle in Form von Sprachmodellen
(Large Language Models, LLMs), die deutlich kleinere und ressourcenschonendere
Alternativen zu großen Modellen wie Llama2-7B darstellen. Ein Beispiel dafür
ist TinyLlama, das mit weniger als 3 Milliarden Parametern auskommt.
Anzeige
Um schlanke KI-Modelle wie TinyLlama zu entwickeln, wurde
die Hardware entsprechend optimiert, um einen hohen Durchsatz auf eingeschränkten
Plattformen zu ermöglichen. Einer der führenden Spezialisten auf diesem Gebiet
ist das Unternehmen Qualcomm. Es hat seine zahlreichen Experten darauf
angesetzt, Techniken wie Pruning oder Microscaling zu evaluieren, um den
Rechenaufwand massiv zu reduzieren. So ersetzt beispielsweise Microscaling
aufwendige Gleitkommaoperationen durch hardwareeffiziente Ganzzahlarithmetik
auf Basis kleiner Operanden. Ein wichtiger Schritt hierbei war die Übernahme
von Edge Impulse, einem Spezialisten für KI-Optimierung energieeffizienter
Hardware.
Neue CPU-Architektur ermöglicht hohe KI-Leistung
Diese Arbeit hat Qualcomm umfangreiche Einblicke in Techniken
zum Optimieren von KI-Modellen verschafft, die das Unternehmen ab sofort auf seine
generative KI ausweitet. So waren Entwickler von Qualcomm beispielsweise am
Verfeinern des Konzepts der spekulativen Dekodierung beteiligt, um die Latenz
und Effizienz eines großen Sprachmodells zu verbessern. Hierbei wird die
Ausführung zwischen einem kleinen lokalen Modell und einem cloudbasierten
großen Modell so aufgeteilt, dass sich die Gesamtausführungszeit verkürzt.
Anzeige
Das Verständnis der spekulativen Dekodierung und anderen
KI-Funktionen, die für Edge- und Embedded-Applikationen optimiert sind, ist in
die Hardware-Architektur eingeflossen, die Qualcomm in den letzten zehn Jahren
entwickelt hat. Zunächst wurde die Architektur in die Snapdragon-CPU-Serie für
Smartphones implementiert, inzwischen aber ebenfalls auf die
Dragonwing-CPU-Serie für industrielle Automation ausgeweitet.
Möchten Entwickler leistungsstarke KI-Modelle auf
Embedded-Plattformen portieren, ist ein Optimieren des Modells meist nur
begrenzt möglich. Mit den Snapdragon- und Dragonwing-Prozessoren schließt
Qualcomm die Lücke und erreicht mit seiner IQ9-Generation mehr als 100 TOPS
(Trillion Operations per Second, Billionen Rechenoperationen pro Sekunde). Mit
der hohen Leistung lassen sich TinyLlama und ähnliche LLMs mit reduziertem
Platzbedarf ausführen, ebenso Llama2 mit seinen 13 Mrd. Parametern. Auch große
Modelle lassen sich mit einer Geschwindigkeit von über 10 Token pro Sekunde
ausführen, was den Einsatz generativer Edge-KI für natürliche
Sprachschnittstellen ermöglicht.
KI-Modelle optimieren
Eine weitere Stärke der Hexagon-Architektur – Grundlage
der Dragonwing-CPUs – ist der optimierte Energiebedarf, um beispielsweise die
Betriebsdauer batteriebetriebener Systeme zwischen den Ladevorgängen zu verlängern.
Ein Beispiel ist die Mikro-Tile-Inferenz, welche die Core-Architektur des
Hexagon-Coprozessors nutzt, der um Ausführungs-Engines herum organisiert ist,
die sich einen gemeinsamen zentralen Speicher teilen.
Anzeige
Mikro-Tile-Inferenz ermöglicht es, ein verkleinertes
Modell über lange Zeiträume in einem energiesparenden Zustand auszuführen. Das lässt
sich für bestimmte Arten von Geräuschen oder Bewegungen auf einem von einer
Kamera aufgenommenen Bild nutzen. So kann das kleine Modell leistungsfähige
Aufgaben aktivieren, um die Eingabe auszuwerten. Ein weiteres Beispiel ist die
Common-Memory-Architektur, die es ermöglicht, Techniken wie Layer Fusing für
MobileNet und andere Modelle zu verwenden. Layer Fusing reduziert durch das
gleichzeitige Verarbeiten mehrerer Schichten die Anzahl der Zugriffe auf den
externen Speicher, was zu hohen Energieeinsparungen im Vergleich zu anderen
Architekturen und Implementierungen führt.
Die Hexagon- Engines bestehen aus speziellen
Recheneinheiten (Pipelines), die unterschiedliche Arten von Rechenoperationen
übernehmen: Skalar-, Vektor- und Tensor-Arithmetik. Mit der Aufteilung kann die
Software jeden Rechenschritt genau dort ausführen, wo er am effizientesten ist
– also auf dem Teil des Coprozessors, der für die jeweilige Aufgabe am besten
geeignet ist. Hierdurch werden die Beschleunigungsfunktionen optimal genutzt. Zusätzlich
wird der Datendurchsatz mit symmetrischem Multithreading gesteigert und die
Technik sorgt dafür, dass mehrere Threads parallel arbeiten. Muss ein Thread
auf einen Speicher warten, kann ein anderer Thread, der bereits über die
erforderlichen Daten verfügt, weiterlaufen, bis er zum Stillstand gezwungen
wird und ein anderer Thread die Arbeit übernimmt.
Zudem enthält die Hexagon-Architektur einen vollwertigen Skalarprozessor,
der Linux ausführt. Hiermit kann er komplexe Multi-Modell-Pipelines
eigenständig verwalten, ohne auf die ebenfalls in Dragonwing integrierten Arm-Applikationsprozessoren
zurückgreifen zu müssen.
Anzeige
Skalierbare Embedded-Module für KI-Applikationen
Tria Technologies integriert die Dragonwing-Prozessoren in
eine Serie von System-on-Modules (SoMs) und erleichtert Entwicklern damit den Zugang
zur Technologie. Für Qualcomm-KI-Prozessoren wie den QCS5430 oder QCS6490
entschied sich Tria für den kompakten SMARC-Formfaktor (Smart Mobility
Architecture). So können die Module bestmöglich in Produkten mit begrenzten
Platzverhältnissen wie mobilen Robotern zum Einsatz kommen.
Bild 1: Das Tria SM2S-QCS6490 ist ein kompaktes SMARC-Modul, das den Qualcomm QCS6490-Prozessor integriert, der auf der KI-optimierten Hexagon-Architektur aufbaut.Tria
Ein weiteres Modul, das den IQ6-Prozessor integriert ist
als Lötmodul im Formfaktor OSM (Open Standard Module) für größenoptimierte
KI-Plattformen ausgeführt. Module, die auf der Snapdragon-X-Elite-Plattform
basieren, verwenden die größeren COM-Express- und COM-HPC-Formate, um mehr Speicher
und I/Os sowie eine sehr hohe Rechenleistung zu ermöglichen.
Bild 2: Das Tria OSM-LF-IQ615 ist ein kompaktes Auflötmodul im OSM-Formfaktor Size-L (Large), das den Qualcomm IQ615-Prozessor integriert. Der integrierte Hexagon V66 DSP beschleunigt Machine-Learning-Applikationen am Edge.Tria
Ein gemeinsames Merkmal der von Tria entwickelten Module
ist ihr thermisch und elektrisch optimiertes Design. Das Entwicklerteam hat das
Verhalten der Module in thermisch eingeschränkten Umgebungen validiert, sodass sie
beispielsweise bei direkter Sonneneinstrahlung an einem Sendemast
funktionieren. Zudem bieten die Dragonwing-basierten Module einen langen
Lebenszyklus-Support von 13 Jahren oder mehr. Mit dem modularen Aufbau
ermöglicht Tria außerdem das Skalieren der Plattformen über verschiedene
Produktgenerationen hinweg, was Upgrades vereinfacht und das Nutzen
leistungsfähiger Ersatzprodukte möglich macht.
Das Beste aus zwei Welten
Mit einem kompletten Hardware-Design auf Basis des AI
Hubs von Qualcomm, das sich für die zeitnahe Integration in Produkte eignet, können
Entwickler die Markteinführungszeit verkürzen. Zudem bietet die Software
Zugriff auf viele verschiedene Modelle, die für die Snapdragon- und
Dragonwing-Plattformen optimiert sind. Entwickler müssen lediglich Modelle
auswählen und herunterladen, um diese sofort einsetzen zu können. So lassen
sich verschiedene Ansätze ausprobieren, um den für die Zielapplikation am
besten geeigneten zu finden.
Die Partnerschaft zwischen Qualcomm und Tria vereint das
Beste aus zwei Welten: leistungsstarke KI-Beschleuniger, eine Software-Infrastruktur
mit Zugriff auf eine Vielzahl moderner KI-Modelle und Hardwareunterstützung,
die es Entwicklern erlaubt, Konzepte schnell und einfach zu evaluieren und zu
testen sowie Prototypen zu erstellen. Mit der kombinierten Plattform können Anwender
aus Bereichen wie Industrieautomation, Einzelhandel, Sicherheit oder Logistik aktuelle
KI-Innovationen direkt in ihre Applikationen integrieren. (ts)
Autor
Christian Bauer, Product
Marketing Manager bei Tria Technologies