Plattformen für die Entwicklung

Energieeffizienz trifft auf künstliche Intelligenz

Intelligente Systeme erfordern mehr als nur Rechenleistung. Energieeffiziente Plattformen mit leistungsstarker KI-Hardware und flexibler Software legen den Grundstein für moderne Edge-Anwendungen – von Prototyp bis Serie.

In den letzten Jahren hat sich künstliche Intelligenz (KI) zu einem der wichtigsten Innovationstreiber in der Industrie entwickelt. KI benötigt jedoch leistungsfähige Hard- und Software-Plattformen in Zusammenarbeit mit Cloud-Computing. Hiermit können Ingenieure KI für das Entwickeln sogenannter Smart Agents („intelligenter Agenten“) nutzen, die beispielsweise wichtige Geschäftsprozesse, oft in Echtzeit, steuern und optimieren. Solche Smart Agents laufen meist auf Embedded-Systemen, die über die Cloud KI-Funktionen bereitstellen können.

Laufen KI-Funktionen dauerhaft über Cloud-Dienste, entstehen jedoch einige Nachteile wie ein erhöhter Datenschutz, die Abhängigkeit von Cloud-Anbietern oder hohe Kosten für die Infrastruktur. Aus diesem Grund besteht ein wachsender Bedarf an lokaler KI-Verarbeitung, auch Edge-KI genannt, um die Probleme der Cloud-Dienste zu überwinden. So haben beispielsweise zahlreiche Halbleiterhersteller spezielle KI-Beschleuniger-Chips entwickelt, die oftmals in universellen Multicore-Prozessoren integriert sind.

Schlanke KI-Modelle schonen Ressourcen

Allerdings ist die Leistungsfähigkeit von Embedded-KI-Beschleunigern durch die von ihnen genutzte Leistung und die nutzbare Chipfläche begrenzt – das führt zu einer Lücke zwischen den Funktionen, die sie bieten können, und jenen, die in der Cloud verfügbar sind. Mit dem Trend zu großen generativen KI-Modellen wird diese Lücke immer deutlicher. Sie bilden mittlerweile die Grundlage für die meisten Smart-Agent-Applikationen und den Einsatz von Benutzeroberflächen in natürlicher Sprache.

So hat das Weiterentwickeln effizienter KI-Algorithmen Technologien wie MobileNet für die Bilderkennung auf mobilen Geräten wie Smartphones hervorgebracht. Sie bilden heute die Grundlage für effiziente KI-Modelle in den Bereichen Sicherheit, Einzelhandel, Logistik oder industrieller Automation. Ein ähnlicher Fokus auf kompakte und effiziente Modelle führt dazu, dass Entwickler durch den Einsatz größerer Trainingsdatensätze trotzdem eine hohe Genauigkeit erreichen. So entstehen generative KI-Modelle in Form von Sprachmodellen (Large Language Models, LLMs), die deutlich kleinere und ressourcenschonendere Alternativen zu großen Modellen wie Llama2-7B darstellen. Ein Beispiel dafür ist TinyLlama, das mit weniger als 3 Milliarden Parametern auskommt.

Um schlanke KI-Modelle wie TinyLlama zu entwickeln, wurde die Hardware entsprechend optimiert, um einen hohen Durchsatz auf eingeschränkten Plattformen zu ermöglichen. Einer der führenden Spezialisten auf diesem Gebiet ist das Unternehmen Qualcomm. Es hat seine zahlreichen Experten darauf angesetzt, Techniken wie Pruning oder Microscaling zu evaluieren, um den Rechenaufwand massiv zu reduzieren. So ersetzt beispielsweise Microscaling aufwendige Gleitkommaoperationen durch hardwareeffiziente Ganzzahlarithmetik auf Basis kleiner Operanden. Ein wichtiger Schritt hierbei war die Übernahme von Edge Impulse, einem Spezialisten für KI-Optimierung energieeffizienter Hardware.

Neue CPU-Architektur ermöglicht hohe KI-Leistung

Diese Arbeit hat Qualcomm umfangreiche Einblicke in Techniken zum Optimieren von KI-Modellen verschafft, die das Unternehmen ab sofort auf seine generative KI ausweitet. So waren Entwickler von Qualcomm beispielsweise am Verfeinern des Konzepts der spekulativen Dekodierung beteiligt, um die Latenz und Effizienz eines großen Sprachmodells zu verbessern. Hierbei wird die Ausführung zwischen einem kleinen lokalen Modell und einem cloudbasierten großen Modell so aufgeteilt, dass sich die Gesamtausführungszeit verkürzt.

Das Verständnis der spekulativen Dekodierung und anderen KI-Funktionen, die für Edge- und Embedded-Applikationen optimiert sind, ist in die Hardware-Architektur eingeflossen, die Qualcomm in den letzten zehn Jahren entwickelt hat. Zunächst wurde die Architektur in die Snapdragon-CPU-Serie für Smartphones implementiert, inzwischen aber ebenfalls auf die Dragonwing-CPU-Serie für industrielle Automation ausgeweitet.

Möchten Entwickler leistungsstarke KI-Modelle auf Embedded-Plattformen portieren, ist ein Optimieren des Modells meist nur begrenzt möglich. Mit den Snapdragon- und Dragonwing-Prozessoren schließt Qualcomm die Lücke und erreicht mit seiner IQ9-Generation mehr als 100 TOPS (Trillion Operations per Second, Billionen Rechenoperationen pro Sekunde). Mit der hohen Leistung lassen sich TinyLlama und ähnliche LLMs mit reduziertem Platzbedarf ausführen, ebenso Llama2 mit seinen 13 Mrd. Parametern. Auch große Modelle lassen sich mit einer Geschwindigkeit von über 10 Token pro Sekunde ausführen, was den Einsatz generativer Edge-KI für natürliche Sprachschnittstellen ermöglicht.

KI-Modelle optimieren

Eine weitere Stärke der Hexagon-Architektur – Grundlage der Dragonwing-CPUs – ist der optimierte Energiebedarf, um beispielsweise die Betriebsdauer batteriebetriebener Systeme zwischen den Ladevorgängen zu verlängern. Ein Beispiel ist die Mikro-Tile-Inferenz, welche die Core-Architektur des Hexagon-Coprozessors nutzt, der um Ausführungs-Engines herum organisiert ist, die sich einen gemeinsamen zentralen Speicher teilen.

Mikro-Tile-Inferenz ermöglicht es, ein verkleinertes Modell über lange Zeiträume in einem energiesparenden Zustand auszuführen. Das lässt sich für bestimmte Arten von Geräuschen oder Bewegungen auf einem von einer Kamera aufgenommenen Bild nutzen. So kann das kleine Modell leistungsfähige Aufgaben aktivieren, um die Eingabe auszuwerten. Ein weiteres Beispiel ist die Common-Memory-Architektur, die es ermöglicht, Techniken wie Layer Fusing für MobileNet und andere Modelle zu verwenden. Layer Fusing reduziert durch das gleichzeitige Verarbeiten mehrerer Schichten die Anzahl der Zugriffe auf den externen Speicher, was zu hohen Energieeinsparungen im Vergleich zu anderen Architekturen und Implementierungen führt.

Die Hexagon- Engines bestehen aus speziellen Recheneinheiten (Pipelines), die unterschiedliche Arten von Rechenoperationen übernehmen: Skalar-, Vektor- und Tensor-Arithmetik. Mit der Aufteilung kann die Software jeden Rechenschritt genau dort ausführen, wo er am effizientesten ist – also auf dem Teil des Coprozessors, der für die jeweilige Aufgabe am besten geeignet ist. Hierdurch werden die Beschleunigungsfunktionen optimal genutzt. Zusätzlich wird der Datendurchsatz mit symmetrischem Multithreading gesteigert und die Technik sorgt dafür, dass mehrere Threads parallel arbeiten. Muss ein Thread auf einen Speicher warten, kann ein anderer Thread, der bereits über die erforderlichen Daten verfügt, weiterlaufen, bis er zum Stillstand gezwungen wird und ein anderer Thread die Arbeit übernimmt.

Zudem enthält die Hexagon-Architektur einen vollwertigen Skalarprozessor, der Linux ausführt. Hiermit kann er komplexe Multi-Modell-Pipelines eigenständig verwalten, ohne auf die ebenfalls in Dragonwing integrierten Arm-Applikationsprozessoren zurückgreifen zu müssen.

Skalierbare Embedded-Module für KI-Applikationen

Tria Technologies integriert die Dragonwing-Prozessoren in eine Serie von System-on-Modules (SoMs) und erleichtert Entwicklern damit den Zugang zur Technologie. Für Qualcomm-KI-Prozessoren wie den QCS5430 oder QCS6490 entschied sich Tria für den kompakten SMARC-Formfaktor (Smart Mobility Architecture). So können die Module bestmöglich in Produkten mit begrenzten Platzverhältnissen wie mobilen Robotern zum Einsatz kommen.

Um die hohe Leistungsfähigkeit des IQ-9075, einem Mitglied der IQ9-Reihe, optimal zu nutzen, hat Tria einen Single Board Computer (SBC) im 3,5-Zoll-Formfaktor entwickelt. Er umfasst 36 MB/s LPDDR5-Speicher sowie umfassende Kamera-Schnittstellen auf Basis des MIPI-Standards. Die SMARC-basierten Module ermöglichen Entwicklern aus einer Reihe von Dragonwing-basierten Designs auszuwählen, die auf den Prozessoren QCS5430, QCS6490 und IQ6 basieren.

Bild 1: Das Tria SM2S-QCS6490 ist ein kompaktes SMARC-Modul, das den Qualcomm QCS6490-Prozessor integriert, der auf der KI-optimierten Hexagon-Architektur aufbaut.

Ein weiteres Modul, das den IQ6-Prozessor integriert ist als Lötmodul im Formfaktor OSM (Open Standard Module) für größenoptimierte KI-Plattformen ausgeführt. Module, die auf der Snapdragon-X-Elite-Plattform basieren, verwenden die größeren COM-Express- und COM-HPC-Formate, um mehr Speicher und I/Os sowie eine sehr hohe Rechenleistung zu ermöglichen.

Bild 2: Das Tria OSM-LF-IQ615 ist ein kompaktes Auflötmodul im OSM-Formfaktor Size-L (Large), das den Qualcomm IQ615-Prozessor integriert. Der integrierte Hexagon V66 DSP beschleunigt Machine-Learning-Applikationen am Edge.

Ein gemeinsames Merkmal der von Tria entwickelten Module ist ihr thermisch und elektrisch optimiertes Design. Das Entwicklerteam hat das Verhalten der Module in thermisch eingeschränkten Umgebungen validiert, sodass sie beispielsweise bei direkter Sonneneinstrahlung an einem Sendemast funktionieren. Zudem bieten die Dragonwing-basierten Module einen langen Lebenszyklus-Support von 13 Jahren oder mehr. Mit dem modularen Aufbau ermöglicht Tria außerdem das Skalieren der Plattformen über verschiedene Produktgenerationen hinweg, was Upgrades vereinfacht und das Nutzen leistungsfähiger Ersatzprodukte möglich macht.

Das Beste aus zwei Welten

Mit einem kompletten Hardware-Design auf Basis des AI Hubs von Qualcomm, das sich für die zeitnahe Integration in Produkte eignet, können Entwickler die Markteinführungszeit verkürzen. Zudem bietet die Software Zugriff auf viele verschiedene Modelle, die für die Snapdragon- und Dragonwing-Plattformen optimiert sind. Entwickler müssen lediglich Modelle auswählen und herunterladen, um diese sofort einsetzen zu können. So lassen sich verschiedene Ansätze ausprobieren, um den für die Zielapplikation am besten geeigneten zu finden.

Die Partnerschaft zwischen Qualcomm und Tria vereint das Beste aus zwei Welten: leistungsstarke KI-Beschleuniger, eine Software-Infrastruktur mit Zugriff auf eine Vielzahl moderner KI-Modelle und Hardwareunterstützung, die es Entwicklern erlaubt, Konzepte schnell und einfach zu evaluieren und zu testen sowie Prototypen zu erstellen. Mit der kombinierten Plattform können Anwender aus Bereichen wie Industrieautomation, Einzelhandel, Sicherheit oder Logistik aktuelle KI-Innovationen direkt in ihre Applikationen integrieren. (ts)

Autor

Christian Bauer, Product Marketing Manager bei Tria Technologies