Artificial Intelligence in a modern GPU card

KI ist aus ihrem langen Winterschlaf erwacht. Viele Anbieter stellen heute Komplettlösungen für Embedded-KI bereit, mit denen Entwickler die Markteinführung beschleunigen können. (Bild: sdecoret - stock.adobe.com)

Deep Learning, was einfach bedeutet, dass ein neuronales Netz mit mehreren Schichten verwendet wird, kann auf viele Formen von KI angewendet werden, die jeweils für unterschiedliche Zielanwendungen geeignet sind. Seitdem die Fähigkeit zur Erstellung eines Modells entwickelt wurde, wird KI mit erstaunlicher Geschwindigkeit in vielen verschiedenen Systemen bereitgestellt. Die Transformatorstruktur, die hinter den heutigen generativen KI-Modellen steht, ist zum Beispiel erst vor fünf Jahren entstanden. Jetzt hat sie jedoch schon das Potenzial, die Landschaft vieler Branchen zu verändern.

Der Fokus liegt auf generativer KI

Heute liegt ein starker Fokus auf generativer KI – insbesondere auf großen Sprachmodellen (LLMs) und der Bilderzeugung –, welche durch den Aufstieg des Cloud Computings ermöglicht wurde. Ohne High-Speed-Konnektivität und Zugang zu Hardware für die massiv-parallele Datenverarbeitung, die über ein oder mehrere Rechenzentren verteilt ist, wäre es viel schwieriger, auf die bahnbrechenden Ergebnisse von KI-Modellen wie GPT-4 zuzugreifen und gleichzeitig realisierbare Geschäftsmodelle zu schaffen. Die Auswirkungen von KI reichen jedoch weit über den Desktop hinaus. Dank des Zugangs zu dieser Ebene an Rechenleistung können Embedded-Systeme die Fähigkeiten dieser Plattformen dafür nutzen, Aufgaben wie Sprach-, Ton- und Gesichtserkennung in Echtzeit durchzuführen sowie spezifische Modelle zu ermöglichen, wie sie zur Vibrationsanalyse verwendet werden, sodass potenzielle Ausfälle in mechanischen Systemen identifiziert werden.

Viele Anbieter stellen Komplettlösungen für Embedded-KI bereit, mit denen Entwickler die Markteinführung beschleunigen können. Die produktionstaugliche Software- und Hardwareplattform von NXP ermöglicht zum Beispiel die schnelle Entwicklung zukunftssicherer IoT-Produkte mit Funktionen wie Sprachsteuerung oder Gesichtserkennung. Ein weiteres Beispiel ist der Mikrocontroller MAX78000 von ADI, ein energieeffizienter Beschleuniger für neuronale Netze, mit dem batteriebetriebene Anwendungen KI-Inferenzen ausführen können (Bild 1).

Bild 1: Produktionstaugliche Software- und Hardwareplattformen von NXP ermöglichen die schnelle Entwicklung zukunftssicherer IoT-Produkte.
Bild 1: Produktionstaugliche Software- und Hardwareplattformen von NXP ermöglichen die schnelle Entwicklung zukunftssicherer IoT-Produkte. (Bild: Farnell)

Wie verbessert Edge-KI die Leistung in Echtzeit-Anwendungen?

Obwohl vernetzte Geräte die Leistungsfähigkeit von Cloud-KI nutzen können, gibt es viele Situationen, in denen dies keine brauchbare Lösung ist. Echtzeit-Anwendungen können Verzögerungen bei der Kommunikation mit einem Remote-Server nicht hinnehmen, oder noch schlimmer, die Verbindung des Geräts zur Cloud wird unterbrochen oder der Dienst ist plötzlich nicht mehr verfügbar.

 

Ein weiteres Beispiel für die Einschränkungen von Cloud Computing sind Drohnen, die zur Inspektion von Straßen, Eisenbahnen, Rohren und Masten, welche sich oft in abgelegenen Gebieten befinden und möglicherweise keinen drahtlosen Internetzugang haben, eingesetzt werden. Selbst wenn Mobilfunkverbindungen verfügbar sind, können sich viele Systeme die hohen Kosten oder den zusätzlichen Stromverbrauch der Bereitstellung der bidirektionalen Breitbanddatendienste, die für die Weiterleitung von Echtzeitvideos an die Cloud erforderlich sind, nicht leisten.

In industriellen Umgebungen kann die Kommunikation mit einem Server echte Probleme bereiten und hier ist Edge-KI-Computing revolutionär. Obwohl es nicht möglich ist, die enormen Parameteranzahl- und Rechenanforderungen von GPT-4 zu erfüllen, ist eine leistungsstarke KI-Unterstützung für Edge-Geräte verfügbar, was einen lokalisierten Dienst teilweise, wenn nicht sogar vollständig ermöglicht. Es ist sogar möglich, den Workload aufzuteilen, um eine kostengünstige Leistung in Echtzeit aufrechtzuerhalten und gleichzeitig den höheren Rechendurchsatz von Cloud-KI zu nutzen. Durch die Aufteilung des Workloads kann auch die Batterielaufzeit in Systemen wie Drohnen optimiert werden.

In einem typischen Szenario werden maschinelle Lernalgorithmen auf vergleichsweise kostengünstigen Geräten dazu ausgeführt, alle eingehenden Sensordaten zu analysieren und festzustellen, ob eine Eingabe einer weiteren Analyse bedarf. Denken wir an ein Instrument, das für die Erfassung von Ermüdungserscheinungen in einer Werkzeugmaschine ausgelegt ist. Die Erkennung von Verschleißerscheinungen macht die Verwendung komplexerer Cloud-basierter Modelle notwendig, die zusätzliche Eingaben verarbeiten, um festzustellen, ob ein Alarm ausgelöst werden soll.

Cloud vs. Edge: Echtzeit-Lösungen im Fokus

Ein weiterer gängiger Ansatz ist die Verwendung lokaler Modelle für die Echtzeitsteuerung mit niedrigerer Auflösung, wobei Daten zur langfristigen Trendanalyse gesendet werden, wenn Strom- oder Kommunikationskapazität verfügbar ist. Die komplexeren Modelle, die in der Cloud ausgeführt werden, können dann kleinere Änderungen der Anlagenbedingungen verfolgen. Die Daten werden anschließend dazu verwendet, Inspektionen zu priorisieren oder Fehler zu isolieren, wobei Servicetechnikern spezifische Wartungs- oder Reparaturanweisungen zur Verfügung gestellt werden.

Diese architektonische Aufteilung bietet Zugang zu einer großen und weiterhin wachsenden Palette von Leistungsoptionen für Embedded-KI. Für stromsparende und Always-on-KI-Anforderungen haben Anbieter wie Edge Impulse, die mit Lieferanten von Embedded-Bausteinen wie Silicon Labs zusammenarbeiten, Techniken entwickelt, mit denen tiefe neuronale Netze auch auf Mikrocontroller-Kernen ausgeführt werden können. Halbleiterhersteller fügen ihren Embedded-Prozessoren schrittweise eine Matrixbeschleunigung hinzu, welche eine weitere Leistungssteigerung ermöglicht.

KI in der mehrkanaligen Video- und Bildverarbeitung

Mehrkanalige Video- und Bildverarbeitung ist eine häufige Anforderung von Inspektionsdrohnen bis hin zu industriellen Systemen, wo Platinen erforderlich sind, welche maschinelles Lernen mit höherer Leistung direkt unterstützen. Entwickler können aus einer Reihe von Produkten auf dem Markt wählen. Sie reichen vom Raspberry Pi, der ggf. mit verschiedenen Erweiterungsboards ausgestattet ist, über den BeagleY-AI (Bild 2), einen neuen Open-Source-Einplatinencomputer von BeagleBoard.org, der Entwicklern den direkten Einstieg in die Erstellung einer Vielzahl neuer KI-Anwendungen ermöglicht, bis hin zu den dedizierten KI-Angeboten von Nvidia und Lösungen der AMD Xilinx-Plattform, die eine programmierbare Logikbeschleunigung bieten.

Bild 2: BeagleY-AI ist ein Open-Source-Einplatinencomputer, der Entwicklern den direkten Einstieg in die Erstellung neue KI-Anwendungen ermöglicht.
Bild 2: BeagleY-AI ist ein Open-Source-Einplatinencomputer, der Entwicklern den direkten Einstieg in die Erstellung neue KI-Anwendungen ermöglicht. (Bild: Farnell)

Obwohl jede dieser Plattformen spezifischen Code erfordert, können Entwickler, die an maschinellen Lernanwendungen arbeiten, plattformübergreifende Entwicklungstools nutzen, mit denen der Code für die Zielarchitektur optimiert werden kann. Diese Tools helfen dabei, Modelle, die in einer Cloud-Umgebung trainiert wurden, in eine Version abzubilden, die mit der erforderlichen Geschwindigkeit auf Embedded-Hardware ausgeführt werden kann. Zum Beispiel nutzen Pruning und Sparsification die Redundanz in den Gewichten, die während des Trainings typischerweise Neuronen zugewiesen werden, wodurch Operationen entfernt werden, die nicht wesentlich zum Ergebnis beitragen.

Die Kombination aus Hardware-Unterstützung für KI-Beschleunigung in Verbindung mit Unterstützung für die Software-Optimierung bringt noch fortschrittlichere Arten von Modellen auf Edge-Geräte. Die heutigen Plattformen bieten die Flexibilität, die erforderlich ist, um die Transformator-basierten Strukturen zu implementieren, welche jetzt generative KI-Systeme versorgen. Vision-Transformatoren benötigen mehr Speicher als herkömmliche CNNs, können aber bessere Ergebnisse bei Bilderkennungsanwendungen liefern. Die Sparsification-Unterstützung in Plattformen wie der Nvidia Ampere-GPU im Jetson Orin-Modul macht es möglich, diese Art von Modell in einer eingebetteten Umgebung auszuführen. Die Flexibilität im Mittelpunkt der Versal-Architektur in der KI-Engine von AMD bietet zusätzliche Optimierungen, die den Datenmanipulationsanforderungen von Transformatoren entsprechen.

In den meisten Fällen stellen Beschleunigerhersteller Tools zur Verfügung, die diese Optimierungen unterstützen. In der Regel können diese Tools mit weit verbreiteten Entwicklungsplattformen wie PyTorch oder Tensorflow verbunden werden. Somit können Entwickler eine Architektur auswählen, welche den Durchsatzanforderungen der jeweiligen Zielanwendung entspricht, und die erforderlichen Optimierungen anwenden.

Fazit

Da sich die Hardwareeffizienz gemeinsam mit den Fortschritten bei der Softwareoptimierung und Modellarchitektur verbessert, bringen Embedded-Systeme am Netzwerkrand KI in neue Anwendungsklassen, ohne dabei auf Cloud-Dienste angewiesen zu sein. Die große Auswahl bedeutet, dass es Lösungen für jede Anwendung gibt und Anbieter mit Know-how im KI-Bereich, wie Farnell, sich als Partner erweisen, wenn es darum geht, Entwicklern zu helfen, die richtigen Entscheidungen für ihre speziellen Anwendungsanforderungen zu treffen. (na)

Ankur Tomar

Regional Solutions Marketing Manager bei Farnell

Sie möchten gerne weiterlesen?