Zum jetzigen Zeitpunkt sollte es bereits fliegende Autos und Roboter-Butler geben. Und mit etwas Pech auch empfindungsfähige Roboter, die entscheiden sich gegen die Menschheit aufzulehnen, bevor der Klimawandel zur Apokalypse führt. Obwohl dies alles keine Realität darstellt, ist klar, dass künstliche Intelligenz (KI) bereits ihren Weg in die alltägliche Welt gefunden hat. Jedes Mal, wenn Alexa beauftragt wird etwas zu machen, findet die Maschinen-Lerntechnik heraus, was gesagt wurde und versucht, die beste Entscheidung dafür zu treffen, was der Auftraggeber wollte. Jedes Mal, wenn Netflix oder Amazon einem den „nächsten Film“ oder den „nächsten Einkauf“ empfehlen, basiert dies auf ausgefeilten Algorithmen des maschinellen Lernens. Und obwohl noch nicht jeder ein autonomes Auto hat, sind sich doch alle der Entwicklungen in diesem Bereich und dem Potenzial bewusst, das eine autonome Navigation bieten kann.
Die Idee hinter der KI ist es, dass Maschinen Entscheidungen auf Basis ihrer Umgebung treffen und Informationen wir ein Mensch verarbeiten können – oder auf eine Weise, die besser ist, als was ein Mensch tun würde). Bisher wird dies nur von wirklich großen Maschinen erfüllt, leistungshungrigen Servern, die einen Netzanschluss und eine leistungsfähige Kühlung haben. Trotz der Verheißungen der KI bleiben kleinere Maschinen davon unberührt. Geräte, die von kleineren Batterien versorgt werden oder Kosten- und Größeneinschränkungen besitzen, können nicht an dieser Idee teilhaben, dass Maschinen sehen und hören können. Heute können diese kleinen Maschinen nur einfache KI-Techniken nutzen: vielleicht auf ein einziges Schlüsselwort lauschen oder niedrigdimensionale Signale analysieren, wie die in der Photoplethysmografie (PPG) zur Messung der Herzfrequenz.
Was wäre, wenn kleine Maschinen hören und sehen könnten?
Aber gibt es einen Nutzen, wenn kleine Maschinen sehen und hören könnten? Es ist schwer daran zu glauben, dass Dinge wie eine Türklingelkamera Nutzen aus Techniken wie dem autonomen Fahren oder der Verarbeitung natürlicher Sprache ziehen könnten. Aber es gibt die Möglichkeit, für weniger komplexe und nicht sehr verarbeitungsintensive KI-Berechnungen, wie Sprach- und Wortschatzerkennung sowie Bildanalyse, dass dem so ist.
- Überwachungskameras an der Haustüre und für den Privatbedarf zeichnen häufig uninteressante Ereignisse auf, wie die Bewegung von Pflanzen, hervorgerufen vom Wind, starke Lichtänderungen, hervorgerufen von Wolken oder selbst die Bewegung von Hunden und Katzen, die an ihnen vorbeilaufen. Dies kann zu falschem Auslösen führen, was den Wohnungsbewohner veranlasst, Ereignisse zu ignorieren. Ist er zusätzlich weit weg auf Reisen, dann schläft er wahrscheinlich, wenn ihn die Kamera auffordert, die Beleuchtung zu ändern, verursacht durch Sonnenaufgang, Wolken und Sonnenuntergang. Eine smartere Kamera könnte nur bei spezielleren Ereignissen einschalten, wie z. B. wenn ein Mensch im Referenzrahmen auftaucht.
- Türschlösser oder andere Zugangsstellen können Gesichts- oder selbst Spracherkennung nutzen, um autorisierten Personen Zugang zu gewähren und damit lässt sich in einigen Fällen auf Schlüssel und Badges verzichten.
- Viele Kameras müssen auf bestimmte Ereignisse triggern: Frontkameras im Automobil müssen z. B. ein Wildtier vor dem Fahrzeug erkennen, Überwachungskameras müssen bei einer Person im überwachten Bereich oder bei Geräuschen, wie einer sich öffnenden Türe oder Fußschritten, einschalten und eine persönliche Kamera sollte bei einem gesprochenen Befehl aktiviert werden.
- Befehle mit einem großen Wortschatz können in vielen Anwendungen nützlich sein: obwohl es eine riesige Anzahl an „Hey Alexa“-Lösungen gibt, ist bei einem Vokabular von 20 oder mehr Befehlen ein Einsatz auch in industriellen Ausrüstungen oder in der Hausautomatisierung denkbar.
Diese Beispiele sind nur die Spitze des Eisbergs: die Idee, kleinen Maschinen zu erlauben zu sehen, zu hören und Probleme zu lösen, die in der Vergangenheit die Intervention des Menschen erforderten, ist sehr bestechend und es tauchen täglich neue Anwendungsfälle dafür auf.
Was sind die Herausforderungen?
Wenn KI für kleine Maschinen so vielversprechend ist, warum existiert sie nicht längst? Die Antwort ist die Computer-Rechenleistung. KI-Schlussfolgerungen sind das Ergebnis der Berechnungen eines neuralen Netzwerk-Modells. Ein neuronales Netzwerk-Modell ist als eine grobe Annäherung dafür vorstellbar, wie ein menschliches Gehirn ein Bild oder einen Ton verarbeiten würde. Es zerlegt die Information in sehr kleine Teile und erkennt die Muster anschließend, wenn diese kleinen Teile wieder zusammengesetzt werden. Das übliche Arbeits-Modell bei der aktuellen Bildverarbeitung ist das Convolutional-Neural-Netzwerk (CNN). Diese Arten von Modellen eignen sich sehr gut für die Bildanalyse und sind auch sehr nützlich in der Audioanalyse. Die Herausforderung dabei ist, dass diese Modelle Millionen, wenn nicht gar Milliarden von mathematischen Berechnungen erfordern. Traditionell mussten bei diesen Anwendungen schwierige Entscheidungen zur Implementierung getroffen werden.
- Eine preisgünstige leistungsschwache Mikrocontroller-Lösung nutzen: Obwohl der durchschnittliche Leistungsverbrauch gering sein kann, kann die CNN für die Berechnung Sekunden benötigen, was bedeutet, dass die KI-Schlussfolgerungen nicht in Echtzeit erfolgen und einen wesentlichen Teil der Batterieenergie verbrauchen.
- Einen teuren leistungsstarken Prozessor kaufen, der diese mathematischen Operationen vollständig innerhalb der gewünschten Latenz berechnen kann: Diese Prozessoren sind üblicherweise groß und benötigen sehr viele externe Komponenten wie Kühlkörper oder ähnliche Kühlkomponenten. Sie führen die KI-Schlussfolgerungen jedoch sehr schnell aus.
- Keine Implementierung: Die leistungsschwache Mikrocontroller-Lösung ist zu langsam, um geeignet zu sein, und der leistungsstarke Prozessor sprengt den Kostenrahmen und das Leistungsbudget.
Eck-Daten
Künstliche Intelligenz benötigt hohe Rechenleistungen, weshalb derzeit nur wirklich große Systeme wie Cloud-Server die Versprechen der Technologie erfüllen können. Damit kleinere, batteriebetriebene Systeme am Edge an der KI-Revolution teilhaben können und Sprach- und Bilderkennung ermöglichen, sind Bauelemente erforderlich, die viel Rechenleistung bei sehr niedrigem Energieverbrauch bieten. Ein Beispiel dafür sind KI-Mikrocontroller wie der MAX78000.
Wo liegt die Lösung?
Was also benötigt wird ist eine von Grund auf neu aufgebaute eingebettete KI-Lösung, um den Energiebedarf der Berechnungen eines Convolutional-Neuronal-Netzwerks zu minimieren. KI-Schlussfolgerungen müssen mit um Größenordnungen geringerem Leistungsbedarf als bei einer konventionellen Mikrocontroller- oder Prozessor-Lösung gezogen werden und ohne die Hilfe von externen Komponenten, wie Speichern erfolgen, die Energie, Raum und Kosten benötigen. Wenn eine KI-Lösung den hohen Leistungsbedarf des maschinellen Sehens praktisch eliminieren könnte, dann würden selbst die kleinsten Geräte sehen und Dinge erkennen, die in ihrer Umgebung passieren.
Glücklicherweise steht die Branche hier gerade am Anfang einer Revolution der kleinen Maschinen. Es sind nun Produkte erhältlich, um den Energiebedarf von KI-Folgerungen sehr stark zu verringern und ein über Batterien betriebenes maschinelles Sehen zu ermöglichen. Dazu gehört unter anderem der KI-Mikrocontroller MAX78000 (Bild 1), der es neuronalen Netzwerken ermöglicht, bei sehr niedrigem Stromverbrauch am IoT-Edge zu arbeiten. Der hardwarebeschleunigte CNN-Accelerator ermöglicht es batteriebetriebenen Anwendungen, KI-Inferenzen auszuführen und dabei nur Mikrojoule an Energie zu verbrauchen. (na)
Sie möchten gerne weiterlesen?
Unternehmen
Analog Devices Ltd
No 3 Horizon Business Village, 1 Brooklands Road
KT13 0TJ Weybridge, Surrey
United Kingdom