40258.jpg

Toshiba

Ganz oben auf der Entwicklungs-Agenda der Ingenieure im Bereich der europäischen Automobiltechnik stehen Sicherheitssysteme, die sowohl die Passagiere als auch Fußgänger schützen, indem sie die Chancen erhöhen, dass ein Unfall verhindert wird. Außerdem wird die Implementierung derartiger Systeme auf Grund von Initiativen wie beispielsweise Euro-NCAP immer wichtiger, ja sogar von immer kritischerer Bedeutung. So erkennt Euro-NCAP die Leistungen der Automobilhersteller an und belohnt sie, wenn sie neue Sicherheitstechnologien verfügbar machen, die den Verbrauchern und der Gesellschaft einen wissenschaftlich nachgewiesenen Sicherheits-Vorteil bieten. Dadurch wird sich die Ausrüstung mit wichtigen Sicherheits-Systemen über eine große Vielzahl von Modellpaletten hinweg bereits in der Standardkonfiguration dieser Fahrzeuge weiter etablieren.

Die allgemein als ADAS (Advanced Driver Assistance System) bekannten Fahrerassistenzsysteme umfassen einen breitgefächerten Bereich von Funktionalitäten wie beispielsweise Warnung vor einer Front-Heck-Kollision, Fußgänger-Erkennung und Spurverlassenswarnungen (LDW). Für all diese Systeme sind reagierende Hochleistungs-Systeme erforderlich, die in der Lage sind, die Daten in Abhängigkeit von Objekten in der näheren Umgebung des Fahrzeugs zu erfassen und diese Informationen dann rasch zu verarbeiten, um die angemessenen Aktionen einzuleiten. Eine solche Aktion könnte ein hörbarer und/oder sichtbarer Alarm sein, der den Fahrer auf eine potenzielle Gefahr hinweist, oder zusätzlich auch ein Bild auf einer Konsole, bei dem die Schlüsselinformation überlagert ist. Auch das aktive Anlegen der Bremsen oder andere Fahrzeug-Sicherheits-Features sind mögliche Aktionen, die bis hin zur autonomen Vollbremsung oder Hindernisumfahrung reichen können.

ADAS auf Kamerabasis

Bei ADAS-Implementationen bieten kamerabasierte Systeme im Vergleich zu anderen Optionen, zu denen auch Radar-Ansätze gehören, in der Regel die höchste Flexibilität. Kamerasysteme können nicht nur die relevanten Informationen um das Fahrzeug herum erfassen, sondern Sie können den Fahrern auch Bilder aus der realen Welt auf den Displays in den Konsolen anzeigen, wobei sich diese Bilder um nutzvolle Informationen mit überlagerten Grafiken ergänzen lassen. Wenn derartige kamerabasierte Systeme in der Lage sind, Farbbilder zu erfassen, dann ist zusätzlich auch eine Erkennung von Ampelsignalen sowie von Verkehrsschildern möglich, um so die Sicherheit weiter zu erhöhen.

Eine derartige Flexibilität bringt jedoch auch zahlreiche Herausforderungen mit sich, zu denen auch die Sicherstellung der Effektivität im Rahmen der Bilderkennung in einer Vielzahl von Umgebungsbedingungen zählt. Im Gegensatz zu ihren Pendants in Mobiltelefonen, müssen Kameras in Automotive- und Überwachungs-Applikationen in der Lage sein, Bilder auch bei geringen Lichtverhältnissen sowie bei hohen Hell-Dunkel- und Dunkel-Hell-Kontrasten zu erfassen, die sich beispielsweise dann ergeben, wenn man an einem hellen sonnigen Tag rückwärts in eine Garage hineinfährt. Die Erfassung des Bildes ist nur ein Teilbereich der zu erledigenden Aufgabe. Die Kameras erzeugen große Datenvolumina und schon die reine Informationsfülle, die in Echtzeit verarbeitet werden muss, kann von signifikanter Bedeutung sein. Darüber hinaus müssen kamerabasierte Automotive-Systeme im Gegensatz zu Produkten, die für den Consumer-Markt bestimmt sind, über viele Betriebsjahre hinweg oftmals unter rauen Umgebungsbedingungen zuverlässig und mit einer gleichbleibenden Performance ohne Funktionsminderung ihre Aufgabe erfüllen können.

Bild 1: Bilderkennungs-System für den Einsatz im Automobil.

Bild 1: Bilderkennungs-System für den Einsatz im Automobil. Toshiba

CMOS-Bildsensoren

Auf Grund der mittlerweile im Automobil Bereich zur Verfügung stehenden hohen Verarbeitungsleistung entsprechender Bildverarbeitungsprozessoren gibt es zunehmend kamerabasierte ADAS-Installationen mit CMOS-Sensoren.

Die neusten Automotive-CMOS-Sensoren folgen dem Trend einer immer höheren Auflösung, so dass Anwendungen, die derzeit VGA und 1,3-Megapixel-Sensoren nutzen, schon bald höhere Auflösungen bis Full-HD 1080p aufweisen werden. Außerdem werden Sensoren über eine zunehmende Anzahl von eingebauten Fähigkeiten verfügen, welche die Verarbeitungsleistung des Gesamtsystems unter realen Bedingungen signifikant verbessert.

Der CMOS-Bildsensor TCM5114PL, den Toshiba vor kurzem auf den Markt brachte, ist vom Design her ein SoC-Sensor (System on Chip), der erweiterte Funktionen zur Bildaufbereitung enthält. Dieser Sensor arbeitet mit einem großen Pixel-Pitch von 5,6 µm x 5,6 µm, der es ermöglicht, unter schlechten Lichtbedingungen kontrastreiche Bilder aufzunehmen. Zusätzlich enthält der Sensor einen Embedded-HDR-Algorithmus (HDR: High Dynamic Range, hoher Dynamikbereich), der es dem TCM5114PL ermöglicht, starke Hell-Dunkel-Übergänge auszugleichen und selbst unter erschwerten Lichtbedingungen als natürliches Bild auszugeben.

Auf die RAW-Daten angewandt, nutzt der Single-Frame-HDR-Algorithmus eine Doppellinien-Verschluss-Belichtungsmethode, die mit kurzen und langen Belichtungszeiten für jede Linie arbeitet. So ergeben sich mit Hilfe eines Synthese-Prozesses Bilder mit einem hohen Dynamikumfang, der  mehr als 110 dB erreicht. Dies ist beispielsweise nützlich, wenn ein Auto rückwärts in eine Garage einfährt und das Innere der Garage kaum zu sehen ist, weil der Kontrast zwischen dem dunklen Innern der Garage und dem hellen Tageslicht entsprechend groß ist. Die HDR-Funktion ermöglicht es dem Sensor, sowohl die Bildelemente innerhalb als auch außerhalb der Garage klar zu erfassen. Eine Single-Frame-HDR-Implementation mit Frame-Raten von bis zu 60 Frames/s verbessert im Vergleich zu konventionellen Multi-Frame-HDR-Verfahren auch die Erfassung von Objekten, die sich schnell bewegen.

Neben der HDR-Funktionalität enthält der TCM5114PL einige andere wichtige Funktionen wie beispielsweise ALC (Auto Luminance Control, automatische Helligkeits-Regelung), AE (Auto Exposure, automatische Belichtung), AWB (Auto White Balance, automatischer Weißabgleich), LSC (Lens Shading Correction, Korrektur der Abschattung an den Rändern der Linsen, AFD (Auto Flicker Detection and Correction, automatisches Erkennen und Korrigieren von Flimmer-Effekten) und BPC (Bad Pixel Correction, Korrektur defekter Pixel). Diese Funktionen sorgen dafür, dass die weitere Bildverarbeitungskette im Funktionsumfang reduziert und somit kostenoptimiert realisiert werden kann.  Da sowohl digitale als auch analoge Ausgänge im NTSC/PAL-Format vorhanden sind, vereinfacht sich die Integration zu der vorgegebenen Videoschnittstelle im Fahrzeug.

Varianten mit Overlay-Funktionen und spezifischen Features, die erforderlich sind um insbesondere die US-amerikanischen Vorgaben zur Verhinderung von Unfällen beim Rückwärtsfahren zu erfüllen, befinden sich derzeit in Entwicklung. Für Systeme, die höhere Auflösungen benötigen, bietet Toshiba den CMOS-Bildsensor TCM5117PL an, der mit Full-HD-Auflösung (1080p) arbeitet und eine Pixelgröße von 2,7 µm mit einer CNR-Technologie (CNR: Colour Noise Reduction) zur Verringerung des Farbrauschens kombiniert, um so farbenreiche Bilder in Umgebungen mit geringer Beleuchtungsstärke rauscharm auszugeben.

Bild 2: Blockbild des Visconti 3.

Bild 2: Blockbild des Visconti 3. Toshiba

Bildverarbeitung

Nachdem das Bild effektiv unter einer Vielzahl von Licht- und Geschwindigkeits-Bedingungen erfasst wurde, muss es in Echtzeit verarbeitet werden. Jetzt kommt der Zeitpunkt, an dem dedizierte Automotive-Bilderkennungs-Prozessoren wichtig werden. So zeigt Abbildung 1 beispielsweise ein für den Einsatz im Automobil konzipiertes Bilderfassung-System, das um einen Baustein des Typs Visconti3 aus der neusten Generation von Toshibas Bilderkennungs-Prozessorfamilie Visconti herum aufgebaut ist.

Um einen 32-Bit-Multicore-Prozessor herum enthält der Visconti3 eine Video-Schnittstelle, welche die Anbindung von bis zu vier Kameraeingängen unterstützt. Der Baustein kombiniert eine multi-parallele Medienprozessor-Architektur mit mehreren Beschleunigern zur Bildverarbeitung. Ein Video-Ausgangs-Interface stellt einem im Armaturenbrett oder der Konsole untergebrachten LCD-Panel Informationen zur Verfügung, während die CAN-Schnittstelle eine direkte Verbindung mit dem CAN-Bus im Automobil sicherstellt.

Wie aus dem Blockschaltbild (Abbildung 2) ersichtlich ist, enthält das Bauteil, das in einem kompakten 27 mm x 27 mm großen Gehäuse des Typs BGA512 untergebracht ist, auf seinem Chip auch Speicher, einen Controller für externe NOR-Flash-Speicher/SRAMs und DDR2-SDRAM. Außerdem befinden sich auf dem Chip ein Single-Lane-PCI-Express-Interface sowie SPI, UART und I2C Schnittstellen.

Algorithmen und Software zur Bilderkennung, die auf Embedded-Bilderkennungs-Prozessoren ausgeführt werden, müssen große Volumina an Bilddaten von der Videoquelle analysieren – und zwar für jeden Frame einzeln in Echtzeit, unter begrenzter Verlustleistungsaufnahme und beschränkten Speicher-Ressourcen. Chips, die nicht in der Lage sind, Gleitkomma-Operationen effektiv durchzuführen, können bei entsprechenden Algorithmen nicht die erforderliche Performance erreichen. Aus diesem Grund nutzt Visconti 3 ein Dual-Core-Design auf Basis von ARM Cortex-A9 MPCore mit einer in jedem Core integrierten einfach/doppelt-präzisen FPU (Floating Point Unit, Gleitkomma-Einheit). Die ARM-Cortex-A9-Implementation arbeitet mit Toshibas proprietärem MeP (Media embedded Processor) zusammen. Beim MeP handelt es sich um eine hochleistungsfähige 32-bit-RISC-CPU.

Herzstück des Visconti-Chips ist die Bilderkennungs-Einheit (Image Recognition Engine), die aus vier Multi-Core-MPEs (Media Processing Engines, Recheneinheiten zur Medien-Verarbeitung) besteht. Jede dieser MPEs besteht aus einem 32-bit-RISC-Core-MeP und einem MeP-Coprozessor, der für die Multimedia-Verarbeitung geeignet ist, sowie aus I- und D-Cache-Speicher und integriertem RAM. Die MPEs nutzen eine feingranulare Parallelisierungs-Architektur und VLIW-Technologie (Very Long Instruction Word), in der mehrere Befehle inklusive SIMD-Befehle (Single-Instruction – Multiple Data Stream) gleichzeitig abgearbeitet werden.

Beschleunigungs-Einheiten für die Bildverarbeitung

Die sechs im Visconti-IC integrierten Beschleuniger sorgen für eine dedizierte schnelle Verarbeitung der Schlüssel-Funktionalitäten, die zur Bildverarbeitung erforderlich sind. So erledigt der Affine-Transformations-Beschleuniger beispielsweise Funktionen wie Größenanpassungen oder Korrekturen der Objektivverzerrungen. Dies geschieht auf Basis von Look-Up-Tables (Verweistabellen) oder Formeln, um so die Verzerrungen von Bildern zu entfernen, die dem Fahrer angezeigt werden. Ein passender Beschleuniger führt die Stereo-Verarbeitung durch und erledigt das Tracking sowie die optischen Fluss-Funktionen, während zwei Filter-Beschleuniger die System-Verarbeitungsleistung durch diverse Funktionen weiter optimieren – beispielsweise Funktionen zur Rauschverminderung, Kantenglättung nebst Erkennung oder Farbraum-Umwandlung.

Erkennung von Fußgänger(bewegunge)n per HOG

Die im Visconti integrierten Beschleuniger bieten außerdem eine Histogramm-Funktionalität, die es ermöglicht, spezifische Objekte zu identifizieren. Zu diesen spezifischen Objekten zählen insbesondere Fußgänger. Mit Hilfe einer HOG (Histogram of Oriented Gradients) genannten Technologie vergleichen die Beschleunigungs-Einheiten die erkannten Bilder mit bekannten Charakteristika menschlicher Körperformen beziehungsweise mit Körperbewegungen, um auf diese Art und Weise Fußgänger von anderen (nicht lebenden) Objekten wie beispielsweise Mülleimern oder Briefkästen zu unterscheiden.

Bild 3: Die HOG-Erkennung nutzt bekannte Charakteristika menschlicher Körperformen beziehungsweise Körperbewegungen.

Bild 3: Die HOG-Erkennung nutzt bekannte Charakteristika menschlicher Körperformen beziehungsweise Körperbewegungen.Toshiba

Die HOG-Technik basiert auf der Annahme, dass Kanten anatomischer Einzelheiten wie beispielsweise von Schultern, Armen, Beinen und Hüften Gradienten innerhalb festgelegter oberer und unterer Begrenzungen sowie bestimmter Orientierungen zueinander aufweisen, die sich innerhalb definierter Regionen der Anatomie erkennen lassen. Das System erkennt die Anwesenheit von Menschen, indem es HOGs erstellt, wie sie in Abbildung 3 zu sehen sind.

Während die Standard-HOG-Erkennungsrate begrenzt ist, haben die R&D-Teams von Toshiba den HOG-basierten Algorithmus weiterentwickelt, indem sie die Detektionsrate von Fußgängern verbessert haben. Der neuste Visconti-Prozessor geht noch einen Schritt weiter, indem er einen Hardwarebeschleuniger aufweist, der CoHOG (Co-occurence of HOG) unterstützt. Diese Beschleunigungs-Einheit nutzt HOG-Paare, die relevante Objekte besser beschreiben als einzel-orientierte HOGs. Außerdem benötigen Sie eine weniger komplexe Verarbeitung als alternative Lösungen wie beispielsweise die Shapelet-Erkennung (Shapelet: Kombination von Kanten). CoHOG wird als die effizienteste HOG-Methode zur zuverlässigen Erkennung von Fußgängern angesehen.

Verlustleistungsaufnahme

Trotz der hohen Verarbeitungsleistung, die für bildbasierte ADAS-Implementationen erforderlich ist, ist es für die Entwickler nach wie vor von essenzieller Bedeutung, die Verlustleistungsaufnahme auf einem absoluten Minimum zu halten. Der von Toshiba genutzte Ansatz wurde speziell zur  Einhaltung dieser Vorgaben entwickelt, was zu einer typischen Verlustleistungsaufnahme von 1 bis 2 W führt; je nach Verarbeitungsgrad der gerade erforderlichen zahlreichen parallel laufenden Applikationen variiert die Verlustleistungsaufnahme.

Auf einen Blick

CMOS-Bildsensor und Datenaufbereitung

Ohne Kamera läuft in ADAS-Systemen gar nichts mehr. Mit einer Kombination aus CMOS-Bildsensor und dem passendem Chip zur Aufbereitung der Bilddaten lassen sich hochkompakte Kamerasysteme realisieren. In punkto Algorithmik ist besonders die HOG-Technologie sehr hilfreich.