2017 sorgten erste 3D-Gesichtserkennungssysteme für Aufsehen. Diese zogen nicht nur einfache biometrische Merkmale zur Entsperrung heran, sondern nutzten auch markante, dreidimensionale Gesichtszüge als zusätzliche Sicherheitshürde. Der entscheidende Punkt für diesen Fortschritt war die neugewonnene Fähigkeit zur Generierung von Tiefeninformationen zum Gesicht des Nutzers. Diese enorm gesteigerte Komplexität der erzeugten Daten erhöhte gleichzeitig den Grad an Sicherheit dieses Entsperrmechanismus. Durch die Möglichkeit zur Erfassung von Tiefeninformationen stößt die sogenannte 3D-Sensorik eine Tür zu zahlreichen weiteren Anwendungen wie der Optimierung von Bildinhalten oder auch Augmented-Reality-Apps auf. Im Hinblick auf heute verbaute Lösungen dieser Art haben sich im Wesentlichen die drei Systemansätze Stereo Vision, Structured Light und Time of Flight etabliert – mit Vor- und Nachteilen für die Hersteller.
Stereo Vision, Structured Light oder Time of Flight?
Beim Blick auf die jüngsten Smartphone-Generationen zeigt sich, dass sich vor allem die Technologien Stereo Vision, Structured Light und Time of Flight als Systemansätze für 3D-Sensorik-Anwendungen etablieren konnten. Alle drei Lösungen haben das Ziel, möglichst hochauflösende dreidimensionale Tiefeninformationen zu generieren, die das nachgelagerte System verwerten kann.
Was ist Stereo Vision (SV)
Beim Stereo-Vision-Ansatz beleuchtet eine Infrarotlichtquelle die Szenerie und zwei Infrarotkameras zeichnen das Bild in Stereo auf. Durch die Überlagerung der beiden Kamerabilder kann die nachgelagerte Software die benötigte Tiefeninformation berechnen. Der verhältnismäßig einfache Systemaufbau wirkt sich positiv auf die Systemkosten aus. Allerdings benötigt dieser Ansatz aufgrund der systembedingt auseinanderplatzierten Kameras entsprechend viel des kostbaren Bauraums. Die erforderliche Rechenleistung der Software benötigt zusätzliche Energie.
So funktioniert Structured Light (SL)
Ein wesentlich komplexerer Ansatz zur Erzeugung von Tiefeninformationen ist Structured Light. Dabei wird ein definiertes Lichtschema – beispielsweise bestehend aus einer festgelegten Anordnung von Lichtpunkten – in die Umgebung projiziert. Eine hochauflösende Kamera ist mit einem speziellen Bandfilter ausgestattet, um lediglich das projizierte Muster zu detektieren. Aus den etwaigen Abweichungen vom ursprünglichen Schema lassen sich die Tiefeninformationen ableiten. Für diesen Ansatz sind VCSEL (Vertical Cavity Surface Emitting Laser) die Lichtquelle der Wahl. Zum einen aufgrund ihrer sehr schmalen spektralen Bandbreite, zum anderen wegen ihrer guten Kompatibilität mit hierfür notwendigen diffraktiven Optiken. Die mit SL erzielten Messergebnisse sind qualitativ sehr hochwertig. Das komplexe Systemdesign macht diesen Ansatz allerdings vergleichsweise kostenintensiv.
Worin sich direct und indirect (dToF + iToF) Time of Flight (ToF) unterscheiden
Beim Time-of-Flight-Ansatz nutzen die Systemhersteller die Lichtgeschwindigkeit für die Generierung von Tiefeninformationen. Vereinfacht gesagt wird ein Lichtpuls in die Umgebung geschickt. Trifft er auf ein Objekt wird er reflektiert und schließlich vom nahe an der Lichtquelle platzierten Detektor registriert. Mit Hilfe der Dauer, die der Lichtstrahl zum Objekt und zurück benötigt hat, lässt sich die Entfernung des Objekts oder in diesem Fall eines einzelnen Pixels bestimmen. Diese Variante wird direct Time of Flight (dToF) genannt, weil die exakte Flugzeit des Lichtstrahls relevant ist. Ein Beispiel für eine klassische dToF Anwendung sind Lidar-Systeme für autonome Fahrzeuge.
Der indirect Time-of-Flight (iToF)-Ansatz ist ähnlich, allerdings weist er einen wesentlichen Unterschied auf. Das Licht der Lichtquelle wird mit Hilfe eines Diffusors aufgeweitet und gepulst (50% duty cycle) ins definierte Field of View emittiert. Im nachgelagerten System ist eine Art Standardsignal hinterlegt, dass den Detektor innerhalb einer bestimmten Zeit auslöst, wenn das Licht auf kein Hindernis trifft. Unterbricht ein Objekt dieses Standardsignal, kann das System aufgrund der dadurch entstehenden Phasenverschiebung und der zeitlichen Verzögerung der Impulsfolge die Tiefeninformation pro definiertem Pixel des Detektors ermitteln.
3D-Sensorik als Innovationstreiber in unterschiedlichsten Anwendungsbereichen
Erste Abstandsmesser waren in Fahrzeugen die ersten Lösungen, die auf Basis von ToF funktionierten. Auch Lidar-Systeme arbeiten nach diesem Prinzip. Interessanterweise gibt es neben dem gleichen Wirkprinzip auch unzählige Querverbindungen dieser durchaus verschiedenen Anwendungen. Aktuell ist zu beobachten, dass Applikationen, die im Smartphone ihren Anfang machten, nun immer stärker in den Automobilbereich drängen. Dazu zählt beispielsweise der Einsatz von biometrischen Informationen zum Entriegeln der Fahrzeugtür oder zum Freischalten bestimmter Nutzerprofile. Hinzu kommen neuartige Anwendungen im Fahrzeuginnenraum wie High-End Gesture-Sensing-Systeme oder In-Cabin-Monitoring. Die ständige Verbesserung und Weiterentwicklung der Einzelkomponenten, wie auch das wachsende Applikations-Know-how sorgen auch auf Produktebene für immer mehr Überlappungen.
Evolution der Systemarchitekturen
Die ersten Anwendungen zur Erfassung von Bildinformationen machten neuartige, komplexere Features künftiger Systeme möglich. Anders als bisher erforderten diese nicht nur einfache, diskrete Bauteile, sondern neuartige Systemansätze, die sich durch ein möglichst reibungsloses Zusammenspiel verschiedener Einzelkomponenten auszeichnen sollten. Welche Lösung die einzelnen Hersteller bevorzugen, müssen sie von Anwendung zu Anwendung abwägen. Dabei kommt es darauf an, welche Rolle Faktoren wie etwa Systemsicherheit, Kosten, Komplexität oder Bauteilgröße spielen und wie Hersteller zueinander gewichten. Ähnliches ist beim Blick auch beim Thema 3D-Sensorik zu beobachten.
Je nach Systemansatz besteht der Aufbau einer 3D-Sensorik-Lösung aus einer Lichtquelle samt dazugehöriger Optik und Treiber-IC, einem Detektor beziehungsweise Kamera und schließlich einer nachgelagerten Software, die die generierten Informationen auswerten und verarbeiten kann. Die verwendeten Lichtquellen müssen dabei eine Reihe von Anforderungen erfüllen. Zum einen müssen sie Licht in einer bestimmten Wellenlänge emittieren – in der Regel 940 nm – um den red-glow-Effekt zu vermeiden, den das menschliche Auge als rotes Flackern wahrnimmt. Zudem überzeugen Lichtquellen mit dieser Wellenlänge durch eine deutlich bessere Performance unter freiem Himmel. Die Erdatmosphäre filtert Teile des Sonnenlichtspektrums heraus. Nachdem auch große Teile dieses Spektrums bei 940 nm gefiltert werden, gibt es für die Detektoren in der Anwendung daher nur sehr wenig natürliches Störlicht – mit positiven Folgen für die Qualität der Messergebnisse. Darüber hinaus müssen die Lichtquellen möglichst wellenlängenstabil über einen weiten Temperaturbereich sein und die strengen Anforderungen an die Augensicherheit erfüllen.
Für die Hersteller spielt neben den Systemkosten auch der benötigte Bauraum, die Ansteuerung der Einzelbausteine und der Energieverbrauch der finalen Lösung eine zentrale Rolle.
Intelligentes Emitter-Modul für 3D-Sensorik
Neben dem umfassenden Infrarot-Portfolio mit allen drei etablierten Lichttechnologien (IRED, VCSEL und EEL) und komplexeren VCSEL-Bauteilen mit integrierter Photodiode, bietet Osram ein erstes intelligentes Emitter-Modul für 3D-Sensorik.
Im Modul Bidos PLPVDC 940_P_L01 mit schwarzem Gehäuse sind neben dem 3 Watt Infrarot-VCSEL (940 nm) samt intelligentem Mikrocontroller zur Ansteuerung auch eine für den VCSEL optimierte Optik und eine Photodiode integriert. Dank der Osram-eigenen VCSEL-Technologie ist eine geringe Leistungsaufnahme möglich, was neben dem Energiemanagement auch die Integration des Moduls ins Endgerät erleichtert. Der VCSEL überzeugt neben den herausragenden Effizienzwerten von 0,95 W/A auch mit einer Umschaltzeit von 0,5 ns. Die Pick-and-Place-Lösung von Osram benötigt 3,6 mm x 5,46 mm des Bauraums. Dank der hohen optischen Leistung des Moduls können mit ToF Tiefeninformationen, im Zusammenspiel mit einer entsprechenden ToF-Kamera, in bis zu sieben Meter Entfernung generiert werden. Neben der Optimierung von Bildinhalten profitieren auch Anwendungen wie die 3D-Objekterkennung oder Augmented-Reality-Apps von der hohen Qualität der aufgezeichneten Messdaten.
(prm)