Mehr Sicherheit für biometrische Systeme

Gesichtserkennungssysteme: Effektiver Schutz vor Täuschungsversuchen

Biometrische Gesichtserkennungssysteme stehen zunehmend im Fokus gezielter Täuschungsversuche. Durch Presentation Attack Detection lassen sich Angriffe mit gefälschten Bildern oder Masken erkennen – bei gleichzeitig hoher Nutzerfreundlichkeit.

Neben der korrekten Erkennung von Personen im Rahmen der gestellten Aufgabe, müssen biometrische Systeme auch gegen Betrugsversuche gewappnet sein. Eine besondere Bedeutung hat dabei die Presentation Attack Detection (PAD): Bei Presentation Attacks handelt es sich um Angriffe auf Zugangskontrollsysteme, denen man gefälschte biometrische Daten vorhält. Die Tatsache, dass kamerabasierte Gesichtserkennungssysteme nur mit zweidimensionalen Bilddaten arbeiten, macht sie besonders anfällig für solche Angriffe. Meist genügt es, ein Bild auf dem Mobilgerät oder ausgedruckt zu präsentieren, um sich für eine andere Person auszugeben. Um kamerabasierte Gesichtserkennungssysteme robuster gegen Angriffe zu machen, gibt es verschiedene Möglichkeiten, die zwischen statischer und dynamischer Analyse unterscheiden. Dabei werten statische Verfahren jeweils nur ein Bild aus, während dynamische Verfahren Informationen aus mehreren Bildern gleichzeitig verarbeiten. 

Welche Angriffsklassen definiert die FIDO-Allianz?

Die FIDO-Allianz definiert in ihren Biometric Requirements drei verschiedene Angriffsarten (Level A, B und C), die nach Zeitaufwand, der notwendigen Expertise und des Zugangs zur Quelle der biometrischen Daten geordnet sind. Die auf Gesichtserkennung bezogenen Beispiele, die durch FIDO für die jeweiligen Angriffslevel genannt werden, sind in Tabelle 1 dargestellt.

Tabelle 1: Auf Gesichtserkennung bezogene Beispiele, die durch FIDO für die jeweiligen Angriffslevel genannt werden.

Um ein System gegen solche Angriffe zu schützen, gibt es verschiedene Ansätze. Eine Möglichkeit ist es, mit weiteren Sensoren zusätzliche Informationen zu erfassen, wie Tiefeninformationen, um das System robuster gegen Angriffe zu machen. Ein Beispiel hierfür ist das in Apple iPhones verbaute FaceID, das einen LIDAR-Sensor für die dreidimensionale Abtastung des Nutzergesichts verwendet. Weitere Möglichkeiten sind Infrarot-, Wärmebild-, Lichtfeld-, Multispektral- und Stereokameras. Der Einsatz von zusätzlichen Sensoren ist jedoch häufig mit sehr hohen Kosten bei Entwicklung und Material verbunden und nicht in allen Designs realisierbar. Auch zur Verbesserung bereits bestehender Systeme sind sie selten einen Optionen. Zusätzlich bedroht der Fortschritt im 3D-Druck zunehmend auch die Sicherheit von Systemen, die mit Tiefensensoren oder 3D-Kameras ausgestattet sind.

Es gibt eine Reihe von Möglichkeiten, rein kamerabasierte Gesichtserkennungssysteme robuster gegen Angriffe aller drei FIDO-Arten zu machen. Dabei wird zwischen statischer und dynamischer Analyse unterschieden, wobei statische Verfahren jeweils nur ein Bild auswerten, während dynamische Verfahren Informationen aus mehreren Bildern gleichzeitig verarbeiten.

Statische Analyse: Merkmale gefälschter Bilddaten

Statische Methoden basieren darauf, dass gefälschte Gesichtsdaten Masken, Bildschirme oder Papierdruck nutzen, bei denen sich die Erzeugnisse in ihrer Qualität und ihrem Aussehen von echten Gesichtern unterscheiden. Die entscheidenden Eigenschaften sind dabei die Unterschiede in der Textur, aber auch bei der Reflexion und Absorption, sowie der Streuung und Brechung des Lichts durch das betrachtete Material. Ein Nachteil der statischen Methode ist die starke Abhängigkeit von der Qualität der Aufnahme, die vor allem durch die Kameraauflösung und die Belichtungsbedingungen beeinflusst wird.

Dank der sich stetig verbessernden Verfügbarkeit von Beispieldaten für diese Aufgabe und Maschinellem Lernen sind die Resultate dieser Verfahren mittlerweile sehr vielversprechend - mit der Einschränkung, dass sie nur bei bekannten Angriffsarten unter bekannten Umständen wirklich gut funktionieren.

Da letztlich nur ein Modell mit Bildern bekannter Täuschungsversuche trainiert wird, ist ein Schutz gegen alle drei Angriffsebenen zwar möglich, es muss jedoch immer damit gerechnet werden, dass Angreifer neue Methoden entwickeln. Aus diesem Grund ist eine Updatefähigkeit des Systems für eine dauerhafte Sicherheit unbedingt erforderlich.

Dynamische Analyse: Bewegung als Echtheitskriterium

Dynamische Methoden verwenden Informationen aus mehreren Frames der Kamera, basieren also auf Bewegungen, die auf eine echte Person schließen lassen. Sie lassen sich noch weiter unterteilen in passive Methoden, die auf natürliche Bewegungen der Person reagieren, und aktive Methoden, die eine bestimmte Aktion des Nutzers fordern. Für die Nutzerfreundlichkeit eines Zugangskontroll- oder besonders eines Zeiterfassungssystems beschränkt man sich auf Methoden, die keine bis nur minimale aktive Kooperation des Nutzers erfordern.

Die passiven Methoden fokussieren auf die Erkennung von Level-B- und besonders auf Level-A-Angriffe. Ein Ansatz verwendet Optical Flow um festzustellen, ob die sichtbaren Bewegungen der Pixel der Rotation einer ebenen Fläche um sich selbst entsprechen, wie es bei einem Foto der Fall wäre. Andere auf Optical Flow basierende Methoden suchen eine Korrelation zwischen der Bewegung des Gesichts und des unmittelbaren Hintergrunds. Synchrone Bewegung von Gesicht und Hintergrund, wie bei Bewegungen von handgehaltenen Fotos oder Mobilgeräten, würden so als Angriff, und die rein unkorrelierte Bewegung als echte Person klassifiziert werden. Diese Methoden erfordern ein gewisses Mindestmaß an Nutzerbewegung, um effektiv zu sein.

Ein weiterer Ansatz basiert darauf, den Fokus der Kamera zu nutzen. Durch leichtes Verschieben der Fokusdistanz am Gesicht vorbei kann durch die Änderung der Pixelwerte zum fokussierten Bild ein Tiefenprofil erstellt werden. Die Genauigkeit hängt dabei von der Größe des Fokusbereichs der Kamera und damit von dessen Blende, Brennweite und Sensorgröße ab. Bei dieser Methode wird zudem davon ausgegangen, dass zwischen den beiden Bildern keine wesentliche Bewegung in der Szene stattgefunden hat.

Diese Methode wäre nur bedingt oder überhaupt nicht in der Lage, Level-C-Angriffe mittels Masken erfolgreich abzuwehren. Hierfür existieren mittlerweile Methoden, die den menschlichen Herzschlag über die leichten Farbänderungen in kurzen Bildabfolgen einer RGB-Kamera ermitteln können. Die Nachteile dieser Methode sind der negative Einfluss von Bewegung, sowie der etwa fünfsekündige Betrachtungszeitraum den das System mindestens benötigt.

Ressourcenschonende PAD-Ansätze für Embedded-Systeme

Bild 1: Gesichtserkennungssysteme analysieren biometrische Merkmale in Echtzeit – moderne PAD-Algorithmen sollen dabei Täuschungsversuche mit Fotos oder Masken zuverlässig erkennen.

Die vorgestellten Methoden haben alle verschiedene Vor- und Nachteile. Es ist daher naheliegend verschiedene Ansätze dynamischer sowie statischer Analyse parallel einzusetzen, um in allen Situationen hinreichende Sicherheit und Nutzbarkeit bieten zu können. Da die Gesichtserkennung und das PAD-System in der Regel parallel laufen können, ist es üblich, die Ergebnisse beider Systeme in der Entscheidung über die Echtheit des Authentifizierungsversuchs zu vereinigen, was die Genauigkeit weiter verbessern kann.

Dass es in der Praxis auch wirklich realistisch ist, ein rein kamerabasiertes System ausreichend gegen Angriffe zu sichern, wurde von Google demonstriert: Das rein kamerabasierte „Face Unlock“ des Google Pixel 8 (Pro) genügt der höchsten biometrischen Sicherheitsklasse in Android und Nutzer können sich damit in Banking Apps authentifizieren.

Level-A PAD-System mit Face Detector

In der Praxis muss nicht zwangsläufig jeder Anwendungsfall für Gesichtserkennung gleichermaßen sicherheitskritisch sein. So befinden sich Zeiterfassungssysteme meistens bereits in zugangsbeschränkten Bereichen. Da Täuschungsversuche, beispielsweise durch Schabernack treibende Arbeitskollegen, dennoch denkbar sind, sollte das System gegen Angriffe auf Level A, die mit einfachem Büromaterial durchführbar sind, gewappnet sein.

Ein Experiment soll daher das Potenzial von Embedded-Hardware für Gegenmaßnahme aufzeigen: Der für die Erkennung und das Alignment der Gesichter bereits benötigte Face Detector erkennt mehrere Schlüsselpunkte, wie Augen, Nase, Mund und Ohren. Das hierfür verwendete Blaze-Face-Modell ist also bereits dazu fähig, die Lage des Kopfes im dreidimensionalen Raum hinter der zweidimensionalen Projektionsebene des Kamerabilds zu ermitteln. Diese Information kann in einem PAD-System genutzt werden, um festzustellen, ob sich das erkannte Objekt im Raum bewegt wie ein echter Kopf oder nur wie ein zweidimensionales Abbild.

Die Grundidee ähnelt der oben beschriebenen, auf Optical Flow basierenden Methode, anhand von Bewegung die ungefähre Geometrie des Subjekts zu ermitteln. Im Bild 2 gezeigten Beispiel wurde der virtuelle Punkt zwischen den Ohren und der Nasenspitze verwendet, um die Lage des Kopfes im Raum zu visualisieren.

Bild 2: Optical Flow: Der virtuelle Punkt zwischen den Ohren und der Nasenspitze wird verwendet, um die Lage des Kopfes im Raum zu visualisieren.

Da der reale Abstand zwischen Nasenspitze und Mittelpunkt beider Ohren eine bekannte konstante Größe ist, kann mithilfe trigonometrischer Funktionen der relative Lagewinkel des Kopfes zur Projektionsebene berechnet werden. Durch gezieltes Drehen des Handyfotos wird das dargestellte Gesicht zwar verzerrt, der errechnete Lagewinkel des Kopfes wird dadurch jedoch nur unwesentlich verändert. Aufgrund der leichten Fehlerkennungen des Blaze-Face-Modells durch die Verzerrung treten dabei relative Winkeldifferenzen von weniger als 10° auf. Bei einem echten Kopf sind meist schon innerhalb eines kurzen Zeitraums Unterschiede von über 20° zu beobachten, die durch natürliche Bewegungen entstehen.

Diese Methode ist ein effektiver Schutz gegen einfache Foto-Angriffe, wie in Level A nach FIDO definiert. Mehr als Level A ist damit aber in keinem Fall möglich, da sich dieses System durch eine Videoaufnahme täuschen lässt. Da lediglich das bereits implementierte Blaze-Face-Modell genutzt wird, benötigt die Methode allerdings nahezu keine zusätzliche Rechenleistung, besonders im Gegensatz zu dem hohen Rechenaufwand, den Optical Flow verursachen würde.

Anforderungen an zukünftige Sicherheitsstandards

Die Entwicklung eines auf Gesichtserkennung basierenden Zutrittskontroll- oder Zeiterfassungssystems ist mit überschaubaren Ressourcen realisierbar, wobei der Aufwand im Wesentlichen vom gewünschten Sicherheitsniveau abhängt. Sobald ein höheres Sicherheitsniveau erreicht werden soll, gilt es entsprechend mehr Aufwand in die Presentation Attack Detection zu investieren, um das Eindringen Unbefugter effektiv zu verhindern. Da Angreifer potenziell ständig neue Methoden entwickeln, um die gängigen PAD-Methoden zu umgehen, muss das System im laufenden Betrieb mit Software-Updates aktualisierbar sein, um ausreichend gewappnet zu sein. (bs)

Dieser Beitrag basiert auf Unterlagen von TQ.