Biometrische Gesichtserkennungssysteme stehen zunehmend im Fokus gezielter Täuschungsversuche. Durch Presentation Attack Detection lassen sich Angriffe mit gefälschten Bildern oder Masken erkennen – bei gleichzeitig hoher Nutzerfreundlichkeit.
Anzeige
Neben der
korrekten Erkennung von Personen im Rahmen der gestellten Aufgabe, müssen
biometrische Systeme auch gegen Betrugsversuche gewappnet sein. Eine besondere
Bedeutung hat dabei die Presentation Attack Detection (PAD): Bei Presentation
Attacks handelt es sich um Angriffe auf Zugangskontrollsysteme, denen man gefälschte
biometrische Daten vorhält. Die Tatsache, dass kamerabasierte
Gesichtserkennungssysteme nur mit zweidimensionalen Bilddaten arbeiten, macht
sie besonders anfällig für solche Angriffe. Meist genügt es, ein Bild auf dem
Mobilgerät oder ausgedruckt zu präsentieren, um sich für eine andere Person
auszugeben. Um kamerabasierte Gesichtserkennungssysteme robuster gegen
Angriffe zu machen, gibt es verschiedene Möglichkeiten, die zwischen statischer
und dynamischer Analyse unterscheiden. Dabei werten statische Verfahren jeweils
nur ein Bild aus, während dynamische Verfahren Informationen aus mehreren
Bildern gleichzeitig verarbeiten.
Welche Angriffsklassen definiert die FIDO-Allianz?
Anzeige
Die FIDO-Allianz definiert in ihren Biometric
Requirements drei verschiedene Angriffsarten (Level A, B und C), die nach
Zeitaufwand, der notwendigen Expertise und des Zugangs zur Quelle der
biometrischen Daten geordnet sind. Die auf Gesichtserkennung bezogenen
Beispiele, die durch FIDO für die jeweiligen Angriffslevel genannt werden, sind
in Tabelle 1 dargestellt.
Tabelle 1: Auf Gesichtserkennung bezogene Beispiele, die durch FIDO für die jeweiligen Angriffslevel genannt werden.TQ)
Um ein System gegen
solche Angriffe zu schützen, gibt es verschiedene Ansätze. Eine Möglichkeit ist
es, mit weiteren Sensoren zusätzliche Informationen zu erfassen, wie
Tiefeninformationen, um das System robuster gegen Angriffe zu machen. Ein
Beispiel hierfür ist das in Apple iPhones verbaute FaceID, das einen
LIDAR-Sensor für die dreidimensionale Abtastung des Nutzergesichts verwendet.
Weitere Möglichkeiten sind Infrarot-, Wärmebild-, Lichtfeld-, Multispektral-
und Stereokameras. Der Einsatz von zusätzlichen Sensoren ist jedoch häufig mit
sehr hohen Kosten bei Entwicklung und Material verbunden und nicht in allen
Designs realisierbar. Auch zur Verbesserung bereits bestehender Systeme sind
sie selten einen Optionen. Zusätzlich bedroht der Fortschritt im 3D-Druck
zunehmend auch die Sicherheit von Systemen, die mit Tiefensensoren oder 3D-Kameras ausgestattet sind.
Es gibt eine Reihe von Möglichkeiten, rein
kamerabasierte Gesichtserkennungssysteme robuster gegen Angriffe aller drei
FIDO-Arten zu machen. Dabei wird zwischen statischer und dynamischer Analyse
unterschieden, wobei statische Verfahren jeweils nur ein Bild auswerten,
während dynamische Verfahren Informationen aus mehreren Bildern gleichzeitig
verarbeiten.
Anzeige
Statische Analyse: Merkmale gefälschter Bilddaten
Statische Methoden basieren darauf, dass gefälschte
Gesichtsdaten Masken, Bildschirme oder Papierdruck nutzen, bei denen sich die
Erzeugnisse in ihrer Qualität und ihrem Aussehen von echten Gesichtern
unterscheiden. Die entscheidenden Eigenschaften sind dabei die Unterschiede in
der Textur, aber auch bei der Reflexion und Absorption, sowie der Streuung und
Brechung des Lichts durch das betrachtete Material. Ein Nachteil der statischen
Methode ist die starke Abhängigkeit von der Qualität der Aufnahme, die vor
allem durch die Kameraauflösung und die Belichtungsbedingungen beeinflusst
wird.
Dank der sich stetig verbessernden Verfügbarkeit
von Beispieldaten für diese Aufgabe und Maschinellem Lernen sind die Resultate
dieser Verfahren mittlerweile sehr vielversprechend - mit der Einschränkung,
dass sie nur bei bekannten Angriffsarten unter bekannten Umständen wirklich gut
funktionieren.
Anzeige
Da letztlich nur ein Modell mit Bildern bekannter
Täuschungsversuche trainiert wird, ist ein Schutz gegen alle drei
Angriffsebenen zwar möglich, es muss jedoch immer damit gerechnet werden, dass
Angreifer neue Methoden entwickeln. Aus diesem Grund ist eine Updatefähigkeit
des Systems für eine dauerhafte Sicherheit unbedingt erforderlich.
Dynamische Analyse: Bewegung als Echtheitskriterium
Dynamische Methoden verwenden Informationen aus
mehreren Frames der Kamera, basieren also auf Bewegungen, die auf eine echte
Person schließen lassen. Sie lassen sich noch weiter unterteilen in passive
Methoden, die auf natürliche Bewegungen der Person reagieren, und aktive
Methoden, die eine bestimmte Aktion des Nutzers fordern. Für die
Nutzerfreundlichkeit eines Zugangskontroll- oder besonders eines
Zeiterfassungssystems beschränkt man sich auf Methoden, die keine bis nur
minimale aktive Kooperation des Nutzers erfordern.
Die passiven Methoden fokussieren auf die Erkennung
von Level-B- und besonders auf Level-A-Angriffe. Ein Ansatz verwendet Optical
Flow um festzustellen, ob die sichtbaren Bewegungen der Pixel der Rotation
einer ebenen Fläche um sich selbst entsprechen, wie es bei einem Foto der Fall
wäre. Andere auf Optical Flow basierende Methoden suchen eine Korrelation
zwischen der Bewegung des Gesichts und des unmittelbaren Hintergrunds.
Synchrone Bewegung von Gesicht und Hintergrund, wie bei Bewegungen von
handgehaltenen Fotos oder Mobilgeräten, würden so als Angriff, und die rein
unkorrelierte Bewegung als echte Person klassifiziert werden. Diese Methoden
erfordern ein gewisses Mindestmaß an Nutzerbewegung, um effektiv zu sein.
Ein weiterer Ansatz basiert darauf, den Fokus der
Kamera zu nutzen. Durch leichtes Verschieben der Fokusdistanz am Gesicht vorbei
kann durch die Änderung der Pixelwerte zum fokussierten Bild ein Tiefenprofil
erstellt werden. Die Genauigkeit hängt dabei von der Größe des Fokusbereichs
der Kamera und damit von dessen Blende, Brennweite und Sensorgröße ab. Bei
dieser Methode wird zudem davon ausgegangen, dass zwischen den beiden Bildern
keine wesentliche Bewegung in der Szene stattgefunden hat.
Diese Methode wäre nur bedingt oder überhaupt nicht
in der Lage, Level-C-Angriffe mittels Masken erfolgreich abzuwehren. Hierfür
existieren mittlerweile Methoden, die den menschlichen Herzschlag über die
leichten Farbänderungen in kurzen Bildabfolgen einer RGB-Kamera ermitteln
können. Die Nachteile dieser Methode sind der negative Einfluss von Bewegung,
sowie der etwa fünfsekündige Betrachtungszeitraum den das System mindestens
benötigt.
Ressourcenschonende PAD-Ansätze für Embedded-Systeme
Anzeige
Bild 1: Gesichtserkennungssysteme analysieren biometrische Merkmale in Echtzeit – moderne PAD-Algorithmen sollen dabei Täuschungsversuche mit Fotos oder Masken zuverlässig erkennen.@VictorCanalesStudio - stock.adobe.com)
Die vorgestellten Methoden haben alle verschiedene
Vor- und Nachteile. Es ist daher naheliegend verschiedene Ansätze dynamischer
sowie statischer Analyse parallel einzusetzen, um in allen Situationen
hinreichende Sicherheit und Nutzbarkeit bieten zu können. Da die
Gesichtserkennung und das PAD-System in der Regel parallel laufen können, ist
es üblich, die Ergebnisse beider Systeme in der Entscheidung über die Echtheit
des Authentifizierungsversuchs zu vereinigen, was die Genauigkeit weiter
verbessern kann.
Dass es in der Praxis auch wirklich realistisch
ist, ein rein kamerabasiertes System ausreichend gegen Angriffe zu sichern,
wurde von Google demonstriert: Das rein kamerabasierte „Face Unlock“ des Google
Pixel 8 (Pro) genügt der höchsten biometrischen Sicherheitsklasse in Android
und Nutzer können sich damit in Banking Apps authentifizieren.
Level-A PAD-System mit Face Detector
Anzeige
In der Praxis muss nicht zwangsläufig jeder
Anwendungsfall für Gesichtserkennung gleichermaßen sicherheitskritisch sein. So
befinden sich Zeiterfassungssysteme meistens bereits in zugangsbeschränkten
Bereichen. Da Täuschungsversuche, beispielsweise durch Schabernack treibende
Arbeitskollegen, dennoch denkbar sind, sollte das System gegen Angriffe auf
Level A, die mit einfachem Büromaterial durchführbar sind, gewappnet sein.
Ein Experiment soll daher das Potenzial von
Embedded-Hardware für Gegenmaßnahme aufzeigen: Der für die Erkennung und das
Alignment der Gesichter bereits benötigte Face Detector erkennt mehrere
Schlüsselpunkte, wie Augen, Nase, Mund und Ohren. Das hierfür verwendete Blaze-Face-Modell
ist also bereits dazu fähig, die Lage des Kopfes im dreidimensionalen Raum
hinter der zweidimensionalen Projektionsebene des Kamerabilds zu ermitteln.
Diese Information kann in einem PAD-System genutzt werden, um festzustellen, ob
sich das erkannte Objekt im Raum bewegt wie ein echter Kopf oder nur wie ein
zweidimensionales Abbild.
Die Grundidee ähnelt der oben beschriebenen, auf
Optical Flow basierenden Methode, anhand von Bewegung die ungefähre Geometrie
des Subjekts zu ermitteln. Im Bild 2 gezeigten Beispiel wurde der virtuelle
Punkt zwischen den Ohren und der Nasenspitze verwendet, um die Lage des Kopfes
im Raum zu visualisieren.
Bild 2: Optical Flow: Der virtuelle Punkt zwischen den Ohren und der Nasenspitze wird verwendet, um die Lage des Kopfes im Raum zu visualisieren.TQ)
Da der reale Abstand zwischen Nasenspitze und
Mittelpunkt beider Ohren eine bekannte konstante Größe ist, kann mithilfe
trigonometrischer Funktionen der relative Lagewinkel des Kopfes zur
Projektionsebene berechnet werden. Durch gezieltes Drehen des Handyfotos wird
das dargestellte Gesicht zwar verzerrt, der errechnete Lagewinkel des Kopfes
wird dadurch jedoch nur unwesentlich verändert. Aufgrund der leichten
Fehlerkennungen des Blaze-Face-Modells durch die Verzerrung treten dabei
relative Winkeldifferenzen von weniger als 10° auf. Bei einem echten Kopf sind
meist schon innerhalb eines kurzen Zeitraums Unterschiede von über 20° zu
beobachten, die durch natürliche Bewegungen entstehen.
Diese Methode ist ein effektiver Schutz gegen
einfache Foto-Angriffe, wie in Level A nach FIDO definiert. Mehr als Level A
ist damit aber in keinem Fall möglich, da sich dieses System durch eine
Videoaufnahme täuschen lässt. Da lediglich das bereits implementierte Blaze-Face-Modell
genutzt wird, benötigt die Methode allerdings nahezu keine zusätzliche Rechenleistung,
besonders im Gegensatz zu dem hohen Rechenaufwand, den Optical Flow verursachen
würde.
Anforderungen an zukünftige Sicherheitsstandards
Die Entwicklung eines auf Gesichtserkennung
basierenden Zutrittskontroll- oder Zeiterfassungssystems ist mit überschaubaren
Ressourcen realisierbar, wobei der Aufwand im Wesentlichen vom gewünschten
Sicherheitsniveau abhängt. Sobald ein höheres Sicherheitsniveau erreicht werden
soll, gilt es entsprechend mehr Aufwand in die Presentation Attack Detection zu
investieren, um das Eindringen Unbefugter effektiv zu verhindern. Da Angreifer
potenziell ständig neue Methoden entwickeln, um die gängigen PAD-Methoden zu
umgehen, muss das System im laufenden Betrieb mit Software-Updates aktualisierbar
sein, um ausreichend gewappnet zu sein. (bs)