Parametrisierte zweidimensionale Modelle für dreidimensionale Gesichtserkennung

Bok av Ingo J Wundrich

Wie bei allen Aufgaben des Computersehens ist auch bei der maschinellen Gesichtserkennung die gewaltige Anzahl an verschiedenen möglichen Bildern, die von einem gegebenen Objekt aufgenommen werden können, das zentrale Problem. Eine grobe Einteilung der für diese Vielzahl verantwortlichen Transformationen bilden die planaren wie Translation, Skalierung oder Drehung in der Bildebene sowie die räumlichen wie Tiefenrotation (Ansicht) und Beleuchtung. Die letzteren sind in dieser Arbeit von Interesse, da sie sich jeder expliziten und einfachen mathematischen Beschreibung entziehen, was vor allem daran liegt, daß man sich die mit Ansicht und Antwort auf eine Punktlichtquelle parametrisierten Gesichtsrepräsentationen auf einer gekrümmten Hyperfläche angeordnet vorstellen muß. Da sich die Akquisition natürlicher Bilddaten unter Parameterkontrolle nur mit großem technischen Aufwand realisieren läßt, ist die Konstruktion solcher Hyperflächen aus computergraphisch erzeugten Bildern eine interessante Alternative. Der Einsatz von Computergraphik in der 3D-Gesichtserkennung hat in den letzten Jahren eine gewisse Verbreitung gefunden, allerdings bisher ausschließlich auf 3D-Modelle gestützt, was mit der Schwierigkeit verbunden ist, in der Anwendung diese 3D-Modelle in ihren Parametern an die 2D-Bilddaten anpassen zu müssen. Der in dieser Arbeit vorgestellte Ansatz basiert daher nicht auf einem computergraphischen 3D- Modell sondern auf einer Mannigfaltigkeit von 2D-Gesichtsrepräsentationen. Ausgehend vom Elastic Graph Matching (EGM) als Basistechnologie handelt es sich bei der Gesichtsrepräsentation um einen etikettierten Graphen mit Knoten auf definierten Punkten im Gesicht, mit denen ein vektorieller Texturdeskriptor verknüpft ist. Die Menge derart repräsentierter Gesichter ist dabei nicht nur mit Ansicht und Beleuchtung, sondern auch mit einer kontinuierlichen Identität parametrisiert, in der die lokale Texturbeschreibung sogar linear ist, d.h. sich als Linearkomination aus dazu passenden lokalen Texturen verschiedener, auch künstlich erzeugter, Beispielgesichter zusammensetzt. In analoger Weise lassen sich die Knotenpositionen modellieren. Diese Eigenschaft von Textur und Form gilt für jede einzelne Ansicht, deren Modelle immer wieder aus denselben künstlichen Daten hergestellt sind, so daß die Identitätsbeschreibung in Gestalt der Entwicklungskoeffizienten gegenüber leichter Ansichtenänderungen robust ist. Diese Beschreibung ermöglicht es, Tiefenrotationen mit diesem 2D-Modell durchzuführen, um beispielsweise eine vorliegende Repräsentation in eine kanonische Ansicht für einen Datenbankvergleich zu drehen.