Eingang zum Volltext


Urheberrechtshinweis / Copyright notice

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:hbz:82-opus-19756
URL: http://darwin.bth.rwth-aachen.de/opus3/volltexte/2007/1975/


Zieren, Jörg

Visuelle Erkennung von Handposituren für einen interaktiven Gebärdensprachtutor

Visual Hand Posture Recognition For An Interactive Sign Language Tutor

pdf-Format:
Dokument 1.pdf (21.509 KB)


Kurzfassung (Deutsch)

Gegenstand der vorliegenden Arbeit ist die Entwicklung eines interaktiven Gebärdensprachtutors, der – ähnlich einem menschlichen Lehrer – die Gebärdenausführung des Lernenden visuell kontrolliert und bei Fehlern oder Abweichungen entsprechende Korrekturvorschläge anbietet. Um eine zuverlässige Erkennung von Handform und -stellung zu ermöglichen, trägt der Anwender farbig markierte Stoffhandschuhe, die die Bewegung der Hand nicht einschränken. Die Aufnahme erfolgt mit einer monokularen Kamera und in unkontrollierter Umgebung. Die zweidimensionalen geometrischen Merkmale der Markerregionen sind die Grundlage für die Rekonstruktion der dreidimensionalen Ausdrucksmittel Handform und Handstellung, die unter dem Begriff der Handpositur zusammengefasst werden. Dieser Schritt bildet den Schwerpunkt der Arbeit. Auf Basis einer mathematisch präzisen Problembeschreibung entsteht ein neuartiges Konzept, das die prinzipielle Mehrdeutigkeit der zweidimensionalen Eingangsdaten explizit behandelt und durch Ausnutzen der zeitlichen Korrelation im Gebärdenverlauf aufzulösen vermag. Kernstück dieses Ansatzes ist ein 3D-Handmodell, das die funktionale Anatomie der menschlichen Hand akkurat nachbildet. Das Handmodell weist dieselben Markierungen wie der vom Benutzer getragene Stoffhandschuh auf, so dass derselbe Merkmalsvektor berechnet werden kann. Die Erkennungsaufgabe besteht damit in der Bestimmung der Gelenkstellungen und des Ansichtswinkels des Modells, so dass beide Merkmalsvektoren einander möglichst ähnlich sind. Hierfür wurde ein auf der Hausdorff-Distanz beruhendes aussagekräftiges Differenzmaß entwickelt, das die Verschiedenheit zweier Merkmalsvektoren skalar quantifiziert. Der Prüfung der Gebärde berücksichtigt die manuellen Ausdrucksmittel Handposition, Bewegungsgeschwindigkeit, Handstellung und Handform, wobei die verschiedenen zeitlichen Gebärdenphasen durch entsprechende Gewichtung der jeweils relevanten Komponenten modelliert werden. Die Bewertung stützt sich damit auf linguistische Kriterien und ist deshalb für den Anwender nachvollziehbar. Im Falle eines Fehlers erfolgt eine textuelle Rückmeldung sowie eine visuelle Korrektur der Positur. Hierzu dient erneut das Handmodell, das sich von der fehlerhaften in die Referenzpositur bewegt und dadurch die Verschiedenheit verdeutlicht. Dieses anschauliche Feedback ist mit dem eines menschlichen Lehrers vergleichbar und daher intuitiv verständlich. Die Leistung der Handpositurerkennung wurde in einer umfassenden Evaluation quantitativ gemessen. Der mittlere Rekonstruktionsfehler bezüglich der Position der Daumen- bzw. Fingerspitzen im Raum beträgt lediglich 1,53 cm. Damit liegt die erreichte Genauigkeit nur wenig unter der eines menschlichen Beobachters und erlaubt eine sichere Prüfung der Anwendergebärde. Der Einsatz videobasierter Verfahren zur Handpositurerkennung im Kontext eines interaktiven Gebärdensprachtutors stellt eine innovative Anwendung dar. Die Rekonstruktion aller manuellen Ausdrucksmittel ohne Beschränkung hinsichtlich Handform und -stellung führt zu hohen Anforderungen, die das entwickelte Verfahren vollständig erfüllt.

Kurzfassung (Englisch)

This thesis presents an interactive sign language tutor that visually verifies the user's sign production. Similar to a human teacher, the system offers corrective feedback in case of mistakes or deviations, thereby helping the learner perform the sign correctly. To support hand posture recognition the user wears colored cotton gloves that do not constrict hand motion. Images are recorded using a monocular camera in an uncontrolled environment. The color markers' two-dimensional geometric features form the basis for subsequent hand posture reconstruction. This step is the work's primary focus. From a precise mathematical problem description a new concept is developed which explicitly considers ambiguities inherent in the input data and is able to resolve them by exploiting temporal correlation in the signing process. At the core of the approach is a 3D hand model that accurately simulates the functional anatomy of the human hand. This model has the same color markers as the cotton glove worn by the user and therefore allows computation of the same feature set. The recognition task thus consists in finding joint and viewing angles that match the model's features to the extracted features. To this end, a similarity measure based on the Hausdorff distance has been designed. Sign verification considers manual features, i.e. location, speed of movement, handshape, and orientation. Different sign phases can be modeled by weighting these components accordingly. By evaluating linguistic criteria the sign assessment is comprehensible to the learner. In case of a signing mistake both a textual message and a visual correction are displayed. The hand model is shown moving from the incorrect posture to the correct one, pointing out the differences between the two. This demonstrative feedback is intuitively understandable and can be compared to that which a human teacher might give. To quantify recognition accuracy an extensive evaluation was carried out. The average error, measured by the distance of corresponding finger tips in actual and recognized posture, is as low as 1.53 cm. This approaches the accuracy achievable by a human observer and allows accurate verification of the recorded sign. An interactive sign language tutor constitutes an innovative application of visual hand posture recognition. Extraction of all manual features without restricting handshape or orientation in any way is a challenging problem. The method developed in this thesis successfully solves this task.

SWD-Schlagwörter: Mensch-Maschine-Schnittstelle , Gebärdensprache , Tutor , Videobearbeitung , Mustererkennung , Hand , Dreidimensionale Rekonstruktion
Freie Schlagwörter (deutsch): Interaktiver Tutor , 3D-Handmodell , Optische Marker , Handform , Handstellung
Freie Schlagwörter (englisch): Man-Machine Interface , Sign Language , Interactive Tutor , Hand Posture Recognition , Optical Markers , 3D Reconstruction
Institut: Lehrstuhl und Institut für Mensch-Maschine-Interaktion [615210]
Fakultät: 06 Fakultät für Elektrotechnik und Informationstechnik
Hochschule: RWTH Aachen
DDC-Sachgruppe: Ingenieurwissenschaften
Dokumentart: Dissertation
Hauptberichter: Kraiss, Karl-Friedrich (Prof. Dr.)
Sprache: Deutsch
Tag der mündlichen Prüfung: 06.07.2007
Erstellungsjahr: 2007
Publikationsdatum: 16.11.2007


 Home  |   Hilfe  |   Viewer  |   Fragen und Anregungen an opus@bth.rwth-aachen.de  |  
 auskunft@bth.rwth-aachen.de  ©Hochschulbibliothek  Haftungsausschluss