Cantitate/Preț
Produs

Adaptive Datenfusion für die audio-visuelle Spracherkennung: Informationstechnik

Autor Martin Heckmann
de Limba Germană Paperback – 31 aug 2003
Die Hoffnungen, dass die automatische Spracherkennung die Interaktion zwischen Mensch und Maschine deutlich vereinfachen kann, sind trotz der bisher nur unbefriedigenden Ergebnisse und der nur in kleinen Schritten erfolgenden Verbesserungen nach wie vor sehr groß. Die Erkennungsleistung derartiger Systeme wird stark durch die Präsenz von Hintergrundstörungen beeinträchtigt. Hintergrundstörungen sind insbesondere bei den erfolgversprechendsten Einsatzmöglichkeiten, wie beispielsweise der Bedienung von Taschencomputern und Mobiltelefonen, sehr ausgeprägt. Die in dieser Arbeit behandelte audio-visuelle Spracherkennung stellt ein Verfahren dar, um die Robustheit von Erkennungssystemen gegenüber Hintergrundstörungen zu erhöhen. Dabei werden zusätzlich zum akustischen Signal auch die Bewegungen der Lippen des Sprechers mit ausgewertet. Dass diese Bewegungen viele sprachrelevante Informationen enthalten, zeigt sich eindrucksvoll an der Fähigkeit gehörloser Menschen von den Lippen abzulesen.In dieser Arbeit werden zunächst die Grundlagen der menschlichen Sprachproduktion und Sprachwahrnehmung dargestellt, wobei vor allem der Einfluss der Lippenbewegungen herausgestellt wird. Im Anschluss daran wird gezeigt, wie die für die Erkennung notwendigen Parameter aus dem Videokanal extrahiert werden können. Kernpunkt der Arbeit ist die Fusion der Audio- und Videodaten. Es werden unterschiedliche Fusionsmöglichkeiten diskutiert, neue Gewichtungsmodelle für den Audio- und Videokanal vorgestellt und diese anhand einer audio-visuellen Datenbank bewertet. Die Datenbank enthält eine englischsprachige Sprecherin. Als Erkennungsaufgabe wurde die Erkennung von englischen Ziffernfolgen gewählt. Im Rahmen der Arbeit wird ein Verfahren entwickelt, welches in der Lage ist, die Gewichte adaptiv an unterschiedliche Hintergrundstörungen im Audiokanal anzupassen. Desweiteren wird die Einsetzbarkeit dieses adaptiven Verfahrens auch bei zusätzlich vorhandenen Videostörungen untersucht und Asynchronitäten zwischen den Audio- und Videodaten simuliert. Den Abschluss bildet eine Einordnung der Ergebnisse im Hinblick auf ihre Relevanz für reale Szenarien.
Citește tot Restrânge

Din seria Informationstechnik

Preț: 22512 lei

Preț vechi: 28140 lei
-20% Nou

Puncte Express: 338

Preț estimativ în valută:
4309 4530$ 3584£

Carte indisponibilă temporar

Doresc să fiu notificat când acest titlu va fi disponibil:

Preluare comenzi: 021 569.72.76

Specificații

ISBN-13: 9783832220341
ISBN-10: 3832220348
Ilustrații: 62 schwarz-weiße Abbildungen
Dimensiuni: 146 x 208 x 15 mm
Greutate: 0.27 kg
Editura: Shaker Verlag
Seria Informationstechnik