Escolar Documentos
Profissional Documentos
Cultura Documentos
THESE
Prsente en vue de l'obtention du diplme de
Doctorat 3ime cycle
Filire : Informatique
Spcialit: Reconnaissance des Formes et Intelligence Artificielle
par
Amina Makhlouf
Devant le jury:
Un grand merci galement aux membres du jury de soutenance qui mont fait lhonneur
de bien vouloir valuer mon travail. Je suis particulirement reconnaissante aux examinateurs
Kazar Okba, Professeur lUniversit de Biskra et Dib Lynda, Professeur lUniversit
Badji Mokhtar-Annaba.
Et bien sr, ceux sans qui je ne serais rien: mes parents, mes surs, mon mari, ma famille
et ma belle famille et tous mes amis denfance qui me supportent et soutiennent depuis
toujours.
Enfin, je remercie toutes les personnes (nombreuses) que je nai pas cites et qui, un
moment ou un autre, mont donn lenvie et la force de continuer.
i
Rsum
La prsence de bruit de fond et des conditions variables (environnement, rverbration, types de
microphones) peut affecter significativement la qualit de la reconnaissance automatique de la parole
(RAP). Cette thse prsente un systme de reconnaissance audiovisuelle de la parole qui est un
domaine de recherche qui a connu un intrt grandissant durant ces dernires annes. Notre
contribution saxe sur la vrification de ces deux conditions, c'est--dire la modlisation de la
perception audiovisuelle de la parole en vue dune implmentation logicielle, et de
lextraction des informations les plus pertinentes. Notre tude a t au centre dune recherche
pluridisciplinaire: de la psychologie cognitive aux techniques de traitement dimages
couleurs, nous nous sommes investis dans le domaine de la paramtrisation des lvres, le
traitement du signal et la reconnaissance automatique des formes.
Dautre part, les modles de Markov cachs (HMM) sont lorigine de la majorit des
avances rcentes en reconnaissance de la parole discrte ainsi continue. Ces modles grent
les distorsions temporelles du signal de parole en s'appuyant sur des densits de probabilit
pour modliser les distorsions en frquence. Une technique de combinaison des probabilits a
posteriori des tats dun HMM connaissant un vecteur de paramtres acoustiques ainsi visuels
est galement propose. Afin damliorer lestimation des probabilits a posteriori, les
probabilits obtenues avec diffrents modles acoustiques et visuels sont fusionnes. Pour
combiner les probabilits de manire cohrente, les deux modles doivent avoir la mme
topologie.
En partant donc de cette ide, des systmes audiovisuels permettant lenregistrement
simultan des flux visuels et du flux acoustique ont t dvelopps, en utilisant les HMM
combins avec les Algorithmes gntiques (GA), et respectant successivement les modles
suivants : fusion des donnes acoustiques et visuelles par identification directe (ID), et fusion
des rsultats acoustiques et visuelles aprs identification spare (IS).
Afin dvaluer lensemble des approches proposes, deux bases de donnes contenant
chacune des vidos avec une langue diffrente (arabe et anglaise) ont t construites et
utilises. Pour la caractrisation des images, et les signaux acoustiques deux approches bases
sur lutilisation de la transforme en cosinus discrte (DCT), et la mthode RASTA-PLP,
respectivement, ont t mises en uvre.
Nos rsultats exprimentaux montrent qu'il existe en effet des informations dans la
modalit visuelle utile pour la reconnaissance de la parole. Nos expriences ont aussi montr une
grande possibilit damliorer la performance et la robustesse de notre systme de
reconnaissance audiovisuel propos qui utilise la mthode hybride HMM/GA compar avec
les mthodes classiques utilises dans la littrature.
ii
Abstract
The presence of background noise and varying conditions (environment, reverberation
microphone types) can significantly affect the quality of automatic speech recognition (ASR).
This thesis presents an audiovisual speech recognition system which is a research domain that
has seen a growing interest during these last years. Our contribution is centered on the
verification of these two conditions, i.e. the perception modeling of the audiovisual speech for
a software implementation, and the extraction of the most pertinent information. Our study
was the center of a pluridisciplinary research: cognitive psychology to the techniques of color
image processing, we are invested in the field of lips parameterization, Signal processing and
the automatic pattern recognition.
Furthermore, the Hidden Markov Models (HMM) are the origin of the majority of recent
advances in the continuous and discrete speech recognition. These models support the
temporal distortions of the speech signal based on the probability density for modeling the
distortions frequency. Combination of a posteriori probabilities of states of a HMM given a
feature frame is also proposed. In order to better estimate such a posteriori probabilities,
probabilities obtained with several acoustic and visual models are fused. For the sake of
consistency, the topology of the two models has to be equivalent.
Based on this idea, audiovisual systems that allow the simultaneous recording of the visual
and acoustic stream has been developed, by using the HMM combined with the Genetic
Algorithms (GA), according to data fusion for direct integration (DI) and result fusion for
separate integration (SI).
In order to evaluate all of the proposed approaches, two databases, each containing videos
using a different language (Arabic and English) were constructed and used. For the
characterization of images, and the acoustic signals two approaches based on the use of the
discrete cosine transform (DCT), and the RASTA-PLP method, respectively, have been
implemented.
Our experimental results show that there is in fact useful information in the visual
modality for speech recognition. Our experiments have also shown a great possibility to
improve the performance and robustness of our proposed AVASR using the hybrid HMM/GA
method compared with traditional methods in the literature.
iii
Table des matires
Remerciements .......................................................................................................................... i
Rsum ...................................................................................................................................... ii
Abstract .................................................................................................................................... iii
Table des matires ................................................................................................................... iv
Table des illustrations ........................................................................................................... viii
Liste des figures................................................................................................................................ viii
Liste des tableaux ................................................................................................................................ x
Introduction .............................................................................................................................. 1
1. Contexte et cadre de recherche .................................................................................................... 1
2. Plan de la thse ............................................................................................................................ 2
Premire partie: Etat de lart .................................................................................................. 1
Les lvres et la production de la parole .................................................................................. 5
1.1 Architecture et fonctionnement de lappareil vocal ................................................................ 5
1.1.1 Lappareil vibrateur ......................................................................................................... 5
1.1.2 Le rsonateur ................................................................................................................... 7
1.2 Lanatomie des lvres ............................................................................................................ 10
1.2.1 Les tissus ....................................................................................................................... 10
1.2.2 Les muscles des lvres................................................................................................... 11
1.2.3 Classification fonctionnelle des muscles labiaux .......................................................... 13
1.3 Repres phontiques .............................................................................................................. 14
1.3.1 Acoustique et articulation .............................................................................................. 14
1.3.2 Des sons et des lvres .................................................................................................... 15
1.3.3 La coarticulation : cibles en contexte ............................................................................ 17
1.4 La parole audiovisuelle et ses applications en communication ............................................. 18
1.4.1 La bimodalit intrinsque de la parole .......................................................................... 18
1.4.2 Lintelligibilit de la parole audiovisuelle ..................................................................... 20
1.4.3 Perspectives pour la communication homme-machine ................................................. 22
1.4.3.1 Reconnaissance automatique de la parole audiovisuelle ........................................... 22
1.4.3.2 Codage spcifique de la parole : la norme MPEG4................................................... 23
1.4.3.3 Le rle de la biomtrie ............................................................................................... 23
1.5 Conclusion ............................................................................................................................. 24
La reconnaissance visuelle de la parole ................................................................................ 27
2.1 Influence de langle de vue.................................................................................................... 28
iv
2.2 Visage complet ou indices visuels ? ...................................................................................... 29
2.3 Localisation et suivi de visages ............................................................................................. 30
2.3.1 Localisation de visages .................................................................................................. 31
2.3.1.1 Approches couleur ..................................................................................................... 32
2.3.1.2 Approches statistiques ............................................................................................... 36
2.3.2 Localisation de la bouche .............................................................................................. 39
2.3.2.1 Approches couleur ..................................................................................................... 40
2.3.2.2 Approches statistiques ............................................................................................... 43
2.3.2.3 Approche par corrlation avec des patrons................................................................ 45
2.3.2.4 Approches mouvement .............................................................................................. 46
2.3.2.5 Autres approches ....................................................................................................... 47
2.4 Conditions naturelles (cologiques) ................................................................................ 49
2.5 Comparaison image-modle .................................................................................................. 51
2.6 Corpus existants .................................................................................................................... 52
2.7 Conclusion ............................................................................................................................. 53
De la reconnaissance acoustique la reconnaissance bimodale de parole ........................ 54
3.1 Dfinition de la parole ........................................................................................................... 54
3.2 Le signal de la parole............................................................................................................. 55
3.2.1 Redondance du signal .................................................................................................... 55
3.2.2 Variabilit du signal ...................................................................................................... 55
3.2.3 Les effets de coarticulation ............................................................................................ 56
3.3 Extraction des paramtres...................................................................................................... 56
3.3.1 nergie du signal ........................................................................................................... 57
3.3.2 Coefficients MFCC ....................................................................................................... 58
3.3.3 Taux de passage par zro ............................................................................................... 60
3.3.4 Autres paramtrisations du signal ................................................................................. 60
3.3.5 Drives premire et seconde ........................................................................................ 61
3.4 Rduction de l'espace de reprsentation ................................................................................ 61
3.5 Les modes de fonctionnement dun systme de reconnaissance ........................................... 62
3.6 La reconnaissance bimodale de la parole .............................................................................. 63
3.6.1 Les modles dintgration audio-visuelle de la parole .................................................. 64
3.6.1.1 Modle ID.................................................................................................................. 65
3.6.1.2 Modle IS .................................................................................................................. 66
3.6.1.3 Modle RD ................................................................................................................ 69
3.6.1.4 Modle RM................................................................................................................ 70
3.6.2 Elments du choix dune architecture : thoriques et exprimentaux ........................... 71
v
3.6.3 Etudes comparatives ...................................................................................................... 72
3.6.3.1 ID vs. IS ..................................................................................................................... 72
3.6.3.2 RD vs. RM ................................................................................................................. 73
3.7 Conclusion ............................................................................................................................. 74
Deuxime partie : Approches proposes .............................................................................. 58
Moteur de reconnaissance GA/HMM .................................................................................. 77
4.1 Modles de Markov Cachs .................................................................................................. 77
4.1.1 Dfinition....................................................................................................................... 77
4.1.2 Utilisation et algorithmes .............................................................................................. 79
4.1.2.1 Evaluation et lalgorithme de Forward ...................................................................... 79
4.1.2.2 Dcodage et lalgorithme de Viterbi ......................................................................... 81
4.1.3 Diffrents types de modles HMM ............................................................................... 84
4.1.4 Rsum .......................................................................................................................... 85
4.2 Les algorithmes gntiques ................................................................................................... 86
4.2.1 Principe des algorithmes gntiques ............................................................................. 86
4.2.2 Description dtaille ...................................................................................................... 88
4.2.2.1 Codage des donnes .................................................................................................. 88
4.2.2.2 Gnration alatoire de la population initiale ............................................................ 88
4.2.2.3 valuation .................................................................................................................. 89
4.2.2.4 Gestion des contraintes .............................................................................................. 90
4.2.2.5 Principes de slection ................................................................................................ 90
4.2.2.6 Oprateur de Croisement ........................................................................................... 91
4.2.2.7 Oprateur de mutation ............................................................................................... 93
4.2.2.8 Partage (Sharing) ....................................................................................................... 94
4.2.2.9 Critres darrt de lalgorithme ................................................................................. 95
4.2.3 Avantages et dsavantages des algorithmes gntiques ................................................ 95
4.3 Moteur de reconnaissance GA/HMM ................................................................................... 95
4.4 Conclusion ............................................................................................................................. 97
Description du systme propos ............................................................................................ 98
5.1 Architecture de systme de reconnaissance par fusion audiovisuelle ................................... 99
5.1.1 Traitement visuel ......................................................................................................... 100
5.1.1.1 Dtection de visage.................................................................................................. 100
5.1.1.2 Localisation de la bouche ........................................................................................ 104
5.1.1.3 Extraction des paramtres visuels ........................................................................... 105
5.1.1.3.1 Dcoupage de l'image ........................................................................................ 106
vi
5.1.1.3.2 Extraction de caractristiques ............................................................................ 106
5.1.2 Traitement acoustique ................................................................................................. 109
5.1.2.1 Analyse RASTA-PLP .............................................................................................. 109
5.1.2.2 La quantification vectorielle .................................................................................... 110
5.1.3 Moteur de reconnaissance GA/HMM.......................................................................... 112
5.1.4 La fusion audiovisuelle................................................................................................ 112
5.1.4.1 Fusion des paramtres ............................................................................................. 113
5.1.4.2 Fusion des scores ..................................................................................................... 113
5.2 Conclusion ........................................................................................................................... 114
Ralisation ............................................................................................................................. 115
6.1 Architecture gnral du systme de reconnaissance............................................................ 115
6.2 Base de donnes utilise ...................................................................................................... 118
6.2.1 Les bases de donnes audiovisuelle arabe ................................................................... 118
6.2.2 La base de donnes CUAVE ....................................................................................... 120
6.3 Validation du systme ......................................................................................................... 120
6.4 Traitement des donnes audiovisuelles ............................................................................... 121
6.4.1 Sparation audiovisuelle.............................................................................................. 121
6.4.2 Donnes visuels ........................................................................................................... 121
6.4.3 Donnes acoustiques ................................................................................................... 123
6.5 Modlisation par GA/HMM ................................................................................................ 125
6.5.1 Rsultats obtenus et discussion ................................................................................... 125
6.5.1.1. Exprimentations avec des bruits sonore et visuel additifs ................................. 125
6.5.1.2. Exprimentations avec un bruit rel .................................................................... 127
6.6 Conclusion ........................................................................................................................... 130
Conclusion et perspectives ................................................................................................... 131
7.1 Conclusion ........................................................................................................................... 131
7.2 Perspectives ......................................................................................................................... 131
Annexe A ............................................................................................................................... 133
A.1 Environnement de dveloppement: MATLAB R2013a ...................................................... 133
A.2 Structure et fonctionnement du logiciel............................................................................... 135
Bibliographie......................................................................................................................... 137
Notations ............................................................................................................................... 146
Publications ralises au cours de la thse ......................................................................... 147
vii
Table des illustrations
Liste des figures
Figure 1.1 Vue schmatique de lappareil vocal, dans le plan sagittal mdian. ...................... 6
Figure 1.2 Vue schmatique antrieure du larynx ( gauche). Vue laryngoscopique des
cordes vocales ( droite). ............................................................................................................ 7
Figure 1.3 Structures de la langue, dtails des muscles extrinsques (plan sagittal mdian,
vue de droite). ............................................................................................................................. 9
Figure 1.4 Aspect schmatique des lvres (daprs Zemlin, 1968). ..................................... 11
Figure 1.5 Les muscles de la face (daprs Bouchet et Cuilleret 1972). ............................... 12
Figure 1.6 Le conduit vocal et les 8 lieux darticulation principaux..................................... 15
Figure 1.7 Les ralisations articulatoires et les mouvements labiaux correspondant (daprs
Abry 1980). .............................................................................................................................. 17
Figure 1.8 Comparaison de lintelligibilit de la parole bimodale en condition bruite en
ajoutant successivement les lvres, le mouvement de la mchoire puis tout le visage du
locuteur (Benot et al., 1996). ................................................................................................... 21
Figure 1.9 Schma de principe de la reconnaissance automatique de la parole. ................... 23
Figure 2.1 Image couleur en entre (a), pixels candidats pour appartenir au visage et
localisation. .............................................................................................................................. 33
Figure 2.2 Dtecteur de visage de Hunke et Duchnowski bas sur la couleur (FCC) : (a)
Image couleur analyser et rgion utilise pour entraner le modle (IFCC) de couleur du
visage, (b) Sortie du FCC : en blanc, les zones de non-visage , d'aprs (Duchnowski et al.
1995; Hunke and Waibel 1994). .............................................................................................. 34
Figure. 2.3 Une scne complexe (a) et sa classification en tons peau (b), d'aprs (Senior
1999)......................................................................................................................................... 34
Figure. 2.4 Localisation du visage sur le corpus M2VTS, d'aprs (Wark and Sridharan
1998)......................................................................................................................................... 35
Figure. 2.5 Localisation de diffrentes rgions de visage (a) automatiquement (b) en
utilisant l'approche template matching , daprs (Brunelli and Poggio 1993). ................... 38
Figure. 2.6 Localisation des lvres en utilisant la teinte H, d'aprs (Coianiz et al. 1996). ... 41
Figure. 2.7 Localisation des lvres en utilisant le quotient Q, d'aprs (Wark and Sridharan
1998)......................................................................................................................................... 42
Figure. 2.8 Dtection des lvres d'aprs (Liew et al. 1999). ................................................. 43
Figure. 2.9 Dtection des lvres d'aprs (Rao and Mersereau 1995). ................................... 44
Figure. 2.10 Dtection des lvres d'aprs (Wojdel and Rothkrantz 2001a; Wojdel and
Rothkrantz 2001b). ................................................................................................................... 45
Figure 3.1 Schma de calcul des MFCC. ............................................................................. 59
Figure 3.2 Schmas de calcul les paramtres PLP et LPC. .................................................. 61
Figure 3.3 Le noyau dun processus dintgration audio-visuelle dans la perception de la
parole (daprs Schwartz et al. (1998)). ................................................................................... 65
Figure 3.4 Modle identification directe. ........................................................................... 65
viii
Figure 3.5 Modle identification spare. .......................................................................... 67
Figure 3.6 Modle dintgration bas sur la maximisation des produits des probabilits
conjointes (Daprs Adjoudani (1998)). ................................................................................... 67
Figure 3.7 Mthode de slection du meilleur candidat acoustique ou visuel (Daprs
Adjoudani (1998)). ................................................................................................................... 68
Figure 3.8 Architecture dintgration audiovisuelle par pondration (Daprs Adjoudani
(1998)). ..................................................................................................................................... 68
Figure 3.9 Modle recodage dans la modalit dominante. ................................................. 69
Figure 3.10 Modle recodage dans la modalit motrice. .................................................... 70
Figure 3.11 Taxinomie des modles dintgration (daprs Robert-Ribs (1995)). ............. 71
Figure 4.1 HMM 5 tats dont 3 metteurs. ......................................................................... 78
Figure 4.2 Trois types distincts de modles HMM. Illustration avec un exemple de HMM
4 tat (daprs Rabiner et Juang 1993). .................................................................................... 85
Figure 4.3 Principe gnral des algorithmes gntiques. ...................................................... 87
Figure 4.4 Slicing crossover. ................................................................................................. 92
Figure 4.5 Slicing crossover 2 points. ................................................................................ 93
Figure 4.6 Croisement barycentrique. ................................................................................... 93
Figure 4.7 Principe de loprateur de mutation. .................................................................... 94
Figure 4.8 Mthode de reprsentation des chromosomes dans lapprentissage des
GA/HMMs. .............................................................................................................................. 96
Figure 5.1 Phases de spcification dun systme dintelligence artificielle utilisant des
HMM. ....................................................................................................................................... 98
Figure 5.2 Systme dun AVASR mis en uvre. ............................................................... 100
Figure 5.3 Exemple de 4 caractristiques de Haar. La somme des valeurs des pixels
appartenant aux zones encadres claires est soustraite la somme des valeurs des pixels
appartenant aux zones encadres sombres pour obtenir la caractristique de Haar. Chacune
des quatre caractristiques de Haar est reprsente avec son cadre de dtection respectif. ... 102
Figure 5.4 Cascade de classifieurs forts. A chaque tage, uniquement les candidats classifis
positifs sont transmis l'tage suivant. .................................................................................. 104
Figure 5.4 Dcoupage de l'image de l'histogramme. ........................................................... 106
Figure 5.5 Exemple de fonctions de base de DCT qui forme le domaine frquentiel. ....... 108
Figure 5.6 Parcours en zigzag d'une matrice de dimension 8 8. ...................................... 108
Figure 5.7 Analyse RASTA PLP. ....................................................................................... 110
Figure 5.8 Distribution de probabilits, un chantillon de points associs, et un dcoupage
en nuages (clusters). ............................................................................................................... 111
Figure 6.1 Architecture gnrale du systme propos. ....................................................... 117
Figure 6.2 quelques exemples de trames de notre base audiovisuelle AVARB. ................ 119
Figure 6.3 Exemples de trames de la base CUAVE. ........................................................... 120
Figure 6.4 Un exemple de dtection de visage : (a) image originale (b) dtection de peau
avec suppression de bruit (c) rsultat de dtection de visage. ................................................ 121
Figure 6.5 Exemples de la rgion de la bouche dtecte partir de : (a) la base AVARB (b)
la base CUAVE. ..................................................................................................................... 122
Figure 6.6 Le processus de slection des coefficients DCT avec un chantillon partir: (a) la
base AVARB (b) la base CUAVE. ........................................................................................ 122
ix
Figure 6.7 Exemple d'un signal de parole du mot arabe "/ marhaban /" (a) son
spectrogramme (b) et l'ensemble des caractristiques spectrales RASTA-PLP (c). .............. 124
Figure 6.8 ROI avec bruit gaussien, l'cart type =(A) 0 (B) 15 (C) 30 (D) 50 et (E) 100. . 126
Figure 6.9 La performance du systme AVASR : (a) sous une frquence des trames vido
rduite (b) pour un bruit alatoire gaussien. ........................................................................... 126
Figure 6.10 Comparaison entre les taux de reconnaissances audio, vido, et audiovisuel, on
utilisant : (a) HMM standard (b) GA/HMM pour la BDD AVARB. ..................................... 128
Figure 6.11 Comparaison entre les taux de reconnaissances audio, vido, et audiovisuel, on
utilisant : (a) HMM standard (b) GA/HMM pour la BDD CUAVE. ..................................... 129
Figure A.2 Interface principale du logiciel. ........................................................................ 135
Figure A.3 Interface dextraction des paramtres visuels. .................................................. 136
Figure A.4 Interface dextraction des paramtres acoustiques. .......................................... 136
Table 2.1 Scores didentification obtenus par Summerfield (1979) dans cinq conditions de
prsentation des stimuli. ........................................................................................................... 29
Table 6.1 Notre deux corpus proposs de chiffres et commandes arabes. .......................... 119
Table 6.2 paramtres GA pour lentranement du HMM pour laudio seul: (a) base AVARB
(b) base CUAVE. ................................................................................................................... 127
Table 6.3 paramtres GA pour lentranement du HMM pour le vido seul: (a) base
AVARB (b) base CUAVE. .................................................................................................... 127
x
Introduction
Introduction
Lutilisation de connaissances supplmentaires conjointement au signal de parole est une
mthode classique pour amliorer les performances et la robustesse des systmes de
reconnaissance automatique de la parole. De nombreux travaux sur la perception de la parole
ayant montr limportance des informations visuelles dans le processus de reconnaissance
chez lhomme, lutilisation de donnes sur la forme et le mouvement des lvres du locuteur
semble tre une voie prometteuse pour la reconnaissance automatique surtout en milieux
sonores bruits.
Les tres humains emploient linformation visuelle de faon subconsciente afin de
comprendre les paroles, particulirement dans des environnements bruyants, mais galement
quand les conditions acoustiques sont bonnes. Le mouvement des lvres du locuteur apporte
une srie dinformation importante, par exemple au sujet des articulations, ce qui est
automatiquement intgr par le cerveau. Leffet McGurk (1976) en apporte la preuve en
montrant que le cerveau, soumis des stimuli auditifs et visuels inconsistants, peroit un son
diffrent de celui qui a t dit.
1
Introduction
est bas sur la qualit de la modlisation des donnes (appel observations) faites par HMM.
Notre objectif est de proposer des algorithmes qui permettent d'amliorer cette qualit. Le
critre utilis pour quantifier la qualit de HMM est la probabilit qu'un modle donn gnre
une observation donne. Pour rsoudre ce problme, nous utilisons comme nous l'avons dj
mentionn une hybridation gntique des HMM et nous proposons des mthodes de
reprsentation d'un gne et la mthode pour l'valuation des mesures de remise en forme des
populations de chaque gnration cre par algorithme gntique. L'exprience est mene afin
d'valuer chaque population et la prcision de rsultat d'infrence sur un ensemble de donnes
audiovisuelles relles.
Le traitement de la parole arabe est encore ses dbuts, la raison pour laquelle, nous
avons pens lapplication de la mthode hybride GA/HMM, ayant comme objectif la
reconnaissance de la parole en mode multi-locuteur.
2. Plan de la thse
Ce document est structur en deux parties. La premire partie tablit plusieurs tats de
lart sur les domaines abords (chapitre 1, 2 et 3) tandis que la deuxime partie prsente nos
approches proposes.
Le premier chapitre donne une brve prsentation de quelques lments physiologiques
sur la production de la parole et la paramtrisation des lvres. Cette tude prsente une
description des muscles faciaux intervenant dans le processus de la parole. Nous nous
dcrivons aussi quelques proprits intrinsques de la perception de la parole bimodale afin de
mieux comprendre ce processus diffrents modles d'intgration audiovisuelle chez l'homme
et dans la machine sont prsentes.
Nous passons dans le chapitre 2 une description dtaille des techniques d'extraction
des informations visuelles des mouvements des lvres, notamment celles bases sur le
traitement vido, ainsi que notre mthode de calcul des paramtres labiaux base sur un
maquillage pralable des lvres.
Par la suite dans le chapitre 3, Nous nous consacrons a une revue de l'tat de l'art dans le
domaine du dveloppement des systmes de reconnaissance visuelle et audiovisuelle.
Chapitre 4 dfinit le principe et le fonctionnement de notre systme AVASR propos en
utilisant la mthode hybride GA/HMM.
Puis dans le chapitre 5, nous dcrivons le principe et le fonctionnement de notre systme
de reconnaissance de la parole audiovisuelle propos.
2
Introduction
Le dernier chapitre (chapitre 6) prsente les rsultats de nos tests sur les deux modles
d'intgration couramment utiliss dans la littrature (prcoce et tardive) en insistant sur notre
architecture d'intgration originale, base sur une pondration des canaux en fonction de leur
fiabilit, estime par la dispersion des meilleurs candidats. La dernire partie de ce manuscrit
est ddie la description technique de notre systme lectronique d'extraction des paramtres
labiaux en temps rel et a l'valuation de ses performances dans une application de lecture
labiale automatique.
Enfin, nous concluons par un bilan de nos travaux de recherche et nous proposons
quelques perspectives damlioration associes aux diffrentes ralisations.
3
Premire partie: Etat de lart
Chapitre 1. Les lvres et la production de la parole
Lair est la matire premire de la voix. Si le fonctionnement de notre appareil vocal est
souvent compar celui dun instrument de musique, il doit tre dcrit comme celui dun
instrument vent. En effet, en expulsant lair pulmonaire travers la trache, le systme
respiratoire joue le rle dune soufflerie. Il sagit du souffle phonatoire produit, soit par
labaissement de la cage thoracique, soit dans le cadre de la projection vocale par laction des
muscles abdominaux.
5
Chapitre 1. Les lvres et la production de la parole
Figure 1.1 Vue schmatique de lappareil vocal, dans le plan sagittal mdian.
6
Chapitre 1. Les lvres et la production de la parole
Figure 1.2 Vue schmatique antrieure du larynx ( gauche). Vue laryngoscopique des cordes
vocales ( droite).
En revanche, lors de la production dun son vois (ou sonore), comme cest le cas, par
exemple, pour les phonmes [z], [v] et pour les voyelles, les plis vocaux souvrent et se
ferment priodiquement, obstruant puis librant par intermittence le passage de lair dans le
larynx. Le flux continu dair pulmonaire prend ainsi la forme dun train dimpulsions de
pression ; nos cordes vocales vibrent . Le dernier lment principal de notre appareil
vibrateur est lpiglotte. Lors de la dglutition, cette dernire agit comme un clapet qui se
rabat sur le larynx, conduisant les aliments vers lsophage en empchant leur passage dans
la trache et les poumons ( fausse route ).
1.1.2 Le rsonateur
Lair pulmonaire, ainsi modul par lappareil vibrateur, est ensuite appliqu lentre du
conduit vocal. Ce dernier est principalement constitu des cavits pharyngiennes
(laryngophaynx et oropharynx situs en arrire-gorge) et de la cavit buccale (espace qui
stend du larynx jusquaux lvres). Pour la ralisation de certains phonmes, le voile du
palais (le velum) et la luette qui sy rattache, sabaissent, permettant ainsi le passage de lair
dans les cavits nasales (fosses nasales et rhinopharynx ou nasopharynx). Ces diffrentes
cavits forment un ensemble que nous qualifierons ici de rsonateur . Si lappareil
vibrateur peut tre dcrit comme le lieu de production de la voix , le rsonateur apparat
alors comme le lieu de naissance de la parole . Il abrite en effet des organes mobiles,
7
Chapitre 1. Les lvres et la production de la parole
8
Chapitre 1. Les lvres et la production de la parole
Figure 01.3 Structures de la langue, dtails des muscles extrinsques (plan sagittal mdian, vue de
droite).
Dans le cas des consonnes inter-dentales ([th] comme thin, [dh] comme then), la
langue dpasse les dents et vient sappuyer directement sur les incisives. Pour les consonnes
dites alvolaires ([s], [z] ou la consonne liquide [l] mais galement [t], [d], [n]), et
postalvolaires ([ch] comme church, [jh] comme judge, [sh] comme she, [zh] comme azure),
elle se dplace respectivement vers les alvoles (creux de los alvolaire dans lequel est
enchsse une dent) et vers la partie antrieure du palais ( la juxtaposition avec le palais dur).
Pour une consonne dite palatale ([j] comme ye, catgorise galement comme une semi-
voyelle), lorgane articulateur est le dos de la langue, lobstruction ayant lieu au niveau du
palais dur. Pour une consonne vlaire ([k], [g], [ng] comme parking), la partie postrieure du
dos de la langue se bombe et se rapproche du palais mou. Enfin, pour une consonne uvulaire
([r] comme Paris en franais), le lieu darticulation se situe au niveau de la luette.
Les lvres constituent lautre articulateur majeur de la cavit buccale. Elles permettent la
production des consonnes bilabiales (rapprochement des lvres infrieures et suprieures,
[p], [b], [m]) et des consonnes labio-dentales ([f], [v], rapprochement de la lvre infrieure
avec les dents). Elles interviennent galement dans le cadre de la production vocalique en
apportant la notion darrondissement des voyelles. Enfin, la ralisation acoustique de certains
phonmes ncessite parfois deux lieux darticulation, impliquant la fois la langue et les
lvres ; cest le cas notamment de la consonne labio-velaire [w] (comme who).
9
Chapitre 1. Les lvres et la production de la parole
Le dernier articulateur du rsonateur est le voile du palais qui permet, lorsquil sabaisse,
de mettre en parallle les cavits buccale et nasale. Il intervient notamment dans la production
des consonnes nasales [m], [n] et [ng] en les diffrenciant respectivement des groupes de
consonnes ([p], [b]), ([t], [d]), et ([k], [g]), qui prsentent la mme configuration linguale et
labiale. Enfin, labaissement du voile du palais permet, en langue franaise notamment, la
formation des voyelles nasales [] (on), [] (hein), [oe] (un), [] (an).
Au regard de ces principaux rsultats issus de la phontique articulatoire, la ralisation
acoustique dun phonme dpend principalement des configurations de la langue, des lvres et
du voile du palais mais galement de lactivit des cordes vocales. Lorsque ces dernires
doivent tre retires, dans le cadre notamment du traitement chirurgical du cancer du larynx,
les mcanismes de la phonation sont profondment modifis.
Daprs les donnes anatomiques prsentes dans (Abry 1980), les lvres forment deux
replis musculaires, recouverts dune membrane, qui circonscrivent lorifice de la cavit
buccale. Ces replis suprieur et infrieur sont indpendants et se runissent leurs extrmits
pour former les commissures labiales. La face externe des lvres est recouverte par de la peau
et la face interne par de la muqueuse compose de cellules disposes comme des pavs
(lpithlium). Les muscles se trouvent directement sous la peau.
La ligne entre la peau et la muqueuse dessine dans sa partie suprieure et, au centre, une
courbe concave dnomme arc de Cupidon . Elle dlimite une zone de transition, dite
vermillon. Celle-ci se caractrise par sa haute teneur en un liquide semi-fluide qui augmente
la transparence du tissu, tel point quon aperoit la teinte rouge de la couche vasculaire sous-
jacente. Cest cette caractristique qui fait ressortir la couleur des lvres par rapport au reste
de la peau. La zone de vermillon de la lvre suprieure montre, en son milieu, une
protubrance : le tubercule.
10
Chapitre 1. Les lvres et la production de la parole
Les muscles des lvres font partie des muscles faciaux. Ils ont tous la particularit de
prsenter une insertion mobile cutane. Cest cette caractristique qui rend possible les
diffrentes combinaisons dexpression du visage et la souplesse des mouvements en
production de la parole. Le muscle essentiel des lvres est lorbiculaire des lvres qui opre
comme un sphincter annulaire. Autour de celui-ci, rayonnent les autres muscles de la face
dont les fibres simbriquent directement avec celles de lorbiculaire.
11
Chapitre 1. Les lvres et la production de la parole
Les classifications courantes dnombrent douze muscles pour les lvres (Zemlin 1968 ;
Hardcastle 1976) :
12
Chapitre 1. Les lvres et la production de la parole
Comme leur nom lindique, les releveurs suprieurs et profonds de la lvre sont attachs
cette fonction. Du fait de leur insertion, cest essentiellement la partie centrale de la lvre
suprieure qui est releve.
La lvre infrieure est tire vers le bas par le carr du menton. Ce muscle peut tre aid
par la mchoire. De mme, le triangulaire peut aussi intervenir pour abaisser la lvre
infrieure.
13
Chapitre 1. Les lvres et la production de la parole
Le buccinateur entre en action pour tirer les commissures. Cette activit est antagoniste
celle de protrusion de lorbiculaire ou de la houppe du menton.
Linsertion du canin est situe sur les commissures dont il assure llvation. Le
relvement de la lvre infrieure qui saccompagne est limit par laction antagoniste du
carre du menton. Le grand zygomatique intervient aussi pour le relvement.
En conclusion, les lvres sont commandes par des couples agonistes / antagonistes de
muscles permettant ainsi un contrle fin par quilibre des forces. Cette habilet est mise en
uvre dans la production de la parole pour un contrle gomtrique prcis de la cavit
buccale, rentrant directement en compte dans la gnration des sons.
Les diffrents sons de la parole sont produits par la manire dont lair, expuls par les
poumons, scoule travers le conduit vocal. La forme du conduit et les caractristiques de
cet coulement dterminent directement londe sonore en sortie. Le passage de lair seffectue
selon deux passages partant du larynx, lun dbouchant dans la cavit nasale, et lautre vers la
bouche puis les lvres. Dans le larynx, les cordes vocales peuvent tre mises en vibration par
la conjugaison dune pression transglottique et de la contraction des effecteurs laryngs. On
parle alors de son vois. A linverse, on parle de son non vois dans le cas o les cordes
vocales ne vibrent pas. Le passage de lair travers la cavit nasale est command par
louverture du voile du palais pour la production des sons dits nasals. Le voile du palais est
ferm pour les sons dits oraux pour lesquels lair est intgralement expuls par la cavit
buccale.
Lair scoule dans la cavit buccale de trois manires : libre, rtrcie ou arrte. Le cas
libre correspond la production des voyelles. Sauf contrle explicite (chuchotement par
14
Chapitre 1. Les lvres et la production de la parole
exemple), il saccompagne gnralement dune vibration des cordes vocales pour accrotre
lnergie de londe. La position de la langue et la forme des lvres modifient alors la
gomtrie (et donc les rsonances) du conduit vocal, donnant le timbre de londe sonore. Les
cas dcoulement rtrci ou arrt correspondent la production des consonnes. Le son est
alors gnr par le bruit des turbulences cres par le rtrcissement (constriction) ou la
brusque explosion qui suit une fermeture complte du passage de lair (occlusion). La
phontique caractrise la production dune consonne selon son mode et lieu darticulation. Le
mode darticulation spcifie la manire dont scoule lair et sil saccompagne dun
voisement. Le lieu darticulation indique lendroit de rapprochement maximal des parois le
long du conduit vocal. La figure 1.6 indique les 8 lieux darticulation principaux identifis en
phontique.
En maintenant stables et non ambigus les diffrences entre les sons articuls, une
reprsentation sensible (acoustique et visuelle) du code phonologique peut tre mise en
commun entre celui qui parle et celui qui coute, do la mise en place dune communication.
Lensemble fini des sons dune langue suggre un ensemble fini darticulations pour les
produire, donnant pour les lvres un jeu de formes cibles ou prototypiques de
larticulation. Les lvres nassurent pas elles seules la production distinctive de tous les sons
: la production de /p/, /b/ et /m/, par exemple, implique dans les trois cas une mme occlusion
15
Chapitre 1. Les lvres et la production de la parole
bilabiale, les sons se distinguant par leur mode darticulation (respectivement non vois, vois
et nasal).
Se basant la fois sur les observations phontiques et lactivit des muscles labiaux,
Gentil et Bo ont regroup les formes labiales des sons du Franais en six classes
articulatoires (Abry 1980) :
voyelles arrondies (/y/, /u/, /o/, /O/, ...), caractrises par un arrondissement de la
forme des lvres, le but tant de rduire laire interne (larrondi est plus ou moins
marqu selon la voyelle faisant une distinction entre des arrondies fermes telle que /u/
et ouvertes comme /o/),
voyelles non arrondies (/i/, /e/, /E/, /a/, ...), par opposition aux prcdentes, o les
commissures sont cartes et la forme des lvres plus tire,
occlusives bilabiales, caractrises par une fermeture complte des deux lvres (/p/,
/b/, /m/),
constrictives labiodentales, caractrises par un rapprochement de la lvre infrieure et
des dents de la mchoire suprieure (/f/, /v/),
constrictives post-alvolaires projection labiale, caractrises par un arrondissement
des lvres saccompagnant dune protrusion et un relvement de la lvre suprieure
(/S/, /Z /),
constrictives alvolaires, caractrise par un tirement des commissures (/s/, /z/).
Globalement, les formes de lvres se distinguent donc par les traits darrondissement
(oppos tirement), douverture (oppos fermeture) et de protrusion. De mme, la plupart
des manuels de phontique distinguent 3 degrs de libert pour mesurer larticulation labiale :
tirement, aperture et protrusion (Ladefoged 1979). Ltirement correspond la largeur de
laire interne : elle discrimine les formes arrondies des tires lorsque les lvres ne sont pas
compltement fermes. Laperture correspond la hauteur entre les lvres suprieure et
infrieure : cette mesure caractrise les occlusions. La protrusion dsigne lavancement du
pavillon : on retient gnralement cette mesure pour sparer les voyelles arrondies des tires.
Gentil et Bo ont dress un rcapitulatif des diffrents mouvements labiaux, et des
muscles les gnrant, requis dans la production des classes articulatoires cites.
16
Chapitre 1. Les lvres et la production de la parole
Figure 01.7 Les ralisations articulatoires et les mouvements labiaux correspondant (daprs Abry
1980).
Les six classes labiales prcdentes, et les trois degrs de libert qui les distinguent,
caractrisent des situations o les sons prononcs sont compltement isols. Comme il a t
voqu plus haut, la production de la parole ne suit pas un fonctionnement idal o une
squence de formes labiales traduit directement au niveau visuel la squence du code
phonologique initial. Cette approche fut celle des tout premiers systmes de synthse visuelle
de la parole. A chaque phonme (unit de son) on associe une forme labiale prdfinie ( key
frame ). On cre ensuite une animation pour nimporte quel texte en juxtaposant les formes
17
Chapitre 1. Les lvres et la production de la parole
cls des phonmes. Si cette approche peut faire illusion (elle est encore largement utilise
dans lindustrie du dessin anim), elle ne recouvre cependant pas le caractre continu de la
production de la parole. Dabord, la biomcanique musculaire imprime par nature des
transitions continues entre les diffrentes formes de lvres. De plus, au cours de la squence
des sons produits, les articulations conscutives sinfluencent mutuellement par des
phnomnes danticipation et de rtention motrice. On parle de coarticulation pour dsigner
ces phnomnes (Whalen, 1990).
Les tudes sur la gomtrie labiale rassembles dans (Abry 1980) mettent en vidence ce
problme de coarticulation pour le Franais sur un cas particulier. Le cadre de travail sappuie
sur la mesure gomtrique du maintien de la sparation des voyelles arrondies et tires (/y/
vs /i/) dans un contexte consonantique assimilant de constrictives protruses /S/ ou tires
/z/. Pour illustrer limportance de la coarticulation, il est montr par exemple que, sur 6
locuteurs prononant une syllabe /Si/, la protrusion pour larticulation du /S/ se rpercute sur
la voyelle /i/ et ne permet plus elle seule de distinguer gomtriquement la voyelle /i/ de la
voyelle /y/ prise dans un contexte similaire /Sy/.
18
Chapitre 1. Les lvres et la production de la parole
vido o un visage prononce /ga/, synchronise avec une squence audio /ba/, peroivent avec
certitude un troisime stimulus /da/. Cette illusion a t observe dans plusieurs langues et
mme chez des enfants (Burnham and Dodd, 1996). Cette fusion est trs robuste aux
conditions externes puisquelle persiste mme lorsque les sujets sont prvenus de leffet. Ce
mcanisme rsiste aussi une dsynchronisation de plusieurs dizaines de millisecondes entre
les deux sources.
Le montage inverse (stimuli visuel /ba/ et acoustique /da/) ne donne cependant pas la
mme illusion : il est peru comme une succession rapide /bga/ des deux stimuli qui sont ainsi
perus sparment (effet de streaming). Lors de leffet McGurk, les perceptions de ces deux
stimuli sont intgres en une perception audiovisuelle unique, prenant le dessus sur chacune
des deux modalits spares. Cet effet suggre lexistence dune reprsentation audiovisuelle
autonome pour la perception de la parole, intgrant les deux sources d'information avant tout
dcodage phontique spar dans lune ou lautre des modalits. Un manque de cohrence
entre ces deux sources peut donc entraner une perception errone de la ralit.
De manire naturelle linteraction entre les perceptions auditive et visuelle de la parole
opre en coopration dans les trois situations suivantes :
localisation et focalisation de lattention sur un locuteur particulier dans un
environnement o d'autres parlent en mme temps (effet cocktail-party ),
redondance entre les informations acoustique et visuelle lorsque les deux modalits
sont bien perues, entranant un gain dintelligibilit systmatique quel que soit la
qualit de dcodage dans chaque canal,
complmentarit entre les informations acoustique et visuelle lorsque du bruit ambiant
dgrade la perception auditive pure.
langue) la production des sons de frquence leve, sons provoqus par des mouvements
rapides comme lors de certaines consonnes occlusives. Ils correspondent acoustiquement
des turbulences de faible intensit sonore dont la sensibilit au bruit acoustique est alors
corrige par linformation visuelle apporte par leur articulation. A linverse, la position des
articulateurs non visibles (langue, vlum, larynx) produisent des sons constants, de forte
intensit, des frquences basses caractristiques notamment du mode darticulation (nasal ou
oral) et des voyelles.
On peut aussi expliquer cette complmentarit travers les rsultats prsents par Fant
(1973) : la rsonance de la cavit arrire (non visible) correspond gnralement au premier
formant, alors que le second formant correspond plutt la cavit avant. Si le premier formant
prsente une bonne stabilit, le second varie davantage. La vision des lvres, auxquelles il est
li, renforce alors la stabilit de la perception.
Au del de la reconnaissance de phonmes isols, la continuit des transitions entre les
ralisations articulatoires dune squence dunits phonologiques fait apparatre des
phnomnes de coarticulation. Ce dernier est une consquence directe des contraintes de
production propre la nature continue de la parole. Les gestes articulatoires, programms
pour la ralisation dun phonme cible , peuvent tre anticips avant et persister aprs la
ralisation (Whalen 1990). Affectant la fois les ralisations acoustiques et visuelles, les
phnomnes de coarticulation sont largement exploits dans la perception audiovisuelle de la
parole. Dans une exprience o des sujets devaient simplement deviner la voyelle finale dans
des squences /zizi/ et /zizy/ tronques, Escudier et al. (1990) ont montr que des sujets
identifiaient le /y/ de /zizy/ sur une photo du visage prise environ 80 ms avant linstant o ils
taient capables de lidentifier auditivement sur des squences acoustiques tronques de forme
gnrale /ziz/. Ces rsultats montrent que, de manire naturelle, la perception auditive et
visuelle peuvent intgrer et exploiter dune manire cohrente des dsynchronisations entre
vision et audition pour la reconnaissance dune mme unit phonologique. Ces phnomnes
de coarticulation font partie prenante de la parole audiovisuelle.
La lecture labiale chez certains dficients auditifs prouve la capacit du visage dun
locuteur porter de linformation linguistique. Cette facult se retrouve chez des sujets ne
prsentant aucune perte auditive. Bien sr, la perception auditive reste alors prpondrante sur
la perception visuelle tant que le signal acoustique est suffisamment clair. Par contre, en
prsence de bruit, l'information visuelle contribue de manire significative augmenter
20
Chapitre 1. Les lvres et la production de la parole
21
Chapitre 1. Les lvres et la production de la parole
23
Chapitre 1. Les lvres et la production de la parole
1.5 Conclusion
Les lvres fournissent les paramtres les plus fiables pour la reconnaissance visuelle de la
parole puisquelles portent la fois une part importante dinformation et quelles sont toujours
prsentes et clairement identifiables. Un articulateur comme la langue ne prsente pas autant
de facilit daccs partir dune squence vido.
Laperu de ltat de lart montre que la labiomtrie sans maquillage a dabord fourni un
dfi technologique pour la vision artificielle. Du traitement de la couleur lextraction de
paramtres visuels, toutes les tapes sont complexes. Il ressort que lon ne peut envisager de
rsoudre que par des techniques dapprentissage limmense variabilit des conditions
dclairage, des mouvements labiaux dun locuteur et des diffrences entre locuteurs. De plus,
il est ncessaire dintgrer la fois un traitement sur la couleur et la forme dans une approche
la fois oriente image et modle. Lutilisation dune information comme le gradient spatial
dune image se rvle largement insuffisante.
Le but des mthodes classiques de suivi de contour sinscrit dans une optique de
reconnaissance de formes et vise retrouver lallure exacte des contours. Cette tche est mal
dfinie lorsque le contraste de couleur entre les rgions segmenter est faible. Elle ncessite
24
Chapitre 1. Les lvres et la production de la parole
alors un apport dinformation par des contraintes sur un modle de contour pour rgulariser le
problme.
Toutes les mthodes proposes se positionnent suivant un compromis entre contraintes au
niveau local ou global. Les contraintes locales se limitent souvent respecter des conditions
de continuit du contour (au premier et second ordre). Elles laissent beaucoup de libert la
description gomtrique mais prsentent de ce fait des problmes de stabilit, le modle de
contour ayant la possibilit de se fixer sur nimporte quelle limite de rgions. A linverse, les
contraintes globales imposent des proprits gomtriques de haut niveau (contours dcrit en
termes dellipse, darc de parabole, ...) pour limiter les variations de forme du modle la
topologie propre du contour suivi. Les paramtres de contrle de la forme tant plus rduits, la
recherche est stabilise. Elle vite les frontires parasites mais perd la prcision de description
des mthodes locales. Les limitations de formes imposes par les mthodes globales peuvent
tre telles quelles ne sont plus en mesure de reprsenter la forme relle suivre et ainsi
dassurer une convergence correcte.
Le dbat reste ouvert quant au choix des mthodes pour le suivi des contours labiaux.
Aucune ne sest encore impose. La faiblesse du contraste entre peau et lvres exclut une
utilisation unique des mthodes locales. Les mthodes globales actuelles ne rsolvent pas le
compromis entre une description gomtrique suffisamment prcise et un contrle sur peu de
paramtres.
Le problme rside dans le fait que les paramtres des modles doivent contrler
directement toute la variation gomtrique de la forme labiale. En sparant caractrisation
gomtrique et contrle articulatoire, nous montrons dans cette thse que, pour un locuteur
particulier, il est possible de dfinir un modle la fois prcis au niveau gomtrique et de le
commander ensuite par seulement trois paramtres, reprsentatifs de toute la variation
articulatoire du locuteur. Ainsi, utilis dans un cadre de suivi de contour, notre approche
rsout les deux exigences de prcision et de stabilit.
Enfin, au del du dfi de vision artificiel, on retiendra de la section sur la parole
audiovisuelle quil ne faut pas perdre desprit le but premier dune labiomtrie : extraire des
paramtres visuels qui, comme les paramtres issus du bleu , portent de manire pertinente
une information de parole. Cest prcisment ce codage de lobjet de parole que nous
visons par notre approche articulatoire de la labiomtrie.
25
Chapitre 2. La reconnaissance visuelle de la parole
La reconnaissance visuelle de la
parole 2
La premire difficult rencontre pour lobtention des informations visuelles utilisables
pour la reconnaissance audiovisuelle de la parole est celle de la localisation de la zone
tudier. Cette zone se situe, en gnral, vers bas du visage, voire plus exactement la bouche
seule. Cette difficult napparait pas pour les systmes fournissant directement des mesures,
mais elle se posait dj de faon trs simplifie dans les systmes o le locuteur est prpar
tre film pour extraire des informations visuelles. En effet, le maquillage ou les pastilles
utilises sont choisis pour tre aisment reprables, ce qui facilite d'autant la localisation de
ces zones marques.
Pour simplifier le problme quand le locuteur n'est pas prpar, il est possible de recourir
des dispositifs spcifiques pour le filmer (casques-camra), ce qui permet d'assurer le
cadrage voulu, voire un clairement contrl et constant. Si l'on ne dispose pas de tels
dispositifs ou que l'on vise un cadre applicatif plus libre, ou le recours de tels dispositifs
n'est pas envisageable, une premire phase consistera alors ncessairement localiser le(s)
locuteur(s) dans l'image, puis assez souvent, dlimiter plus prcisment la zone d'tude (la
bouche).Une fois la zone d'intrt (ROI : Region Of Interest) dtermine, il faudra en extraire
les informations utilisables pour la reconnaissance de parole. Dans ce contexte deux
approches sont frquemment rencontres dans la littrature du domaine:
27
Chapitre 2. La reconnaissance visuelle de la parole
l'image de la rgion de la bouche. Dans ce cas l'utilisation de mesures fait perdre une
information visuelle importante, notamment la prsence ou l'absence de la langue et
des dents quand la bouche est ouverte ou ferme.
Dans ce chapitre, nous prsenterons dans un premier temps les techniques utilises pour
localiser le visage et assurer son suivi, puis, nous passerons en revue des mthodes permettant
de localiser plus prcisment la bouche et le type d'informations visuelles ( image ou
modle) quon peut extraire, ainsi que les mthodes permettant cette extraction, dans certains
cas, quand le locuteur n'est pas prpar. Enfin, nous finirons ce chapitre par une prsentation
des principaux corpus de parole audiovisuelle prsentant des locuteurs non-maquills.
Dans les tests de perception visuelle de la parole, nous trouvons quil y a des auteurs
choisissent de prsenter leurs stimuli visuels sous des angles de vue diffrents. Ceci prouve en
quelque sorte que linformation visuelle perue dpend en partie de ce facteur de visibilit. Ce
dernier a t lobjet de plusieurs tudes, parmi lesquels (Neely 1956; Larr 1959; Nakano
1961; Berger et al. 1971; Erber 1974; Cathiard 1988, 1994; Adjoudani 1998).
A lexception de ltude de (Adjoudani 1998), utilisant des paramtres extraits des
contours des lvres, toutes ces tudes, sappuient sur des tests perceptifs. Dans ces tudes,
trois vues ont t compares : la vue de face, la vue de profil et la vue de 3/4. De ces
comparaisons, nous pouvons conclure que :
la vue de face apporte plus dinformation que la vue de profil, lexception de certains
cas spcifiques concernant la classification des traits labiaux de protrusion et
dtirement (Cathiard 1988, 1994), ou la vue de profil peut tre plus efficace que la
vue de face.
La vue de 3/4 est globalement quivalente la vue de face.
Dans le cas du code LPC (Langage Parl Complt), ou la main et les lvres doivent tre
simultanment visibles, la vue de 3/4 poserait des problmes de visibilit notamment pour la
forme de la main. De mme, la vue de profil ne peut permettre la visibilit complte des
positions de la main ni des formes. De plus, elle est, en gnral, moins efficace que les deux
autres vues. Il reste donc la vue de face qui, a priori, semble la plus approprie au cas du code
LPC.
28
Chapitre 2. La reconnaissance visuelle de la parole
Table 02.1 Scores didentification obtenus par Summerfield (1979) dans cinq conditions de
prsentation des stimuli.
De ces rsultats nous pouvons tirer quelques constats intressants. Tout dabord, les deux
informations visuelles dans les conditions (iv) et (v) ne semblent apporter aucune information
aidant comprendre les phrases bruites. Les diffrences entre ces deux conditions et la
condition (i) sont en effet, selon lauteur, non significatives. Ensuite, il est vident que la
29
Chapitre 2. La reconnaissance visuelle de la parole
Comme nous le verrons par la suite, nous avons t amens enregistrer un corpus de
parole audiovisuelle et avons choisi de cadrer le locuteur en limitant la prise de vue la zone
de la bouche. Cette prise de vue nous a sembl intressante car elle permet de disposer d'une
bonne rsolution au niveau de la bouche et d'en dtecter les mouvements mme s'ils sont
rduits. Cependant, le choix de filmer en gros plan la rgion des lvres n'est pas neutre. Il
impose d'effectuer une localisation approximative de la bouche de faon automatique et
fiable, puis son suivi, non seulement dans des conditions de laboratoire, mais galement pour
des environnements plus variables, ce qui nous a amen une tude bibliographique de
faisabilit. En effet, la localisation de visages est le sujet de nombreuses tudes car les
applications ces recherches sont nombreuses : en plus de la reconnaissance automatique de
parole audiovisuelle qui est notre principal centre d'intrt, ces recherches s'appliquent la
reconnaissance automatique du locuteur et, plus gnralement, la vrification d'identit
partir du visage sans que le sujet ne parle (domaine de la biomtrie).
30
Chapitre 2. La reconnaissance visuelle de la parole
l'exception des travaux de (Shdaifat et al. 2001), qui localisent directement la bouche
d'un locuteur dans une image, la localisation automatique de la rgion de la bouche se
dcompose gnralement en deux tapes : dans un premier temps, le visage est localis dans
l'image, puis une localisation plus prcise de la bouche est effectue sur ce visage. Pour
localiser les visages, deux types d'approches sont utilises : des approches globales qui
considrent le visage comme un tout ayant une apparence particulire, et des approches
par lments qui dtectent un certain nombre d'lments du visage dans l'image, pour le
localiser.
Dans cette section, nous aborderons tout d'abord la question de la localisation de visages
travers des deux approches prcdentes, puis nous passerons en revue quelques systmes de
suivi.
La localisation de visages dans une image revient gnralement tiqueter les points de
l'image suivant deux classes : le(s) visage(s) et le reste de l'image (qui n'est pas
ncessairement uniforme). Dans tous les travaux que nous avons rencontrs pendant notre
tude bibliographique, l'exception de (Dai and Nakano 1996) et de (Yang and Waibe 1996),
qui traitent des images contenant trois visages, ainsi que dans (Senior 1999) o, grce la
multi-rsolution, des visages d'chelles diffrentes peuvent tre localiss, cette tche est
ramene une segmentation de l'image en deux zones : le visage et le fond, les images traites
ne contenant qu'un seul visage. Ceci peut sembler tre une limite, mais dans la pratique, les
images sur lesquelles il est possible d'tudier les mouvements des lvres du locuteur rentrent
gnralement dans ce cadre contraint.
Plusieurs approches ont t tudies : (Benot et al. 1998) les sparaient en deux
catgories principales, celles utilisant la couleur, et celles reposant sur la dtection d'lments
du visage. Cette catgorisation peut tre lgrement affine : nous proposons d'tudier le
fonctionnement de mthodes de dtection de visages reposant dans un premier temps sur une
utilisation de la couleur avec des contraintes dfinies a priori par les auteurs, puis dfinies
statistiquement. Par la suite, nous examinerons quelques approches reposant sur la dtection
d'lments faciaux. Enfin, nous verrons brivement que l'information dynamique
(mouvement) peut galement tre utilise. Nous constaterons cette occasion que de
nombreux systmes utilisent une combinaison des diffrentes approches.
31
Chapitre 2. La reconnaissance visuelle de la parole
Dans cette premire partie, nous allons passer en revue quelques mthodes de localisation
de visages utilisant l'information couleur sous des formes varies et bases sur des critres a
priori. Les chercheurs faisant appel ces mthodes utilisent un espace couleur particulier
permettant de faire ressortir l'information de teinte et dterminent des valeurs de seuils pour
sparer les zones de peau du reste, empiriquement, partir d'exemples.
Sobottka et Pitas (1996) utilisent l'espace de reprsentation couleur (H, S, V) et
segmentent l'image en rgions en la filtrant (passe-bande) en fonction des informations de
teinte (H) et de saturation (S). Les pixels i retenus ont une saturation telle que 0.23 Si 0.68,
et une teinte telle que 0o Hi 50o. Des rgions sont formes, puis combines partir des
points candidats. Ce premier filtrage laisse passer de nombreux faux-positifs. Le visage
ayant une forme approximativement elliptique, pour dterminer la zone la plus vraisemblable,
des ellipses sont utilises pour diminuer nouveau le nombre de zones (de visage) candidates.
Enfin, des lments faciaux (yeux et bouche, dcrits par les auteurs comme des zones
sombres) sont recherchs en utilisant l'information d'intensit. En fonction des lments
trouvs et de leurs positions relatives l'intrieur de la rgion candidate, le visage et la
position de ces lments seront localiss.
Ramos Snchez (2000), de faon relativement similaire, utilise l'information couleur pour
localiser le visage en approximant sa forme par une ellipse (voir figure 2.1). L'espace couleur
utilis est le plan de chromaticit (r; v) qui correspond l'espace (R, V, B) normalis par
l'intensit totale (R + V + B) :
. . .
= , = , = (2.1)
++ ++ ++
o le facteur k = 3 pour Ramos Snchez qui divise les composantes couleur par la moyenne
++
des trois composantes , alors que gnralement k = 1 (division par la somme des
3
composantes (R + V + B). La troisime composante normalise b n'est pas utilise car elle est
redondante et peut se dduire des deux autres :
+ + = . (2.2)
Dans cette reprsentation, les points du visage se regroupent dans une zone rduite du
plan (r, v), et la dcision d'appartenance ou non au visage est faite suivant un critre de
32
Chapitre 2. La reconnaissance visuelle de la parole
distance une valeur centrale. L'auteur indique avoir test un modle gnrique de la couleur
de la peau construit partir de 100 images de diffrents sujets de la base XM2VTSDB
(Messer et al. 1999), mais que les rsultats taient assez logiquement moins prcis qu'en
utilisant des modles de la couleur spcifiques aux locuteurs.
Figure 02.1 Image couleur en entre (a), pixels candidats pour appartenir au visage et localisation.
Duchnowski, dans des travaux plus anciens (Duchnowski et al. 1995), proposait dj
d'utiliser la couleur dominante des visages pour les localiser, grce un classificateur de
couleur de visages bas sur les travaux de Hunke (Hunke 1994; Hunke and Waibel 1994), le
FCC (Face Color Classifier, voir figure 2.2). Pour dterminer si un pixel de l'image a une
couleur qui correspond la peau du visage ou non, un modle gnral de la couleur de visages
(GFCC) a t obtenu en utilisant une image contenant des portions de peau de 30 visages de
diffrentes couleurs (asiatiques, noirs et blancs). Les valeurs (R; V;B) des pixels de l'image
ont t projetes dans le plan de chromaticit (r; v) et un histogramme 2D a t calcul pour
mesurer la frquence d'occurrence de chaque couleur. Les occurrences les plus leves se
regroupent dans une portion rduite du plan (r; v) et un rectangle est dtermin autour de cette
zone (l'auteur ne prcise pas comment). Pour la classification, les pixels i l'intrieur du
rectangle, c'est--dire ceux pour lesquels rmin ri rmax et vmin vi vmax o (rmin, vmin) sont les
coordonnes du coin suprieur gauche du rectangle et (rmax, vmax) celles du coin infrieur droit,
sont considrs comme appartenant au visage et les autres comme appartenant au fond. Ceci
fournit de nombreux faux-positifs qui peuvent tre limins en utilisant le mouvement (les
zones immobiles peuvent tre limines), puis, pour les faux-positifs restants, l'information
gomtrique (forme des objets), modlise l'aide de rseaux de neurones, est utilise pour
liminer par exemple les mains et bras et ne conserver que les bons candidats. Aprs une
premire dtection avec le modle gnral GFCC, un modle de la couleur du visage
33
Chapitre 2. La reconnaissance visuelle de la parole
individuel (IFCC) est calcul et utilis. Il peut tre r-estim rgulirement pour rendre la
dtection du visage robuste aux changements de l'environnement.
(a) Image traiter (couleur) (b) Rgions de visage (en blanc, fond)
Figure 02.2 Dtecteur de visage de Hunke et Duchnowski bas sur la couleur (FCC) : (a) Image
couleur analyser et rgion utilise pour entraner le modle (IFCC) de couleur du visage, (b) Sortie
du FCC : en blanc, les zones de non-visage , d'aprs (Duchnowski et al. 1995; Hunke and Waibel
1994).
Senior (Senior 1999; Neti and Senior 1999) utilise galement une segmentation base sur
la couleur. Dans l'espace de reprsentation couleur (H, C, I), il utilise des seuils minimaux et
maximaux sur ces trois composantes pour classifier les pixels comme peau ou non-
peau (voir figure. 2.3). Il utilise notamment comme bornes pour la teinte -90o Hi 90o. Le
calcul des bornes sur les autres composantes est dtaill dans (Senior 1999).
Figure. 2.3 Une scne complexe (a) et sa classification en tons peau (b), d'aprs (Senior 1999).
34
Chapitre 2. La reconnaissance visuelle de la parole
Pour reprer plusieurs visages ou des visages de tailles diffrentes dans une image, Senior
propose une approche multi-rsolution en utilisant une pyramide d'images (l'image initiale r-
chantillonne des rsolutions infrieures) et considre chaque zone rectangulaire de m n
pixels comme un candidat visage F. Les images de niveaux successifs dans la pyramide sont
3
rduites d'un facteur de 2 et la plus petite contient au moins m n pixels. Chaque rgion F
est value en comparant un seuil son nombre de pixels de peau selon les bornes
utilises dans l'espace (H, C, I). Quand des rgions F sont retenues comme contenant un
visage, elles sont values de faon plus approfondie (scores), et la recherche peut encore tre
affine en utilisant des r-chantillonnages d'images intermdiaires ou des rotations lgres de
l'image.
(Wark and Sridharan 1998) utilisent la composante couleur quotient = propose par
(Chiou and Hwang 1996) pour la dtection des lvres (voir section 2.3.2), pour localiser le
visage du locuteur dans les images du corpus M2VTS (Pigeon and Vandendorpe 1997). Plus
prcisment, les valeurs Qi de chaque pixel i sont telles que :
(2.3)
Si Qi est comprise entre ces deux bornes, le pixel i appartient au visage, sinon, il fait partie du
fond (qui est uniforme dans M2VTS).
Les auteurs ont dtermin manuellement partir d'exemples, les valeurs des seuils Qbas = 1.2
et Qhaut = 1.45 et ces valeurs semblent convenir pour les 37 locuteurs du corpus M2VTS. Les
pixels solitaires du fond tiquets tort comme faisant partie du visage sont supprims
l'aide d'une opration morphologique (ouverture). L'application de ce traitement une image
de M2VTS (Figure. 2.4a), est illustre dans la figure 2.4b.
35
Chapitre 2. La reconnaissance visuelle de la parole
(Dai and Nakano 1996) utilisent l'espace de reprsentation couleur (Y, I, Q) qui s'obtient
par combinaison linaire partir des valeurs de base (R, V, B) comme suit :
Dans cet espace, la composante I varie de I = 150 (rouge) I = -150 (cyan) en passant par I =
0 en l'absence de couleur dominante (pixels gris). Les auteurs construisent des images de la
composante I en laissant inchangs les pixels i de l'image pour lesquels 1 Ii 50. Les pixels
ayant des valeurs dpassant le seuil (Ii > 50) sont ramens zro. Les auteurs n'indiquent pas
le traitement rserv aux valeurs ngatives, mais on peut supposer qu'elles sont galement
ramenes 0. Les images sont ensuite filtres (moyennes) et le visage est repr par simple
seuillage de cette image. De faon plus prcise, ce travail (Dai and Nakano 1996) tudie la
localisation de visages faible rsolution (typiquement 20 20 pixels) dans des scnes
complexes, en utilisant des textures (SGLD : Space Gray-Level Dependence matrix).
L'utilisation de la couleur est vue par les auteurs comme un prtraitement qui a pour but de
supprimer les zones qui pourraient par la suite tre dtectes tort comme des visages par la
SGLD. Un point faible de ce travail, soulign par les auteurs eux-mmes, est qu'il est ddi
la teinte de peau asiatique et qu'en l'absence de tests pour d'autres types de couleur de peau, il
n'est pas possible de mesurer sa gnricit.
36
Chapitre 2. La reconnaissance visuelle de la parole
particulier de la localisation de visages, l'objet visage est approxim par une ellipse (sans
rotation). Les auteurs proposent galement d'utiliser cette mthode pour segmenter les lvres
du reste du visage, ceci sera abord plus en dtail dans la section 2.3.2. L'approximation
initiale est ralise en utilisant un modle du visage et du fond appris sur une seule image d'un
autre sujet. Ce modle est utilis sur l'image segmenter. Un seuil lev assure que
l'estimation initiale est entirement contenue dans le visage localiser. Puis les modles du
visage et du fond sont r-estims en fonction de la zone trouve sur l'image de ce nouveau
sujet. La zone initiale est modifie en fonction de ces nouvelles estimations du visage et du
fond. Une bonne localisation du visage est obtenue aprs quelques itrations. Pour la
modlisation, un mlange de deux gausiennes (2 GMM) avec matrice de covariance complte
est utilis pour chaque modle ( visage et fond ). Cette technique n'est utilisable qu'avec
des images ne prsentant qu'un seul visage, sinon la convergence n'est pas assure. De plus,
selon les auteurs, le rsultat dpend de faon importante de l'initialisation, et pour utiliser cette
technique sur des locuteurs quelconques exposs des clairages diffrents, il faudrait
constituer un modle gnral de l'apparence d'un visage.
(Brunelli and Poggio 1993) localisent tout d'abord les yeux en utilisant la corrlation
entre l'image analyser et une imagette d'il droit et gauche. La bouche, le nez et les sourcils
sont ensuite localiss en utilisant le gradient spatial horizontal et vertical ainsi que les
connaissances anthropomtriques standard a priori (voir figure. 2.5a). Les auteurs proposent
galement, dans cet article, d'utiliser la corrlation d'imagettes modles des yeux, du nez et de
la bouche avec l'image (template matching), pour localiser ces diffrents lments (voir
figure. 2.5b). Les rsultats obtenus en termes de reconnaissance d'identit sont de l'ordre de
90% en reprant les lments avec le gradient spatial et de l'ordre de 100% avec l'approche
template matching . Cependant la corrlation est plus coteuse en temps de calcul que
l'utilisation du gradient spatial.
Enfin, (Malasn et al. 2002) suivent des visages en temps rel avec une approche
connexionniste, l'aide de dispositifs lectroniques ddis (des FPGA). Un apprentissage
supervis de l'apparence est effectu avec des imagettes des visages de deux sujets en basse
rsolution (40 32), sous-chantillonns quatre fois horizontalement (1032), avec un rseau
de neurones. Les sujets sont ensuite correctement localiss (dans le meilleur des cas 98,2%),
dans quatre squences de 256 images. Notons toutefois que ces images sont filmes avec la
mme camra dans une pice avec peu de variation de luminosit.
37
Chapitre 2. La reconnaissance visuelle de la parole
(a) lments localiss automatiquement (b) lments localiss avec l'approche template
matching
Figure. 2.5 Localisation de diffrentes rgions de visage (a) automatiquement (b) en utilisant
l'approche template matching , daprs (Brunelli and Poggio 1993).
Dans ce travail nous nous nintressons pas la mise au point d'un systme de
localisation et de suivi de visages. Cette tude bibliographique avait pour but de dterminer la
faisabilit, d'une part de la localisation approximative de la zone contenant la bouche (bas du
visage), et d'autre part du suivi en temps rel d'un locuteur pralablement localis. Une
recherche bibliographique montre quon peut presque supposer qu'il est envisageable d'obtenir
des images o la bouche du locuteur est toujours cadre de manire identique, mme si le
locuteur bouge. Toutefois, si un certain nombre des techniques prcdemment exposes sont
utilisables dans le cadre que nous souhaitons tudier o le locuteur n'est pas prpar, le fond
non obligatoirement uniforme, l'clairage naturel et les problmes d'ombre, les performances
que l'on est susceptible datteindre risquent de diminuer. En effet, les approches par lments
peuvent tre sensibles un fond non-uniforme qui pourra crer de nombreux faux candidats.
Les approches couleur peuvent galement voir leurs performances diminuer si l'on ne contrle
pas l'clairement comme l'explique Hunke (1994).
Cependant, mme diminues, les performances de localisation et de suivi de visage
devraient rester suffisantes. Les approches utilisant un apprentissage statistique de la couleur
(ou plus gnralement de l'apparence globale) du visage et une dtection d'lments
l'intrieur de ce visage nous semblent les mieux adaptes. Le systme de (Senior 1999) par
38
Chapitre 2. La reconnaissance visuelle de la parole
exemple a t utilis avec succs par (Neti and Senior 1999; Potamianos et al. 2000) dans un
cadre d'utilisation proche de celui que nous souhaitons tudier.
Comme nous l'avons signal au dbut de ce chapitre, deux types d'informations sont
extraits d'images de locuteurs non maquills, pour la reconnaissance automatique de parole
audiovisuelle : des informations image de bas niveau et des informations modle de
haut niveau. En ralit, il existe galement des travaux adoptant une approche mixte qui
extraient des images, des informations sur les valeurs de niveaux de gris de pixels le long de
segments (profils) dtermins en utilisant des modles.
Nous allons prsenter dans cette section le type d'informations visuelles qui sont utilises
en lecture labiale automatique ou en AVASR dans les systmes adoptant une approche
image (section 2.2.2), puis dans les systmes adoptant une approche modle (section
2.2.3) et enfin dans les systmes adoptant une approche mixte (section 2.2.4). La grande
majorit de ces travaux ncessite d'avoir pralablement localis la bouche de faon assez
prcise pour rduire l'tendue des images traiter, et nous allons donc commencer par
prsenter comment cette localisation prcise peut tre obtenue dans la partie suivante.
39
Chapitre 2. La reconnaissance visuelle de la parole
des lvres. Pour les approches utilisant la couleur, il est possible de travailler sur un modle
de la couleur des lvres comme il tait possible de travailler sur un modle de la couleur de la
peau. Pour les approches statistiques, on peut tenter d'effectuer un apprentissage de
l'apparence des lvres comme pour le visage.
Nous allons donc prsenter dans cette partie des techniques utilises pour localiser
finement la bouche. Certaines servent dfinir la ROI utilise pour les approches image .
D'autres visent dtecter prcisment les contours des lvres pour calculer par la suite des
paramtres labiaux gomtriques (mesures de distances) ou de surfaces. Pour passer en revue
les diffrentes possibilits, nous allons suivre un plan comparable celui utilis pour la
localisation de visages en commenant par les approches couleur et statistique, en continuant
avec celle utilisant la corrlation avec des patrons (template matching) et en terminant par
l'utilisation de l'information temporelle.
0 2
= 1 0 = 0 , (2.5)
2
1
o = 8 2 = , permet d'indiquer la slectivit du filtre. L'image filtre peut tre bruite et
4
l'auteur propose d'utiliser un filtrage passe bas (moyennage) pour faire disparatre les pixels
aberrants (voir figure 2.6b). Pour enfin reprer la bouche, un sous-chantillonnage de l'image,
puis un seuillage simple est utilis : les pixels de niveaux de gris HFi * 255 244 sont
considrs comme les lvres (voir figure 2.6c).
40
Chapitre 2. La reconnaissance visuelle de la parole
(a) Image traiter (couleur) (b) Teinte filtre (c) Dtection des lvres
Figure. 2.6 Localisation des lvres en utilisant la teinte H, d'aprs (Coianiz et al. 1996).
(Vogt 1996; Vogt 1997) propose galement d'utiliser l'espace de reprsentation couleur
(H, S, I). Il utilise une combinaison de critres dtermins manuellement partir d'images
exemples, sur les composantes teinte H et saturation S. Ceci est cod dans une LUT (Look-Up
Table), qui convertie l'image analyser en une image permettant d'extraire les lvres. Cette
image est filtre (Sobel) pour dtecter les contours. Le contour externe des lvres est
finalement localis l'aide d'un modle des lvres (polygone) qui est plac sur l'image de
contours (voir figure 2.6c).
(Chan et al. 1998) utilise galement les informations de teinte H et de saturation S, mais
calcules sur l'image sous-chantillonne huit fois. Des seuils haut et bas sur les composantes
H et S permettent de dterminer les pixels de lvres. La plus grande zone de pixels de lvres
connects est utilise comme premire estimation de la bouche.
Pour localiser les lvres dans l'espace (R; V; B), Chiou et Hwang (1996) proposent
d'utiliser le quotient Q = et d'appliquer un simple seuillage haut et bas de la valeur de ce
quotient (voir eq. 2.3). Les pixels compris entre les bornes Qbas et Qhaut appartiennent aux
lvres et les autres au fond. Notons que le locuteur est clair l'aide d'une lampe de 60 Watts
et que les auteurs indiquent que le systme est dpendant du locuteur.
(Wark and Sridharan 1998) utilisent cette approche pour plusieurs locuteurs, les valeurs
des seuils Qbas = 1.7 et Qhaut = 2.0, pour la dtection de la rgion des lvres dans le visage
sur l'ensemble des images du corpus M2VTS (Pigeon and Vandendorpe 1997).
Pour la localisation pralable du visage (Wark and Sridharan 1998) utilisent cette mme
approche (voir section 2.1.1). Une fois la position approximative de la bouche dtecte, de
nouveaux seuils Qbas = 1.5 et Qhaut = 2.2, sont utiliss (figure 2.7b), puis des oprations
morphologiques (une ouverture suivie d'une fermeture, figure 2.7c) sont effectues pour
affiner la localisation et extraire le contour externe. (Gurbuz et al. 2001b; Gurbuz et al. 2001a;
41
Chapitre 2. La reconnaissance visuelle de la parole
Gurbuz et al. 2002) utilisent galement l'approche propose par (Chiou and Hwang 1996), en
ajoutant une tape de filtrage pour diminuer le bruit dans l'image binaire obtenue la place
des oprations morphologiques proposes par (Wark and Sridharan 1998).
Figure. 2.7 Localisation des lvres en utilisant le quotient Q, d'aprs (Wark and Sridharan 1998).
Liew et al. (1999) proposent d'utiliser les espaces couleur (L, A, B) et (L, U, V) de la CIE
(commission internationale de l'clairement). Plus prcisment, chaque pixel est reprsent
par un vecteur de dimension 7 :
avec hueab = arctan , hueuv = arctan , et chromauv = 2 + 2 .
42
Chapitre 2. La reconnaissance visuelle de la parole
Pour les approches statistiques, comme nous l'avons dj voqu dans la section 2.3.2.1,
l'espace de reprsentation (couleur) idal pour sparer les lvres du reste du visage sera
dtermin statistiquement partir d'exemples, au lieu d'tre dtermin a priori.
Pour la localisation de la bouche dans le visage, (Rao and Mersereau 1995) proposent
d'utiliser la mme approche statistique que celle qu'ils adoptent pour localiser le visage dans
une scne complte (voir section 2.3.1.2). Le modle de la bouche est constitu de deux arcs
de parabole contenus dans un rectangle. Les modles statistiques d'apparence de la bouche et
du fond sont appris sur une seule image tiquete manuellement. Les rsultats prliminaires
obtenus sur une squence d'un locuteur unique semblent corrects, voir figure 2.9. On peut
notamment remarquer sur cette illustration que l'intrieur de la bouche ouverte est
correctement reconnu, mais aucun rsultat o les dents sont visibles n'est prsent, ce qui
limite l'valuation d'une telle approche. Enfin, les auteurs indiquent que le contour interne
pourrait galement tre dtect par cette mthode en considrant comme objet , l'intrieur
de la bouche et comme fond , les lvres.
Pour la localisation prcise du contour externe des lvres, (Chan et al. 1998) utilise une
transformation linaire des composantes (R, V, B) de chaque pixel i :
= . + . + . . (2.7)
43
Chapitre 2. La reconnaissance visuelle de la parole
Figure. 2.9 Dtection des lvres d'aprs (Rao and Mersereau 1995).
partir de l'image composite C (voir figure 2.10c), le contour externe des lvres est
recherch en utilisant un modle de forme spcifique au locuteur, la multi-rsolution (des
sous-chantillonnages successifs de l'image) et le gradient spatial. Revret (1999), ainsi que
(Nefian et al. 2002), utilisent galement une image composite C. Les coefficients , et
sont obtenus par analyse discriminante linaire utilisant des images du visage et de la bouche
segmentes manuellement. Une image binaire des lvres est ensuite obtenue par seuillage et
permet la dtection du contour externe des lvres.
(Wojdel and Rothkrantz 2001a; Wojdel and Rothkrantz 2001b) reprent les lvres en
utilisant soit l'approche couleur propose par (Coianiz et al. 1996), soit une approche
statistique base sur l'utilisation d'un rseau de neurones d'architecture trs simple R 3,5,1. Les
auteurs indiquent que dans certaines conditions, l'approche de Coianiz ne permet pas de
segmenter efficacement les lvres du reste de l'image et proposent deux alternatives. La
premire rside dans l'utilisation conjointe de la teinte filtre et de l'intensit filtre, dans les
deux cas l'aide d'un filtre parabolique qu'il est prfrable d'adapter aux images traiter. La
position centrale (quivalent du paramtre H0 de l'eq. 2.5) et la slectivit du filtre (w) doivent
alors tre rgles et il faudra choisir comment utiliser conjointement les informations de teinte
et d'intensit filtres. Les auteurs proposent d'effectuer de manire automatique les rglages
en demandant aux utilisateurs de leur systme de dsigner ( l'aide de la souris) leurs lvres
sur la premire image acquise de leur visage. La seconde alternative rside dans l'utilisation
de la zone marque par l'utilisateur pour tiqueter l'image et entraner un rseau de neurones
la tche de classification entre les classes lvres et non-lvres . Le perceptron
multicouches utilis contient trois entres pour les valeurs R, V et B de chaque pixel, une
couche cache de cinq nuds et une sortie comprise dans l'intervalle [0,1] indiquant si le pixel
couleur en entre appartient plutt aux lvres (valeurs proches de 0) ou au reste (valeurs
44
Chapitre 2. La reconnaissance visuelle de la parole
proches de 1). Les rsultats de classification obtenus l'aide du modle neuronal sont, d'aprs
les auteurs, lgrement suprieurs ceux obtenus avec la teinte (qui est plus bruite), comme
l'illustre la figure 2.10.
(a) Image initiale (b) Teinte filtre (c) Sortie du rseau de neurones
Figure 2.10 Dtection des lvres d'aprs (Wojdel and Rothkrantz 2001a; Wojdel and Rothkrantz
2001b).
Enfin, (Luettin et al. 1996a; 1996b ; 1996c; 1996e; 1996f; Luettin and Thacker 1997)
dtectent prcisment les contours interne et externe des lvres l'aide de modles de la
forme et de l'apparence des lvres appris statistiquement partir d'images tiquetes
manuellement sur le corpus Tulips1 (Movellan 1995). Il utilise des images en niveaux de gris
et extrait, partir des contours matrialiss par des polygones, le profil en niveaux de gris
perpendiculaire au contour, pour chacun des sommets de ses polygones. Les profils
correspondants tous les points de contour sont alors concatns et les vecteurs globaux ainsi
obtenus pour de nombreuses images, sont analyss par lAnalyse en Composantes Principales
(ACP) pour obtenir l'apparence moyenne de la bouche ainsi que ses principales variations
d'apparence. La localisation de la bouche se fait par minimisation du modle de la forme et de
l'apparence des lvres. Signalons galement que cette mme approche est utilis sur le corpus
M2VTS (Pigeon and Vandendorpe 1997) dans (Luettin 1997a; 1997b; Luettin and Dupont
1998; 2000). Les images couleurs de ce corpus sont converties en niveaux de gris pour tre
utilises.
Nous avons rencontr une approche o, l'instar des travaux de (Brunelli and Poggio
1993) qui reprent diffrents lments du visage en recherchant le point de meilleure mise en
45
Chapitre 2. La reconnaissance visuelle de la parole
correspondance d'imagettes de ces lments sur l'image, la bouche tait localise de faon
relativement prcise par une approche template matching .
(Shdaifat et al. 2001) localisent directement la bouche sur une image prsentant un visage
complet avec un fond non-uniforme, en utilisant la corrlation entre une image de bouche
moyenne et l'image analyser. Dans un premier temps, les auteurs constituent par
inspection visuelle, des classes des diffrentes formes de bouche susceptibles d'tre
rencontres (vismes). Puis des images reprsentatives de ces cinq vismes sont moyennes
pour obtenir une image de bouche moyenne utilise pour localiser la bouche sur l'image.
Les auteurs reconnaissent que des lments du visage autres que la bouche peuvent tre
dtects tort (yeux notamment) et proposent de raffiner la recherche en calculant la
corrlation entre des imagettes des commissures droite et gauche de la bouche, du mme
locuteur, et les zones de l'image analyser o le coefficient de corrlation dpasse un seuil.
Les commissures sont ainsi localises et leur position sert de rfrence pour normaliser
l'image en rotation et en chelle. L'image de la zone de la bouche normalise est finalement
compare aux images des cinq vismes pour sa classification. Des exprimentations de cette
mthode ont t effectues pour quatre locuteurs, et les taux de classification correcte obtenus
varient de faon trs importante selon le locuteur et la gnralisation de ces travaux mono-
locuteur un cadre multi-locuteurs ne nous semble pas vidente.
(Leroy and Herlin 1995; Leroy et al. 1996a), dont nous avons dj voqu les travaux
dans la section sur la localisation de visage (section 2.3.1), propose d'utiliser le gradient
spatiotemporel (voir figure 2.10), calcul sur une trentaine d'images, pour dtecter la position
de la bouche. Plus prcisment, la bouche est dfinie dans l'approche de Leroy comme la zone
de fort gradient spatio-temporel la plus basse situe le long de la mdiatrice du segment des
yeux. Selon l'auteur, la localisation de la bouche n'est pas trs prcise et dpend du
mouvement qu'elle a eu pendant la squence d'images tudies.
Broun et al. (2002) utilisent galement la diffrence inter-images combine la couleur
pour localiser la bouche d'un sujet en train de parler. Ils se distinguent de (Livin and Luthon
1999), en utilisant l'accumulation des diffrences inter-images sur une squence de 30 images.
Les diffrences inter-images sont calcules pixel pixel sur la composante rouge, puis elles
sont sommes et seuilles pour obtenir une image binaire faisant ressortir les zones en
mouvement. Cette observation de mouvement est combine (oprateur ET), avec une image
46
Chapitre 2. La reconnaissance visuelle de la parole
(Matthews et al. 1996a) voque la possibilit de localiser la rgion des lvres dans une
image de visage en utilisant des transformations morphologiques simples, mais sans donner
plus de dtails. Une fois que l'on a localis prcisment les lvres, il est possible d'extraire les
informations visuelles. Dans la plupart des travaux que nous avons rencontrs, ces
informations sont exclusivement labiales. Deux types bien distincts d'informations sont
extraites des images: des informations de bas niveau extraites par des transformations des
valeurs de niveaux de gris des pixels de l'image et des informations de haut niveau
correspondant des mesures obtenues l'aide de modles.
(Gray et al. 1997a) utilisent le corpus Tulips1 (Movellan 1995), qui contient 934 images
en niveaux de gris. Chaque image est normalise en translation, chelle et rotation (dans le
plan image) grce l'tiquetage ralis par (Luettin et al. 1996f), puis les parties gauche et
droite de l'image sont rendues symtriques. Les images rsultantes sont de rsolution 87 65
et diffrentes stratgies de rduction de la dimension (5655) de ces vecteurs visuels sont
tudies : l'analyse en composantes principales en retenant les 50 premiers vecteurs propres
(PCA 50), l'analyse en composantes indpendantes (ICA 50), ainsi que d'autres approches par
PCA et ICA locales. Les rsultats suggrent que l'utilisation des approches locales est plus
efficace que les approches globales (Gray et al. 1997a).
Matthews et al. (1996a) calculent partir d'images de la zone des lvres de 80 60,
obtenues en cadrant manuellement la bouche dans des images de visage complet de rsolution
376 288, la transformation morphologique sieve . Cette transformation cr des triplets
47
Chapitre 2. La reconnaissance visuelle de la parole
48
Chapitre 2. La reconnaissance visuelle de la parole
Une DCT est applique cette image et les 24 coefficients de plus forte nergie sont
retenus pour former le vecteur visuel statique. Pour obtenir le vecteur d'observation visuelle
final, une interpolation linaire est utilise pour modifier la cadence des vecteurs de 60 100
Hz, puis 15 vecteurs statiques conscutifs sont concatns (7 avant + 7 aprs). Les vecteurs de
dimension 15*24 = 360 sont rduits 41 dimensions par projection aprs LDA+MLLT. Le
vecteur visuel final est alors concatn au vecteur acoustique de dimension 60 obtenu suivant
un procd similaire pour former l'observation audiovisuelle. Ce dernier vecteur (de
dimension 101) subit galement une rduction de dimension par LDA+MLLT, pour
finalement atteindre 60 coefficients.
Enfin, la dernire catgorie que nous allons voquer est celle des systmes qui ne
supposent aucune prparation du locuteur et qui ne ncessitent pas non plus d'quipement ou
de posture spcifique : l'acquisition des images est effectu l'aide d'une camra qui filme le
locuteur de face.
Ce sont les systmes les plus libres du point de vue de l'utilisateur, mais ce sont
galement ceux pour lesquels l'extraction des paramtres labiaux est la plus problmatique.
Aux difficults dj rencontres dans les systmes sans prparation du locuteur, mais avec
prise de vue ou dispositif d'acquisition particulier prsents dans la section prcdente,
viennent s'ajouter les problmes de cadrage et d'clairage : l'clairage peut ne pas tre optimal
et le locuteur peut se dplacer pendant qu'il parle, ce qui peut galement faire varier
l'clairement.
Les systmes de ce type peuvent tre utiliss dans des cadres applicatifs plus vastes que
les systmes prsents dans la partie prcdente. Si de tels systmes atteignaient un bon
niveau de fiabilit, ils seraient mme utilisables dans la plupart des situations, dans la mesure
o la prise de vue de face est trs largement rpandue dans lexistante et relativement facile
obtenir pour de nouvelles application. En tlvision par exemple, la vue de face est utilise
pour les journaux tlviss, mais galement pour d'autres types d'mission. Dans le cas
d'indexation par le texte d'archives audiovisuelles ayant un canal acoustique dgrad, il serait
envisageable d'employer un tel systme de AVASR. Pour des applications comme la dicte
vocale audiovisuelle ou l'interaction homme-machine audiovisuelle, la vue de face semble
galement un choix envisageable. Quant la lecture labiale automatique distance effectue
l'insu du locuteur (espionnage) comme celle effectue par l'ordinateur HAL du film de science
49
Chapitre 2. La reconnaissance visuelle de la parole
fiction de Kubrick 2001, l'odysse de l'espace (Kubrick 1968) (voir galement (Stork
1997)), il est fort peu vraisemblable que l'on atteigne ce niveau de performance avant de trs
nombreuses annes (s'il est possible de les atteindre un jour). En effet, mme dans des
conditions favorables, le canal visuel porte une information moindre que le canal acoustique
et une application de lecture labiale grand vocabulaire n'est pas l'ordre du jour. De plus, pour
un tel type d'application, il sera difficile d'obtenir une image d'une rsolution suffisante pour
tre utilise, car certains mouvements labiaux ont une amplitude de l'ordre de quelques
millimtres comme l'indique (Lallouache 1991) en prcisant que les systmes d'extraction de
paramtres doivent fournir des mesures dont la prcision doit tre de l'ordre du demi-
millimtre !
Comme pour tous les systmes voqus prcdemment, il faut pouvoir grer la grande
variabilit intra-locuteur d'apparence et de forme de la bouche pendant la production de
parole, mais la tche d'extraction de paramtres devient largement plus complexe qu'avec les
autres systmes utilisant l'image du locuteur, car le gradient spatial entre les lvres et la peau
peut tre quasiment inexistant, en particulier pour la lvre infrieure17. Si l'on n'emploie pas
des mthodes robustes, la dtection de ce contour risque d'tre trs hasardeuse. Si l'clairage
n'est pas constant, l'intensit moyenne de l'image variera. Ceci peut se corriger pour partie en
effectuant une normalisation comme le propose (Vanegas et al. 1998), mais si l'clairage n'est
pas uniforme ou s'il y a des ombres portes, la normalisation globale risque de ne pas tre
satisfaisante et il faudra s'orienter vers des techniques plus sophistiques comme celles
proposes par (Gouet and Montesinos 2002 ; Pinel et al. 2001), ou enfin par (Basso et al.
2001). Si le locuteur est mobile, de possibles problmes de cadrage pourront se poser : ceci
pourra amener cadrer une zone plus large du visage du locuteur et ajoutera potentiellement
des minima locaux (nez, fond) dans les recherches de contours. Si de plus, l'clairage arrive
du dessus, il est vraisemblable que des ombres portes apparaissent (sous le nez et la bouche),
ce qui peut rduire le gradient spatial entre la lvre infrieure et la peau, et augmenter encore
la difficult de localisation du contour externe de la lvre infrieure. Dans le cas le plus
dfavorable, clairement artificiel du dessus et clairement externe variable avec un locuteur
mobile, des conditions qui sont pourtant celles de nombreux postes de travail, toutes les
sources d'erreurs s'ajoutent et il faudra des modles trs robustes pour extraire les paramtres
labiaux avec une qualit suffisante pour qu'ils soient utilisables pour lAVASR. Il n'y a pas
notre connaissance de systmes qui aient t valus dans des conditions aussi dfavorables.
En pratique, les diffrents systmes qui ont t prsents dans ce chapitre ont t btis ou
tests partir de corpus et il n'y a pas de corpus enregistr dans ces conditions. Le seul corpus
50
Chapitre 2. La reconnaissance visuelle de la parole
qui corresponde une lumire variable est, notre connaissance, celui que nous avons
enregistr pour les besoins de nos recherches en utilisant la lumire solaire ambiante, mais
l'clairement y est diffus et il n'y a d'ombres trs marques.
L'valuation de chaque systme tant dpendante de son corpus de test, il nous semble
utile de prsenter rapidement les corpus de parole audiovisuelle existants.
Les deux approches modle et image ont toutes les deux des avantages et des
inconvnients. En dpit des diffrences videntes entre ces deux approches, une
caractristique quelles partagent toutes les deux est le besoin ventuel dune intervention
manuelle. En effet, on peut intervenir manuellement pour tiqueter des donnes ou dfinir une
rgion dintrt (dhabitude cest la rgion de lvres). Cependant, lutilisation de lune ou
lautre dpend globalement de la difficult de la mthode, de sa robustesse et de la pertinence
de la paramtrisation visuelle rsultante.
Par ailleurs, il existe dans la littrature peu detudes comparant les deux approches. Nous
prsentons ci-dessous trois tudes les comparant :
(Brunelli and Poggio 1993) comparent les performances obtenues par deux techniques
automatiques pour la reconnaissance du visage, partir dimages prises en vue frontale. La
premire technique, quon peut qualifier dapproche image, sappuie sur le calcul dun
ensemble de paramtres gomtriques partir de limage du visage. La seconde technique est
fonde sur une adaptation dun modle du visage sur limage relle (Template Matching). La
comparaison entre ces deux techniques nous semble intressante mme si lobjet traiter dans
ltude tait le visage et non pas seulement la bouche. Elle peut nous livrer certains aspects
utiles pour fonder des arguments sur lutilisation de ces techniques. Les auteurs ont obtenu, en
terme de reconnaissance, des performances suprieures en utilisant la seconde technique
(template matching).
(Matthews et al. 1998) comparent deux techniques diffrentes pour caractriser les
formes de la bouche pour la reconnaissance visuelle de la parole (lecture labiale automatique).
La premire technique extrait les paramtres requis pour adapter un modle actif de forme
(Active Shape Model, ASM) aux contours des lvres. La seconde utilise des paramtres
drivs dune analyse spatiale multi-chelle (Multiscale Spatiale Analysis, MSA) de la rgion
de la bouche. Les rsultats semblent avantager lanalyse spatiale multi-chelle. Ils montrent
que cette technique est plus robuste, rapide et plus prcise. En effet, dans les tests de
51
Chapitre 2. La reconnaissance visuelle de la parole
reconnaissance avec des locuteurs multiples et utilisant seulement les donnes visuelles, la
prcision de reconnaissance des lettres est de 45% pour la mthode MSA et de 19% pour
ASM. Pour reconnaitre des digits, la prcision est la mme pour les deux mthodes (77%).
Cette performance relativement faible de lASM peut tre explique par lincorporation de
connaissances a priori dans la mthode qui peuvent tre inexactes. Le fait de reprsenter le
contour des lvres par un modle simple semble tre aussi trop limite pour diffuser des
informations plus prcises. En gnral, lASM est confront comme toutes les techniques de
lapproche modle des erreurs de modlisation et de capture.
Matthews et al. (2001) comparent, dans une tache de reconnaissance audio-visuelle
continue large vocabulaire, quatre techniques diffrentes de paramtrisation visuelle. Trois
de ces techniques appartiennent lapproche image. Il sagit de la transforme en cosinus
discrte (DCT), la transforme en ondelettes discrte (DWT) et lanalyse en composante
principale (ACP). Ces trois mthodes ncessitent de localiser la rgion de la bouche. La
quatrime technique, utilisant lapproche modle active dapparence (AAM), tente de
modliser le visage entier par un modle dformable de lapparence du visage et inclut un
algorithme de capture. Il est vident a priori quutiliser le visage entier devrait tre bnfique.
Le visage entier peut inclure des caractristiques visuelles supplmentaires qui pourraient tre
utiles et bnfiques la reconnaissance. Toutefois, les rsultats obtenus dans un test de
reconnaissance visuelle de mots semblent contredire cette vidence. Les rsultats
exprimentaux montrent que les performances des mthodes de lapproche image sont
meilleures (en taux derreurs : autour de 59% pour les trois mthodes image vs. 64% pour
lAAM). La mthode AAM est probablement dsavantage par les problmes que rencontrent
toute mthode de lapproche modle, savoir les erreurs dapprentissage du modle.
En rsum, ces quelques comparaisons donnent un petit avantage lapproche image.
Ceci dit, comme nous lavons voqu prcdemment, lapproche modle dpend beaucoup
des algorithmes employs pour lapprentissage du modle. Une amlioration de ces
algorithmes et lincorporation de connaissances a priori qui rendent mieux compte de la
structure de dformation de lobjet considr, augmentera probablement la robustesse de cette
approche.
52
Chapitre 2. La reconnaissance visuelle de la parole
fonctionnent sur une vrit terrain . Dans le cas des modles statistiques a posteriori, appris
partir de donnes, le corpus sert galement construire les modles et il est alors trs
nettement prfrable de scinder le corpus en une portion servant l'entranement, le corpus
d'apprentissage, et une autre, disjointe, servant l'valuation que l'on nommera corpus de test.
L'une des principales difficults matrielles auxquelles les chercheurs en parole audiovisuelle
sont confronts est alors la taille des corpus. Notons galement que plus le corpus
d'apprentissage sera reprsentatif du problme rsoudre, plus les performances des modles
entrans avec devraient tre leves dans des conditions relles. Il semble alors important de
limiter les contraintes imposes au locuteur et sur le contrle de l'clairement pour enregistrer
des corpus dans des conditions que nous qualifierons par la suite de naturelles .
2.7 Conclusion
Nous avons rappelons dans ce chapitre, que linformation visuelle est dun bnfice
important dans le domaine de la reconnaissance audio-visuelle de la parole. Elle est un
vecteur dinformation ncessaire et essentiel dans la comprhension, mme partielle, de la
parole chez les personnes sourdes. Elle porte une partie complmentaire de linformation de
parole perue par les utilisateurs de ce code. La prsentation des informations visuelles doit
tre optimale pour une reconnaissance maximale des gestes visuels. En dautres termes, dans
quelles conditions de prsentation et de visibilit du visage, un systme de reconnaissance
peut-il percevoir (reconnatre) un maximum dinformation de parole ?
Le chapitre suivant est dailleurs consacr la description du signal de parole et nous
prsenterons les diffrents problmes poss lors de son traitement, ainsi les principales
mthodes danalyse du signal de parole pour extraire les paramtres acoustiques qui seront
fournis au systme de reconnaissance.
53
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
De la reconnaissance acoustique la
reconnaissance bimodale de parole 3
Le son est un lment majeur permettant ltre humain dapprhender son
environnement. Il est galement, par le biais de la parole, le vecteur naturel de la
communication humaine. Prsent dans de nombreux documents multimdias, il est, de ce fait,
porteur dune information prcieuse pour leur comprhension.
Le problme de la reconnaissance de la parole est un domaine dtudes actif depuis le dbut des
annes 50. Actuellement les modles les plus utiliss en reconnaissance de la parole sont les modles
de Markov cachs (HMM) et les rseaux de neurones.
La reconnaissance automatique de la parole peut tre base directement sur une comparaison de
formes nouvelles avec des rfrences des mots reconnatre, ou bien sur lidentification dun
ensemble dunits lmentaires (phonmes, diphones, syllabes). Dans le premier cas, il sagit dune
reconnaissance dite globale (approche retenue dans ce travail), dans le second cas dune
reconnaissance dite analytique.
Dans ce chapitre, nous donnons une dfinition rapide de la parole. Nous prsentons
ensuite les grands principes de la reconnaissance automatique de la parole, avant de nous
intresser aux mthodes bimodale de la RAP.
les voyelles sont produites par les vibrations des cordes vocales. Ce sont des sons qui
sont souvent considrs comme quasi-priodiques et pour une configuration quasi
54
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
statique du conduit vocal. Elles peuvent tre nasales ou orales selon que lair passe par
la cavit nasale ou la cavit buccale ;
les consonnes sont elles produites par occlusion totale (consonnes occlusives) ou
partielle (consones fricatives, latrales ou vibrantes) du conduit vocal. Elles peuvent
tre non voises il ny alors pas de vibration des cordes vocales et le son est
essentiellement produit par un bruit (bruit de friction, dexplosion ou de relchement)
ou au contraire voises elles sont alors produites aussi par vibration des cordes
vocales. Les consonnes sont habituellement considres comme des transitions rapides
entre deux voyelles, avec donc une gomtrie du conduit vocal qui varie rapidement.
On peut donc dire que la caractrisation essentielle des consonnes cest la nature du
son, dans leur cas, un son de type bruit ou contenant un bruit ;
les semi-voyelles ont des sons de type voyelle vibration des cordes vocales et sans
bruit mais gnrs pendant une volution rapide de la gomtrie du conduit vocal.
Leur son ne peut donc pas tre considr comme quasi-statique.
Le signal de parole est extrmement redondant. Cette grande redondance lui confre une
robustesse certains types de bruits. De nombreuses recherches sont menes afin de rendre
les systmes de reconnaissance robustes aux bruits, mais les performances humaines sont
encore loin dtre atteintes.
Le signal de parole possde une trs grande variabilit. Une mme personne ne prononce
jamais un mot deux fois de faon identique. La vitesse dlocution peut varier, la dure du
55
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
signal est alors modifie. Toute altration de lappareil phonatoire peut modifier la qualit de
lmission (exemple : rhume, fatigue). De plus, la diction volue dans le temps. La voix est
modifie au cours des tapes de la vie dun tre humain (enfance, adolescence, ge adulte).
La variabilit interlocuteur est encore plus accentue. La hauteur de la voix,
lintonation et laccent diffrent selon le sexe, lorigine sociale, rgionale ou nationale. Un
exemple pertinent de cette variabilit apparat lorsque nous comparons la voix dun locuteur
originaire du Nord avec celle dun locuteur originaire du sud de lAlgrie. Enfin, la parole est
un moyen de communication o de nombreux lments entrent en jeu, tels que le lieu,
lmotion du locuteur, la relation qui stablit entre les locuteurs (stressante ou amicale). Ces
facteurs influencent la forme et le contenu du message. L'acoustique du lieu (milieu protg
ou environnement bruit), la qualit du microphone, les bruits de bouche, les hsitations, les
mots hors vocabulaire sont autant dinterfrences supplmentaires sur le signal de parole.
56
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
Il existe des variantes de ce calcul. L'une des plus utilises ralise une simple somme des
valeurs absolues des amplitudes des chantillons pour allger la charge de calcul, les
variations restant les mmes. D'autres, comme celle de (Taboada et al. 1994) proposent la
modification suivante du calcul intgrant une normalisation par rapport au bruit ambiant.
57
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
Le principe de calcul des MFCC (Mel-scaled Frequency Cepstral Coefficients) est issu
des recherches psychoacoustiques sur la tonie et la perception des diffrentes bandes de
frquences par loreille humaine.
Un vecteur acoustique MFCC est form de coefficients cepstraux obtenus partir dune
rpartition frquentielle selon lchelle de Mel (Bogert et al. 1963) (voir figure 3.1).
Lutilisation dchelles de frquence non-linaires, telles les chelles de Mel (Stevens et al.
1937) ou Bark (Zwicker 1961), permettent une meilleure reprsentation des basses frquences
qui contiennent lessentiel de linformation linguistique pour la majeure partie du signal de
parole. La correspondance entre les valeurs de frquence en Hertz et en Mel est
calcule par (O'Shaughnessy 1987) :
= 2.595. log(1 + ) (3.3)
700
Par ailleurs, il est possible de calculer des coefficients cepstraux partir dune rpartition
frquentielle linaire sans utiliser une chelle de Mel mais en conservant la rpartition linaire
des chelles de frquence. Ces coefficients sont alors appels LFCCs (Linear Frequency
Cepstral Coefficients) (Rabiner and Juang 1993).
Afin de sparer la source spectrale de la rponse frquentielle, lopration de mthode
cepstrale se base sur la proprit du logarithme qui permet de transformer un produit en
addition. Une transforme discrte en cosinus (Discret Cosinus Transform, DCT) permet ainsi
dobtenir les N coefficients cepstraux dsirs (Ahmed et al. 1974). Considrant f la fonction
de transformation spectrale, le kme coefficient cepstral C(k) est donc obtenu par :
2
= +1 . ( 0.5) (3.4)
58
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
Cette analyse a pour avantages un nombre rduit de coefficients par vecteur acoustique et
un faible indice de corrlation entre ces diffrents coefficients. Les coefficients MFCCs sont
rputs plus robustes que ceux issus dune analyse spectrale (Lockwood et al. 1992).
Les coefficients de type MFCC sont souvent associs la valeur d'nergie contenue dans
la trame de signal de parole appele sous le terme de coefficient C(0) (Young et al. 2006). De
surcrot, lutilisation des drives premires et secondes de ces coefficients fournit de
linformation utile sur la dynamique du signal de parole. En effet, linformation
complmentaire apporte par le filtrage temporel introduit par les drives des coefficients
MFCCs permet une plus grande robustesse des paramtres acoustiques dans les systmes de
RAP face lusage des seuls coefficients MFCCs statiques (Yang et al. 2007). Dans ces
conditions, ces paramtres acoustiques prennent souvent la forme de vecteurs de 39
coefficients forms par les 12 premiers coefficients MFCCs, lnergie C(0) (et leurs drives
premires et secondes.
Cette information complmentaire apporte toutefois un complment utile dans la
classification de certaines consonnes (Liu et al. 1997). Par ailleurs, il est possible de r-
synthtiser un message intelligible sur de la parole propre partir dune analyse des seuls
coefficients MFCCs, cest--dire partir des spectres et cepstres en chelle de Mel
(Demuynck et al. 2004). Donc dans le cas de parole propre, un signal dexcitation bas sur
une analyse du pitch est utilis pour cette opration de re-synthse (Collen et al. 2007). Dans
ce cas, linformation initiale de phase nest alors pas utile. Par contre, dans le cas dun signal
de parole bruite, les informations de phase et de rsolution spectrale fine sont trs utiles pour
la bonne reconnaissance des composantes du message linguistique (Murty and
Yegnanarayana 2006).
59
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
Le taux de passage par zro (zero crossing rate en anglais) reprsente le nombre de fois
que le signal, dans sa reprsentation amplitude/temps, passe par la valeur centrale de
l'amplitude (gnralement zro). Il est frquemment employ pour des algorithmes de
dtection de section voise/non voise dans un signal. En effet, du fait de sa nature alatoire,
le bruit possde gnralement un taux de passage par zro suprieur celui des parties
voises.
Le comptage du nombre de passages par zro est trs simple effectuer. Dans un premier
temps, il faut enlever le dcalage d'amplitude (offset en anglais), produit par la majorit des
matriels d'acquisition, pour centrer le signal autour de zro. Ensuite, pour chaque trame, il
suffit de dnombrer tous les changements de signe du signal. Pour liminer certains
phnomnes parasites, (Taboada et al. 94) ont propos une mthode nomme le band-
crossing. Un seuil d'amplitude S permet de dfinir une zone autour du zro de largeur 2xS au
sein de laquelle les oscillations ne sont pas prises en compte. La formule du band-crossing
pour chaque fentre analyse est donc :
1 >
fentre = fen tre 1 = 1 (3.5)
1 <
Cette mesure se montre trs intressante, dans le cadre d'une dtection de parole en amont
d'un systme de reconnaissance, pour la dtection de fricative en fin de signal reconnatre ou
d'attaque de plosive.
Nous n'numrerons pas tous les types de paramtres employs dans le domaine de la
recherche en parole car il y en a normment et ce n'est pas le propos de notre thse. Pourtant,
il est noter que d'autres approches plus proches de l'audition humaine, telles les modles
d'oreille, ont t tudies. De plus, le lecteur trouvera des informations sur diffrents
paramtres trs largement utiliss pour le codage LPC (Linear Predictive Coding) prsent
dans la norme GSM, pour les PLPs (Perceptual Linear Predictive) et pour les RASTA-PLP,
version approfondie des PLP (Laprie 2000). Cette liste ne se veut pas exhaustive mais permet
d'avoir un aperu des diffrents paramtres qu'il est possible d'extraire d'un signal de parole.
60
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
Le but final de l'extraction des paramtres est de modliser la parole, un phnomne trs
variable. Par exemple, mme si elle a de l'importance, la simple valeur de l'nergie n'est pas
suffisante pour donner toute l'information porte par ce paramtre. Il est donc souvent
ncessaire de recourir des informations sur l'volution dans le temps de ces paramtres. Pour
cela, les drives premire et seconde sont calcules pour reprsenter la variation ainsi que
l'acclration de chacun des paramtres. Mme si la robustesse de la reprsentation obtenue
est accrue, cela implique aussi de multiplier par 3 l'espace de reprsentation.
61
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
o Indpendant du locuteur
o Elocution
Le mode dlocution caractrise la faon dont on peut parler au systme. Il existe quatre
modes dlocution distincts :
Mots isols :
Chaque mot doit tre prononc isolment, cest dire prcd et suivi dune pause.
62
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
Mots connects :
Le systme reconnat des squences de quelques mots sans pause volontaire pour les
sparer (exemple : reconnaissance de chiffres connects ou de nombres
quelconques).
63
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
donnes que des leurs traitements. Lintgration de ces points de vue bimodaux suit diffrents
modles sans couvrir cependant de manire complte les modes dinteraction formuls
prcdemment.
Nous avons vu prcdemment comment la parole peut tre considre comme bimodale.
De nombreuses tudes ont t menes pour rendre compte de la manire avec laquelle
interagissent les deux modalits audition et vision pour la comprhension de la parole. Ces
tudes menes tant par des psychologues, linguistes que par des ingnieurs, stendent sur
plusieurs domaines allant de la cognition, aux sciences de lingnieur en passant par la
neurophysiologie.
Ainsi, plusieurs modles ont t proposs. Mentionnons par exemple, le clbre modle
Fuzzy-Logical Model of Perception (FLMP) propos par (Massaro 1987, 1998). Les premiers
travaux se concentraient spcialement sur les architectures de fusion en considrant
arbitrairement des reprsentations internes monomodales (reprsentation visuelle seule et
auditive seule). Sur ces reprsentations, les diffrents travaux consistaient appliquer un
certain nombre de calculs afin de prdire la performance bimodale.
Dans ces tudes, le traitement de la reprsentation des informations des modalits est
souvent nglig. Schwartz et al. (1998); Schwartz (2002), en croisant des modles issus de la
psycho-physique et de la fusion des capteurs, ont class les modles dintgration
audiovisuelle en quatre grandes architectures : (i) modle Identification Directe not ID;
(ii) modle Identification Spare not IS ; (iii) modle Recodage dans la modalit
Dominante not RD; et (iv) modle Recodage commun des deux modalits sensorielles
vers la modalit Motrice not RM.
Pour simplifier la comprhension du systme dintgration audio-visuelle dans la
perception de la parole, nous pouvons le considrer comme une bote qui a en entre deux
flux de nature diffrente (vision et audio) et en sortie une dcision ou un code qui peuvent tre
de nature phontique ou lexicale. Le schma de la figure 3.3 illustre un tel systme.
64
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
Figure 3.3 Le noyau dun processus dintgration audio-visuelle dans la perception de la parole
(daprs Schwartz et al. (1998)).
3.6.1.1 Modle ID
65
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
3.6.1.2 Modle IS
Le modle didentification spare (IS) est fond sur ce que les psychologues cognitifs
appellent intgration tardive du fait que lintgration vient aprs la classification
phontique dans chaque voie sensorielle spare par opposition au modle ID qui est une
intgration prcoce car sappliquant directement aux donnes. Dans le modle IS, les
informations visuelles et auditives sont traites sparment chacune par un classifieur. Puis, la
fusion des rsultats des deux classifieurs dans un module dintgration permet la
reconnaissance du code (voir figure 3.5).
Le modle IS est aussi appel dcision-vers-dcision en rfrence la caractristique de
base de la fusion qui est une fusion de dcisions. Dans ce type de modle, la fusion peut etre
66
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
ralise soit sur des valeurs logiques, linstar du modle VPAM (Vision-Place, Audition-
Manner) dans lequel chaque modalit est en charge dun groupe spcifique de caractristiques
phontiques (distinctives), soit par un processus probabiliste, comme dans le cas du modle
FLMP de Massaro (Massaro 1987, 1998).
Adjoudani et Benot (1995) ont aussi implment le modle IS dans leur systme de
reconnaissance audiovisuelle. Ils ont utilis deux rseaux HMM acoustique et visuel spars.
Dans cette implmentation, chaque modle HMM est entran avec des donnes visuelles ou
acoustiques.
Les deux classifieurs fonctionnent ainsi indpendamment lun de lautre. En test, les
vecteurs dobservations visuels ou acoustiques sont prsents sparment lentre de chaque
modalit. Les auteurs prsentent ensuite trois mthodes pour le module dintgration. La
premire, utilise galement dans dautres tudes de reconnaissance de la parole audiovisuelle
(Movellan and Chadderdon 1996), consiste calculer le maximum des produits des
probabilits conjointes des deux modalits. En dautres termes, lintgration sappuie sur une
slection, pour chaque entit reconnatre (phonme, syllabe, mot ...), dun candidat qui
maximise la vraisemblance dans les deux canaux. Le schma synoptique de la figure 3.6
rsume le processus dintgration suivant ce principe.
Figure 3.6 Modle dintgration bas sur la maximisation des produits des probabilits conjointes
(Daprs Adjoudani (1998)).
67
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
La seconde mthode repose sur une slection du meilleur candidat dune des deux
modalits acoustique ou visuelle selon son degr de certitude (ou confiance). Ce dernier est
valu partir des probabilits de sortie de chaque modle HMM et sert commander un
interrupteur qui slectionne la voie ayant une plus grande certitude dans sa slection. Le
principe de cette mthode ne permet pas de fusionner les donnes provenant des deux canaux.
De ce fait, cette mthode ne peut tre considre comme une architecture dintgration. La
figure 3.7 illustre le principe de cette dernire.
Figure 3.7 Mthode de slection du meilleur candidat acoustique ou visuel (Daprs Adjoudani
(1998)).
Figure 3.8 Architecture dintgration audiovisuelle par pondration (Daprs Adjoudani (1998)).
68
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
3.6.1.3 Modle RD
Dans ce type de modle, les informations visuelles sont codes dans un format
compatible avec les reprsentations de la modalit auditive qui est considre comme la
modalit dominante.
Un tel format peut tre la fonction de transfert du conduit vocal. Cette fonction de
transfert est estime sparment par un module de traitement du signal et par les indices
visuels partir des deux entres auditive et visuelle. Lestimation de la fonction de transfert
peut tre effectue par exemple par association partir de lentre visuelle et par un traitement
cepstral partir de lentre auditive. Les deux estimations sont ensuite fusionnes et
lensemble ainsi obtenu est prsent un classifieur phontique (voir figure 3.9). Il sagit l`a
dune fusion prcoce.
69
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
3.6.1.4 Modle RM
A notre connaissance, seuls Teissier et al. (1999) et Robert-Ribes et al. (1996) ont
propos une implmentation de ce type de modle. Dans limplmentation de Teissier et al.
(1999), qui a pour objectif la reconnaissance de voyelles du Franais, la transformation des
deux entres en reprsentation motrice est ralise par des associations linaires. Les auteurs
ont choisi comme espace moteur des caractristiques articulatoires reprsentes par trois
paramtres qui fournissent les corrlas articulatoires des dimensions darrondissement,
douverture-fermeture et davant-arrire : les coordonnes horizontale et verticale,
respectivement X et Y, du point le plus haut de la langue et ltirement, not A, du contour
interne des lvres. Le rglage des associateurs est obtenu en dfinissant ces trois paramtres
pour chaque voyelle dun corpus dapprentissage.
70
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
Le paramtre A est mesur directement sur lentre visuelle. Par contre, les auteurs ont
utilis comme coordonnes X et Y des valeurs prototypiques provenant dun expert
phontique. La classification est ensuite ralise de la mme faon que pour le modle RD,
cest--dire avec un classifieur Gaussien.
Dans une tache de fusion de deux modalits, un des principaux problmes rside dans le
choix du modle dintgration le plus appropri. Suivant la perspective envisage,
modlisation des processus cognitifs ou reconnaissance de la parole, le modle retenu doit
rendre compte au mieux des donnes au niveau reconnaissance automatique. Dans ce sens,
Robert-Ribs (1995) propose une taxinomie mettant en correspondance les 4 modles
dintgration dcrits prcdemment avec les modles gnraux de la psychologie cognitive
(figure 3.11). Cette taxinomie sorganise autour de 3 questions :
71
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
Parmi les 4 architectures, les modles ID et IS sont ceux qui sont les plus frquemment
utiliss en reconnaissance de parole (Schwartz 2004). Les deux autres modles sont tr`es
rarement implments et ceci malgr le fait quils semblent tre les plus pertinents au regard
des donnes issues de la psychologie exprimentale. Cest prcisment ces donnes qui ont
conduit Schwartz et al. (1998) privilgier le modle RM.
Dans cette sous-section nous passons en revue quelques tudes comparant les quatre
architectures dintgration.
3.6.3.1 ID vs. IS
Adjoudani (1998) rapporte plusieurs tudes menes dans le domaine de la reconnaissance
audiovisuelle de la parole, parmi lesquelles Robert-Ribs (1995); Movellan et Chadderdon
(1996), comparant les deux modles IS et ID. Il conclut que la grande partie de ces tudes
semblent avantager le modle IS (Duchnowski et al. 1995; Robert-Ribs et al. 1996 ; Silsbee
et Su 1996) tout en notant le statut quo entre ces deux modles relev dans dautres tudes
(Jourlin 1996 ; Silsbee et Su 1996). Lauteur a aussi procd, en tenant compte des rsultats
de ces tudes comparatives, un regroupement des avantages () et des inconvnients ()
de chacun de ces deux modles.
Modle ID
72
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
Modle IS
Ncessit dun corpus moins important pour lapprentissage que pour le modle ID grce
au traitement spar de chaque modalit.
Les deux modalits ne demandent pas forcment davoir la mme architecture de
reconnaissance.
Le modle sapproche plus des hypothses faites sur la perception audiovisuelle (Robert-
Ribs 1995; Massaro 1996).
Capable de traiter lasynchronie: par exemple dans le cadre dun mot entre son tat initial
et final.
Le module dintgration peut tre complexe et dpendant du corpus.
Aprs avoir compar les modles IS et ID, Adjoudani (1998) a implment, comme nous
lavons vu prcdemment dans la section prcdente, ces deux modles et en a compar les
performances dans une tache de reconnaissance audiovisuelle de la parole avec un niveau de
bruit variant sur lentre auditive. Les rsultats obtenus montrent que malgr que le modle ID
amliore significativement les scores de reconnaissance quand lentre acoustique est bruite
(on passe de 3% en reconnaissance acoustique 33% en audiovisuelle pour la condition dun
RSB acoustique de -6 dB), lintgration reste encore non optimale. Par contre, avec une
pondration de chaque canal par son degr de confiance, le modle IS peut donner des
rsultats meilleurs.
Enfin, lauteur conclut que la complmentarit audio/ vision est mieux exploite en IS et
ceci grce au traitement spar des deux modalits, mme si dans ce cas la coordination
audiovisuelle semble perdue mais peut tre retrouve certains points dancrage.
Inversement, le modle ID exploite bien les covariations des entres visuelle et auditive mais
dans le cas ou lentre auditive est bruite la complmentarit entre lentre propre et lentre
attnue nest pas aussi prise en compte cause du traitement conjoint des deux sources.
3.6.3.2 RD vs. RM
Comme ces deux modles sont peu utiliss dans la reconnaissance audiovisuelle de la
parole, les comparaisons sont rares pour dterminer le plus performant des deux. Il est
important de rappeler que la diffrence entre ces deux modles est la nature de leur
reprsentation commune au niveau de la fusion. Le modle RD appliqu la fusion en parole
considre la modalit auditive comme dominante alors quelle peut ne pas ltre. De ce fait, la
73
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole
complmentarit naturelle entre le son et limage est difficilement exploitable dans ce modle.
Robert-Ribs (1995), lun des rares implmenter les modles RD et RM, dmontre que le
modle RM est mieux adapt que le modle RD la structure de linformation audiovisuelle
et la complmentarit audio-visuelle.
3.7 Conclusion
Ce chapitre qui porte un aperu sur la reconnaissance automatique de la parole, a permis
de dgager les caractristiques du signal et lidentification de ses paramtres en vue de leur
utilisation en reconnaissance vocale. Divers modes de fonctionnement ont t voqu dans ce
chapitre tel que le mode monolocuteur et le mode multilocuteur.
Dans ce chapitre, nous avons galement dcrit un ensemble de modles dintgration
audiovisuelle. Cette intgration peut tre ralise avec quatre modles basiques : ID, IS, RD et
RM. Ces derniers peuvent tre classifis en deux grandes familles. La premire famille, fusion
de reprsentations, regroupe les modles sappuyant sur lentranement dun seul classifieur
appliqu sur un vecteur des reprsentations audio et visuelles concatnes, ou sur toute
transformation sur ce vecteur (modles ID, RM, RD). La seconde famille, fusion de dcisions,
regroupe des modles reposant sur une fusion des sorties de deux classifieurs monomodal. A
ces deux familles, une troisime famille, fusion hybride, peut tre considre, qui consiste
combiner deux modles des deux familles prcdentes. La comparaison entre les quatre
modles classiques semble plutt favoriser les modles ID et IS. Cependant, ces derniers ne
peuvent tre dpartags.
Dans notre travail, nous nous intressons la reconnaissance de la parole arabe en
utilisant les et les modles de Markov cachs de type gauche-droit. Pour pallier les
insuffisances des paradigmes utiliss dans le systme propos. Nous avons combin les
avantages des HMM et les algorithmes gntiques pour aboutir un modle hybride
GA/HMM qui offre plus de performances que les paradigmes classiques.
Dans le chapitre qui suit, nous exposons le fonctionnement des mthodes mentionnes
prcdemment ainsi leurs modle hybride propos.
74
Deuxime partie : Approches proposes
Chapitre 4. Moteur de reconnaissance GA/HMM
Moteur de reconnaissance
GA/HMM 4
Les modles de Markov cachs (HMM) sont des outils statistiques permettant de
modliser des phnomnes stochastiques. Ces modles sont utiliss dans de nombreux
domaines (Capp 2001) tels que la reconnaissance et la synthse de la parole, la biologie,
lordonnancement, lindexation de documents, la reconnaissance dimages, la prdiction de
sries temporelles, Pour pouvoir utiliser ces modles efficacement, il est ncessaire den
connaitre les principes.
A cet effet, nous commenons ce chapitre en dfinissant de que sont les HMM leur principes,
et nous prsentons les algorithmes classiques des HMM : Forward, Backkward et de Viterbi.
Un modle HMM est dfini comme un ensemble dtats, chacun dentre eux associ
une distribution de probabilit (en gnral multidimensionnelle). Les transitions entre les tats
sont rgies par un ensemble de probabilits appeles probabilits de transition Dans un tat
particulier, un rsultat ou observation peut tre gnr conformment la distribution de
probabilit associe. Par opposition un modle de Markov classique ou ltat est directement
observable par un observateur externe, dans un modle HMM, ltat nest pas directement
observable et seulement des variables influences par ltat le sont. Les tats sont donc
cachs, dou le nom de modle de Markov cach.
Un HMM (reprsent dans la figure 4.1) est dfini par :
77
Chapitre 4. Moteur de reconnaissance GA/HMM
78
Chapitre 4. Moteur de reconnaissance GA/HMM
indpendante du temps. En dautres termes, les matrices ne changent pas dans le temps quand
le systme volue. En pratique, ceci est lune des suppositions les plus discutables des
modles de Markov propos des processus rels.
Dans la thorie des HMMs, des hypothses sont faites pour une docibilit mathmatique
et informatique :
Hypothse markovienne : concernant la dfinition des lments de la matrice de
transition A, la probabilit de transition vers un tat ne dpend que de ltat actuel et
non des tats rencontrs prcdemment. Ainsi, la squence des tats constitue une
chane de Markov simple.
Hypothse de stationnarit : comme nous lavons dj voqu, la matrice des
probabilits de transition est indpendante de lactuel temps, dans lequel les transitions
prennent place.
Mathmatiquement :
1 +1 = 1 = = 2 +1 = 2 = 1 2 , (4.4)
Hypothse dindpendance des sorties (observations) : lobservation courante est
statiquement indpendante des observations prcdentes. Mathmatiquement, cette
hypothse peut tre formule pour un HMM par :
1 , 2 , , , = =1 , . (4.5)
Une fois quun systme est dcrit comme un HMM, trois problmes doivent tre rsolus.
Les deux premiers sont des problmes quon peut associer la reconnaissance : dtermination
de la probabilit dune squence observe tant donn un HMM (cest le problme de
lvaluation); et, tant donn un modle HMM et une squence dobservations, dterminer
quelle squence dtats cachs dans le modle est la plus probable (cest le problme de
dcodage). Le troisime problme est la gnration dun HMM tant donn une squence
dobservations (cest le problme dapprentissage).
Ce problme se pose notamment quand nous avons, par exemple, plusieurs HMMs
dcrivant diffrents systmes, et une squence dobservations. Nous voulons ainsi connatre
79
Chapitre 4. Moteur de reconnaissance GA/HMM
quel est le HMM ayant la plus forte probabilit davoir gnr cette squence. En dautres
termes, pour un modle = (, A, B) et une squence dobservations Y = y1, y2, ..., yT, nous
avons calculer la probabilit P(Y|). Un calcul de cette probabilit implique un nombre
doprations de lordre de NT. Heureusement, une autre mthode, ayant une complexit
infrieure, existe. Cette mthode utilise une variable intermdiaire appele variable avant ou
forward; dou le nom de lalgorithme Forward ( ou avant).
Algorithme Forward : Cet algorithme est utilis pour calculer la probabilit dune
squence dobservation de longueur T :
= , , , (4.6)
avec chaque y est un lment de lensemble observable. La variable intermdiaire () est
dfinie comme la probabilit de la squence dobservation partielle = , , , ,
qui se termine ltat i. Les probabilits intermdiaires (ou partielles) sont calcules de
manire rcursive en calculant premirement ces probabilits pour tous les tats t = 1.
1 = . 1 , 1 (4.7)
Ensuite, pour chaque instant, t = 2, ..., T, les probabilits partielles sont calcules pour
chaque tat par la relation rcursive suivante :
+1 = =1 , 1 , 1 1 (4.8)
Avec cette relation, nous pouvons alors calculer la probabilit intermdiaire linstant T pour
chaque tat j, . Et finalement, la somme de toutes les probabilits partielles linstant T
fournit la probabilit requise :
= =1 () (4.9)
Pour rcapituler, chaque probabilit partielle ( linstant t > 2) est calcule partir de tous
les tats prcdents. De faon similaire, nous pouvons dfinir une variable arrire ou
backward comme la probabilit de la squence dobservation partielle + , + , , ,
tant donn que ltat courant est i. Pour calculer les , il existe aussi, comme pour
les , une relation rcursive :
80
Chapitre 4. Moteur de reconnaissance GA/HMM
= =1 +1 + 1 , 1 , 1 1 (4.10)
Avec
= 1, 1 . (4.11)
= , = , 1 , 1 . (4.12)
Ainsi, la somme de ce produit donne une autre faon pour calculer la probabilit , tout
en utilisant les probabilits forward et backward :
= =1 , = = =1 , 1 (4.13)
Le problme du dcodage se pose quand, tant donn une srie dobservations, nous
avons trouver la squence la plus probable des tats cachs dun modle HMM. Ce
problme est dautant plus intressant que dans plusieurs cas, les tats cachs du HMM
reprsentent quelque chose de non observable directement. Pour dterminer la squence des
tats cachs la plus probable, tant donn une squence dobservations, = , , , et
un HMM = (, A, B), lalgorithme de Viterbi est le plus utilis. Dans cette mthode, la
squence complte des tats avec le maximum de vraisemblance est trouve.
81
Chapitre 4. Moteur de reconnaissance GA/HMM
Relation rcursive :
+1 = + 1 1 , 1 , 1 1 (4.16)
Calcul de , 1 j N, en utilisant cette dernire rcursion et en retenant toujours
un pointeur sur ltat lu dans une opration de maximisation.
Dtermination de ltat final du systme (t = T) le plus probable :
= 1 ( ) (4.17)
Suivi du chemin le plus probable en revenant en arrire, soit : Si on note :
= 1 (1 ) (4.18)
la squence dtat la plus probable peut tre trouve par :
= +1 (+1 ) (4.19)
Et en fin, la squence 1 , 2 , , est la squence la plus probable des tats cachs pour la
squence dobservation considre.
4.1.2.3 Apprentissage
Le troisime, et le plus difficile, problme associ aux HMMs est de prendre une
squence connue dobservations pour reprsenter un ensemble dtats cachs, et dobtenir le
HMM = (, A, B) qui est le modle le plus probable dcrivant ce qui est observ. En
dautres termes, dans plusieurs cas dapplications, le problme de lapprentissage concerne la
faon avec laquelle les paramtres du HMM sont ajusts, tant donn un ensemble
dobservations (appel ensemble dapprentissage). Les paramtres du HMM optimiser
peuvent tre diffrents dune application lautre. De ce fait, il peut y avoir divers critres
doptimisation pour lapprentissage, chacun dentre eux tant choisi selon lapplication
considre. Parmi ces critres, nous trouvons le critre du maximum de vraisemblance et de
lInformation Maximum Mutuelle (MMI pour Maximum Mutual Information). Nous nous
contentons ici de dcrire un seul algorithme permettant de gnrer les paramtres dun HMM
partir dune squence dobservations. Il sagit de lalgorithme de Baum-Welch avec un
critre de maximum de vraisemblance. Cet algorithme est aussi connu sous le nom de
Forward-Backward.
82
Chapitre 4. Moteur de reconnaissance GA/HMM
ou x dsigne un tat donn et le modle estim. Pour dcrire lalgorithme nous avons
dfinir deux variables intermdiaires : , = ( = , +1 = |, ) : la probabilit
dtre dans ltat i linstant t et dans ltat j linstant t+1. = ( = |, ): la
probabilit dtre dans ltat i linstant t tant donn la squence dobservation et le modle
HMM. Ces deux variables peuvent tre exprimes en fonction des variables forward, () et
backward, () dfinies prcdemment. Pour rsumer, lalgorithme peut tre dcrit de la
faon suivante :
Initialisation : Des paramtres arbitraires pour le modle sont choisis ; entre autre, les valeurs
de sont choisies alatoirement tandis que les variables A et B sont initialises. Par
exemple, les valeurs de A sont fixes priori et celles de B sont initialises par une
quantification vectorielle.
Itration :
Les variables A et B sont places leurs valeurs de pseudo-comptes.
Calcul des variables () et () pour chaque tat i, en utilisant respectivement les
algorithmes forward et backward.
En dduire les variables (, ) et () en utilisant les expressions suivantes qui les
lient aux variables forward et backward :
+1 (+1)
, = (4.21)
=1 =1 +1 (+1)
et
()
= () (4.22)
=1
= =1 (, ) (4.23)
83
Chapitre 4. Moteur de reconnaissance GA/HMM
= 1 , 1 (4.24)
=1 (, )
= 1 , 1 (4.25)
=1
=1 (, )
= 1 , 1 (4.26)
=1
Depuis le dbut de cette section, nous avons trait en gnral le modle HMM en
supposant quil est caractris par une matrice de transition des tats pleine ; cest--dire que
les transitions peuvent seffectuer partir de nimporte quel tat vers nimporte quel autre
tat. On parle ici de modle ergodique. Un tel modle est dfini comme un HMM tel que tous
les tats sont accessibles partir de nimporte quel autre tat. Pour certaines applications, il
est demand dimposer certaines contraintes sur la matrice de transition ; ce qui rend le
modle non ergodique.
Dans ce sens, la littrature nous donne deux exemples types de modles non-ergodique
largement employs (Rabiner and Juang 1993). Ces deux modles sont appels gauche-droite
du fait que la squence des tats produisant la squence dobservations doit toujours avancer
de ltat le plus gauche ltat le plus droite. Ils diffrent par le fait quun est un simple
gauche-droite dans lequel il y a quun seul chemin travers les tats, et lautre est un parallle
gauche-droite dans lequel il y a plusieurs chemins. Un modle gauche-droite (parallle ou
simple) impose une structure temporelle ordonne pour le HMM dans laquelle ltat numrot
avec un numro infrieur prcde toujours ltat avec un numro suprieur. La figure 4.2
illustre les trois structures HMM.
84
Chapitre 4. Moteur de reconnaissance GA/HMM
Figure 4.2 Trois types distincts de modles HMM. Illustration avec un exemple de HMM 4 tat
(daprs Rabiner et Juang 1993).
4.1.4 Rsum
Le modle de Markov cach est un outil statistique qui peut tre dfini quand les tats
dun processus ne sont pas directement observables, mais sont indirectement et
probabilistiquement observables comme un autre ensemble dtats. De tels modles,
appliqus dans des processus rels, imposent de rsoudre trois problmes :
Dcodage : quelle est la squence dtats cachs la plus probable qui gnre une
squence dobservations. Lalgorithme de Viterbi rsout ce problme.
Enfin, il est noter un dfaut habituel des modles HMM qui concerne la sur-
simplification associe lhypothse markovienne ; cest--dire quun tat dpend seulement
de ses prdcesseurs directs et que cette dpendance est indpendante du temps. Cependant,
85
Chapitre 4. Moteur de reconnaissance GA/HMM
les HMMs ont prouv leur grande valeur dans des systmes rels danalyse et restent lun des
outils les plus utilis en RAP.
86
Chapitre 4. Moteur de reconnaissance GA/HMM
Pc (gnralement autour de 0.6) et gnre des couples denfants C1 et C2. Dautres lments P
sont slectionns en fonction de leur adaptation. Loprateur de mutation leur est appliqu
avec la probabilit Pm (Pm est gnralement trs infrieur Pc) et gnre des individus muts
P0. Le niveau dadaptation des enfants (C1, C2) et des individus muts P0 sont ensuite valus
avant insertion dans la nouvelle population.
Le nombre de gnrations que lon souhaite excuter peut tre fix priori. Cest ce
que lon est tent de faire lorsque lon doit trouver une solution dans un temps limit.
Lalgorithme peut tre arrt lorsque la population nvolue plus ou plus suffisamment
rapidement.
87
Chapitre 4. Moteur de reconnaissance GA/HMM
Les AG utilisant des vecteurs rels (Goldberg 1991 ; Wright 1991) vitent ce problme
en conservant les variables du problme dans le codage de llment de population sans
passer par le codage binaire intermdiaire. La structure du problme est conserve dans le
codage.
88
Chapitre 4. Moteur de reconnaissance GA/HMM
gnralement incluses dans le critre optimiser sous forme de pnalits. Il est clair quil vaut
mieux, lorsque cest possible ne gnrer que des lments de population respectant les
contraintes.
4.2.2.3 valuation
1
= (4.28)
| |
89
Chapitre 4. Moteur de reconnaissance GA/HMM
La raideur ntant pas une grandeur diffrentiable, les mthodes dterministes ne sont
oprationnelles pour maximiser mrite dfinie par (1-10). En revanche, ce nest pas le cas
pour les mthodes stochastique, telles que les AG, qui sont exemptes de lanalyse de
sensibilit.
Un lment de population qui viole une contrainte se verra attribuer une mauvaise fitness
et aura une probabilit forte dtre limin par le processus de slection. Il peut cependant tre
intressant de conserver, tout en les pnalisant, les lments non admissibles car ils peuvent
permettre de gnrer des lments admissibles de bonne qualit. Pour de nombreux
problmes, loptimum est atteint lorsque lune au moins des contraintes de sparation est
sature, cest--dire sur la frontire de lespace admissible.
Grer les contraintes en pnalisant la fonction fitness est difficile, un dosage simpose
pour ne pas favoriser la recherche de solutions admissibles au dtriment de la recherche de
loptimum ou inversement. Disposant dune population dindividus non homogne, la
diversit de la population doit tre entretenue au cours des gnrations afin de parcourir le
plus largement possible lespace dtat. Cest le rle des oprateurs de croisement et de
mutation.
90
Chapitre 4. Moteur de reconnaissance GA/HMM
Pour chaque lment i, on calcule le rapport ri de sa fitness sur la moyenne des fitness.
Soit e(ri) la partie entire de ri, chaque lment est reproduit exactement e(ri) fois.
La roulette wheel selection prcdemment dcrite est applique sur les individus
affects des fitness ri e(ri).
Compte-tenu du fait que des faibles populations seront utilises par la suite, ce principe
de slection savrera le plus efficace dans les applications pratiques et sera donc utilis par la
suite.
91
Chapitre 4. Moteur de reconnaissance GA/HMM
slectionns dans chacun des parents la mme position i. Ils dfinissent deux nouveaux
gnes C1(i) et C2(i) par combinaison linaire :
1 = 1 + 1 2 ()
(4.29)
2 = (1 )1 + 2 ()
ou est un coefficient de pondration alatoire adapt au domaine dextension des gnes (il
nest pas ncessairement compris entre 0 et 1, il peut par exemple prendre des valeurs dans
lintervalle [0.5, 1.5] ce qui permet de gnrer des points entre, ou lextrieur des deux
gnes considrs).
Dans le cas particulier dun chromosome matriciel constitu par la concatnation de
vecteurs, on peut tendre ce principe de croisement aux vecteurs constituant les gnes (voir
figure 4.6) :
1 = 1 + 1 2 ()
(4.30)
2 = (1 )1 + 2 ()
92
Chapitre 4. Moteur de reconnaissance GA/HMM
On peut imaginer et tester des oprateurs de croisement plus ou moins complexes sur un
problme donn mais lefficacit de ce dernier est souvent lie intrinsquement au problme.
93
Chapitre 4. Moteur de reconnaissance GA/HMM
Le partage est un paramtre volu des AG (Goldberg and Richardson 1987). Il est utilis
pour vit le regroupement dindividus performants, et assurer une certaine diversit
gntique dans la population. Le principe consiste pnaliser les individus qui ont beaucoup
de voisins proches en divisant leurs performances sur une fonction dite de partage. Cette
dernire, dont la valeur est comprise entre 0 et 1, est calcule en fonction dun paramtre qui
mesure le degr de similarit entre les individus. La performance modifie pour un individu xi
scrit de la manire suivante :
94
Chapitre 4. Moteur de reconnaissance GA/HMM
( )
= (4.31)
=1 ( , )
Sh (Sharing) est la fonction de partage de d est la distance entre les individus qui exprime
le degr de similarit entre ces individus.
La technique de partage est souvent accompagne par une technique de regroupement
appel Clustering . Linformation fournie par la fonction de partage peut tre utilise pour
viter le croisement, inutile, entre les individus similaires.
Le test darrt joue un rle trs important dans le jugement de la qualit des individus. Il
existe trois types:
Ces valeurs sont paramtrer selon le temps disponible pour lexcution de l'algorithme,
la performance de la recherche de celuici et les conditions du problme rsoudre.
Les algorithmes gntiques prsentent les avantages suivants : ce sont des mthodes
robustes linitialisation (c'est--dire que leurs convergences ne dpendent pas de la valeur
initiale), qui permettent de dterminer l'optimum global d'une fonctionnelle ou de sen
approcher, et qui sont paralllisables. En revanche leur inconvnient majeur rside dans le
nombre important d'valuations ncessaires et leur temps de convergence.
En revanche, les mthodes dterministes convergent rapidement vers un optimum.
Cependant, elles ne sont pas aussi robustes linitialisation que les algorithmes gntiques, ce qui
n'assure pas que l'optimum dtermin est un optimum global.
95
Chapitre 4. Moteur de reconnaissance GA/HMM
annes (Kwong and Chau 1997 ; Shing-Tai et al. 2010). Nous avons utilis pour cette phase
en commun entre la reconnaissance acoustique et visuelle N HMM de type gauche-droite.
Lalgorithme de classification effectue une partition gographique dun nuage de points
(vecteurs acoustiques respectivement visuels) en diffrant classes en minimisant la distorsion
moyenne de lensemble, on utilisant pour cette tape la mthode de K-means la plus connue et
la plus utilise. La taille K du CodeBook est un paramtre crucial dont la valeur affecte en
grande partie les performances des HMMs utiliss pour la reconnaissance, car on le considre
que cest le nombre des mixtures.
Dans la phase dapprentissage en utilisant comme il est mentionn avant les HMM mais
cette fois combins avec les AG, cette algorithme va chercher obtenir des HMM optimales
(Patterson et al. 2002 ; Xue-ying et al. 2007 ; Goh et al. 2010), Le processus de formation d'un
modle = (A, B, ) Pour les donnes de rfrence en utilisant une mthode hybride
GA/HMM peut tre tire partir du diagramme ci-dessous:
Premirement on commence par crer une population de taille S, alatoirement, dune
faon que chaque individu contient n chromosomes pour les probabilits initiales, nn
chromosomes contiennent les probabilits de transition et nm chromosomes chacune
contient la probabilit dmission. Aucun individu nest marqu parent . Le codage de
chaque individu est comme suit :
Figure 4.8 Mthode de reprsentation des chromosomes dans lapprentissage des GA/HMMs.
Aprs nous appliquons sur chaque HMM de la population non marqu parent
lalgorithme de Baum-Welch partir de l'observation O.
Ltape suivante est de calculer pour chaque individu de la population qui ne porte pas la
marque parent la valeur de fitness (not aussi la fonction objective) on utilisant
lalgorithme de Baum-Welch, et noter la valeur de probabilit de l'observation. Pour tous ceux
qui portaient cette marque, lenlever. Mathmatiquement la fitness de n model est exprim
comme suit (Oudelha and Ainon 2010):
= (4.32)
=1
O, est la probabilit moyenne du model i, N est le nombre des individus dans une
population et M reprsente le nombre de vecteurs dans oi.
96
Chapitre 4. Moteur de reconnaissance GA/HMM
=1 o i |i
= (4.33)
La troisime tape est de slectionner parmi tous les individus de la population, un certain
nombre S<S, qui seront utiliss comme parents pour rgnrer les S-S autres individus non
retenus. La slection se ralise suivant les meilleurs scores calculs la phase 3. Chaque
individu slectionn est marqu parent .
Les oprations gntiques peuvent inclure croisement et par mutation. Lopration
gntique est ralise pour amliorer la technique de r-estimation de Baum-Welch pour que
les populations gntiques de cette opration rsultent un modle optimal (Prez et al. 2007 ;
Xue-ying et al. 2007 ; Oudelha and Ainon 2010).
A la fin on termine par lvaluation de la condition darrt, Si le nombre ditrations
maximum nest pas atteint, alors retourner la deuxime tape, sinon aller la dernire tape
qui vas renvoyer la meilleure HMM parmi la population en cours.
Un tel classifieur est bas sur un critre de maximum de vraisemblance, il prend le mot
reconnatre comme tant une squence dobservations discrtes (codes) produites par analyse
et quantification vectorielle de la squence de vecteurs de caractristiques. Ce classifieur
calcule la probabilit qui correspond la probabilit dobtenir la squence par le modle. Ces
probabilits sont values par la version logarithmique de lalgorithme de Viterbi. Finalement,
le mot test est affect la classe du mot K pour laquelle le modle maximise la probabilit
dmission.
4.4 Conclusion
Les modles de Markov cachs, prsents dans ce chapitre sont des techniques largement
utilises en reconnaissance de formes, et sont les plus utiliss en reconnaissance de la parole.
Ils bnficient dalgorithmes dentranement et dcodage performants.
Dans le chapitre suivant, nous prsentons, le principe et le fonctionnement de notre
systme de reconnaissance de la parole audiovisuelle propos en utilisant la mthode hybride
GA/HMM.
97
Chapitre 5. Description du systme propos
Figure 5.1 Phases de spcification dun systme dintelligence artificielle utilisant des HMM.
La phase dapprentissage joue un rle central au sein dun tel systme mais, en pratique,
peu dattention lui est accorde dans le cas des HMM. Dans de nombreuses applications des
modles sous optimaux sont utiliss avec succs. Cependant, ces applications sappuient sur
des principes thoriques qui ne sont valables que lorsque les modles sont optimaux. Par
consquent, il est communment admis que des modles optimaux permettraient, du moins en
thorie, damliorer les performances du systme dintelligence artificielle.
La RAP sapplique ce jour sur de nombreux signaux de qualit diffrente (frquence
dchantillonnage, quantification, codage, conditions denregistrement). Nous rappelons que
la parole est lun des moyens les plus naturels par lequel des personnes communiquent. La
RAP a pour objet la transformation du signal acoustique en une squence de mots qui,
98
Chapitre 5. Description du systme propos
99
Chapitre 5. Description du systme propos
Quantification
Dtection Localisation Extraction vectorielle
de visage de la bouche des
Moteur de
paramtres reconnaissance
GA/HMM
vido dentre
Visual front end Intgration
Dcision
audiovisuelle
Moteur de
reconnaissance
Moteur
AG-HMM de
Extraction des paramtres reconnaissance
acoustiques GA/HMM
Quantification
vectorielle
Signal vocal
La figure 5.2 prsente les diffrentes tapes dans les processus dapprentissage et de
reconnaissance du systme propos. Chacun des lments prsents sur cette figure sera
dtaille dans les prochaines sections.
Nous savons que les lvres vhiculent la majeure partie de linformation visuelle utile pour
la comprhension de la parole.
Les tres humains emploient linformation visuelle de faon subconsciente afin de
comprendre les paroles, particulirement dans des environnements bruyants, mais galement
quand les conditions acoustiques sont bonnes. Le mouvement des lvres du locuteur apporte
une srie dinformation importante. Leffet McGurk (McGurk and MacDonald 1976) apporte la
preuve en montrant que le cerveau, soumis des stimuli auditifs et visuels inconsistants,
peroit un son diffrent de celui qui a t dit.
La dtection des visages pose le problme de la localisation des visages prsents dans une
image d'entre. Idalement, la dtection fourni aussi leurs dimensions pour un ventuel
traitement ultrieur.
100
Chapitre 5. Description du systme propos
Tous les AVASR ncessitent l'identification et le suivi de la ROI, qui peut tre soit
seulement la bouche, ou une rgion plus vaste, comme tout le visage. Cela commence
gnralement par localisation de visage du locuteur, en utilisant un algorithme de dtection de
visage.
Une avance majeure dans le domaine a t ralise par (Viola and Jones 2001). Ces
derniers ont propos une mthode base sur l'apparence ("Appearance-based methods") rapide
et robuste. La renomme de cette approche se base essentiellement sur trois contributions:
Comme nous avons dj mentionns Viola et Jones ont propos une mthode base sur
l'apparence ("Appearance-based methods") robuste et tournant 15 fps pour des images de
384 x 288 pixels sur un pc Intel Pentium III 700Mhz. Ce fut la premire mthode en temps
rel prsente. La renomme de cette approche est faite sur trois concepts :
A. L'image intgrale
L'algorithme se base sur les caractristiques de Haar (Haar features) pour localiser les
visages prsents sur une image d'entre. Dans le but d'extraire rapidement ces caractristiques,
l'image est reprsente sous forme intgrale. En effet, sous cette forme, l'extraction d'une
caractristique n'importe quel endroit et n'importe quelle chelle est effectue en un temps
constant tandis que le temps de conversion vers la reprsentation intgrale ne remet pas en
cause ce gain de temps offert par l'utilisation de la reprsentation en image intgrale. La
dfinition des caractristiques de Haar et la manire dont la reprsentation intgrale acclre
considrablement leur extraction sont prsents ci-aprs pour une image en niveaux de gris.
Dans toute image, une zone rectangulaire peut tre dlimite et la somme des valeurs de
ses pixels calcule. Une caractristique de Haar est une simple combinaison linaire de
sommes ainsi obtenues.
Plusieurs caractristiques de Haar peuvent tre dfinies selon le nombre, les chelles, les
positions et les dimensions des zones rectangulaires considres. 4 exemples sont prsents
la figure 5.3.
101
Chapitre 5. Description du systme propos
Figure 5.3 Exemple de 4 caractristiques de Haar. La somme des valeurs des pixels appartenant aux
zones encadres claires est soustraite la somme des valeurs des pixels appartenant aux zones
encadres sombres pour obtenir la caractristique de Haar. Chacune des quatre caractristiques de
Haar est reprsente avec son cadre de dtection respectif.
, = , ( , ) (5.1)
ou i(x, y) est l'image d'origine et i(x0, y0) l'image sous sa nouvelle reprsentation. Ainsi
chaque pixel a pour valeur la somme des valeurs des pixels compris dans le rectangle dfini
par le coin suprieur gauche de l'image et lui-mme.
Le calcul de la somme des valeurs des pixels appartenant une zone rectangulaire
s'effectue donc en accdant seulement quatre pixel de l'image intgrale : Soit un rectangle
ABCD dont les sommets sont nomms dans le sens des aiguilles d'une montre en commenant
par le sommet suprieur gauche et soit x la valeur sous la reprsentation intgrale d'un
sommet X du rectangle (X {A, B, C, D}). La somme des valeurs des pixels appartement
ABCD est, quelle que soit sa taille, donne par c - b - d + a. Une caractristique de Haar tant
une combinaison linaire de tels rectangles ABCD, son calcul se fait alors en un temps
indpendant sa taille.
Pour localiser les visages sur l'image d'entre, cette dernire est scanne par une fentre
de dimension dtermine. La fentre parcourt l'image et son contenu est analys pour savoir
102
Chapitre 5. Description du systme propos
s'il s'agit d'un visage ou non. Comme dit plus haut, les caractristiques de Haar sont extraites
pour effectuer la classification et de ce fait la reprsentation intgrale de l'image acclre
l'analyse. Mais, pour une fentre de 24x24 pixels il y a 45396 caractristiques de Haar, les
traiter toutes prendrait beaucoup trop de temps pour une application en temps rel. Pour
surmonter ce problme, une variante de la mthode de boosting Adaboost est utilise. Ci-
dessous Adaboost est brivement prsent suivi de sa variante qui constitue le deuxime
apport du travail de Viola & Jones.
Adaboost est une mthode d'apprentissage permettant de "booster" les performances d'un
classifieur quelconque nomm "classifieur faible". L'ide est de faire passer les candidats
classifier travers plusieurs classifieurs faibles, chacun tant entrain en portant plus
d'attention sur les candidats mal classifis par le classifieur prcdent.
Pour arriver ce rsultat des poids sont associs aux chantillons du set d'entrainement
((xi, yi) i = 1, ., m), tout d'abord de manire quilibre :
1
0 = (5.3)
C. Cascade
L'ide de base derrire le concept de Cascade est que parmi l'ensemble des candidats,
c'est--dire l'ensemble des tats de la fentre de recherche, une partie peut tre limine sur
base de l'valuation de seulement quelques caractristiques de Haar. Une fois cette
limination effectue, les candidats restants sont analyss par des classifieurs forts plus
complexes (utilisant plus de caractristiques de Haar) demandant un plus grand temps de
traitement. En utilisant plusieurs tages de ce type, le processeur vite d'effectuer des
analyses lourdes en temps de calcul sur des chantillons pour lesquels il est rapidement
103
Chapitre 5. Description du systme propos
possible de se rendre compte qu'ils sont ngatifs. Le processus de classification apparait alors
comme une cascade de classifieurs forts de plus en plus complexes ou chaque tage les
chantillons classifis ngatifs sont sortis tandis que les chantillons classifis positifs sont
envoys aux classifieurs suivants. Ceci est reprsent la figure 5.4.
Si le premier tage rejette un faux ngatif, c'est un gros problme car il ne sera jamais
rcupr par la cascade. Autrement dit c'est un visage qui ne sera pas dtect. Par contre, si le
premier tage transmet un faux positif, il pourra toujours tre limin aux tages suivants de
la cascade. Ce petit raisonnement permet de mettre en vidence que les premiers nuds
constitutifs de la cascade peuvent se permettre d'avoir un taux de faux positifs levs (de
l'ordre de 40-50%) mais doivent absolument assurer un taux de dtection maximum.
Figure 5.4 Cascade de classifieurs forts. A chaque tage, uniquement les candidats classifis positifs
sont transmis l'tage suivant.
104
Chapitre 5. Description du systme propos
aux autres mthodes, cette mthode n'est pas indpendante de lumire, ainsi l'intensit et la
direction de la lumire peut influencer les rsultats (Pai et al. 2006).
Un visage humain typique suit un ensemble de normes anthropomtriques, qui ont t
utiliss pour affiner la recherche d'une caractristique faciale particulire pour des rgions
plus petites de visage. Nous utilisons les tapes gnriques suivantes pour la dtection des
caractristiques faciales et l'extraction partir de l'image du visage localise (Khandait et al.
2009):
1) Pour une image couleur, la convertir en image en niveaux de gris. Rglez l'intensit
des deux types d'images.
Dans cette tude l'extraction des caractristiques vido est effectue avec le DCT
(Rodomagoulakis 2008). Il existe plusieurs types de caractristiques qui peuvent tre utilises
pour chiffrer les informations prsentes dans une image. Nous avons appliqu une version
modifie de la DCT qui utilise les donnes contenues dans une image pour la compresser. Par
exemple, la compression de l'image en format JPEG utilise cette mthode. La compression
des donnes disponible dans l'image permet de rendre le travail de l'algorithme
d'apprentissage plus facile. En plus la DCT est utilise dans le domaine d'authentification et
vrification du locuteur (Sanderson and Paliwal 2002). Cette tape se droule en deux phases :
La premire est la phase de dcoupage de l'image, rsultant de la phase de prtraitement, en
sous-images. Ensuite, la seconde phase qui est l'extraction de vecteurs de caractristiques
consiste appliquer la DCT. Ces tapes seront dtailles dans les paragraphes suivants.
105
Chapitre 5. Description du systme propos
106
Chapitre 5. Description du systme propos
Plus formellement, tant donne une image qui est prsente par une matrice de sous-
images de dimension N N, ces sous-images sont le rsultat du dcoupage prcdemment
expliqu. Pour chaque image I un vecteur de DCT est extrait. DCT transforme chaque
composante de couleur en coefficients DCT en utilisant lquation suivante (Gupta and Garg
2012):
1 2+1 2 +1
, = () =1 =1 , cos cos (5.4)
2 2
avec,
- F(u, v) est le coefficient de DCT au point de coordonnes (u, v), elle est dimensionne de
MN, et () est dfinis comme suit:
1
, =1
= 2
(5.5)
1 , ;
Cette matrice DCT(I) est une matrice des coefficients qui est dfinie l'aide de fonctions
cosinusodales. Ces fonctions constituent la base du domaine frquentiel. La figure 5.5
prsente ces fonctions de base deux variables v, u = 0, 1, 2, , 7.
107
Chapitre 5. Description du systme propos
Figure 5.5 Exemple de fonctions de base de DCT qui forme le domaine frquentiel.
Afin d'obtenir un vecteur DCT qui est la transforme d'une sous-image I donne, le
parcours en zigzag est appliqu la matrice DCT(I). La figure 5.6 montre l'ordre dans
laquelle la matrice DCT(I) est parcourue selon le parcours en zigzag.
Les informations les plus importantes pour reprsenter l'image se trouvent dans les
premiers coefficients. En utilisant uniquement les premiers coefficients et la transformation
DCT inverse, il est possible de rgnrer une image ayant presque le mme rendu visuel que
108
Chapitre 5. Description du systme propos
la sous-image I d'origine. Gnralement, la diffrence entre les deux images est totalement
imperceptible. Afin de compresser les informations l'aide de la DCT, une sous-image est
prsente l'aide des M premiers coefficients de vecteur DCT.
Afin daugmenter la robustesse des paramtres PLP, on peut envisager lanalyse spectrale
relative RASTA (RelAtive SpecTrAl), prsente par (Hermansky and Morgan 1994) comme
une faon de simuler linsensibilit de lappareil auditif humain aux stimuli variation
temporelle lente. Cette technique traite les composantes de parole non linguistiques, qui
varient lentement dans le temps, dues au bruit convolutif (log-RASTA) et au bruit additif (J-
RASTA). En pratique, RASTA effectue un filtrage passe-bande sur le spectre logarithmique
ou sur le spectre compress par une fonction non linaire. Lide principale est de supprimer
les facteurs constants dans chaque composante du spectre court-terme avant lestimation du
109
Chapitre 5. Description du systme propos
modle tout-ple. Lanalyse RASTA est souvent utilise en combinaison avec les paramtres
PLP (Hermansky and Morgan 1994). Les tapes dune analyse RASTA-PLP sont dcrites
dans la figure 5.7. Les tapes grises sont celles qui font la spcificit du traitement RASTA.
La diffrence entre RASTA et J-RASTA se situe au niveau du logarithme (4me tape) : ln(x)
pour RASTA et ln(1 + Jx) pour J-RASTA.
Dans les systmes de reconnaissance actuels, il est trs courant de complter un jeu de
paramtres par les drives premires () et secondes () de ces paramtres. Les drives
permettent dinclure des caractristiques dynamiques des paramtres acoustiques (vitesse et
acclration). Le calcul des drives se fait sur des fentres centres sur la trame analyse, ce
qui assure la cohrence des informations prsentes dans le vecteur. Lutilisation de ces et
est prcisment un cas de concatnation de paramtres acoustiques. Une mthode de
combinaison complte de modles utilisant un jeu de paramtres (PLP), les et les de ces
paramtres est prsente dans (Misra et al. 2003). Chaque type de paramtres (statiques, et
) sont combins de toutes les manires possibles pour former 7 jeux de paramtres
acoustiques utiliss pour apprendre 7 modles acoustiques diffrents, dont les probabilits
sont ensuite combines.
La quantification scalaire consiste reprsenter une valeur d'un chantillon de signal pas
forcement audio avec une prcision rduite, par exemple la reprsenter avec une valeur
110
Chapitre 5. Description du systme propos
appartenant un ensemble plus petit que l'ensemble original. C'est le cas typique de la
conversion analogique/digitale.
Lorsque ce principe est appliqu par bloc d'chantillons (vecteurs), on peut parler de
quantification vectorielle. La quantification vectorielle est alors une gnralisation de la
quantification scalaire. Mais, pendant que la quantification scalaire est dans sa forme la plus
simple juste une conversion analogique/digitale, la quantification vectorielle est une mthode
de codage/compression puissante. Elle est souvent utilise dans les tlcommunications pour
le codage de la source, ou dans la compression des donnes notamment dans la compression
des images. Elle est aussi un puissant outil de classification. La quantification vectorielle est
dfinie par un doublet : un ensemble de vecteurs reprsentatifs appels mots = 1 2
qui forme un dictionnaire (codebook en anglais) et un critre de distorsion d (.,.) (Voir la
figure 5.8).
de faon optimiser lalgorithme. Cette mthode change les objets de cluster jusqu' ce que la
somme ne puisse plus diminuer. Le rsultat est un ensemble de clusters compacts et
clairement spars, sous rserve qu'on ait choisi la bonne valeur K du nombre de clusters. Les
principales tapes de lalgorithme k-means sont :
1. Choix alatoire de la position initiale des K clusters.
2. (R-) Affecter les objets un cluster suivant un critre de minimisation des distances
(gnralement selon une mesure de distance euclidienne).
3. Une fois tous les objets placs, recalculer les K centrodes.
4. Ritrer les tapes 2 et 3 jusqu ce que plus aucune raffectation ne soit faite.
Lobjectif dun systme de reconnaissance audio visuelle est de combiner au mieux les
performances de deux systmes audio et vido afin damliorer les performances de
reconnaissance de la parole, en particulier en prsence de bruit. Classiquement, on distingue
deux types de fusion: la fusion des paramtres et la fusion des scores.
112
Chapitre 5. Description du systme propos
Cette fusion est ralise au moment de la paramtrisation des signaux audio et vido. Une
fois les paramtres de chaque modalit sont extraits, les vecteurs audio oA et vido oV de
seul vecteur de paramtres audio visuels de dimension dA + dV . Dans les tapes suivantes de
la chane de reconnaissance de la parole (estimation des paramtres, dcodage, valuation),
aucune modification nest ncessaire.
La fusion de scores ou de dcision est possible lorsque lon dispose de systmes spars
(ici, audio et vido) et que leur fusion est ralise au moment de la dcision, par combinaison
de leurs scores respectifs. Des poids diffrents peuvent tre affectes chaque systme (ou
parties de ces derniers) afin de privilgier lune ou lautre des deux modalits. Dans le cas de
systme de reconnaissance ou les units sub-lexicales (de type phone, par exemple) sont
modlises par des HMM et GA/HMM, cette fusion peut avoir lieu diffrents niveaux qui
sont ltat ou le phone ou le mot ou encore la phrase. Lorsque la fusion est effectue chaque
tat, elle est dite synchrone, sinon elle est asynchrone.
Plusieurs stratgies de fusion de dcision ont t tests (produits, des sommes, minimum,
maximum, vote ...) et tout montrer une amlioration significative des rsultats par rapport la
considration d'une seule modalit, qui nous mener se concentrer dans ce travail sur
l'utilisation du le modle de la fusion spare, c..d. la fusion des scores provenant de chaque
reconnaisseur GA/HMM. Leurs jeux de log-vraisemblance peuvent tre combins en utilisant
les pondrations qui refltent la fiabilit de chaque flux particulier, les scores combins
prennent alors la forme suivante (l'islam et Rahman 2010):
1
= =1 log (o|j ) + log (o|i ) (5.7)
1
113
Chapitre 5. Description du systme propos
O C est le nombre de classes tant considr pour mesurer la fiabilit de chaque modalit et
, . Aprs cela, nous pouvons calculer le poids d'intgration de la fiabilit audio A
mesur par:
= (5.8)
+
Le poids W permet de donner plus dimportance une modalit ou lautre. Pour chaque
systme, W peut tre choisi constant ou variable. Gnralement, il dpend du rapport signal
bruit. Des travaux dans (Makhlouf et al. 2013a) montrent que les performances du systme de
reconnaissance audio visuelle sont meilleures pour un paramtre W dynamique.
5.2 Conclusion
Nous avons dcrit, dans ce chapitre notre systme propos de reconnaissance de la parole
audiovisuelle. Ainsi, nous avons abord la fusion dinformations acoustiques et visuelles pour
la RAP.
Nous nous intressons dans le chapitre suivant la description du systme de
reconnaissance audiovisuelle ralis base des HMM, et le modle hybride GA/HMM.
Egalement, la mise en uvre de systme qui a t appliqu sur deux corpus audiovisuels
diffrents.
114
Chapitre 6. Ralisation
Ralisation
6
Comme tout modle qui doit tre expriment, le prsent chapitre constitue un cadre
dexprimentation et dargumentation du chapitre prcdent.
Nous allons prsenter dans ce chapitre les exprimentations que nous avons menes pour
aller vers une collaboration des processus de reconnaissance automatique de la parole et de
reconnaissance visuelle de la parole.
Nous prsentons prsent les diffrents tests que nous avons effectus afin danalyser les
mrites des mthodes retenues dans le chapitre prcdent. Les plus performantes seront
valides par comparaison avec des algorithmes dapprentissage classiquement utiliss dans la
littrature.
115
Chapitre 6. Ralisation
Dtection de visage et Localisation des lvres dans les scnes vido en utilisant la mthode
Viola-Jones.
Extraction de paramtres acoustiques avec la mthode RASTA-PLP.
Extraction de paramtres visuels avec la mthode DCT.
Raliser une quantification vectorielle et dgager des classes, en utilisant lapproche
suivante : K-means.
Phase dapprentissage en utilisant les modles HMM, et GA/HMM.
Comparaison des taux de reconnaissance obtenus pour tirer la mthode la plus performante
de reconnaissance.
116
Chapitre 6. Ralisation
Signal Quantification
vidos
acoustique vectorielle
Acquisition
Rsultat
Fichiers signaux/
vidos Apprentissage
Dtection visages /
localisation ROI HMM AG/HMM
Analyse Analyse du
visuelle signal
Evaluation
Paramtres Paramtres
visuels acoustiques Intgration
audiovisuelle
Bases de donnes
Evaluation
Choix de la base
Dans notre travail nous avons utilis notre propre base de donnes audiovisuelle de parole
arabe : cette base de donnes multi-locuteurs a t enregistre dans un milieu rel (une salle de
cours trs bruyante), Nous visons de plus la diversit des donnes pour un apprentissage bien
amlior, les vidos sont captures La une distance moyenne gale 16.5 cm avec une
rsolution de 690450 pixel et 30 trames/sec et avec des variations de pose (vue de profil, de
face) pour un ensemble de 18 locuteurs (16 garon et 2 filles) sauvegardes avec lextension
.avi , alors que les fichiers audio sont sauvegard avec lextension .wav , lchantillonnage
standard aprs des testes raliss au sein de notre laboratoire est 16 KHz MONO ( un canal
unique) car il est optimal de calculer les coefficients issus dun signal acoustique paramtres
unique.
Notre base AVARB contient 2 corpus, le premier corpus contient des prononciations des
chiffres arabes isols (de zro (0) neuf (9)), alors que le deuxime corpus contient un ensemble
commandes en arabe (25 mots), comme il est illustr dans le tableau 6.1 :
118
Chapitre 6. Ralisation
16 Doukhoul Se connecter
17 Khourouj Quitter
18 Nasskh Copier
19 Qass Couper
20 Lasq Coller
21 Tarjama Traduire
22 Khasaiss Proprits
23 Tatbiq Application
24 Tenfid Excution
25 Tahmil Chargement
Les locuteurs sont de diffrentes rgions dialectes algriennes, et chaque locuteur prononce
chaque mot 9 fois avec diffrentes modes de prononciation (normal, lente, et rapide). Dans notre
corpus basic qui contient que des mots isols, la taille de chaque enregistrement est 2 secondes
qui est un temps suffisant pour prononcer un mot lentement en arabe. La figure suivante montre
quelques trames de notre base AVARB :
temps est une tache irralisable puisque le nombre de combinaisons de paramtres tester serait
trs grand et donc le temps d'exprimentation serait norme. En gnral, l'exprimentation est
effectue module par module pour conomiser du temps. Puis le systme complet est test
galement.
Une fois lenregistrement des squences vido du locuteur est ralis laide dun appareil
photo numrique Sony Cyber-Shot DSC-W530 14.1 Mga Pixel avec un zoom optique 4x grand-
angle Zoom optique et 2.7 pouces moniteur LCD. La premire opration consiste la sparation
des deux flux audio et vido. Le flux audio est extrait sous forme dun signal laide du logiciel
Gold Wave de lextension .wav, et partir du flux vido on extrait, laide du logiciel BPS,
des images fixes de la squence. On passe ensuite la construction des bases de donnes audio et
vido.
Figure 6.4 Un exemple de dtection de visage : (a) image originale (b) dtection de peau avec
suppression de bruit (c) rsultat de dtection de visage.
121
Chapitre 6. Ralisation
(a)
(b)
Figure 6.5 Exemples de la rgion de la bouche dtecte partir de : (a) la base AVARB (b) la base
CUAVE.
L'extraction des caractristiques vido est effectue avec la DCT. Les vecteurs dentres sont
forms des coefficients basses frquences qui se trouvent dans le coin suprieur gauche de la
matrice rsultante comme montr par la figure 6.6. Dans cette figure, nous avons conserv
uniquement les 100 premiers coefficients de hautes amplitudes dune image, donc le vecteur
visuel dans ce cas est compos des 100 lments. Le nombre de coefficients hautes amplitudes
conservs aprs la transformation par la DCT est choisi de manire conserver un maximum
dnergie totale dans les coefficients hautes amplitudes qui sera suffisant pour reconstituer les
caractristiques principales de limage (Makhlouf et al. 2013a ; 2013b). Lnergie totale E de
limage est calcule (thorme de Parseval, partir des coefficients de la DCT).
(a) (b)
Figure 6.6 Le processus de slection des coefficients DCT avec un chantillon partir: (a) la base
AVARB (b) la base CUAVE.
122
Chapitre 6. Ralisation
Lide principale de lalgorithme pour encoder limage par la DCT est de ne pas utiliser la
totalit des coefficients (310500 coefficients), afin de limiter la taille mmoire et les calculs
ncessaires pour lentranement et la reconnaissance par les modles proposs dans notre
systme. Dans notre travail nous avons gard les cent (100) premiers coefficients pour
reprsenter limage.
123
Chapitre 6. Ralisation
(a)
(b)
(c)
Figure 6.7 Exemple d'un signal de parole du mot arabe "/ marhaban /" (a) son spectrogramme (b) et
l'ensemble des caractristiques spectrales RASTA-PLP (c).
124
Chapitre 6. Ralisation
Cet algorithme optimise la fois les paramtres (probabilits) de HMM. Il repose sur une
recherche gntique d'un bon modle parmi une population htrogne de HMM et une
optimisation par un algorithme de gradient (Baum-Welch).
Pour lapprentissage, nous avons utilis un nombre m des HMM de type gauche-droite avec
un nombre m dtats dont m est le nombre des mots dans chaque corpus, afin de reprsenter les
m classes.
Dans cette section, nous prsentons les rsultats des expriences menes
en utilisant des signaux audio et vido bruyants.
Nous avons utilis deux types de bruit vido pour examiner la robustesse de notre systme
AVASR contrairement audio seule ASR. Les types de bruit que nous avons implment sont la
diminution des trames, et le bruit alatoire gaussien. Ces types de bruit imitent des scnarios
typiques o il existe une distorsion soit depuis un appareil photo dfectueux ou d'un signal de
transmission vido. De plus, La diminution de la frquence de trames (FPS) et le bruit de bloc
peut simuler la perte d'information la suite des mouvements abrupts de la bouche et la parsie
d'une partie de la bouche ou des lvres qui peut tre cause par un problme de sant. Par
consquent, ce type de bruit prsente un intrt dans des environnements d'assistance
envahissants.
Le taux de reconnaissance est affect par la qualit du signal (i.e. diminution du rapport
signal sur bruit (Signal-to-Noise Ratio (SNR))). Nous examinons d'abord le cas de d'image
perdue (Frame-Dropped). La frquence des trames initiale tait 30 fps, donc nous avons rduit
15, 5 et 1fps puis linterpole de nouveau 100fps afin de correspondre au taux de
caractristique audio. Nos mesures sont prsentes dans la figure 6.8(a).
Nous prsentons aussi nos rsultats exprimentaux sur notre systme AVASR
au cours d'une gamme de niveaux de bruit. Nous avons utilis le bruit alatoire gaussien pour
dgrader la qualit de l'image. La valeur moyenne du bruit est 0 et l'cart type tait 15, 30, 50 et
125
Chapitre 6. Ralisation
100 respectivement. L'effet du bruit sur la ROI peut tre vu dans la figure 6.8 et les rsultats dans
la figure 6.8(b).
Figure 6.8 ROI avec bruit gaussien, l'cart type =(A) 0 (B) 15 (C) 30 (D) 50 et (E) 100.
(a)
(b)
Figure 6.9 La performance du systme AVASR : (a) sous une frquence des trames vido rduite (b)
pour un bruit alatoire gaussien.
126
Chapitre 6. Ralisation
Nous avons prsent diffrentes sortes dinstance avec des paramtres de contrle diffrents
de GA qui ont t rsolus par notre algorithme pour valuer la performance du systme propos.
Nous avons excut chaque instance 15 fois avec un nombre diffrent de clusters, des valeurs de
probabilit de croisement entre 0.5-0.9, et une probabilit de mutation avec la valeur 0,01. De
plus, nous prenons un nombre maximum d'itrations pour l'algorithme de Baum-Welch gale
40, les valeurs moyennes de P(o|) obtenue valeurs aprs 150 gnrations (le nombre ditrations
idale pour des meilleurs performance) sont lists dans les Tables 6.2 et 6.3 comme suit:
Table 6.3 paramtres GA pour lentranement du HMM pour le vido seul: (a) base AVARB (b) base
CUAVE.
127
Chapitre 6. Ralisation
Nous observons que les rsultats varient en fonction des paramtres dentrainement de l'AG,
galement aux le nombre de clusters obtenu par la phase de quantification vectorielle, par
exemple, avec 7 clusters, Pc = 0.7 et Pm = 0.01, pour la base AVARB audio et 5 clusters, Pc =
0.6 et Pm = 0.01 pour la base AVARB visuelle sont suprieures toutes les autres approches
dans tous les cas. Par consquent, nous les utilisons dans notre GA/HMM. Les mmes
observations pour la base de donnes audio CUAVE avec 4 clusters, Pc = 0.6 et Pm = 0.01, et
pour la base de donnes visuelle CUAVE la meilleure performance est obtenue avec 3 clusters,
Pc = 0.5 et Pm = 0.01.
Les figures 10 et 11 donnent le taux de reconnaissance moyennes par rapport au nombre de
clusters utiliss dans l'exprience.
(a) (b)
Figure 6.10 Comparaison entre les taux de reconnaissances audio, vido, et audiovisuel, on utilisant :
(a) HMM standard (b) GA/HMM pour la BDD AVARB.
128
Chapitre 6. Ralisation
(a) (b)
Figure 6.11 Comparaison entre les taux de reconnaissances audio, vido, et audiovisuel, on utilisant :
(a) HMM standard (b) GA/HMM pour la BDD CUAVE.
En se basant sur les figures 6.10 et 6.11, nous constatons que les taux de reconnaissance
obtenus avec notre GA/HMM sont meilleurs dans la plupart des cas par rapport ceux obtenus
avec le HMM standard (Les figures ci-dessus indiquent galement que le systme AVASR avec
une fusion des scores dpassent significativement en atteignant des taux de reconnaissance les
plus levs. Dans la figure 6.10, nous avons not presque les mmes observations prcdentes
avec notre base de donnes de AVARB, c'est dire que nous avons trouv le meilleur taux
moyen de reconnaissance gale 93,7% et 97,6% en utilisant le HMM standard (Young et al.
2006) et le modle hybride GA/HMM respectivement, et avec 7 classes la fois.
Pour la base de donnes CUAVE les rsultats montrent que le taux moyen de reconnaissance
atteint un meilleur taux avec 86,8% en utilisant le modle HMM standard avec 5 classes pour la
phase de classification, et 98,1% en utilisant le modle GA/HMM avec 3 classes.
Plus gnralement, nous avons trouv une augmentation du pourcentage variant de presque
5% 28% des rsultats de nos tests, mais cette augmentation dans les taux de reconnaissance
donns n'est pas fixe, ainsi que avec l'augmentation de la taille de la population. Il se peut donner
des taux pire ou les mmes de celle du HMM standard avant les optimisations. Cela est d la
caractristique de la mthode GA qui est alatoire et aussi que ce systme utilise le processus
gnral de remplacement standard.
129
Chapitre 6. Ralisation
6.6 Conclusion
Dans ce chapitre, nous avons prsent les caractristiques techniques et les performances
du systme AVASR propos. Les diffrents blocs matriels ainsi leur fonctionnement ont t
dtaills.
Les rsultats de lvaluation (calcul derreur et les tests de reconnaissance) sont trs
satisfaisants et tmoignent dune grande fiabilit de mesures obtenues par ce systme.
Les scores de reconnaissance obtenus ont montr que lintgration des deux modalits
acoustiques est visuelles sont suprieurs ceux obtenus avec chaque modalit prise
sparment, dans toutes les conditions exprimentales (niveau de bruit).
130
Conclusion et perspectives
Conclusion et perspectives
7.1 Conclusion
Le domaine de la reconnaissance automatique de la parole est actuellement trs actif. De
nombreux laboratoires de recherche et des industriels effectuent des recherches dans ce
domaine, avec un souci thorique et applicatif trs marqu. Mme si quelques problmes de
reconnaissance comme la reconnaissance de mots isols avec un vocabulaire limit et
prononcs dans des conditions calmes d'utilisation ou la reconnaissance dpendant du
locuteur peuvent tre considrs comme ayant atteint un niveau de performance satisfaisant,
la reconnaissance automatique mrite encore de nombreux travaux de recherche pour tendre
son champ d'application. Un axe important de recherche concerne l'amlioration de la
robustesse d'un systme de reconnaissance lorsque l'environnement de test est sensiblement
diffrent de l'environnement d'apprentissage. Ce sujet a t le centre d'attention de ce
document. Deux aspects du problme de robustesse ont t prsents : la robustesse au bruit et
la robustesse au locuteur.
Nos travaux de recherche ont port sur la fusion dinformations acoustiques et visuelles
pour la RAP. Nous avons donc abord les principaux problmes sous-jacents cette fusion,
savoir la paramtrisation des informations de parole et la nature des systmes de
reconnaissance dans chacune des modalits, ainsi que le lieu et la nature du processus de
fusion des informations sensorielles. Nous avons choisi de rsoudre ces problmes en nous
appuyant sur des tudes ralises dans le domaine de la perception audiovisuelle de la parole.
Nous avons dvelopp diffrents systmes pour effectuer la fusion des informations
acoustiques et visuelles en prenant appui sur des modles perceptifs. Ces systmes ont t
tests sur deux corpus audiovisuelles CUAVE.
7.2 Perspectives
Les travaux commencs au cours de cette thse ouvrent la voie de nombreux travaux
futurs.
La prise en compte de la parole continue ainsi spontane est vitale pour un systme de
reconnaissance grand public.
Les pauses, les rptitions, les hsitations, les phrases en suspens posent des
problmes par la suite aux autres modules de l'application vise.
131
Conclusion et perspectives
Les gens utiliseront les systmes de reconnaissance condition que le taux d'erreur de
reconnaissance soit suffisamment faible. La reconnaissance robuste est donc
ncessaire. L'utilisation d'un systme de reconnaissance dans un milieu bruit et par
diffrentes personnes devrait tre habituelle.
La prise en compte des bruits non stationnaires, dont l'importance a t souleve
travers ce document, ncessite de continuer l'effort engag. Nous n'en sommes qu'au
dbut. L'tude des problmes de dtections de changement des bruits et la prise en
compte de ces moments pendant la reconnaissance doit se poursuivre.
Avec la reprsentation par adjacence, prsente dans le 4 me chapitre, nous avons
tabli que le manque de compatibilit entre le GA dune part et loprateur de
mutation gntique dfini sur la base dapproches dterministes dautre part, nuisait
lefficacit de lapproche. Cest donc prioritairement sur ce point que devront se
focaliser de futurs dveloppements.
132
Annexes
Annexe A
A.1 Environnement de dveloppement: MATLAB R2013a
MATLAB ( matrix laboratory ) est un langage de programmation de quatrime
gnration mul par un environnement de dveloppement du mme nom ; il est utilis des
fins de calcul numrique. Dvelopp par la socit amricaine The MathWorks, MATLAB
permet de manipuler des matrices, d'afficher des courbes et des donnes, de mettre en uvre
des algorithmes, de crer des interfaces utilisateurs, et peut sinterfacer avec dautres langages
comme le C, C++, Java, et Fortran. Les utilisateurs de MATLAB (environ un million en
20041) sont de milieux trs diffrents comme lingnierie, les sciences et lconomie dans un
contexte aussi bien industriel que pour la recherche. Matlab peut sutiliser seul ou bien avec
des toolbox ( bote outils ).
Le logiciel Matlab et lenvironnement graphique interactif Simulink sont
particulirement performants et adapts la rsolution de problmes dautomatique,
notamment pour la modlisation et la simulation des systmes dynamiques.
133
Annexes
Avantages :
collection trs riche de librairies avec de nombreux algorithmes, dans des domaines
trs varis. Excution rapide car les librairies sont souvent crites dans un langage
compil.
environnement de dveloppement trs agrable : aide complte et bien organise,
diteur intgr, etc.
support commercial disponible
Inconvnients :
langage de base assez pauvre, qui peut se rvler limitant pour des utilisations
avances.
prix lev
bibliothques utiliss :
134
Annexes
135
Annexes
136
Bibliographie
Bibliographie
Abry C., Bo L.-J., Corsi P., Descout R., Gentil M. and Graillot P. (1980). Labialit et Phontique,
publications de l'Universit des langues et lettre de Grenoble.
Adjoudani, A., Guiard-Marigny, T., Le Goff, B. and Benot, C. (1994). Un modle 3d de lvres
parlantes. In Actes des XX Journes dEtude sur la Parole (JEP), pp. 143146.
Adjoudani, A. and Benot, C. (1995). Audio-visual speech recognition compared across two
architectures, in Proc. of the 4th EUROSPEECH Conference, Madrid, Espagne, pp. 1563-1566.
Adjoudani, A. (1998). Reconnaissance automatique de la parole audiovisuelle. Thse de doctorat,
Institut National Polytechnique de Grenoble.
Allegre, J. (2003). Approche de la reconnaissance automatique de la parole. Rapport cycle probatoire,
CNAM.
Alpaydin, E. (2004). Introduction to machine learning. MIT Press.
Basso, A. Graf, H.P., Gibbon, D., Cosatto, E. and Liu, S. (2001). Virtual light: Digitally-generated
lighting for video conferencing applications. In Proc. ICIP, 2: pp. 1085-1088, Thessaloniki,
Greece, October 7-10.
Benot, C., Guiard-Marigny, T., Le Goff, B. and Adjoudani, A. (1996). Which Components of the
Face Do Humans and Machines Best Speechread?, in Speechreading by Humans and Machines,
D. Stork and M. Hennecke (eds.), Springer-Verlag, Berlin, pp. 351-372.
Binnie C.A., Montgomery A.A. and Jackson P.L. (1974). Auditory and visual contributions to the
perception of consonants, Journal of Speech & Hearing Research, 17, pp. 619-630.
Berger, K. W., Garner, M., and Sudman, J. (1971) . The effect of degree of facial exposure and the
vertical angle of vision on speechreading performance. Teacher of the Deaf, 69: pp. 322326.
Beyer, H.-G. (2001). The Theory of Evolution Strategies. Natural Computing Series. Springer,
Heidelberg.
Bregler, C., Hild, H., Manke, S. and Waibel, A. (1993). Improving connected letter recognition by
lipreading, Proc of the International Conference on Acoustics, Speech and Signal Processing,
Minneapolis, IEEE, 1, pp. 557-560.
Bridges, C.L. and Goldberg, D.E. 1991. An analysis of multipoint crossover. In Proceedings of the
Foundation Of Genetic Algorithms. FOGA.
Bogert, B., Healy, M. and Tukey, J. (1963). The quefrency alanysis of time series for echoes:
cepstrum, pseudo-autocovariance, cross-cepstrum and saphe cracking. Time Series Analysis, pp.
209-243.
Boite, R., Bourlard, H., Dutoit, T., Hancq, J. and Leich, H. (2000). Traitement de la parole (Presses
Polytechniques et Universitaires Romandes, Lausanne).
Bouchet, A. and Cuilleret, J. (1972). Anatomie topographique descriptive et fonctionelle,
Villeurbanne, Simep ditions.
Broun, C.C., Zhang, X., Mersereau, R.M. and Clements, M. (2002). Automatic speechreading with
application to speaker verification. In Proc. ICASSP, 1: pp. 685-688, Orlando, FL, USA, May 13-
17.
Brunelli, R. and Poggio, T. (1993). Face recognition: features versus templates. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 15(10):1042-1052.
Burnham, D. and Dodd, B. (1996). Auditory-visual speech perception as a direct process: the McGurk
effect in infants and across languages, Speechreading by Humans and Machines, Stork et
137
Bibliographie
138
Bibliographie
Fogel, L.J., Owens, A.J. and Walsh, M.J. (1966). Artificial Intelligence through Simulated Evolution.
Wiley, New York.
Goh, J., Tang, L. and Al turk, L. (2010). Evolving the Structure of Hidden Markov Models for Micro
aneurysms Detection. UK Workshop on Computational Intelligence (UKCI), pp.16.
Goldberg, D. and Richardson, J. (1987). Genetic algorithm with shearing for multi-model function
optimization, In J.J. Proceeding of the 2nd international conference on genetic algorithms, pp. 41-
49, Lawrence Erlbaum associates.
Goldberg, D. (1989). Genetic Algorithms in Search, Optimization, and Machine Learning. Addison
Wesley Reading, Massachusetts.
Goldberg, D. (1991). Real-coded genetic algorithms, virtual alphabets and blocking. Complex
Systems, 5: pp. 139-167.
Gouet, V. and Montesinos, P. (2002). Normalisation des images en couleur face aux changements
d'illumination. In Proc. RFIA'02, 2: pp. 415-424, Angers, France, January 8-10.
Gray, M.S., Movellan, J.R. and Sejnowski, T.J. (1997a). A comparison of local versus global image
decompositions for visual speechreading. In Proc. 4th Annual Joint Symposium on Neural
Computation, pp. 92-98, Pasadena, CA, USA, May 17.
Gray, M.S., Movellan, J.R. and Sejnowski, T.J. (1997b). Dynamic features for visual speechreading: A
systematic comparison. In Michael C. Mozer, Michael I. Jordan, and Thomas Petsche, editors,
ANIPS, 9: pp. 751-757. The MIT Press.
Gupta, M. and Garg, Dr.A.K. (2012). Analysis of image compression algorithm Using DCT.
International Journal of Engineering Research and Applications (IJERA), 2(1): pp.515521.
Gurbuz, S., Patterson, E.K., Tufekci, Z. and Gowdy, J.N. (2001a). Lip-reading from parametric lip
contours for audio-visual speech recognition. In Proc. 7th Eurospeech, 2: pp.1181-1184, Aalborg,
Denmark, September 3-7.
Gurbuz, S., Patterson, E.K., Tufekci, Z. and Gowdy, J.N. (2001b). Application of affine-invariant
fourier descriptors to lipreading for audio-visual speech recognition. In Proc. ICASSP, 1: p. 177-
180, Salt Lake City, UT, USA, May 7-11.
Hlaoui, A. (1999). Reconnaissance de mots isols arabes par hybridation de rseaux de neurones et
modles de Markov cachs. cole nationale dingnieurs de Tunis.
Hardcastle, W.J. (1976). Physiology of Speech Production, Academic Press, Londres.
Harvey, R., Matthews, L., Bangham, J.A. and Cox, S. (1997). Lip reading from scale-space
measurements. In Proc. CVPR, pp. 582-587, Puerto Rico, June.
Haton, J.-P. (2006). Reconnaissance automatique de la parole : Du signal son interprtation. Dunod
Paris.
Hermansky, H., Morgan, N., Bayya, A. and Kohn, P. (1992). RASTA-PLP Speech Analysis. IEEE
International conference on Acoustics, speech and signal processing, 1: pp.121124.
Holland, J. (1975). Adaptation in Natural and Artificial Systems. University of Michigan Press.
Hunke, H. M. and Waibel, A. (1994). Face locating and tracking for human-computer interaction,
Proc. Twenty-Eight Asilomar Conference on Signals, Systems & Computers, Monterey, CA,
USA.
Hunke, H. M. (1994). Locating and tracking of human faces with neural networks. Masters thesis,
University of Karlsruhe.
Jacob, B. and Snac, C. (1996). Un modle matre-esclave pour la fusion de donnes acoustiques et
articulatoires en reconnaissance. In Actes des Journes dEtude sur la Parole (JEP), pp. 363366,
Avignon, Juin.
139
Bibliographie
Jakiela, M., Chapman, C., Duda, J., Adweuya, A. and Saitou, K. (2000).Continuum structural
topology design with genetic algorithm. Comput. Methods Appl. Mech. Engrg 186, pp. 339-356.
Jourlin, P. (1996). Handling disynchronization phenomena with hmm in connected speech. In
Proceedings of European Signal Processing Conference, pp. 133136, Trieste.
Kant, E. (1787). Critique de la Raison Pure, Presses Universitaires de France, 11me edition, 1944,
dition originale, 1787.
Khandait, S.P., Khandait, P.D. and Thool, Dr.R.C. (2009). An Efficient Approach to Facial Feature
Detection for Expression Recognition. International Journal of Recent Trends in Engineering,
2(1): pp.179182.
Kicinger, R., Arciszewski, T., and Jong, K. D. (2005). Evolutionary computation and structural
design: A survey of the state-of-the-art. Computers & Structures, 83(23-24): pp. 1943-1978.
Klatt. D. H. (1979). Speech perception: A model of acoustic-phonetic analysis and lexical access.
Journal Phonetique. 7: pp. 279312.
Kubrick, S. (1968). 2001 : A space odyssey (2001 : l'odyse de l'espace). Metro-Goldwyn-Mayer
(Turner Entertainment Co), April 3. http ://www.kubrick2001.com/ ,
http://sfstory.free.fr/films/2001.html.
Kuhl, P.K. and Meltzoff, A.N. (1982). The bimodal perception of speech in infancy. Science, 218, pp.
1138-1141.
Kwong, S. and Chau, C.W. (1997). Analysis of Parallel Genetic Algorithms on HMM Based Speech
Recognition System. IEEE Transactions on Consumer Electronics. 43(4): pp. 1229 1233.
Ladefoged P. (1979). Articulatory parameters, W.P.P. 45, U.C.L.A., pp. 25-31.
Lallouache M.T. (1991). Un poste visage-parole couleur. Acquisition et traitement automatique des
contours des lvres, PhD. dissertation, INPG, Grenoble, France.
Laprie, Y. (2000). Analyse spectrale de la parole.
Larr A. L. (1959). Speechreading through closed-circuit television. Volta Review, 61: pp.1921.
Lee, J. and Kim, J.Y. (2001). An efficient lipreading method using the symmetry of lip. In Proc. 7th
Eurospeech, 2: pp. 1019-1022, Aalborg, Denmark, September 3-7.
Le Goff, B., Guiard-Marigny, T., and Benot, C. (1995). Read my lips ... and my jaw! how intelligible
are the components of a speakers face ? In Eurospeech95, Madrid, Spain.
Le Goff, B., Guiard-Marigny, T., and Benot, C. (1996).Progress in Speech Synthesis, chapitre
Analysis-synthesis and intelligibility of a talking face, pp. 235246. Springer, New York.
Le Huche, F. and Allali, A. (2001). La Voix. Anatomie et physiologie des organes de la voix et de la
parole (Masson, Paris).
Leroy, B. and Herlin, I.L. (1995). Un modle dformable paramtrique pour la reconnaissance de
visages et le suivi du mouvement des lvres. In 15th GRETSI Symposium Signal and Image
Processing, pp. 701-704, Juan-les-Pins, France, September 18-21.
Leroy, B. Chouakria, A., Herlin, I.L. and Diday, E. (1996a). Approche gomtrique et classification
pour la reconnaissance de visages. In Proc. RFIA, pp. ??-??, Rennes, France.
Liberman, A.M. and Mattingly, I.G. (1985). The motor theory of speech production revised.
Cognition, 21: pp.136, 1985.
Lievin, M. and Luthon, F. (1999). Lip features automatic extraction. Proceedings of IEEE
International Conference on Image Processing, Chicago, IL, USA, 3: pp. 168172.
Liew, A.W.C., Sum, K. L., Leung, S.H. and Lau, W.H. (1999). Fuzzy segmentation of lip image using
cluster analysis. In Proc. 6th Eurospeech, 1: pp. 335-338, Budapest, Hungary, September 6-9.
140
Bibliographie
Liu, L., He, J. and Palm, G. (1997). Effects of the phase on the perception of intervocalic stop
consonants. Speech Communication, 4(22): pp. 403-417.
Lockwood, P., Boudy, J. and Blanchet, M. (1992). Non-linear spectral subtraction (NSS) and hidden
Markov models for robust speech recognition in car noise environments. Proc. of IEEE ICASSP,
1: pp. 265-268.
Luettin, J. Thacker, N.A. and Beet, S. (1996a). Active shape models for visual speech feature
extraction. In Stork and Hennecke (1996), pp. 383-390.
Luettin, J. Thacker, N.A. and Beet, S. (1996b). Locating and tracking facial speech features. In Proc.
ICPR, 1: pp. 652-656, Vienna, Austria, August 25-29.
Luettin, J. Thacker, N.A. and Beet, S. (1996c). Speaker identification by lipreading. In Proc. 4th
ICSLP, 1: pp. 62-65, Philadelphia, PA, USA, October 3-6.
Luettin, J. Thacker, N.A. and Beet, S. (1996d). Speechreading using shape and intensity information.
In Proc. 4th ICSLP, 1: pp. 58-61, Philadelphia, PA, USA, October 3-6.
Luettin, J. Thacker, N.A. and Beet, S. (1996e). Statistical lip modelling for visual speech recognition.
In Proc. 8th Eusipco, 1: pp. 137-140, Trieste, Italy, September 10-13.
Luettin, J. Thacker, N.A. and Beet, S. (1996f). Visual speech recognition using active shape models
and hidden Markov models. In Proc. ICASSP, 2: pp. 817-820, Atlanta, GA, USA, May 7-10.
Luettin, J. and Thacker, N.A. (1997). Speechreading using probabilistic models. Computer Vision and
Image Understanding, 65(2):163-178.
Luettin, J. (1997a). Towards speaker independent continuous speechreading. In Proc. 5th Eurospeech,
pp. 1991-1994, Rhodes, Greece, September 22-25.
Luettin, J. (1997b). Visual Speech and Speaker Recognition, PhD dissertation, Universit de
Sheffield.
Luettin, J. and Dupont, S. (1998). Continuous audio-visual speech recognition. LNCS, 1407: pp. 657-
673.
Makhlouf A., Lazli, L. and Bensaker, B. (2013a). Automatic Speechreading Using Genetic
Hybridization of Hidden Markov Models. In Proceeding of the IEEE World Congress on
Computer and Information Technology (WCCIT13), June 22-24, 2013, Sousse, Tunisia.
Makhlouf A., Lazli, L. and Bensaker, B. (2013b). Hybrid Hidden Markov Models and genetic
algorithm for Robust Automatic visual speech recognition. Journal of Information Technology
Review (JITR), 4(3): pp. 105-114.
Makhlouf A., Lazli, L. and Bensaker, B. (2016). Structure Evolution of Hidden Markov Models for
Audiovisual Arabic Speech Recognition. International Journal of Signal and Imaging Systems
Engineering, IJSISE, 9(1).
Malasn, N., Yang, F., Paindavoine, M.and Mitran, J. (2002). Suivi dynamique et vrification de
visages en temps rel : algorithme et architecture. In Proc. RFIA'02, pp.77-86, Angers, France.
Mase, K. (1991). Automatic lipreading by optical-flow analysis. Systems and Computers in Japan,
22(6): 67-75.
Massaro, D.W. (1987). Categorical Perception: The Groundwork of Cognition, chapitre Categorical
partition: a fuzzy logical model of categorization behavior. Cambridge, MA : University Press.
Massaro, D.W. (1989). Multiple book review of Speech perception by ear and eye, Behavioral and
Brain Sciences, 12, pp.741-794.
Massaro, D.W. (1998). Perceiving talking faces: From speech perception to a behavioral principle.
Cambridge, Massachusetts : MIT Press.
141
Bibliographie
Matthews, L. Bangham, J. and Cox, S. (1996a). Audiovisual speech recognition using multiscale
nonlinear image decomposition. In Proc. 4th ICSLP, 1: pp. 38-41, Philadelphia, PA, USA,
October 3-6.
Matthews, L. Bangham, J.A., Harvey, R. and Cox, S. (1998). A comparison of active shape models
and scale decomposition based features for visual speech recognition. LNCS, 1407: pp. 514-528.
McGurk, H. and McDonald, J. (1976). Hearing Lips and Seeing Voices, Nature, 264: pp. 746-748.
Meier, U. Hrst, H. and Duchnowski, P. (1996). Adaptive bimodal sensor fusion for automatic
speechreading. In Proc. ICASSP, pp. 833-836, Atlanta, GA, USA, May.
Messer, k., Matas, J., Kittler, J., Luettin, J. and Matre, G. (1999). XM2VTSDB : The extended
M2VTS database. In Proc. 2nd AVBPA, pp. 7277, Washington, DC, USA, March 22-23.
Michalewicz, Z. and Janikov, C.Z. (1991). Handling constraints in genetic algorithms. In Proceedings
of the Fourth International Conference on Genetic Algorithm. ICGA.
Milner, B. and Darch, J. (2011). Robust Acoustic Speech Feature Prediction From Noisy Mel-
Frequency Cepstral Coefficients. IEEE Trans. on ASLP, 2(19): pp. 338-347.
Movellan, J.R (1995). Visual speech recognition with stochastic networks. In Gerald Tesauro, David
Touretzky, and Todd Leen, editors, ANIPS, 7: pp. 851-858, Cambridge, MA, USA. The MIT
Press.
Movellan, J.R and Chadderdon, G. (1996). Speechreading by Man and Machine: Models, Systems and
Applications. chapitre Channel separability in the audiovisual integration of speech : A Bayesian
approach, pp. 473488. Springer-Verlag, NATO ASI Series, Berlin, Germany.
Murty, K.S.R. and Yegnanarayana, B. (2006). Combining evidence from residual phase and MFCC
features for speaker recognition. IEEE Signal Processing Letters, 1(13): pp. 52-55.
Nakano, Y. (1961). A study on the factors which influence lipreading of deaf children. Language
research in countries other than the United States, Volta Review, 68:pp. 6883. Cited by Quigley
(1966).
Neely, K. K. (1956). Effect of visual factors on the intelligibility of speech. Journal of Acoustic
Society of America, 28: pp.12751277.
Nefian, A.V., Liang, L., Pi, X., Xiaoxiang, L., Mao, C. and Murphy, K. (2002). A coupled HMM for
audio-visual speech recognition. In Proc. ICASSP, 2: pp. 2013-2016, Orlando, FL, USA, May 13-
17.
Neti, C. V. and Senior, A. (1999). Audio-visual speaker recognition for video broadcast news. In
DARPA HUB4 Workshop, pp. 139142, Washington, DC, USA.
Neti, C., Potamianos, G., Luettin, J., Matthews, L., Glotin, H., Vergyri, D., Sison, J., Mashari, A. and
Zhou, J. (2000). Audio-visual speech recognition. Technical Report Workshop 2000,
International Computer Science Institute, Center for Language and Speech Processing (CLSP),
The Johns Hopkins University, Baltimore, MD, USA, October 12.
O'Shaughnessy, D. (1987). Speech Communications: Human and Machine, Series in Electrical
Engineering ed. USA: Addison-Wesley Publishing Co.
Oudelha, M. and Ainon, R.N. (2010). HMM parameters estimation using hybrid Baum-Welch genetic
algorithm. International Symposium in Information Technology (ITSim), 2: pp.542545.
Pai, Y., Ruan, S., Shie, M., Liu, Y. (2006). A Simple and Accurate Color Face Detection Algorithm in
Complex Background. In ICME, pp. 1545-1548.
Patterson, E.K., Gurbuz, S., Tufekci, Z. and Gowdy, J.N. (2002). Moving-talker speaker-independent
feature study and baseline results using the CUAVE multimodal speech corpus. EURASIP
Journal on Applied Signal Processing, 11: pp.11891201.
142
Bibliographie
Pentland, A. and Mase, K. (1989). Automatic lipreading by optical-flow analysis. Technical Report
VA189-8, ITEJ.
Prez, , Piccardi, M. and Garca, J. (2007). Comparison between genetic algorithms and the Baum-
Welch algorithm in learning HMMs for human activity classification, Proceeding of
EvoWorkshops7, pp.399406.
Petajan, E. (1984). Automatic lipreading to enhance speech recognition, PhD. dissertation, Univ.
Illinois at Urbana-Champagne.
Pigeon, S. and Vandendorpe. L. (1997). The M2VTS multimodal face database. LNCS, pp. 403410.
Potamianos, G., Cosatto, E., Graf, H.P. and Roe, D.B. (1997). Speaker independent audio-visual
database for bimodal ASR. In Benot and Campbell (1997), pp. 65-68.
Potamianos, G., Verma, A., Neti, C. and Iyengar, G. (2000). A cascade image transform for speaker
independent automatic speechreading. In Proc. ICME, pp. 1097-1100, New York, NY, USA.
Potamianos, G., Luettin, J. and Neti, C. (2001a). Hierarchical discriminant features for audio-visual
LVCSR. In Proc. ICASSP, 1: pp. 165-168, Salt Lake City, UT, USA, May 7-11.
Potamianos, G., Neti, C., Iyengar, G. and Helmuth, E. (2001b). Large-vocabulary audio-visual speech
recognition by machines and humans. In Proc. 7th Eurospeech, 2: pp. 1027-1030, Aalborg,
Denmark, September 3-7.
Potamianos, G., Neti, C., Iyengar, G., Senior, A.W. and Verma, A. (2001c). A cascade visual front end
for speaker independent automatic speechreading. Speech Technology, 4: pp. 193208.
Rabiner, L. and Juang, B.H. (1993). Fundamentals of Speech Recognition. Oxford University Press.
Rao, R. and Mersereau, R. M. (1995). On merging hidden Markov models with deformable templates.
In Proc. ICIP, 3: pp. 35563559, Washington, DC, USA.
Reisberg, D., McLean, J. and Goldfield, A. (1987). Easy to hear but hard to understand: A lip-reading
advantage with intact auditory stimuli , in Hearing by Eye : the psychology of lip-reading, B.
Dodd et R. Campbell (eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey, pp.97-114.
Revret, L. (1999). Conception et valuation dun systme de suivi automatique des gestes labiaux en
parole. Thse de doctorat, de linstitut national polytechnique de Grenoble.
Robert-Ribes, J., Piquemal, M., Schwartz, J. L. and Escudier, P. (1996). Speechreading by Man and
Machine: Models, Systems and Applications. chapitre Exploiting sensor fusion architectures and
stimuli complementarity in AV speech recognition, pp. 193210. Springer-Verlag, NATO ASI
Series, Berlin, Germany.
Rodomagoulakis, I. (2008). Feature Extraction Optimization and Stream Weight Estimation in Audio-
Visual Speech Recognition.Phd thesis from Technical University of Crete.
Rogozan, A., Delglise, P. and Alissali, M. (1996). Intgration asynchrone des informations auditives
et visuelles dans un systme de reconnaissance de la parole , Actes des 21mes Journes
dEtudes sur la Parole, Avignon, pp. 359-362.
Rogozan, A. (1999). tude de la fusion des donnes htrognes pour la reconnaissance automatique
de la parole audiovisuelle. Thse de doctorat, Universit d'Orsay - Paris XI.
Snchez, U.R. (2000). Aspects of facial biometrics for verification of personal identity. Ph.D. thesis,
University of Surrey, Guilford, UK.
Sanderson C. and Paliwal, K. (2002). Polynomial features for robust face authentication. In
proceedings of International Conference on Image Processing.
Schwartz, J.-L., Robert-Ribs, J. and Escudier, P. (1998). Hearing by Eye II: Advances in the
Psychology of Speechreading and Auditory-Visual Speech. chapitre Ten years after Summerfield:
A taxonomy of models for audio-visual fusion in speech perception, pp. 85108. Psychology
Press, Hove, UK.
143
Bibliographie
144
Bibliographie
Whalen D.H. (1990). Coarticulation is largely planned, Journal of Phonetics, 18(1), pp. 3-35.
Wojdel J.C. and Rothkrantz. L.J.M. (2001a). Robust video processing for lipreading applications. In
Proc. 6th Euromedia, pp. 195-199, Valencia, Spain, April 18-20.
Wojdel J.C. and Rothkrantz. L.J.M. (2001b). Using aerial and geometric features in automatic lip-
reading. In Proc. 7th Eurospeech, 4: pp. 2463-2466, Aalborg, Denmark, September 3-7.
Wolpert, D.H., and Macready, W.G. (1997). No free lunch theorems for optimization. IEEE
Transactions on Evolutionary Computation, 1(1), pp. 67-82.
Wright, A.H. (1991). Genetic algorithms for real parameter optimization. In Proceeding of the
Foundation Of Genetic Algorithms. FOGA.
Xue-ying, Z., Yiping, W. and Zhefeng, Z. (2007). A Hybrid Speech Recognition Training Method for
HMM Based on Genetic Algorithm and Baum Welch Algorithm. IEEE 2nd International
conference on Innovative Computing, Information and Control (ICICIC07), pp.572.
Yang, J. and Waibel, A., (1996). A real-time face tracker. In: Proc. 3rd IEEE Workshop on
Application of Computer Vision. pp. 142-147.
Yang, C., Soong, F.K. and Lee, T. (2007). Static and dynamic spectral features: their noise robustness
and optimal weights for ASR. IEEE Trans. on ASSP, 3(15): pp. 1087-1097.
Young, S., Evermann, G., Gale, M., Hain, s.T., Kershaw, D., Liu, X., Moore, G., Odell, J., Ollason,
D., Povey, D., Valtchev, V. and Woodland, P. (2006). The HTK Book (for HTK version 3.4).
Cambridge University Engineering Department, Ed.
Zemlin, W.R. (1968). Speech and Hearing Science: Anatomy and Physiology, New Jersey, Prentice-
Hall.
Zwicker, E. (1961). Subdivision of the audible frequency range into critical bands. Proc. of JASA,
2(33): pp. 248.
145
Notations
Notations
AAM Active Appearance Model
ACP Analyse en Composantes Principales
ASR Automatic Speech Recognition
AVASR Audio-Visual Automatic Speech Recognition
BW Baum-Welch algorithm
DCT Discrete Cosine Transform
DI Direct Integration
DWT Discrete Wavelet Transform
FAP Facial Animation Parameters
FCC Face Color Classifier
FLMP Fuzzy-Logical Model of Perception
HMM Hidden Markov ModelS
ID Identification Directe
ICP Institut de la Communication Parle
IFCC Individuel Face Color Classifier
IS Identification Spare
GA Genetic Algorithm
GFCC General Face Color Classifier
GMM Gaussian Mixture Model
LDA Linear Discriminant Analysis
LPC Linear Predictive Coding
LUT Look-Up Table
MFCC Mel-scaled Frequency Cepstral Coefficients
MLLT Maximum Likelihood Linear Transform
MMI Maximum Mutual Information
MSA Multiscale Spatiale Analysis
PLP Perceptual Linear Predictive
RAP reconnaissance automatique de la parole
RASTA-PLP RelAtive SpecTral Analysis-Perceptual Linear Predictive
ROI Region Of Interest
SI Separate Integration
SNR Signal-to-Noise Ratio
146
Rfrences personnelles
Makhlouf A., Lazli, L. and Bensaker, B. (2013a). Automatic Speechreading Using Genetic
Hybridization of Hidden Markov Models. In Proceeding of the IEEE World Congress on
Computer and Information Technology (WCCIT13), June 22-24, 2013, Sousse, Tunisia.
Makhlouf A., Lazli, L. and Bensaker, B. (2013b). Hybrid Hidden Markov Models and genetic
algorithm for Robust Automatic visual speech recognition. Journal of Information Technology
Review (JITR), 4(3): pp. 105-114.
Makhlouf A., Lazli, L. and Bensaker, B. (2016). Structure Evolution of Hidden Markov Models for
Audiovisual Arabic Speech Recognition. International Journal of Signal and Imaging Systems
Engineering, IJSISE, 9(1), pp.5566.
Co-encadrement:
Master de recherche Reconnaissance des Formes et Intelligence Artificielle (Janvier 2015- Juin 2015)
Boukhatem Chemssedine, extraction des paramtres vocaux laide dune nouvelle mthode
danalyse acoustique , un master pourtant sur la mise en uvre de la mthode J-RASTA pour faire
une extraction des paramtres acoustiques.
147