KB PDF

MINISTERE DE LENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE
UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU
FACULTE DE GENIE ELECTRIQUE ET DE LINFORMATIQUE

DEPARTEMENT DELECTRONIQUE
MEMOIRE DE MAGISTER
En vue de lobtention du diplme de Magister en Electronique
Option tldtection
Prsent par :
Mr BERBECHE Kamal
Intitul :
Modles de Markov Cachs : Application La

Reconnaissance Automatique de la Parole.
Devant le Jury dexamen compos de :
Mr Laghrouche Mourad Professeur lUMMTO Prsident
Mr Haddab Salah Matre de confrences A lUMMTO Rapporteur
Mr Hammouche Kamal Professeur lUMMTO Examinateur
Mme Ameur Zohra Professeur lUMMTO Examinateur
Mr Lazri Mourad Matre de Confrences B lUMMTO Examinateur
REMERCIEMENTS
REMERCIEMENTS
Remerciements
La ralisation de ce mmoire en vue de lobtention du diplme de Magister en

lectronique a t rendue possible grce au soutien de plusieurs personnes qui je voudrai
tmoigner ma reconnaissance, leurs disponibilits et leurs comptences m'ont permis de
franchir beaucoup dobstacles, quils trouvent ici le tmoignage de ma gratitude et mes
remerciements les plus sincres.
Je voudrais tout d'abord adresser tous mes remerciements mon directeur de mmoire
Monsieur HADDAB Salah, Maitre de Confrences A luniversit de Tizi Ouzou pour son
immense patience, sa grande disponibilit et ses conseils qui ont contribu grandement la
ralisation de ce travail. Quil trouve ici lexpression de ma profonde gratitude.
Jexprime mes sincres remerciements et ma profonde gratitude Mr Laghrouche

Mourad, professeur lUniversit Mouloud MAMMERI de Tizi-ouzou pour lhonneur quil
me fait en prsidant ce jury.
Je tiens remercier chaleureusement Mme Ameur Zohra, professeur lUniversit

Mouloud MAMMERI de Tizi-ouzou, pour avoir accept de faire partie du jury.
galement, jexprime ma profonde gratitude Mr Hammouche Kamal, professeur

lUniversit Mouloud MAMMERI de Tizi-ouzou, pour avoir accept de faire partie du jury.
Jadresse mes vifs remerciements Mr Lazri Mourad, Maitre de confrance B

lUniversit Mouloud MAMMERI de Tizi-ouzou, pour avoir accepter aussi de faire partie du
jury.
Mes remerciements et ma gratitude aux responsables, chercheurs du laboratoire LAMPA.
Je dsir aussi remercier les enseignants du dpartement lectronique de luniversit de

tizi-ouzou qui mont fourni les outils et les connaissances ncessaires la russite de mes
tudes universitaires.
Je voudrais exprimer ma plus haute reconnaissance mes parents et toute ma famille

pour leur soutien, leur aide et leur patience.
Finalement, je noublierai pas de citer tous mes amis et collgues qui m'ont toujours
soutenu et encourag tout au long de cette dmarche.
Remerciements
TABLES DES MATIRES
Table des matires
GLOSSAIRE
INTRODUCTION GNRALE ------------------------------------------------------------------- 1
CHAPITRE I : GNRALITS SUR LA PAROLE
Introduction ------------------------------------------------------------------------------------------- 3
I.1. Production de la parole ------------------------------------------------------------------------- 3

I.1.1. Le processus de production -------------------------------------------------------------------------------------- 3
I.1.2. Les diffrentes tapes de production de la parole------------------------------------------------------------ 4
I.1.3. Les organes de production de la parole ------------------------------------------------------------------------ 5
I.1.3.1. Le larynx ------------------------------------------------------------------------------------------------------ 5
I.1.3.2. Les cavits supraglottiques --------------------------------------------------------------------------------- 8
I.1.4. Les sons de la parole par lapproche production------------------------------------------------------------ 10
I.2. Audition-perception des sons de parole ----------------------------------------------------- 13

I.2.1. Structure de loreille --------------------------------------------------------------------------------------------- 13
I.2.2. Principe de perception auditive -------------------------------------------------------------------------------- 14
I.3. Traitement de la parole ------------------------------------------------------------------------ 16

I.3.1. Numrisation ----------------------------------------------------------------------------------------------------- 17
I.3.2. Lchantillonnage ------------------------------------------------------------------------------------------------ 17
I.3.3. La Quantification ------------------------------------------------------------------------------------------------ 18
I.3.4. Le Codage --------------------------------------------------------------------------------------------------------- 18
I.4. Analyse du signal de parole ------------------------------------------------------------------- 18

I.4.1. Analyse temporelle ---------------------------------------------------------------------------------------------- 18
I.4.2. Analyse frquentielle -------------------------------------------------------------------------------------------- 19
CHAPITRE II : LES PARAMTRES PERTINENTS DU SIGNAL DE PAROLE
Introduction ------------------------------------------------------------------------------------------ 25
II.1. Coefficients cepstraux de prdiction linaire ---------------------------------------------- 25
II.2. Lanalyse en banc de filtre ------------------------------------------------------------------- 27
II.3. Analyse par prdiction linaire perceptuelle ---------------------------------------------- 28

II.4. Mthodes RASTA- PLP et JRASTA- PLP ----------------------------------------------- 29
II.5. Analyse rsolution multiple --------------------------------------------------------------- 30
II.6. Mthodes Acoustiques hybrides ------------------------------------------------------------ 33
II.7. Autres paramtres acoustiques -------------------------------------------------------------- 34
Conclusion ------------------------------------------------------------------------------------------- 34
CHAPITRE III : LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE
Introduction ------------------------------------------------------------------------------------------ 35
III.1. Niveaux de complexit de la RAP --------------------------------------------------------- 35
III.2. Approche et techniques de reconnaissance automatique de la parole----------------- 37
III.2.1. Approche par la normalisation temporelle---------------------------------------------- 37
III.2.2. Approche par modlisation stochastique ----------------------------------------------- 39
III.2.3. Approche par modles neuromtriques ------------------------------------------------- 42
III.2.4. Approche Baysienne---------------------------------------------------------------------- 44
Conclusion ------------------------------------------------------------------------------------------- 45
CHAPITRE IV : LES MODLES DE MARKOV CACHS
Introduction ------------------------------------------------------------------------------------------ 46
IV.1. Historique ------------------------------------------------------------------------------------- 46
IV.2. Les chaines de Markov discrtes ----------------------------------------------------------- 48
IV.3. calcul de la vraisemblance ----------------------------------------------------------------- 53
IV.3.1. Lalgorithme Forward --------------------------------------------------------------------- 53
IV.3.2. Lalgorithme Backward ------------------------------------------------------------------- 55
IV.3.3. Probabilits dductibles ------------------------------------------------------------------- 57
IV.3.4. Dcodage/segmentation de squences dobservations -------------------------------- 57

IV.3.4.1. Etats cachs les plus probables chaque instant ------------------------------------------------------- 58
IV.3.4.2. Algorithme de viterbi --------------------------------------------------------------------------------------- 58
IV.4. Apprentissage des modles de Markov cachs ------------------------------------------ 60
IV.4.1 Apprentissage tiquet --------------------------------------------------------------------- 60
IV.4.2 Maximisation de la vraisemblance ------------------------------------------------------- 61

IV.4.2.1. Introduction lalgorithme Expectation-Maximisation----------------------------------------------- 62
IV.4.2.2. Lalgorithme de Baum-Welch----------------------------------------------------------------------------- 63
IV.4.2.3. Descente de gradient ---------------------------------------------------------------------------------------- 64
IV.5. Critre du maximum a posteriori (MAP) ------------------------------------------------ 67
IV.6. Maximisation de linformation mutuelle-------------------------------------------------- 69
IV.6.1. Maximisation de linformation mutuelle de la vraisemblance ---------------------- 69
IV.6.2. Maximisation de linformation mutuelle du MAP ------------------------------------ 71
IV.7. Le critre de segmental k-means ----------------------------------------------------------- 72
IV.8.1. Premire approche ------------------------------------------------------------------------- 73
IV.8.2. Deuxime approche ------------------------------------------------------------------------ 74
Conclusion ------------------------------------------------------------------------------------------- 76
CHAPITRE V : IMPLEMENTATION DE LA RECONNAISSANCE

AUTOMATIQUE PAR MMC
Introduction ------------------------------------------------------------------------------------------ 78
V.1. Objectif du travail : --------------------------------------------------------------------------- 78
V.2. Structure gnrale dun Reconnaissance Automatique de la parole continue ------- 78
V.3. Structure dun Systme de Reconnaissance Automatique de la parole continue par

MMC ------------------------------------------------------------------------------------------------------- 80
V.4. Premire Application : Dveloppement dun Systme de Reconnaissance de la

parole par MMC sous Matlab. ------------------------------------------------------------------------- 81
V.4.2.Extraction des paramtres MFCC --------------------------------------------------------- 82
V.4.3. Le modle HMM ---------------------------------------------------------------------------- 82
V.4.4. Lentrainement du modle MMC --------------------------------------------------------- 83

V.4.5 Tests et Rsultats----------------------------------------------------------------------------- 84
V.5 Deuxime Application : Dveloppement dun systme de Reconnaissance de la

Parole sous HTK
V.5.1 Systme Monophone ----------------------------------------------------------------------- 85
V.5.2 Systme triphone ---------------------------------------------------------------------------- 88
V.5.3 Analyse des rsultats ------------------------------------------------------------------------ 89
Conclusion ------------------------------------------------------------------------------------------- 89
CONCLUSION GNRALE --------------------------------------------------------------------- 90
ANNEXES ------------------------------------------------------------------------------------------- 92
ANNEXE A : MISE EN UVRE DELA RECONNAISSANCE AUTOMATIQUE

DE LA PAROLE SOUS HTK.
Introduction
A.1. Outils de prparation de donnes
A.2. Outils dapprentissage
A.3. Outils de reconnaissance
ANNEXE B :
LA PARAMTRISATION MFCC
Introduction
B.1. La paramtrisation par MFCC
BIBLIOGRAPHIE
Glossaire
GLOSSAIRE
LPC : Coefficients de prdiction linaire.

LPCC : Coefficients cepstrales de prdiction linaire.
MFCC : Coefficients cepstrales chelle frquentielle de Mel.
DCT : Transforme en cosinus discrte.
PLP : Prdiction linaire perceptuelle.
RASTA : Analyse spectrale relative.
JRASTA: Analyse spectral relative au bruit additif.
MRA: Analyse resolution multiple.
ANN: Artificiel Neural Network, Rseau de Neurones artificiel.
GMM: Gaussian mixture model, model de mixture de gaussiennes.
MMC: Model de Markov Cachs.
HMM: Hidden markov Model.
MAP: Maximum posteriori.
ML: Maximum de vraissamblance.
EM:ExpectationMaximisation.
SEM:Expectation Maximisation Stochastique.
ICE: Estimation Conditionnelle itrative.
MIM: Maximisation de linformation mutuelle.
Introduction gnrale
2
INTRODUCTION GNRALE
Introduction gnrale
Le traitement de la parole est, aujourdhui, une composante fondamentale des sciences de

lingnieur. Situe au croisement du traitement du signal numrique et du traitement du
langage (c'est--dire du traitement de donnes symboliques), cette discipline scientifique a
connu, depuis les annes 60, une expansion fulgurante, lie au dveloppement des moyens et
des techniques de tlcommunications.
Limportance particulire du traitement de la parole sexplique par la position privilgie

de la parole comme vecteur dinformation dans notre socit humaine.
Lextraordinaire singularit de cette science, qui la diffrencie fondamentalement des

autres composantes du traitement de linformation, tient, sans aucun doute, au rle fascinant
que joue le cerveau humain la fois dans la production et dans la comprhension de la parole
et ltendue des fonctions quil met en oeuvre.
Aprs plus de soixante annes de recherches et de dveloppement industriel, les

performances des systmes de reconnaissances automatiques de la parole (RAP) se sont
considrablement amliores, permettant daborder des domaines dapplication de complexit
croissante. Les travaux actuels les plus avancs concernent des systmes de dialogue via le
tlphone, la reconnaissance de la parole spontane ou la transcription dmissions de radio
ou tlvision. Les performances obtenues dpendent beaucoup du type de tche considre
(taille et difficult du vocabulaire, nombre et diversits des locuteurs, conditions
denregistrement). Le traitement automatique de la parole a t, ds lorigine fortement,
tributaire de lvolution technologique.
Sil nest pas en principe de parole sans cerveau humain pour la produire, lentendre, et la
comprendre, les techniques modernes de traitement de la parole tendent cependant produire
des systmes automatiques qui se substituent lune o lautre de ces fonctions.
Ainsi, les analyseurs de parole cherchent mettre en vidence les caractristiques du

signal vocal tel quil est produit, ou parfois tel quil est peru, mais jamais tel quil est
compris. Dun autre cot les reconnaisseurs ont pour mission de dcoder linformation porte
par le signal vocal partir de donnes fournies par lanalyse. On distingue fondamentalement
deux types de reconnaissance, en fonction de linformation que lon cherche extraire du
signal vocal : La reconnaissance du locuteur, avec pour objectif est reconnaitre la personne
qui parle, et la reconnaissance de la parole, o lon sattache plutt reconnaitre ce qui est dit.
1
Introduction gnrale
On classe galement les reconnaisseurs en fonction des hypothses simplificatrices sous

lesquelles ils sont appels fonctionner :
En reconnaissance du locuteur, on fait la diffrence entre la vrification et lidentification

du locuteur, selon que le problme est de vrifier que la voix analyse correspond bien la
personne qui est sense la produire, ou quil sagisse de dterminer qui, parmi un nombre fini
et prtabli de locuteur, a produit le signal analys.
Par ailleurs, on distingue la reconnaissance du locuteur dpendante du texte,
reconnaissance avec texte dict, et reconnaissance indpendante du texte. Dans le premier cas,
la phrase prononcer, pour tre reconnu, est fixe ds la conception du systme ; elle est fixe
lors du test dans le deuxime cas, et nest pas prcise dans le troisime.
On parle galement de reconnaisseur de parole monolocuteur, multilocuteur, ou
indpendant du locuteur, selon quil a t entrain reconnaitre la voix dune personne, dun
groupe fini de personnes, ou quil est, en principe, capable de reconnaitre nimporte qui.
On distingue enfin reconnaisseur de mots isols, reconnaisseur de mots connects, et
reconnaisseur de parole continue, selon que le locuteur spare chaque mot par un silence,
quil prononce de faon continue une suite de mots prdfinis, ou quil prononce nimporte
quelle suite de mots de faon continue.
Dans ce mmoire, nous consacrons le premier chapitre aux gnralits sur la parole, sa
production et perception chez ltre humain, son acquisition et ses traitements et analyse.
Dans le second chapitre, nous dcrivons les paramtres acoustiques pertinents du signal
de parole. Par la suite, le chapitre trois est consacr la description des systmes de
reconnaissance automatique de la parole.
Dans le quatrime chapitre, nous allons introduire les Modles de Markov Cachs et leurs
algorithmes, critres qui sont la base des systmes modernes de reconnaissance automatique
de la parole.
Nous terminons, dans le chapitre Cinq, par dcrire lapplication ralise qui consiste la
reconnaissance automatique de la parole sous matlab et sous HTK.
2
CHAPITRE I : GNRALITS
SUR LA PAROLE
Chapitre I Gnralits sur la parole
Introduction
Linformation porte par le signal de parole peut tre analyse de bien des faons. On
distingue, gnralement, plusieurs niveaux de description non exclusifs : Acoustique,
phontique et bien dautres [1].
Dans ce chapitre nous allons, dans un premier temps, dcrire les processus de production
et de perception auditive de la parole puis nous donnerons un aperu sur les notions de
phontique. Nous terminerons par la conversion de la parole en signal lectrique et nous
rappellerons quelques outils de base utiliss en traitement de signaux acoustiques.
I.1. Production de la parole
La parole peut tre dcrite comme le rsultat de laction volontaire et coordonne dun
certain nombre de muscles des appareils respiratoires et articulatoires [1]. Cette action se
droule sous le contrle du systme nerveux central qui reoit, en permanence, des
informations par rtroaction auditive et par les sensations kinesthsiques [2].
I.1.1. Le processus de production
De faon simple, on peut rsumer le processus de production de la parole comme un

systme dans lequel une ou plusieurs sources excitent un ensemble de cavits. La source sera
soit gnre au niveau des cordes vocales soit au niveau dune constriction du conduit vocal.
Dans le premier cas, la source rsulte dune vibration quasi-priodique des cordes vocales
et produit ainsi une onde de dbit quasi-priodique.
Dans le second cas, la source sonore est soit un bruit de friction soit un bruit dexplosion
qui peut apparatre sil y a un fort rtrcissement dans le conduit vocal o si un brusque
relchement dune occlusion du conduit vocal sest produit.
Lensemble de cavits situes aprs la glotte, dites les cavits supraglottiques, vont ainsi
tre excites par la ou les sources et "filtrer" le son produit au niveau de ces sources. Ainsi, en
changeant la forme de ces cavits, lhomme peut produire des sons diffrents. Les acteurs de
cette mobilit du conduit vocal sont communment appels les articulateurs.
3
Fig.1.1-Lappareil phonatoire.
On peut donc rsumer le processus de production de la parole en trois tapes essentielles
La gnration dun flux dair qui va tre utilis pour faire natre une source
sonore (au niveau des cordes vocales ou au niveau dune constriction du
conduit vocal) Cest le rle de la soufflerie.
La gnration dune source sonore sous la forme dune onde quasi-priodique
rsultant de la vibration des cordes vocales ou/et sous la forme dun bruit
rsultant dune constriction ou dun brusque relchement ou occlusion du
conduit vocal : Cest le rle de la source vocale.
La mise en place des cavits supraglottiques (conduits nasal et vocal ) pour
obtenir le son dsir ( cest principalement le rle des diffrents articulateurs
du conduit vocal).
I.1.2. Les diffrentes tapes de production de la parole
Lappareil respiratoire fournit lnergie ncessaire la production de sons, en poussant de

lair travers la tranche-artre. Au sommet de celle-ci se trouve le larynx o la pression de
lair est module avant dtre applique au conduit vocal. Le larynx est un ensemble de
muscles et de cartilages mobiles qui entourent une cavit situe la partie suprieure de la
tranche (fig.1.1). Les cordes vocales sont en faite deux lvres symtriques places en travers
du larynx. Ces lvres peuvent fermer compltement le larynx et, en scartant
progressivement, dterminer une ouverture triangulaire appele glotte. Lair y passe librement
pendant la respiration et la voix chuchote, ainsi que pendant la phonation des sons non
voiss. Les sons voiss rsultent au contraire dune vibration priodique des cordes vocales.
4
Le larynx est dabord compltement ferm, ce qui accroit la pression en amont des cordes
vocales, et les force souvrir, ce qui fait tomber la pression, et permet aux cordes vocales de
se refermer ; des impulsions priodiques de pression sont ainsi applique, au conduit vocal,
compos des cavits pharyngienne et buccale pour la plupart des sons. Lorsque la luette est en
position basse, la cavit nasale vient sy ajouter en drivation.
Dans la suite de cette section, nous allons dfinir au mieux les organes intervenants dans
ce processus.
I.1.3. Les organes de production de la parole
La parole est essentiellement produite par deux types de sources vocales. La premire,
plus sonore, est celle qui prend naissance au niveau du larynx suite la vibration des cordes
vocales. La seconde, moins sonore, prend naissance au niveau dune constriction du conduit
vocal ou lors dun relchement brusque dune occlusion du conduit vocal. On parlera dans ce
cas de sources de bruit.
I.1.3.1. Le larynx
Le larynx est un organe situ dans le cou qui joue un rle crucial dans la respiration et
dans la production de parole. Le larynx (fig.1.2) est plus spcifiquement situ au niveau de la
sparation entre la trache artre et le tube digestif, juste sous la racine de la langue. Sa
position varie avec le sexe et lge : il sabaisse progressivement jusqu la pubert et il est
sensiblement plus lev chez la femme.
Fig.1.2-Schma du larynx
Il est constitu dun ensemble de cartilages, il est constitu dun ensemble de cartilages
entours de tissus mous. La partie la plus prominente du larynx est forme du thyrode. La
5
partie antrieure de cartilage est communment appele la "pomme dAdam". On trouve, juste
au dessus du larynx, un os en forme de U appel los hyoid. Cet os relie le larynx la
mandibule par lintermdiaire de muscles et de tendons qui joueront un rle important pour
lever le larynx pour la dglutition ou la production de parole.
La partie infrieure du larynx est constitue dun ensemble de pices circulaires, le

cricode, sous lequel on trouve les anneaux de la trache artre.
Le larynx assure ainsi trois fonctions essentielles :
Le contrle du flux dair lors de la respiration

La protection des voies respiratoires
La production dune source sonore pour la parole
Les muscles du larynx
Les mouvements du larynx sont contrls par deux groupes de muscles. On distingue
ainsi les muscles intrinsques, qui contrlent le mouvement des cordes vocales et des muscles
lintrieur du larynx, et les muscles extrinsques, qui contrlent la position du larynx dans le
cou.
La figure I.3 nous reprsente les muscles intrinsques. Les cordes vocales sont ouvertes
par une paires de muscles (les muscles cricoarytnoide postrieur) qui sont situs entre la
partie arrire du cricode et le cricoarytenode.
Fig.1.3 Schma des muscles intrinsques du larynx
6
Les cordes vocales
Les cordes vocales situes au centre du larynx ont un rle fondamental dans la
production de la parole.
Elles sont constitues de muscles recouverts dun tissus assez fin couramment appel la
muqueuse. Sur la partie arrire de chaque corde vocale, on trouve une petite structure faite de
cartilages : Les arytnoides. De nombreux muscles y sont rattachs qui permettent de les
carter pour assurer la respiration.
Durant la production de parole, les arytnoides sont rapprochs (voir figure I.3). Sous la
pression de lair provenant des poumons, les cordes vocales souvrent puis se referment
rapidement. Ainsi, lorsquune pression soutenue de lair dexpiration est maintenue, les
cordes vocales vibrent et produisent un son qui sera par la suite modifi dans le conduit vocal
pour donner lieu un son vois. Ce processus de vibration des cordes vocales est dcrit un
peu plus en dtail ci-aprs.
Fig.1.4 Les cordes vocales en position ouvertes durant la respiration ( gauche) et ferms pour la
production de parole ( droite)
Plusieurs muscles aident pour fermer et tendre les cordes vocales. Les cordes vocales sont
elles mme constitues dun muscle, le thyroarytnoide. Un autre muscle, linterarytnoide ,
permet de rapprocher ces deux cartilages. Le muscle cricoarytnoide latral qui est lui aussi
situ entre larytnoide et le cartilage cricode sert la fermeture du larynx.
Le muscle cricothyroide va du cartilage cricoide jusquau cartilage thyroide. Lorsquil se

contracte, le cartilage cricoid bascule en avant et tend les cordes vocales ce qui rsultera un
lvement de la voix.
Les muscles extrinsques naffectent pas le mouvement des cordes vocales mais lvent
ou abaissent le larynx dans sa globalit.
7
La figure 1.5 donne une vue schmatique dune coupe verticale du larynx. Sur ce schma,
les cordes vocales sont ici clairement spares, comme elles seraient durant la respiration. On
peut galement remarquer au-dessus des cordes vocales, des tissus ayant pour principal rle
dviter le passage de substances dans la trache durant la dglutition : ce sont les fausses
cordes vocales. Il est important de noter quelles ne jouent aucun rle lors de la phonation. Le
cartilage mou en forme grossire de langue qui se trouve au-dessus est appel lpiglotte et a
galement un rle pour protger laccs de la trache lors de la dglutition.
Fig.1.5-Vue longitudinale du larynx
I.1.3.2. Les cavits supraglottiques
Dautres organes situs au dessus de la glottes (organes supraglottiques) interviennent

galement, meme un degr moindre, dans la production du son. On distingue, ainsi :
Le conduit vocal
Considr comme un tube acoustique de section variable qui stend de la glotte

jusquaux lvres. Pour un adulte, le conduit vocal mesure environ 17 cm. Sa forme varie en
fonction du mouvement des articulateurs qui sont les lvres, la mchoire, la langue et le
velum. Ces articulateurs sont brivement dcrits ci-dessous.
Le conduit nasal
Le conduit nasal est un passage auxiliaire pour la transmission du son. Il commence au

niveau du velum et se termine aux niveaux des fosses nasales. Pour un homme adulte, cette
cavit mesure environ 12 cm.
Le couplage acoustique entre les deux cavits est contrl par louverture au niveau du
velum (figure I.1). On notera que le velum -ou voile du palais- est largement ouvert. Dans ce
8
cas, on aura la production dun son nasal. Dans le cas contraire, lorsque le velum ferme le
conduit nasal le son produit sera dit non-nasal.
Dautre organes, dits articulateurs, joue galement un rle chacun en ce qui le concerne.
Les articulateurs sont :
La langue
La langue est une structure frontire, appartenant la fois la cavit buccale pour sa
partie dite mobile et au glosso-pharynx pour sa partie dite fixe, qui applique contre le palais
ou les dents constituent un organe vibratoire accessoire, intervenant dans la formation des
consonnes. Elle a donc de limportance pour la phonation.
On comprend que la langue est un articulateur fondamental puisque sa position est

dterminante dans le conduit vocal.
La mchoire
La mchoire possde un nombre de degrs de libert plus faible et tant un corps rigide
ne peut pas se dformer comme la langue. Nanmoins, la mchoire peut non seulement
souvrir et se fermer, mais peut galement savancer ou effectuer des mouvements de rotation.
Son rle dans la parole nest cependant pas primordial dans la mesure o il est possible
en bloquant la mchoire de parler de faon trs intelligible.
Les lvres
Les lvres sont situes lextrmit du conduit vocal et comme pour la langue, elles
possdent une grande mobilit en raison des nombreux muscles impliqus dans leur contrle.
Les points de jonction des lvres suprieure et infrieure sappellent les commissures et jouent
un grand rle dans la diplomatie (pour le sourire, bien sur...).
Au point de vue acoustique, cest lespace introlabial qui est important. On peut
observer diffrents mouvements importants pour la phonation dont :
locclusion (les lvres sont fermes)

La protrusion (les lvres sont avances vers lavant)
9
llvation et labaissement de la lvre infrieure

ltirement, labaissement ou llvation des commissures
I.1.4. Les sons de la parole par lapproche production
Dans ce qui suit, nous allons sintresser aux diffrentes classes de sons au niveau
phontique tout en expliquant comment ces sons sont produits.
Notions de phontique
La parole, quelle quen soit la langue, est constitue dun nombre finis dlments
sonores distinctifs. Ces lments forment les units linguistiques lmentaires et ont la
proprit de changer le sens dun mot. Ces units lmentaires sont appels phonmes [3].
Un phonme est donc la plus petite unit phonique fonctionnelle, cest--dire distinctive.
Il nest pas dfini sur un plan acoustique, articulatoire, ou perceptuel, mais bien sur le plan
fonctionnel. Les phonmes nont pas dexistence indpendante : Ils constituent un ensemble
structur dans lequel chaque lment est intentionnellement diffrent de tous les autres, la
diffrence tant chaque fois porteuse de sens. La liste des phonmes pour la plupart des
langues europennes a t tablie ds la fin du 19 sicle.
Les phonmes peuvent ainsi tre vus comme les lments de base pour le codage de
linformation linguistique.
Cependant, ces phonmes peuvent se regrouper en classes dont les lments partagent des
caractristiques communes. On parlera ici de "traits distinctifs".
Trait distinctif : Un trait distinctif est lexpression dune similarit au niveau

articulatoire, acoustique ou perceptif des sons concerns.
Par exemple, pour les voyelles on distinguera 4 traits distinctifs :
La nasalit : la voyelle a t prononce laide du conduit vocal et du conduit

nasal suite louverture du velum.
Le degr douverture du conduit vocal
La position de la constriction principale du conduit vocal, cette constriction tant
ralise entre la langue et le palais.
La protrusion des lvres.
10
De mme, les consonnes seront classes laide de 3 traits distinctifs :
Le voisement : la consonne a t prononce avec une vibration des cordes vocales

Le mode darticulation (on distinguera les modes occlusif, fricatif, nasal, glissant
ou liquide).
La position de la constriction principale du conduit, souvent appele lieu
darticulation qui contrairement aux voyelles nest pas ncessairement ralis
avec le corps de la langue.
En fait, les phonmes (qui peuvent donc tre dcrits suivant leurs traits distinctifs) sont
des lments abstraits associs des sons lmentaires. Bien entendu, les phonmes ne sont
pas identiques pour chaque langue et le /a/ du franais nest pas totalement quivalent au /a/
de langlais. Ainsi, est ne lide de dfinir un alphabet phontique international (alphabet
IPA) qui permettrait de dcrire les sons et les prononciations de ces sons de manire compacte
et universelle.
Il existe dautres faons dorganiser les sons, par exemple en opposant les sons sonnants
(voyelles), les consonnes nasales, les liquides ou les glissantes aux sons obstruants
occlusives, fricatives .
Les voyelles
Les voyelles sont typiquement produites en faisant vibrer ses cordes vocales. Le son de
telle ou telle voyelle est alors obtenu en changeant la forme du conduit vocal laide des
diffrents articulateurs. Dans un mode darticulation normal, la forme du conduit vocal est
maintenue relativement stable pendant quasiment toute la dure de la voyelle.
Les consonnes
Comme pour les voyelles, les consonnes vont pouvoir tre regroupes en traits distinctifs.
Contrairement aux voyelles, elles ne sont pas exclusivement voises (mme si les voyelles
prononces en voix chuchote sont, dans ce cas galement, non voises) et ne sont pas
ncessairement ralises avec une configuration stable du conduit vocal.
Les consonnes voises
On parlera de consonnes voises lorsquelles sont produites avec une vibration des cordes
vocales comme par exemple /b/ dans "bol" o les cordes vocales vibrent avant le
11
relchement de la constriction . Lorsquen plus du voisement, une source de bruit est

prsente due une constriction du conduit vocal, on pourra parler de consonnes excitation
mixte cest le cas par exemple du /v/ dans "vent" .
Les fricatives
Sont produites par un flux dair turbulent prenant naissance au niveau dune constriction
du conduit vocal. On distingue plusieurs fricatives suivant le lieu de cette constriction
principale :
Les labio-dentales, pour une constriction ralise entre les dents et les lvres
comme pour le /f/ dans "foin" .
Les dentales, pour une constriction au niveau des dents comme pour le /t/
anglais dans "thin"
Les alvolaires, pour une constriction juste derrire les dents comme pour le /s/
dans "son" .
En fait, suivant les langues, en regardant plusieurs langues, on saperoit que quasiment
tous les points darticulations du conduit vocal peuvent tre utiliss pour raliser des
fricatives.
Cest dailleurs lune des difficults de lapprentissage des langues trangres car il nest
pas ais dapprendre raliser des sons qui demandent de positionner la langue des endroits
inhabituels.
Les plosives
Elles sont caractrises par une dynamique importante du conduit vocal. Elles sont
ralises en fermant le conduit vocal en un endroit. Lair provenant des poumons cre alors
une pression derrire cette occlusion qui est ensuite soudainement relche suite au
mouvement rapide des articulateurs ayant ralis cette occlusion. De mme, que pour les
fricatives, lun des traits distinctifs entre les plosives est le lieu darticulation. Pour les
plosives, on aura ainsi :
Les labiales, pour une occlusion ralise au niveau des lvres.

Les dentales, pour une occlusion au niveau des dents.
Les vlo-palatales, pour une occlusion au niveau du palais.
12
En plus du lieu darticulation, les plosives peuvent galement tre voises ou non voises.
Ainsi, une dentale voise /d/ se distinguera uniquement par la prsence de voisement
vibration des cordes vocales du /t/ qui est prononce avec le mme lieu darticulation.
Les consonnes nasales
Elles sont en gnral voises et sont produites en effectuant une occlusion complte du
conduit vocal et en ouvrant le vlum permettant au conduit nasal dtre lunique rsonateur.
Comme pour les autres consonnes, on aura, suivant le lieu darticulation :
Les labiales, pour une occlusion du conduit vocal ralise au niveau des lvres.
Les dentales, pour une occlusion du conduit vocal au niveau des dents.
Les vlo-palatales, pour une occlusion du conduit vocal au niveau du palais.
Les glissantes et les liquides
Cette classe de consonnes regroupe des sons qui ressemblent aux voyelles. Les liquides
sont dailleurs parfois appeles semi consonnes ou semi-voyelles. Les glissantes et les
liquides, en gnral, voises et non nasales.
Les glissantes, comme leur nom lindique, sont des sons en mouvement et
prcdent toujours une voyelle ou un son vocalique .
Les liquides ou semi-voyelles sont des sons tenus, trs similaires aux voyelles
mais en gnral avec une constriction plus consquente et avec lapex de la langue
plus relev.
I.2. Audition-perception des sons de parole
Le son, et en particulier la parole, tant le moyen de communication privilgi pour ltre

humain, nous ne pourrons pas dcrire le phnomne sans aborder la notion daudition, c'est--
dire de rception et dinterprtation du son. Lorgane de perception du son est loreille.
I.2.1. Structure de loreille
Loreille est spare en 3 parties principales comme indiqu sur le schma de lappareil
auditif de la figure1.6
13
Fig.1.6- Lappareil auditif
Loreille externe : Allant du pavillon au tympan et ralisant une conduction

arienne.
Loreille moyenne : Constitue de 3 osselets le marteau, lenclume et ltrier
stend du tympan la fentre ovale et ralise une adaptation dimpdance pour
transmettre les ondes acoustiques ariennes reues au niveau de loreille externe
vers loreille interne.
Loreille interne : dans laquelle se trouve la cochle. La cochle joue un rle
primordial dans la perception des sons. En effet, un son parvenant au pavillon de
loreille sera transform en vibration au niveau de lentre de la cochle.
I.2.2. Principe de perception auditive
La parole peur tre dcrite comme le rsultat de laction volontaire et coordonne dun
certain nombre de muscles. Cette action se droule sous le contrle du systme nerveux
central qui reoit en permanence des informations par rtroaction auditive et par les sensations
kinesthsiques, ce principe est prsent sur la figure 1.7.
Fig.1.7- Systme de production et la rtroaction auditif.
14
Les ondes sonores sont recueillies par lappareil auditif, ce qui provoque les sensations
auditives. Ces ondes de pression sont analyses dans loreille interne qui envoie au cerveau
linflux nerveux qui en rsulte. Le phnomne physique induit alors un phnomne psychique
grce un mcanisme physiologique complexe [3].
Le mcanisme de loreille interne ( marteau, trier, enclume ) permet une adaptation

dimpdance entre lair et le milieu liquide de loreille interne. Les vibrations de ltrier sont
transmises au liquide de la cochle. Celle-ci contient la membrane basilaire qui transforme les
vibrations mcaniques en impulsions nerveuses. La membrane slargit et spaissit au fur et
mesure que lon se rapproche de lapex de la cochle.
Les fibres nerveuses aboutissent une rgion de lcorce crbrale, appele aire de
projection auditive, et situe dans le lobe temporal. En cas de lsion de cette aire, on peut
observer des troubles auditifs. Les fibres nerveuses auditives affrentes de loreille au
cerveau et effrentes du cerveau vers loreille sont partiellement croises : chaque moiti
du cerveau est mise en relation avec les deux oreilles internes.
. Entre larrive des signaux vibratoires aux oreilles et la sensation du son dans le
cerveau, a lieu le phnomne de traitement des signaux par le systme nerveux. Cela signifie
que la vibration physique de lair ne parvient pas de faon brute au cerveau. Elle est
transforme, Comme dcrit sur la figure 1.8.
Fig.1.8-Perception et analyse du son par ltre humain.
Il reste trs difficile de nos jours de dire comment linformation auditive est traite par le
cerveau. On a pu par contre tudier comment elle tait finalement perue, dans le cadre dune
science spcifique appele psychoacoustique [4]. Sans vouloir entrer dans trop de dtails sur
la contribution majeure des psychoacousticiens dans ltude de la parole, il est intressant
den connatre les rsultats les plus marquants.
Ainsi, loreille ne rpond pas galement toutes les frquences. La figure 1.9 prsente le
champ auditif humain, dlimit par la courbe de seuil de l'audition et celle du seuil de la
15
douleur. Sa limite suprieure en frquence (~16000 Hz, variable selon les individus) fixe la
frquence d'chantillonnage maximale utile pour un signal auditif (~ 32000 Hz).
Fig.1.9- Champs auditif humain.
A l'intrieur de son domaine d'audition, l'oreille ne prsente pas une sensibilit identique
toutes les frquences. La figure 1.10, fait apparatre les courbes d'gale impression de
puissance auditive - physiologie auditive (aussi appele sonie, exprime en sones) en fonction
de la frquence. Elles rvlent un maximum de sensibilit dans la plage [500 Hz, 10 kHz], en
dehors de laquelle les sons doivent tre plus intenses pour tre perus.
Fig.1.10
I.3. Traitement de la parole
De faon gnrale, le traitement du signal est un ensemble de mthodes et de techniques

agissant sur un signal lectrique afin den extraire linformation dsire. Ce signal doit
traduire le plus fidlement possible le phnomne physique tudier.
La parole apparait physiquement comme une variation de lair cause et mise par le
systme articulatoire. Cest un phnomne physique acoustique qui prend une forme
analogique.
16
La phontique acoustique tudie ce signal en le transformant dans un premier temps en

signal lectrique grce au transducteur appropri : le microphone (lui-mme associ un
pramplificateur).
De nos jours, le signal lectrique rsultant est le plus souvent numris. Il peut alors tre
soumis un ensemble de traitements, dans le but den extraire les informations et les
paramtres pertinents en rapport avec lapplication. Ainsi, la conversion du phnomne de
parole en signal lectrique ncessite les oprations suivantes.
I.3.1. Numrisation
La numrisation du signal de parole est prsent assure par un convertisseur

analogique- numrique ( CAN )
Cette opration, schmatise la figure1.11, requiert successivement : un filtrage de

garde, un chantillonnage, une quantification et un codage.
Fig.1.11- Enregistrement numrique dun signal acoustique.
I.3.2. Lchantillonnage
Lchantillonnage transforme le signal temps continu en signal temps discret

dfini aux instants dchantillonnage, multiples entiers de la priode
dchantillonnage ; celle-ci est elle-mme linverse de la frquence dchantillonnage .
En ce qui concerne le signal vocal, le choix de rsulte dun compromis. Son spectre
peut stendre jusqu' 12kHz. Il faut donc en principe choisir une frquence gale 24kHz
au moins pour satisfaire raisonnablement au thorme de shannon. Cependant, le cout dun
traitement numrique, filtrage, transmission, ou simplement enregistrement peut tre rduit
dune faon notable si lon accepte une limitation du spectre par un filtrage pralable. Cest le
rle du filtre de garde, dont la frquence de coupure est choisie en fonction de la frquence
dchantillonnage retenue.
17
I.3.3. La Quantification
Cette tape consiste approximer les valeurs relles des chantillons selon une chelle de
niveaux appele chelle de quantification.
Parmi le continuum des valeurs possibles pour les chantillons , la quantification ne

retient quun nombre fini de valeurs, espaces du pas de quantification . Le signal
numrique rsultant est not . La quantification produit une erreur de quantification qui
normalement se comporte comme un bruit blanc, le pas de quantification est donc impos par
le rapport signal bruit garantir. Aussi adopte-t-on pour la transmission tlphonique une loi
de quantification logarithmique et chaque chantillon est reprsent sur 8 bits. Par contre, la
quantification du signal musical exige en principe une quantification linaire sur 16 bits.
I.3.4. Le Codage
Cest la reprsentation binaire des valeurs quantifies qui permet le traitement du signal
sur machine.
I.4. Analyse du signal de parole
Une fois numris, le signal de parole peut tre trait de diffrentes faons suivant les
objectifs viss. Le nombre de techniques possible tant trs vaste, nous allons, dans ce qui
suit, citer les outils relatifs au signal de parole.
I.4.1. Analyse temporelle
Le signal de parole est un signal quasi-stationnaire. Cependant, sur un horizon de temps

suprieur, il est clair que les caractristiques du signal voluent significativement en fonction
des sons prononcs comme illustr sur la figure ci-dessous.
Fig.1.12- Reprsentation temporelle(Audiogramme) de signaux de parole.
18
La premire approche pour tudier le signal de parole consiste observer la forme

temporelle du signal. On peut partir de cette forme temporelle en dduire un certain nombre
de caractristiques qui pourront tre utilises pour le traitement de la parole. Il est, par
exemple, assez clair de distinguer les parties voises, dans lesquelles on peut observer une
forme donde quasi-priodique, des parties non voises dans lesquelles un signal alatoire de
faible amplitude est observ. De mme, on peut voir que les petites amplitudes sont beaucoup
plus reprsentes que les grandes amplitudes ce qui pourra justifier des choix fait en codage
de la parole.
Fig.1.13- Exemple de son vois (haut) et non vois (bas).
I.4.2. Analyse frquentielle
Une seconde approche pour caractriser et reprsenter le signal de parole est dutiliser
une reprsentation spectrale.
On peut classer en deux grandes catgories les mthodes de traitement du signal :
les mthodes gnrales : valables pour tout signal volutif dans le temps, en
particulier les analyses spectrales.
les mthodes se rfrant un modle : un modle de production du signal vocal
ou un modle daudition.
Mthodes gnrales
Les mthodes spectrales occupent une place prpondrante en analyse de la parole :

loreille effectue, entre autres, une analyse frquentielle du signal quelle peroit ; de plus, les
sons de la parole peuvent tre assez bien dcrits en termes de frquences.
La transforme de Fourier permet dobtenir le spectre dun signal, en particulier son

spectre frquentiel, cest--dire sa reprsentation amplitude-frquence.
19
La figure 1.14 illustre la transforme de Fourier dune tranche voise et celle dune
tranche non voise. Les parties voises du signal apparaissant sous la forme de successions de
pics spectraux marqus, dont les frquences centrales sont multiples de la frquence
fondamentale. Par contre, le spectre dun signal non vois ne prsente aucune structure
particulire. La forme gnrale de ces spectres, appele enveloppe spectrale, prsente elle-
mme des pics et des creux qui correspondent aux rsonnances et aux anti-rsonnances du
conduit vocal et sont appels formants et anti-formants.
Fig.1.14- Evolution de la transforme de Fourier discrte du [a] et du [] de baluchon .
La parole tant un phnomne non stationnaire, il importe de faire intervenir le temps

comme troisime variable dans la reprsentation. Clairement, la reprsentation la plus
rpandue est le spectrogramme.
Spectrogramme
Le spectrogramme permet de donner une reprsentation tridimensionnelle dun son dans

laquelle lnergie par bande de frquences est donne en fonction du temps [1].
Plus prcisment, le spectrogramme reprsente le module de la transforme de Fourier

discrte calcul sur une fentre temporelle plus ou moins longue. La transforme de Fourier
discrte TFD de la ime fentre du signal de parole est donne par :
! "
1
Lamplitude du spectre y apparait sous la forme de niveaux de gris dans un diagramme en

deux dimensions temps-frquence, comme on peut le remarquer sur les Spectrogramme de la
20
figure 1.16. On parle de spectrogramme large bande ou bande troite selon la dure de la
fentre de pondration. Les spectrogrammes bande large sont obtenus avec des fentres de
pondration de faible dur ; ils mettent en vidence lenveloppe spectrale du signal, et
permettent par consquent de visualiser lvolution temporelle des formants. Les priodes
voises y apparaissent sous la forme de bandes verticale plus sombres.
Fig.1.16- Spectrogramme large bande (en bas), bande troite (en haut), et volution temporelle de
la phrase anglaise Alices adventures , chantillonne 11.25 kHz (calcul avec fentre de hamming de
10 et 30 ms respectivement).
Caractristique du signal de parole
Le signal de parole est un vecteur acoustique porteur dinformations dune grande

complexit.
Traits acoustiques :
Les traits acoustiques du signal de parole sont lis sa production.
La frquence fondamentale
Cest Le premier trait acoustique, cest la frquence de vibration des cordes vocales.
Pour les sons voiss, la frquence fondamentale correspond la frquence du cycle
douverture/fermeture des cordes vocales.
21
Le spectre de frquence
Cest le deuxime trait acoustique dont dpend principalement le timbre de la voix. Il

rsulte du filtrage dynamique du signal en provenance du larynx ou signal glottique par le
conduit vocal.
Lnergie
Le dernier trait acoustique est lnergie correspondant lintensit sonore. Lnergie

de la parole est lie la pression de lair en amant du larynx. Elle est habituellement plus
forte pour les segments voiss de la parole que pour les segments non voiss.
Chaque trait acoustique est intimement li une caractristique perceptuelle
Le timbre
Le timbre est une caractristique permettant didentifier une personne la simple

coute de sa voix. Il provient en particulier de la rsonance dans la poitrine, la gorge, la cavit
buccale et le nez. Le timbre dpend fortement de la corrlation entre la frquence
fondamentale et les harmoniques qui sont les multiples de cette frquence.
Le pitch
Les variations de la frquence fondamentale dfinissent le pitch qui constitue la

perception de la hauteur (o les sons sordonnent de grave aigu). Seuls les sons quasi-
priodiques (voiss) engendrent une sensation de hauteur tonale bien dfinie.
Intensit
Lintensit dun son, appele aussi volume, permet de distinguer un son fort dun
son faible. Elle correspond lamplitude de londe acoustique. Pour le son, onde de
compression, cette grandeur est la pression.
Mthodes avec modlisation
Dans cette catgorie, les mthodes dites de Codage Prdictif Linaire LPC [1] ont t
largement utilises pour lanalyse de la parole. Elles font rfrence un modle du systme de
phonation, que lon reprsente en gnral comme un tuyau sonore section variable.
Lanalyse LPC est utilise essentiellement en codage et en synthse de la parole.
22
Mthodes cepstrales
Une mthode danalyse du signal vocal fonde sur une modlisation est actuellement trs
rpandue en reconnaissance automatique de la parole : il sagit de lanalyse cepstrale [5].
La plupart des systmes actuels de reconnaissance de parole, utilisent un ensemble de

paramtres appels MFCC (Mel Frequency Cepstrum Coefficients ) dont le principe
dobtention repose sur lanalyse cepstrale.
Cette mthode, appele aussi analyse homomorphique, a pour but de sparer dans le
signal vocal les contributions respectives de la source du signal savoir la vibration des
cordes vocales et du conduit vocal dont les frquences de rsonance conduisent notamment
aux formants des voyelles.
Fig.1.16-Principe de lanalyse homomorphique.
La figure1.17 montre les phases dobtention de coefficients MFCC partir dun signal.
Ces coefficients sont robustes car, dune part, ils assurent comme il vient dtre dit une
sparation entre la fonction de transfert du conduit vocal et les caractristiques du
fondamental de la voix, et, dautre part, ils sont peu sensibles la puissance acoustique du
signal analys.
Fig.1.17-Principe de calcul des coefficients MFCC
Modles doreille
Une famille de mthodes danalyse de parole sinspire des donnes de la psycho-

acoustique et de la physiologie de laudition humaine telles que courbes disosonie, bandes
critiques de loreille, phnomnes non linaires (saturation, masquage de sons, etc.), contrle
de gain, filtrage cochlaire, etc.
Les modles doreille [5], sont utiliss pour obtenir une reprsentation frquentielle de la
parole. On les trouve dans des systmes de reconnaissance de parole, notamment en prsence
de bruits.
23
Analyse perceptive
En prsence de bruit important, les mthodes danalyse traditionnelles ont du mal

extraire les caractristiques reprsentatives de la parole. De nombreuses mthodes ont t
proposes pour amliorer cette situation. Elles se fondent sur diffrentes mthodes,
notamment sur des proprits de la perception auditive [5]. Un bon exemple est lanalyse
RASTA-PLP, utilise avec succs en reconnaissance de parole dans du bruit. Cette mthode
intgre plusieurs oprations inspires de donnes perceptives.
Analyse par ondelettes
Parmi les travaux mens pour amliorer les techniques danalyse de signaux, lanalyse
par ondelettes [2], prsente un intrt certain. Ce type danalyse permet dobtenir une
reprsentation temps-frquence locale dun signal comme alternative au spectre de Fourier.
Lintrt, pour des signaux non stationnaires comme la parole, est de pouvoir mener une
analyse multi-rsolution des phnomnes correspondant des chelles de temps et de
frquence diffrentes.
Lanalyse par ondelettes a t applique de nombreux types de signaux (biomdicaux,

sismiques, etc.). Dans le cas de la parole, les applications actuelles concernent la synthse, le
codage, la suppression de bruit, etc. Peu de travaux ont trait la reconnaissance.
Dans le chapitre suivant nous allons prsenter les mthodes danalyses et dextraction, les
plus utiliss pour le signal de parole dont le but de la reconnaissance automatique de la parole.
24
CHAPITRE II : LES
PARAMTRES PERTINENTS DU
SIGNAL DE PAROLE
Chapitre II Les Paramtres Acoustiques
Introduction
Le signal de parole est trop redondant et variable pour tre utilis directement dans un
systme de reconnaissance automatique de la parole. Il est donc ncessaire den extraire
linformation pertinente afin de caractriser et didentifier le contenu linguistique. Le signal
de parole est reprsent, en gnral, dans le domaine frquentiel montrant lvolution
temporelle de son spectre. Ce domaine est appropri pour la reconnaissance puisque lon peut
raisonnablement considrer que les proprits du spectre restent stationnaires durant des
intervalles de temps denviron une dizaine de ms (valeur adopte de manire classique).
Les systmes de reconnaissance intgrent un module de paramtrisation dont le rle est

de crer des vecteurs de paramtres acoustiques rsultant de lanalyse spectrale du signal de
parole. La plupart des techniques de paramtrisation consistent dcrire lenveloppe du
spectre court terme dans le domaine frquentiel. Dautres techniques peuvent tre utilises
comme lanalyse en ondelette.
Dans ce chapitre, nous allons prsenter les mthodes; les plus utilises, les plus rcentes
et les variantes amliores; dextraction des paramtres acoustiques pertinents de la parole
pour la reconnaissance automatique de la parole, sujet de ce travail de mmoire.
II.1. Coefficients cepstraux de prdiction linaire
La prdiction linaire est une technique issue de lanalyse de la production de la parole

permettant dobtenir des coefficients de prdiction linaire (Linear Prediction Coefficients
LPC). Des paramtres cepstraux LPCC [7]. (Linear Prediction Cepstral Coefficients) sont
ensuite calculs partir de ces coefficients.
Dans ce cadre danalyse, le signal de parole x est considr comme la consquence de

lexcitation du conduit vocal par un signal provenant des cordes vocales. La prdiction
sappuie sur le fait que les chantillons de parole adjacents sont fortement corrls, et que, par
consquent, lchantillon sn peut tre estim en fonction des p chantillons prcdents.
Par prdiction linaire, on obtient donc une estimation du signal :
% ) ' .
O les ' sont des coefficients constants sur une fentre danalyse. La dfinition devient
exacte si on inclut un terme dexcitation :
25
) ' . *+
O est le signal dexcitation et + le gain de lexcitation. La transforme en , de cette

galit donne :
/ 0
)
+- . '. 1 .
Do :
. + +
2 . )
4 ' .3
- . 5 .
Cette quation peut tre interprte comme suit : Le signal 6 est le rsultat de lexcitation
+
du filtre tout ple 2 . 5 .
par le signal dexcitation .
Les coefficients ' sont les coefficients qui minimisent lerreur quadratique moyenne :
- 8 +. 78 98/ 78 0
)
' 78 1:
partir de ces chantillons prdis, on peut calculer les paramtres cepstraux. Le cepstre
est le rsultat de la transforme de Fourier inverse applique au logarithme de la transforme
de Fourier du signal de parole. Les paramtres cepstraux sont les coefficients du
dveloppement de Taylor du logarithme du filtre tout ple :
+
; <|5 > 7?
? .
. |
Ce qui donne :
@A +
8 '8 * ' 'B ), ,

)
8 8
Les paramtres cepstraux ont lavantage dtre peu corrls entre eux. Cela permet
dutiliser des matrices de covariances diagonales pour leur moment de second ordre, et ainsi
gagner beaucoup de temps lors du dcodage. Les diffrentes tapes de lanalyse LPCC sont
dtailles dans la figure 2.1
26
Comme dit prcdemment, ce modle provient de lanalyse de la production de la parole.

Dautres formes danalyses qui tiennent compte du mode de perception auditive de la parole
plutt que du mode de production sont prsentes dans les sections suivantes.
II.2. Lanalyse en banc de filtre
Lanalyse par banc de filtres [8] est une technique initialement utilise pour le codage
du signal de parole. Elle produit des paramtres cepstraux (Mel-Frequency Cepstral
Coefficients) -MFCC. Le signal de parole est analys laide de filtres passe-bande
permettant destimer lenveloppe spectrale en calculant lnergie dans les bandes de
frquences considres.
Les bandes de frquences des filtres sont espaces logarithmiquement selon une chelle
perceptive afin de simuler le fonctionnement du systme auditif humain. Les chelles
perceptives les plus utilises sont celles de Mel et de Bark [8]. Plus la frquence centrale du
filtre est basse, plus la bande passante du filtre est troite. Augmenter la rsolution pour les
basses frquences permet dextraire plus dinformation dans ces zones o elle est plus dense.
Il est possible dutiliser directement les coefficients obtenus la sortie des filtres pour la
reconnaissance de la parole, cependant, dautres coefficients plus discriminants, plus robustes
au bruit ambiant et surtout dcorrls entre eux sont prfrs : les coefficients cepstraux. Un
ensemble de M coefficients cepstraux, gnralement entre 10 et 15, sont calculs en effectuant
un liftrage (filtrage dans le domaine cepstral) du spectre en puissance dun signal selon la
transforme en cosinus discret ( Discrete Cosinus Transform DCT ) :
"
J
8 E8 . F G8 * H I KLMN ,,J 0
O est le nombre de filtres utilis.
Le coefficient OP correspond lnergie moyenne de la trame. De manire gnrale, on ne

le prend pas en compte afin de rendre les MFCC peu sensibles la puissance acoustique du
signal de parole.
Les diffrentes tapes de lanalyse MFCC sont dtailles dans la figure 2.1.
27
II.3. Analyse par prdiction linaire perceptuelle
Lanalyse par Prdiction Linaire Perceptuelle [9] (Perceptual Linear Prediction

PLP ) repose sur un modle de perception de la parole. Les diffrentes tapes de lanalyse
PLP sont dtailles dans la figure 2.1.
Elle est base sur le mme principe que lanalyse prdictive et intgre trois
caractristiques de la perception :
Intgration des bandes critiques : la prdiction linaire produit la mme

estimation de lenveloppe spectrale pour toute la zone de frquences utiles, ce qui
est en contradiction avec le fonctionnement de lappareil perceptif humain. En
effet, loreille humaine a la facult dintgrer certaines zones de frquences en
bande appeles bandes critiques. Les bandes critiques sont rparties selon
lchelle de Bark, dont la relation avec la frquence est dfinie par :
.
Q RSAT
Q
avec U la frquence en Hertz et V la frquence en Bark.
La nouvelle densit spectrale est chantillonne selon cette nouvelle chelle, ce qui
augmente la rsolution pour les basses frquences.
Praccentuation pas courbe disosonie : cette caractristique provient de la

psychoaccoustique qui a montr que lintensit sonore dun son pur perue par
lappareil auditif varie avec la frquence de ce son. Ainsi, dans lanalyse PLP,
afin de prendre en compte la manire dont lappareil auditif peroit les sons, la
densit spectrale doit tre multiplie par une fonction de pondration non linaire.
Cette fonction peut tre estime en utilisant labaque sur laquelle sont reportes
les lignes isosoniques. Ces lignes correspondent la trajectoire dgale intensit
sonore pour diffrentes frquences dun son pur. En pratique, cette
praccentuation est remplace par lapplication du filtre passe-haut dont la
transforme en , est :
0 . WX. .
28
Loi de Stevens : lintgration des bandes critiques et la praccentutation ne

suffisent pas faire correspondre lintensit mesure et lintensit subjective
(appele sonie). La loi de Stevens donne la relation entre ces deux mesures :
RLASY SAZYARSZ ,\\
Les PLP sont bass sur le spectre court terme du signal de parole, comme les
coefficients LPC. Cela signifie que le signal est analys sur une fentre glissante de courte
dure. En gnral, on utilise une fentre de longueur 10 30 ms. que lon dcale de 10 ms
pour chaque trame.
Fig. 2.1-Comparaison de trois analyses du signal : LPCC, PLP et MFCC
II.4. Mthodes RASTA- PLP et JRASTA- PLP
Afin daugmenter la robustesse des paramtres PLP, on peut envisager lanalyse

spectrale relative RASTA [10] ( Relative Spectral ), prsente comme une faon de simuler
linsensibilit de lappareil auditif humain aux stimuli variation temporelle lente. Cette
technique traite les composantes de parole non linguistiques, qui varient lentement dans le
temps, dues au bruit convolutif (log-RASTA ) et au bruit additif ( J-RASTA ). En pratique,
RASTA effectue un filtrage passe-bande sur le spectre logarithmique ou sur le spectre
29
compress par une fonction non linaire. Lide principale est de supprimer les facteurs
constants dans chaque composante du spectre court-terme avant lestimation du modle
tout-ple. Lanalyse RASTA est souvent utilise en combinaison avec les paramtres PLP.
Les tapes dune analyse RASTA-PLP sont dcrites dans la figure 2.3.
Fig.2.3 Analyse RASTA PLP
Les tapes grises sont celles qui font la spcificit du traitement RASTA. La diffrence
entre RASTA et J-RASTA se situe au niveau du logarithme (4me tape) :
; Pour RASTA et ; *! pour J-RASTA.
II.5. Analyse rsolution multiple
Lanalyse rsolution multiple ( Multi Resolution Analysis MRA ) [11], effectue

une analyse en ondelettes dune fentre de signal audio. Cela consiste faire passer le signal
dans un arbre de filtres passe-bas et passe-haut, la sortie desquels lnergie court terme est
calcule voir figure 2.4 . chaque niveau de larbre, le signal est entirement dcrit, mais
dans une rsolution frquentielle et temporelle diffrente. Comme on peut le constater, la
disposition des filtres nest pas intuitive, car il faut prendre en compte le phnomne de
repliement spectral qui recopie dans les basses frquences le signal haute frquence invers.
Ensuite, il faut regrouper les nergies calcules aux feuilles de larbre pour former les trames
qui seront utilises dans le systme de reconnaissance de la parole.
Considrons une fentre de taille N chantillons, qui se dplacent de M

chantillons.Pour MRA, les valeurs utilises pour N sont 256 (32 ms) ou 384 (48 ms), et M
est fix 80 chantillons (soit 10 ms). noter que ce front-end a t dvelopp pour des
applications tlphoniques. Le nombre dchantillons obtenus dans les nuds de larbre
30
diminue quand on descend dans larbre, mais lintervalle temporel associ aux chantillons
filtrs reste inchang.
Fig. 2.4-Principe de lanalyse rsolution multiple.
Selon le principe dindtermination dHeisenberg, il existe une relation entre la rsolution

temporelle et la rsolution frquentielle des chantillons dans les diffrentes sous-bandes. Sur
la base de ce principe, le produit de la rsolution en temps et celle en frquence ne doit pas
tre infrieur un certain seuil. tant donn qu chaque niveau de larbre, la rsolution
frquentielle est divise par deux cf. figure 2.4 , on peut considrer des intervalles
temporels dintgration diffrents pour chaque niveau de larbre. Pour cela, on utilise
lextracteur de paramtres sur le mme nombre dchantillons chaque niveau, ce qui a pour
consquence de diviser lintervalle temporel par deux. Pour les 8 premires bandes (de 0 1
kHz) on utilise les 8 chantillons disponibles. Pour les 8 bandes suivantes (de 1kHz 3 kHz)
on nutilise que les 8 chantillons centraux sur les 16 disponibles. Enfin, pour les deux
dernires bandes (de 3 kHz 4 kHz) on utilise seulement 10 chantillons sur les 32
disponibles. Tout ceci est dtaill dans le tableau 2.1
31
.
TAB. 2.1-Correspondance entre rsolution frquentielle et temporelle pour lanalyse MRA
la sortie de ces filtres, on doit appliquer une opration dextraction de paramtres

acoustiques sur les chantillons filtrs obtenus. Notons ci les chantillons dun nud de
larbre, et N leur nombre. Cette opration est appele intgration. Les oprateurs disponibles
pour lintgration sont nombreux, les plus utiliss sont :
Lnergie moyenne par chantillon :
La norme ]:
| |) 'B ) , ,\
Lentropie moyenne :
2 . ;^_
Loprateur teager :
/ 0 . 7 1
La dimension thorique combinaison de lentropie moyenne et lnergie

moyenne :
32
` -. )
Les paramtres MRA ont la particularit de ne pas dcrire lenveloppe spectrale du

signal, mais plutt de reprsenter le signal en termes dnergie prsente dans chaque bande de
frquences et dutiliser la redondance de reprsentation de ce signal de parole chaque niveau
de larbre. Lintrt de considrer de tels paramtres est quon peut supposer que
32
linformation quils contiennent sera diffrente de celle fournie par les reprsentations
cepstrales.
II.6. Mthodes Acoustiques hybrides
Ces paramtres sont calculs partir de paramtres discriminants obtenus laide dun
rseau de neurones. Les systmes de reconnaissance automatique de la parole utilisent en
gnral des modles base de GMMs pour estimer les distributions de vecteurs de
paramtres dcorrls qui correspondent des units acoustiques de courte dure syllabes,
phonmes, phonmes en contexte, ... . En comparaison, les systmes hybrides ANN/MMC
[12] utilisent des rseaux de neurones entrans de manire discriminante pour estimer les
distributions de probabilit des units tant donn les observations acoustiques.
Cette approche consiste combiner des paramtres discriminants issus dun rseau de
neurones avec une modlisation des distributions par GMMs. Le rseau de neurones gnre
les probabilits postrieures des units qui sont ensuite transforms pour tre utiliss comme
paramtres dentre pour le modle MMC/GMM qui est alors appris de manire
conventionnelle. Les transformations sur les distributions de probabilit sont de diffrentes
sortes. Les rseaux de neurones produisent directement des probabilits a posteriori
contrairement aux mixtures de gaussiennes. tant donn que les probabilits postrieures ont
une distribution trs biaise, il est avantageux de les transformer en prenant leur logarithme
par exemple. Une alternative cela est domettre la dernire non-linarit la sortie du rseau
de neurones. Cette non linarit, le softmax, correspond normaliser les exponentiels ce qui
est trs proche de prendre le logarithme des probabilits . Les vecteurs de probabilits
postrieures ont tendance possder une valeur leve, correspondant au phonme prononc,
et les autres basses. Les rseaux de neurones nont pas la contrainte dutiliser des paramtres
acoustiques dcorrls comme les MMCs. Cependant, il savre que la transformation de
Karhunen-Loeve, plus connue sous le nom danalyse en composante principale Principal
Component Analysis PCA est utile pour dcorrler les paramtres, vraisemblablement
parce quelle augmente la correspondance entre les paramtres et les modles base de
mixture de gaussiennes. Les principaux rsultats obtenus avec ce genre de technique sont
prsents dans plusieurs travaux.
33
II.7. Autres paramtres acoustiques
Dans le but daccroitre la robustesse des systmes de reconnaissance automatique de la

parole, Beaucoup dautres paramtres acoustiques ont t dvelopps afin, le plus souvent, de
complter et combiner les paramtres existants(combinaison de paramtres acoustique).
Conclusion
Dans ce chapitre, nous avons dcris les mthodes, les plus utilises dextraction des
paramtres acoustiques pertinents en termes defficacit et de performances pour les systmes
de Reconnaissance Automatique de la parole de la parole.
Le chapitre suivant sera consacr au sujet de la reconnaissance Automatique de la parole :

la description des principes de base qui constituent les systmes de reconnaissance et la
difficult relative de la mise en uvre de ces systmes.
34
CHAPITRE III : LA
RECONNAISSANCE
AUTOMATIQUE DE LA PAROLE
Chapitre III La Reconnaissance Automatique de la Parole
Introduction
Le problme de la reconnaissance automatique de la parole consiste extraire, l'aide

d'un ordinateur, l'information lexicale contenue dans un signal de parole.
Depuis plus de deux dcennies, des recherches intensives dans ce domaine ont t
accomplies par de nombreux laboratoires internationaux. Des progrs importants ont t
accomplis grce au dveloppement d'algorithmes puissants ainsi qu'aux avances en
traitement du signal. Diffrents systmes de reconnaissance de la parole ont t dvelopps,
couvrant de vastes domaines tel que la reconnaissance de quelques mots cls sur lignes
tlphoniques, les systmes dicter vocaux, les systmes de commande et contrle sur PC, et
allant jusqu'aux systmes de comprhension du langage naturel.
Dans ce chapitre, nous allons dcrire et clairer au mieux la complexit inhrente la

mise en ouvre dun systme de reconnaissance automatique de la parole, objet de notre
travail, puis nous allons dfinir les principes, les approches et les techniques qui sont la
base de la plupart de ces systmes.
III.1. Niveaux de complexit de la RAP
Pour bien apprhender le problme de la reconnaissance automatique de la parole, il est

bon d'en comprendre les diffrents niveaux de complexit.
Le signal de parole est un des signaux les plus complexes : En plus de la complexit
physiologique inhrente au systme phonatoire et des problmes de coarticulation qui en
rsultent, le conduit vocal varie galement trs fort d'une personne l'autre.
La mesure de ce signal de parole est fortement influence par la fonction de transfert

(comprenant les appareils d'acquisition et de transmission, ainsi que l'influence du milieu
ambiant).
Il y a d'abord le problme de la variabilit intra et inter-locuteurs. Le systme peut tre

dpendant du locuteur (optimis pour un locuteur bien particulier ) ou indpendant du
locuteur (pouvant reconnatre n'importe quel utilisateur).
Evidemment, les systmes dpendants du locuteur sont plus faciles dvelopper et sont
caractriss par de meilleurs taux de reconnaissance que les systmes indpendants du
locuteur tant donn que la variabilit du signal de parole est plus limite. Cette dpendance
35
au locuteur est cependant acquise au prix d'un entranement spcifique chaque utilisateur.
Ceci n'est cependant pas toujours possible. Par exemple, dans le cas d'applications
tlphoniques, les systmes doivent pouvoir tre utiliss par n'importe qui et doivent donc tre
indpendants du locuteur.
Bien que la mthodologie de base reste la mme, Cette indpendance au locuteur est
cependant obtenue par l'acquisition de nombreux locuteurs couvrant si possible les
diffrents dialectes qui sont utiliss simultanment pour l'entranement de modles
susceptibles d'en extraire toutes les caractristiques majeures. Une solution intermdiaire
parfois utilise consiste dvelopper des systmes capable de s'adapter rapidement (de faon
supervise ou non supervise) au nouveau locuteur.
Par ailleurs, un systme peut tre destin reconnaitre des mots isols ou de la parole
continue. Il est plus simple de reconnatre des mots isols bien spars par des priodes de
silence que de reconnatre la squence de mots constituant une phrase. En effet, dans ce
dernier cas, non seulement la frontire entre mots n'est plus connue mais, de plus, les mots
deviennent fortement articuls (c'est--dire que la prononciation de chaque mot est affecte
par le mot qui prcde ainsi que par celui qui suit - un exemple simple et bien connu tant les
liaisons du franais).
Dans le cas de la parole continue, le niveau de complexit varie galement selon qu'il
s'agisse de texte lu, de texte parl ou, beaucoup plus difficile, de langage naturel avec ses
hsitations, phrases grammaticalement incorrectes, faux dparts, etc. Un autre problme, qui
commence tre bien matris, concerne la reconnaissance de mots cls en parole libre. Dans
ce dernier cas, le vocabulaire reconnatre est relativement petit et bien dfini mais le
locuteur n'est pas contraint de parler en mots isols.
La taille du vocabulaire et son degr de confusion sont galement des facteurs importants.
Les petits vocabulaires sont videmment plus faciles reconnatre que les grands
vocabulaires, tant donn que dans ce dernier cas, les possibilits de confusion augmentent.
Robustesse dun systme
Un systme est dit robuste sil est capable de fonctionner proprement dans des
conditions difficiles. En effet, de nombreuses variables peuvent affecter significativement les
performances des systmes de reconnaissance:
36
Bruits d'environnement tels que bruits additifs stationnaires ou non stationnaires
(par exemple, dans une voiture ou dans une usine).
Acoustique dforme et bruits additifs corrls avec le signal de parole utile

(par exemple, distorsions non linaires et rverbrations).
Utilisation de diffrents microphones et diffrentes caractristiques (fonctions de
transfert) du systme d'acquisition du signal (filtres), conduisant gnralement
du bruit de convolution.
Bande passante frquentielle limite (par exemple dans le cas des lignes
tlphoniques pour lesquelles les frquences transmises sont naturellement
limites).
Elocution inhabituelle ou altre, comprenant entre autre: l'effet Lombard, (qui
dsigne toutes les modifications, souvent inaudibles, du signal acoustique lors de
l'locution en milieu bruit), le stress physique ou motionnel, une vitesse
d'locution inhabituelle, ainsi que les bruits de lvres ou de respiration.
Certains systmes peuvent tre plus robustes que d'autres l'une ou l'autre de ces
perturbations, mais en rgle gnrale, les reconnaisseurs de parole actuels restent encore trop
sensibles ces paramtres.
III.2. Approche et techniques de reconnaissance automatique de la parole
III.2.1. Approche par la normalisation temporelle
Les premiers succs en reconnaissance vocale ont t obtenus dans les annes 70 laide
dun paradigme de reconnaissance de mots. Lide, trs simple dans son principe, consiste
faire prononcer un ou plusieurs exemples de chacun des mots susceptibles dtre reconnus, et
les enregistrer sous forme de vecteurs acoustiques (typiquement : un vecteur de coefficients
LPC ou assimils toutes les 10 ms). Ltape de reconnaissance proprement dite consiste alors
analyser le signal inconnu sous la forme dune suite de vecteurs acoustiques similaires, et
comparer la suite inconnue chacune des suites des exemples pralablement enregistrs. Le
mot (reconnu) sera alors celui dont la suite de vecteurs acoustique (spectrogramme) ressemble
le mieux celle du mot inconnu. Ce principe de base nest cependant pas implmentable
directement : Un mme mot peut en effet tre prononc dune infinit de faons diffrentes,
en changeant le rythme de llocution. Il en rsulte des spectrogrammes plus ou moins
37
distordus dans le temps. La superposition du spectrogramme inconnu aux spectrogrammes de

base doit ds lors se faire en acceptant une certaine (lasticit) sur les spectrogrammes
candidats.
Une solution ce problme dlasticit ou recalage temporel fait appel aux technique de
la programmation dynamique est formalise mathmatiquement par un algorithme dsormais
bien connu : Lalgorithme DTW (Dynamic Time Warping) [13].
Les dfinitions de distances locales peuvent galement tre adaptes de faon tenir
compte du type de caractristiques acoustiques utilises (distance euclidienne, distance de
Mahalanobis[14], distance dItakura[1] ou de limportance relative des diffrentes
composantes).Cette mthode donne dexcellents rsultats. On dmontre quelle fournit la
solution optimale du problme.
Le principe de comparaison dynamique est illustr sur la figure III.1. Il consiste

rechercher la mise en correspondance optimale entre deux formes. Cette dernire est
matrialise par le chemin de recalage donn sur la figure III.1.
Le recalage temporel peut galement tre effectu laide de modles stochastiques

prsents dans le paragraphe suivant et qui sont maintenant utiliss dans la plupart des
systmes.
Fig. III.1-Principe de la programmation dynamique
38
III.2.2. Approche par modlisation stochastique
Dans le paragraphe prcdent, nous avons montr comment on pouvait effectuer par
programmation dynamique lintgration temporelle de distances locales, permettant en mme
temps de normaliser les variations temporelle des units de parole. Cette approche conduit
galement une segmentation automatique de la phrase en termes de segments de rfrences.
Il y a cependant plusieurs limitation lies lapproche DTW, cette approche requiert

souvent une dtection automatique de dbut et fin, ce qui est dj une source de problmes.
De plus, si on essaie dadapter la dfinition de distance locale, il est souvent difficile, sans
outils mathmatiques puissants, den comprendre les effets au niveau du critre global que
lon sest donn minimiser. Finalement, tant donn que la parole est beaucoup plus que la
simple concatnation dlments linguistiques ( par exemple, des mots ou des phonmes) bien
dfinis, il est ncessaire de pouvoir modliser les variabilits et les dpendances de chaque
unit en fonction de son contexte. Comme nous le verrons par la suite au chapitre 4,
lentrainement de distributions statistiques reprsente la meilleure approche pour modliser la
variabilit observe sur des exemples rels.
Pour toutes ces raisons, les modles statistiques [15] sont maintenant trs utiliss dans les
problmes de reconnaissance de squences complexes telles que le signal de parole. De plus,
lintroduction dun formalisme statistique permet lutilisation de plusieurs outils
mathmatiques trs puissants (lalgorithmeEM (IV.5.2)) pour dterminer les paramtres par
entrainement, et pour effectuer la reconnaissance et la segmentation automatique de mots et
de parole continue. Ces outils mathmatiques sont maintenant largement utiliss et constituent
aujourdhui lapproche dominante en reconnaissance de la parole.
Pour la plupart de ces systmes de reconnaissance, la parole est suppose avoir t
gnre selon un ensemble de distributions statistiques. Par dfinition, une distribution unique
ne peut gnrer quun processus stationnaire. Etant donn que la parole est constitue de
plusieurs sons diffrents, il est ncessaire de considrer plusieurs distributions. Chaque
distribution est modlise par un ensemble de paramtres qui seront dtermins sur base dun
ensemble dentrainement de faon minimiser la probabilit derreur. Pendant la
reconnaissance, nous recherchons alors, travers lespace de toutes les squences de
distributions possibles (dans les limites de contraintes phonologiques et, ventuellement,
39
syntaxiques), la squence de modles (et donc de la phrase (mot) associe) qui maximise la
probabilit a posteriori par exemple.
Modle acoustique MMC
Selon le formalisme des modles de Markov caches (MMC) (chap.IV), le signal de

parole est suppos tre produit par un automate stochastique fini construit partir dun
ensemble dtats stationnaires rgis par des lois statistiques. En dautres mots, le formalisme
des modles MMC suppose que le signal de parole est form dune squence de segments
stationnaires, tous les vecteurs associs un mme segment stationnaire tant supposs avoir
gnrs par le mme tat MMC. Chaque tat de cet automate est caractris par une
distribution de probabilit dcrivant la probabilit dobservation des diffrents vecteurs
acoustiques.
Les transitions entre tats sont instantanes. Elles sont caractrises par une probabilit de
transition. Ainsi chaque tat du modle permet de modliser un segment de parole
stationnaire, la squence dtat permet quant elle de modliser la structure temporelle de la
parole comme une succession dtat stationnaires. cet effet les modles utiliss en
reconnaissance automatique de la parole sont gnralement du type gauche-droite o les
transitions possibles sont soit des boucles sur un mme tat, soit le passage un tat suivant (
droite). Laspect squentiel du signal de parole est ainsi modlis.
Comme unit linguistique (chaque phonme ou chaque mot) est donc modlis par un ou
plusieurs tats stationnaires, les mots sont ensuite construits en termes de squences de
phonmes et les phrases en termes de squences de mots. Chaque tat stationnaire est
reprsent par les paramtres de fonctions statistiques invariables, par exemple la moyenne et
la variance dune distribution gaussienne o des GMM.
Modle de Markov Cach MMC (Hidden Markov Model HMM)
Il est caractris par un double processus stochastique :
un processus interne : non observable

un processus externe : observable
Ces deux chanes se combinent pour former le processus stochastique.
La chane interne : est une chane de Markov que lon suppose chaque instant dans un
tat o la fonction alatoire correspondante engendre un segment lmentaire (de lordre de
40
10 ms ou plus), reprsent par un vecteur de paramtres, de londe acoustique observe. Un

observateur extrieur ne peut voir que les sorties de ces fonctions alatoires, sans avoir accs
aux tats de la chane sous-jacente, do le nom de modle cach.
Un des grands intrts des MMC rside dans lautomatisation de lapprentissage des
diffrents paramtres et distributions de probabilits du modle partir de donnes
acoustiques reprsentatives de lapplication considre, essentiellement les probabilits de
transition dun tat du MMC un autre tat et surtout les lois dmission. Ces lois
dmissions (probabilits) sont en gnral reprsentes sous forme dune somme de fonctions
gaussiennes (parfois plusieurs (GMM), permettant de mieux approcher la loi relle du
phnomne), comme lillustre la figure III.2. Cet apprentissage est assur par des algorithmes
itratifs destimation des paramtres, notamment lalgorithme de Baum-Welch (IV.5.2), cas
particulier de lalgorithme EM (Expectation-Maximisation) fond sur le principe de
maximum de vraisemblance.
Fig. III.2- modle de markov cinq tats
Les MMC peuvent tre utiliss de plusieurs faons en RAP, selon limportance de
lapplication (taille du vocabulaire et type de parole : mots isols ou parole continue).
Pour la reconnaissance de mots isols, il est possible de modliser chaque mot par un
MMC, La reconnaissance revient alors calculer la vraisemblance de la suite dobservations
acoustiques constituant le mot reconnatre par rapport chacun des modles. Le modle
prsentant la plus grande vraisemblance davoir mis cette suite dobservations fournit le mot
reconnu. Lalgorithme permettant doptimiser ce calcul est nouveau fond sur la
programmation dynamique, mais dans un cadre stochastique, lalgorithme de Viterbi (IV.4.4).
41
Pour la reconnaissance de la parole continue, lutilisation de modles globaux pour

chaque mot pose divers problmes : espace mmoire de stockage, volume de donnes
acoustiques ncessaires pour lapprentissage de tous les MMC. La solution adopte est
dutiliser des MMC pour reprsenter les units phontiques.
Ces units peuvent tre de nature varie : phonmes, diphones, syllabe, fenone,
allophones.
Les modles de mots sont construits par concatnation des modles analytiques
lmentaires correspondant aux transcriptions phontiques de ces mots. Pour mettre au point
des MMC aussi indpendants du locuteur que possible, il est ncessaire daugmenter le
nombre de paramtres des MMC.
Les solutions disponibles sont de deux types :
Les multi-modles : le principe est de reprsenter le mme mot par plusieurs

MMC correspondant diffrentes classes de locuteurs.
Les mlanges de densits de probabilit : au lieu de reprsenter la probabilit
dmission dun segment de parole pour une loi de probabilit (une gaussienne),
on utilise un mlange de lois gaussiennes permettant de mieux approcher la loi
relle du phnomne acoustique.
III.2.3. Approche par modles neuromtriques
Lutilisation de modles connexionnistes, ou rseaux neuronaux, fonds sur une

modlisation plus ou moins raliste du cortex humain, sest rcemment rpandue et a permis
dobtenir des rsultats intressants en RAP comme dans dautres domaines de la perception.
Ces modles sont constitus par linterconnexion dun trs grand nombre de processeurs
lmentaires inspirs du fonctionnement du neurone. Plusieurs types ont t utiliss dans
diffrents domaines du traitement de la parole (reconnaissance, dbruitage de parole,
vrification du locuteur, etc.) que nous allons dcrire brivement ci-dessous.
Perceptrons multicouches avec apprentissage par rtropropagation du gradient

derreur.
La prise en compte du temps, problme majeur en parole, est impossible dans le
modle de base. Des variantes ont t proposes pour pallier cet inconvnient :
42
perceptrons contextuels et perceptrons entre rcurrente ; perceptrons retard

temporel TDNN (Time Delay Neural Network).
La figure III.3 illustre le fonctionnement dun perceptron avec une couche cache.
Fig. III.3-Perceptron une couche cache pour la reconnaissance de mots
Les rseaux neuronaux (essentiellement perceptrons multicouches) sont presque

exclusivement utiliss en reconnaissance de la parole comme frontal de MMC ; un rseau
neuronal est alors entran pour fournir un MMC des valeurs de probabilits ncessaires
son fonctionnement. De telles architectures hybrides stochastiques/ neuronales-ANN/HMM
[16] se classent parmi les plus performantes dans les tests de systmes de reconnaissance
trs grands vocabulaires.
Lhybridation dun MMC avec un rseau neuronal est intressante du fait des proprits
discriminantes du rseau neuronal. Lhybridation dun MMC avec dautres classifieurs
discriminants sest rvle intressante en RAP, notamment les SVM.
Pour ajouter des paramtres neuronaux, aux paramtres calculs partir du signal de
parole par une des mthodes exposes au chapitre 2, notamment les paramtres cepstraux. On
utilise dans ce cas la capacit dun rseau neuronal modliser une distribution de
43
probabilits quelconque par apprentissage partir dexemples. De tels paramtres, associs

aux paramtres MFCC, sont actuellement les plus performants en reconnaissance de la parole
continue.
III.2.4. Approche Baysienne
La quasi-totalit des systmes de reconnaissance de parole continue actuels se fondent sur

une approche statistique et plus prcisment sur la thorie de la dcision baysienne [15]. Le
principe, illustr sur la figure III.4, peut tre rsum comme suit.
Le signal de parole est analys par une des mthodes prsentes au chapitre 2. Un mot ou
une phrase en entre du systme est ainsi reprsent comme une suite de vecteurs de
paramtres. La reconnaissance revient trouver la suite de mots a, forme de n mots, n > 1
ntant pas connu a priori, dont la probabilit conditionnelle b a connaissant lentre
est maximale.
Fig. III.4-Principe de la reconnaissance baysienne
b a est la probabilit dobserver la squence de vecteurs ^c lorsque la suite

de mots a est prononce. Cette probabilit est donne par un modle acoustique, le plus
souvent un modle MMC.
b a est la probabilit de la suite de mots a dans le langage utilis. Elle est fournie
par un modle de langage ML.
44
Conclusion
Dans ce chapitre nous avons dcrit le principe de la Reconnaissance Automatique de la

Parole tout en essayant de mettre en vidence les niveaux de complexits majeurs relatifs la
RAP, ainsi que ; sans dtailler, cit Les raisons souvent rencontres qui peuvent affecter les
performances de ces systmes. nous avons dfinis, galement les approches, les principes et
les techniques utilises dans le domaine de la RAP.
Le chapitre suivant sera consacr la dfinition des Models de Markov Cachs , les
algorithmes dentrainements et de reconnaissance qui ont contribuer grandement , la thorie
et la recherches sur les Modles de Markov cachs et qui leurs ont permis de sappliquer et de
simposer dans beaucoup de domaines .
De nos jours, les MMC, sont un outil largement utilis dans beaucoup de domaines,
incontournable en termes defficacits et performances dans le domaine de la reconnaissance
automatique de la parole.
45
CHAPITRE IV : LES MODLES
DE MARKOV CACHS
Chapitre IV Les Modles de Markov Cachs
Introduction
Les modles de Markov cachs sont des outils statistiques permettant de modliser des
phnomnes stochastiques. Ces modles sont utiliss dans de nombreux domaines [17] tels
que la reconnaissance et la synthse de la parole, la biologie, lordonnancement, lindexation
de documents, la reconnaissance dimages, la prdiction de sries temporelles, Pour
pouvoir utiliser ces modles efficacement, il est ncessaire den connaitre les principes.
Ce chapitre a pour objectif dtablir les principes, les notations utiles et les principaux
algorithmes qui constituent la thorie des modles de Markov cachs (MMC).
A cet effet, nous commenons en prsentant un historique des tapes les plus marquantes
dans la construction de cette thorie. Aprs avoir dfini ce que sont les chaines de Markov,
nous verrons que pour mieux modliser les phnomnes tudis, il est ncessaire de
considrer un modle ayant un pouvoir dexpression suprieur. Les modles de Markov
cachs (MMC) en font partie. Nous prsentons alors les MMC. La suite sattache prsenter
les algorithmes classiques des MMC pour le dcodage\seguementation o la reconnaissance:
Forward, Backward et de Viterbi. La dernire section de ce chapitre est consacre aux
diffrents critres utilisables classiquement pour lapprentissage de MMC. Finalement, nous
terminons chapitre par plusieurs remarques sur les critres dapprentissage.
IV.1. Historique
Les modles de Markov cachs ont une longue histoire derrire eux. En 1913, les
premiers travaux sur les chaines de markov pour lanalyse du langage permettent A.A.
Markov de concevoir la thorie des chaines de Markov [18]. De 1948 1951, Shannon
conoit la thorie de linformation en utilisant les chaines de Markov [19].
Ds 1958, les modles probabilistes durnes [20], le calcul direct du maximum de

vraisemblance [21] et lobservation de la suite dtats dans une chaine de Markov [22], sont
raliss. Mais ce nest qua partir de 1966 avec les travaux de L.E. Baum [23], que les
algorithmes basiques pour lestimation des tats et des paramtres des modles, pour les
modles de Markov cachs, sont mis au point. partir de 1980, ces modles sont tendus afin
dintgrer la notion de dure variable [25] et densits de probabilits continues
multivariables. Les travaux de A. J. Viterbi [26] et G. D. Forney [26] ont permis de construire
un algorithme efficace et dont la complexit est linaire, par apport la longueur de la suite
46
dobservations, pour le calcul de la squence dtats cachs. En 1970, les termes modles de
Markov cachs ou chaines de Markov caches ( hidden Markov models) mis au point
par L. P. Neuwirt afin de remplacer lappellation fonction probabiliste dune chaine de
markov utilise jusque l [27].
partir de 1975, les modles de Markov cachs ont commenc tre utiliss dans de
nombreux domaines, parmi lesquelles la reconnaissance automatique de la parole [28]. Les
premiers travaux sur les modles de Markov cachs pour la reconnaissance automatique de la
parole ont t mens en parallle par le groupe IBM compos de L. R. Bahl et F. Jelinek [29]
et par J. K. Baker au CMU [30]. Ces travaux ont permis de dcouvrir les capacits des
modles de Markov cachs pour la reconnaissance de la parole.
Dans les annes 1980, les modles de Markov cachs incorporant des rseaux de
neurones apparaissent [31]. Depuis lors, ces nouveaux modles ont t trs largement utiliss
pour la reconnaissance de mots isols [32],pour la reconnaissance de mots enchains [33],
pour la reconnaissance de la parole continue [34] ou pour la localisation de mots dans une
phrase [35].
partir des annes 1990, sont mises en uvre les premires applications la
reconnaissance dimages [36] et de lcriture apparaissent [37].
Rcemment, les modles de Markov cachs ont mme t utiliss pour lordonnancement
de taches [38] et les technologies [39].
Les modles de markov cachs sont une famille doutils mathmatiques probabilistes
parfaitement adapts la modlisation de squences temporelles. Il existe plusieurs types de
modles de markov cachs afin de mieux rpondre des problmes spcifiques. Dans le cadre
de notre travail et plus particulirement de ce chapitre, nous nous intresserons principalement
aux modles de markov cachs discrets du premier ordre, que nous abrgerons par la suite en
MMC. Pour pouvoir prsenter les MMC, il est ncessaire de commencer par prsenter les
modles de Markov et les proprits qui leurs sont associes.
47
IV.2. Les chaines de Markov discrtes
En calcul des probabilits, on dfinit une variable alatoire v. a. relle comme une
fonction mesurable : e f g. e est appel lunivers. Dans de nombreux cas de figures, e
est lensemble des rels g, lensemble des entiers positifs h ou un de leurs sous-ensembles.
Processus stochastique Un processus stochastique est une famille i j k de v. a.

dfinies sur e
:e f g
Lensemble l reprsente souvent la notion de temps mais il peut galement correspondre

la notion de position spatiale en dimension 2 ou toute autre notion en autant de dimensions
que ncessaire. Dans le cas o l reprsente la notion de temps et si l est discret, on parle de
processus stochastique en temps discret, tandis que le processus est dit en temps continu,
lorsque l est continu. Les tats dun processus stochastique dfini par les v. a. :e f g
pour tout k l sont les valeurs prises par ces v. a. lorsque varie. On note m lensemble des
tats du processus.
A. A. Markov fut le premier tudier et poser les bases mathmatiques permettant

ltude des chaines qui portent son nom. La dfinition de ces chaines est la suivante :
Condition dune chaine de Markov : Un processus iE j kl E : e f m est une

chaine de markov sil vrifie les trois conditions suivantes :
l est dnombrable ou fini. Dans ce cas et pour simplifier les notations ultrieures, il est
toujours possible de prendre l n o i , , j. Cette condition signifie que le processus ne
change de valeur qu des instants dtermins a priori.
Lensemble m des tats du processus est dnombrable. Dans la suite, nous supposerons
galement que m est fini. Nous pouvons alors dfinir m ip , , p j cet ensemble.
Le processus est associ une fonction de probabilit b vrifiant la proprit

markovienne : la probabilit que le processus soit dans un tat particulier un instant q ne
dpend que de ltat dans lequel se trouve le processus au temps 0 . Soit r s kl
une suite dtats du processus s k m . La proprit de Markov vrifie la relation suivante,

pour toute suite dtats r et pour tout instant k l:
48
b E s E s ,,E s b E s E s 12
La probabilit b E s E s correspond la probabilit de transition de ltat

s linstant 0 vers ltat s linstant t.
Homognit dune chaine de Markov : Une chaine de Markov est homogne (dans
le temps) si et seulement si les probabilits de transition ne dpendent pas du temps t
les probabilits de transition sont stationnaires , cest--dire que pour tout , u
k
l , on a :
b/E 7 p! E p1 b E v7 p! E v p
On note ' ,! cette probabilit.
Une chaine de Markov homogne est donc totalement dfinie par la donne des tats, des
probabilits des tats initiaux w et des probabilits des transitions entre tats A avec :
"
w x y z " ,," u
" b E p
"
5 ' ,! { ,!{ ' ,! b E 7 p E p!
Vecteurs et matrices stochastiques :
Un vecteur | B ,,B de dimension } ou, de manire quivalente, son

transpos est stochastique si et seulement si :
Pour tout , ~ B ~ , B .
Une matrice J 8 ,! { ,!{ de dimension o est dite stochastique si et

seulement,
si Pour tout ! , ~ 8 ,! ~ ,
Pour tout , ! 8 ,! .
49
Caractristique dune chaine de Markov :
Une matrice est stochastique si et seulement si les lignes qui la composent sont des
vecteurs stochastiques.
Le systme est forcment dans un et un seul tat particulier au dpart donc est un
vecteur stochastique. 5 est une matrice stochastique car, en partant dans un tat p linstant
, le processus transite forcment vers lun des tats du systme au temps * .
A tout couple form dun vecteur stochastique | de dimension et dune matrice

stochastique J de dimensions o , il est possible dassocier une chaine de Markov
caractrise par le couple |, J .
Reprsentation graphique dune chaine de Markov : Une chaine de Markov peut

tre reprsente graphiquement. Pour cela, on associe la chaine de Markov iE j kl
un graphe + dont lensemble des sommets est en bijection avec lensemble des tats m
et dont lensemble des arcs (orients dans le sens des transitions) est dfini par
p , p! k ' ,! 0
Afin de simplifier les notations, lensemble des sommets du graphe + est reprsent par
lensemble m. La figure IV.5 prsente la reprsentation graphique associe la chaine de
Markov w, 5 .
Fig. IV.5- Reprsentation graphique de la chaine de Markov w, 5
50
IV.2.1 Les modles de Markov cachs discrets (MMC) (HMM)
Les chaines de Markov peuvent servir modliser de nombreux processus

stochastiques.
Cependant, dans certains cas, ces modles ne permettent pas dexprimer le comportement
du systme avec suffisamment de prcision. Pour amliorer cette prcision, les modles de
Markov cachs ont t dvelopps.
Un modle de Markov cach discret correspond la modlisation de deux processus

stochastiques : un processus cach parfaitement modliser par une chaine ce Markov discrte
et un processus observ dpendant des tats du processus cach.
Soit m ip , , p j lensemble des tats cachs du systme. Soit E E ,,E un

-uple de v. a. dfinies sur m. Soit iB , , BJ j lensemble des J symboles missibles
par le systme. Soit | B , , BJ un -uple de v. a. dfinies sur .
Un modle de Markov cach discret du premier ordre est alors dfini par les probabilits
suivantes :
Les probabilits dinitialisation des tats cachs : b E p
Les probabilits de transition entre tats cachs : b E p! E p
Les probabilits dmission des symboles dans chaque tat cach :
b | B! E p .
Si le modle de Markov cach est stationnaire alors les probabilits de transition entre
tats cachs et les probabilits dmission des symboles dans chaque tat cach sont
indpendantes du temps 1.
On peut alors dfinir, pour tout 1 quelconque, 5 ' ,! { ,!{ avec
' ,! b/E p! E p 1, ! { { , {!{J avec ! b | B! E p et

w " ,," u
avec " b E p . Un modle de markov cach stationnaire du
premier ordre est donc totalement dfini par le triplet 5, , w . Par la suite, nous utiliserons
la notation 5, , w et nous emploierons le terme MMC pour des modles de Markov
51
cachs stationnaires du premier ordre. Les relations de dpendance entre les diffrentes
variables alatoires dun MMC sont schmatises par la figure . Dans cette reprsentation, les
flches partent de la v. a. qui conditionne et se terminent au niveau de la variable alatoire
conditionne. Dans la figure IV.7, seules les transitions au temps 0 , et * sont
reprsentes.
Fig. IV.7-Relation de dpendance entre les variables alatoires dun MMC
On note r s ,,s k E une squence dtats cachs et ^ ,,^ k une

squence de symboles observs. La probabilit de ralisation de la squence dtats cachs r
et de la squence dobservation par rapport au MMC est alors
b | , E r5 , , w
Ou plus simplement
b | , E r
En utilisant les dpendances des probabilits conditionnelles, on dduit que :
b | , E r b | E r, b E r
De plus,
b | E r, b | ^ E s ,
b E r b E s b E7 s 7 E s ,
A partir dun MMC , dune squence dtats cachs r et dune squence dobservations
, il est possible de calculer ladquation entre le modle et les deux squences r et .
52
Pour cela, il suffit de calculer la probabilit b | , E r . Cette dernire

correspond la probabilit que la squence dobservations ait effectivement t engendre
par le modle en suivant la squence dtats cachs r.
Lorsque la squence dtats cachs nest pas connue, il est possible dvaluer la
vraisemblance dune squence dobservation par rapport un modle . La vraisemblance
correspond la probabilit b | que la squence dobservations ait t engendre par
le modle pour lensemble des squences dtats cachs possibles. On remarque alors que la
formule suivante est vrifie :
b | rkE b | , E r
Lutilisation des MMC, ncessite la rsolution de plusieurs problmes principaux : le

calcul de la vraisemblance, le dcodage / segmentation de squence dobservations et
lapprentissage.
IV.3. calcul de la vraisemblance
Comme nous lavons vu prcdemment, calculer la vraisemblance dune squence de

observations par apport un MMC consiste valuer la probabilit b | . Ce calcul
peut seffectuer en utilisant differentes mthodes, dans ce qui suit, nous allons expliquer les
principes de chaque mthode et de prsenter lalgoithme de calcul correspendant.
IV.3.1. Lalgorithme Forward
Pour prsenter rapidement cet algorithme, il est ncessaire de dfinir les variables
Forward [28] (pour tout et ):
b | ^ ,E p

b | ^ ,,| ^ ,E p
On remarque alors que la relation de rcurrence suivante est vrifie pour tout
0 et ! .
7 ! ! ^ 7 ' ,!
De plus, on a b | . Lalgorithme Forward est alors donn par

lalgorithme 1.1. La complexit de cet algorithme est en .
53
Pour faire
" ^
Fin pour
Pour 0 Faire
Pour ! Faire
7 ! '! ^7
Fin Pour
Fin pour
b |
Algorithme IV.1 : Algorithme Forward
Cet algorithme permet de calculer la vraisemblance dune squence dobservations.

Cependant, dans la pratique, des problmes de prcision numrique apparaissent
limplmentation rendant lalgorithme Forward inutilisable. Une solution consiste oprer un
r-chelonnement des valeurs [28]. Pour cela, on dfinit deux ensembles de variables u et
( pour tout et ) par :
u

u !
! ' ,! . ! ^
On dfinit (pour tout ) le coefficient de normalisation 1de la somme des
. .
par 4 v

. On pose u avec .
On montre par rcursivit que
Or, par dfinition, on a

do :
b |

Lalgorithme Forward avec r-chelonnement (galement nomm rescaling) [28] est

donn par lalgorithme IV.2. Sa complexit est identique celle de lalgorithme Forward,
cest--dire , cependant lalgorithme ncessite plus doprations. De plus, la valeur
prise par b | est trs petite et est considre la plupart du temps comme tant nulle
dans les reprsentations en nombres rels sur les machines. Par consquent, on considre plus
facilement son logarithme, qui sobtient par :
54
@A b | @A 0 @A

Pour Faire
u " ^
Fin pour
4 v
Pour Faire
u
Fin Pour
Pour 0 Faire
Pour ! Faire
7 !
u
/ ' ! 1! ^ 7
Fin Pour
!4 v !
Pour ! Faire
7 !
7 !
u
Fin Pour
Fin pour
b |

Algorithme IV.2 :Algorithme Forward avec r-chelonnement
IV.3.2. Lalgorithme Backward
Bien que le problme du calcul de la vraisemblance soit rsolu, nous allons galement
prsenter lalgorithme Backward [36] qui permet aussi de calculer la vraisemblance et qui
surtout sera ncessaire dans les sections ultrieurs, notamment pour lapprentissage. Les
variables Backward sont dfinies par
(pour tout et 0 ):

b | 7 ^ 7 ,,| ^ E p
Pour tout et 0 , les relations suivante sont vrifies :
' ,! 7 ^7
b | " ^
Lalgorithme Backward, de mme complexit que lalgorithme Forward, est donn par
lalgorithme IV.3.
55
Pour Faire

Fin Pour
Pour 0 Faire
Pour Faire
! ' ! 7 ! ! ^ 7
Fin Pour
Fin Pour
b | " ^
Algorithme IV.3 :Algorithme Backward
Tout comme lalgorithme Forward, lalgorithme Backward souffre de problme de

prcision numrique. Par consquent, il est ncessaire dutiliser le r-chelonnement des

variables Backward. Pour cela, on dfinit lensemble de variables par ( pour tout
et 0 ):

! ' ,! ! ^ 7

7 !
On pourra remarquer que les coefficients O sont ceux calculs prcdemment pour
lalgorithme Forward avec r-chelonnement.
En dfinissant ` , il est possible de montrer les relations suivantes :
` b |
` 7 b |
Lalgorithme Backward avec r-chelonnement [28] est donn par lalgorithme IV.4. Sa
complexit est identique celle de lalgorithme Backward, cest--dire . On remarque
galement que le calcul de par cet algorithme offre peu dintrt, car il ncessite
de connaitre les coefficients de lalgorithme Forward avec r-chelonnement.
56
Pour Faire
Fin Pour
Pour 0 Faire
Pour Faire

!
' ,! 7 ! ! ^ 7
Algorithme IV.4 :Algorithme Backward avec r-chelonnement
IV.3.3. Probabilits dductibles
A partir des variables Forward et Backward, avec ou sans r-chelonnement, il nous est
dores et dj possible dexprimer deux probabilits utiles.
b | , E p

b |
b/| , E p ,E 7 p! 1 ' ,! ! ^ 7 7 !

' ,! ! ^ 7 7 !
b |
IV.3.4. Dcodage/segmentation de squences dobservations
Le dcodage ou la segmentation de squences dobservations consiste trouver la

squence dtats cachs qui a engendr une squence dobservations. Deux approches sont
possibles. La premire consiste rechercher, chaque instant, ltat qui a le plus
probablement engendr le symbole observ. La deuxime approche consiste trouver la
squence complte dtats cachs qui a le plus probablement engendr la squence
dobservations.
57
IV.3.4.1. Etats cachs les plus probables chaque instant
Dans cette approche, on cherche la squence ro so , , so k m vrifiant, pour tout

, lquation :
so N 8' b | , E p
Il est donc ncessaire, daprs la formule 1.1, de calculer en premier lieu les variables
Forward et Backward. Malgr sa formulation simple, le recherche de ltat cach le plus
probable chaque instant a une complexit en . De plus, la squence ro obtenue peut
tre inconsistante, dans le sens o b | , E ro . En effet, il est possible que la
transition entre deux tats p et p! existe dans la squence ro , alors que la probabilit ' ,! est
nulle.
IV.3.4.2. Algorithme de viterbi
La recherche de la squence dtats cachs ro qui le plus probablement engendr une

squence dobservations consiste rsoudre
ro N 8' rkm b | , E r
Lalgorithme permettant de rsoudre ce problme est lalgorithme de Viterbi [28].
On dfinit
8' /s ,,s 3 km 3 1 ib E s ,,E s ,E p ,| ^ ,,|
La probabilit du meilleur chemin partiel amenant ltat cach p au temps et le

meilleur chemin amenant ltat p au temps partir du temps 0 .
Lalgorithme de Viterbi est alors donn par lalgorithme 5. Sa complexit est .
58
Pour Faire
" ^
Fin Pour
Pour Faire
Pour ! Faire
! '_8' { { ' !
! 8' { { / ! 1' ! .! ! ^
Fin Pour
Fin Pour
so '_ 8' { { i j
b | , E ro 8' { { i j so
Pour 0 Faire
so 7 so7
Algorithme. IV.5 :Algorithme de Viterbi
Tout comme les algorithmes Forward et Backward, cet algorithme souffre de problmes
lis limplmentation. Pour les rsoudre, il est galement ncessaire de mettre en place une
stratgie de r-chelonnement. A cet effet, on dfinit

8' s ,,s 3 km 3 @A b E s ,,E s ,E p ,| ^ ,,|
^
Lalgorithme de Viterbi avec r-chelonnement [28] est alors donn par lalgorithme 6.
Sa complexit est , cependant, le calcul des logarithmes peut davrer plus couteux.

Pour Faire
; " *; ^
Fin Pour
Pour Faire
Pour ! Faire
! '_8' { { * ; ' !
!
8' { { * ; ' ! * ; ! ^

! * ; ' ! .! * ; ! ^

Fin Pour

Fin Pour
so '_8' { {
; b | , E r o
8' { { so

0 Faire
7 so7
Pour
so
Fin Pour
Algorithme IV.6 :Algorithme de Viterbi avec r-chelonnement
59
IV.4. Apprentissage des modles de Markov cachs
Apprendre un MMC cest ajuster les paramtres du modle de manire maximiser un

certain critre. Diffrents critre sont disponibles dans la littrature. Nous nallons pas tous les
recenser, mais nous allons prsenter les plus importants et les plus couramment utiliss.
IV.4.1 Apprentissage tiquet
Pour effectuer un apprentissage tiquet, galement connu dans la littrature comme

lapprentissage de Viterbi, on dispose de deux informations : la squence dobservations et
la squence dtats cachs r qui a engendr la squence prcdente. Le critre que lon
cherche maximiser est b | , E r . Pour le maximiser, il suffit de compter les
diffrentes transitions du systme. Habituellement, avec ce type dapprentissage, on ne
considre pas une seule squence dobservations la fois, mais plusieurs. Notons i , , j
les squences dobservations, ir , , r j les squences dtats associes et i ,, j
les
longueurs des squences. Dans ce cas, on utilise toujours le comptage des diffrentes
transitions du systme, mais en considrant toutes les squences simultanment de manire
indistincte. Lalgorithme dapprentissage tiquet est donn par lalgorithme IV.7.
Sa complexit est * J* en dsignant par , la longueur totale des squences

dobservations considres.
,
,! , ,!
,! J, . ,!
Pour Faire
Incrmenter s
Pour Faire
Incrmenter s , ^
Si Alors
Incrmenter .s , s 7
Fin Si
Fin Pour
Fin Pour
,"

,!
,! , ' ,! 4 ,
. ,!
,! J, !
J
. ,
Algorithme IV.7 : Apprentissage tiquet
60
Lorsque le nombre de squences dobservations ou de squences dtats cachs ou tout

simplement le nombre dapparitions dun ou plusieurs motifs est trop rduit, lapprentissage
est souvent peu efficace, car le modle narrive pas gnraliser ce quil doit reconnaitre. En
effet, de nombreuses probabilits sont trs petites, voire nulles. Un moyen de rsoudre ces
problmes consiste effectuer un lissage lors de lestimation des probabilits. En notant
0 le coefficient de lissage, lalgorithme est donn par lalgorithme IV.8.
Dans cet algorithme, le coefficient de lissage est identique pour toutes les probabilits,
mais rien nempche de le choisir diffrent pour chacune delles, afin dinclure des
connaissances expertes dans lapprentissage.
,
,! , ,!
,! J, . ,!
Pour Faire
Incrmenter s
Pour Faire
Incrmenter s , ^
Si Alors
Incrmenter .s , s 7
Fin Si
Fin Pour
*
Fin Pour
,"
*
* ,!
,! , ' ,!
* ,
* . ,!
,! J, !
J * J . ,
Algorithme IV.8 : Apprentissage tiquet avec lissage
IV.4.2 Maximisation de la vraisemblance
Le critre de maximum de vraisemblance consiste trouver le modle o maximisant la

probabilit b | [36]. En gnral, il nest pas possible de trouver ce modle optimal.
Nanmoins, pour tenter de rsoudre ce problme, il existe principalement deux mthodes :
utiliser lalgorithme Expectation-Maximisation, ou utiliser une descente de gradient.
61
IV.4.2.1. Introduction lalgorithme Expectation-Maximisation
Lalgorithme Expectation-Maximisation (EM) est une mthode gnrale doptimisation

en prsence dinformation incomplte. Lalgorithme permet, partir dun modle initial 8u ,
de trouver un modle 8 qui augmente la vraisemblance. Dans cette section, nous ne
dmontrerons pas lalgorithme EM. Nous nous contenterons juste dexposer les principes et
formules qui nous seront ncessaires par la suite. Le lecteur intress trouvera dans [40] un
expos plus complet de la mthodologie de lalgorithme Expectation-Maximisation.
Particulirement bien adapt des probabilits, lalgorithme EM repose sur deux

hypothses simples :
maximiser b J 8 est quivalent maximiser @A b J 8 ;
lintroduction de variables non observes ou caches dfinies sur dans lexpression

de la vraisemblance permet deffectuer les calculs plus facilement.
Dans le cas de variables alatoires discrtes, on dfinit 8, 8u , [39] par :
8, 8u k b ,J 8u @A b , J 8
-k @A b , J 8 ,J 8u
Avec lesprance mathmatique de sur lensemble .
Lalgorithme EM [40] consiste donc construire, partir dun modle initial 8 , une
suite de modles 8 P vrifiant
8 7 ,8 8 ,8
Une condition suffisante est alors de rechercher le modle -7 qui maximise la fonction
8 7 , 8 . La suite 8 P vrifie, pour tout 1 et 8 7 8 , la relation
b J 8 7 J 8
Lun des plus clbres applications de lalgorithme EM est lalgorithme Baum-Welch

permettant lapprentissage des MMC .
62
IV.4.2.2. Lalgorithme de Baum-Welch
Dans le cas des MMC, on cherche maximiser b | o dsigne une squence

de observations. En appliquant lalgorithme EM la maximisation de cette probabilit. On
est amen maximiser , u , avec 5, , w le nouveau modle et u le modle connu
(ou actuel) :
^ , u rkm b E r| , u @A b | , E r
En effectuant les diffrents calculs, on obtient :
" b E p , u
43 b/E p ,E p! | ,v 1
' ,! 43 b E p | ,v
4 b/E p | ,v 1 ^ !
! 4 b E p | ,v
Les formules de r-estimation obtenues ci-dessus peuvent sinterprter de la faon

suivante
" KNLS@SZ u YZNY AR @u ZZ RS @u SARZAZ Z
ALNY Y ZNARSZSLAR Y @v ZZ RS @v SARZAZ Z

' ,! ALNY Y LSR L @v LA MSZZY @v ZZ RS
ALNY v KKNSZSLA RSM@ZAYR Y @v ZZ R YZ M RL@Y

!
ALNY v KKNSZSLAR Y @v ZZ R
On peut alors remarquer que le principe reste similaire celui de lapprentissage tiquet
du paragraphe IV.4.1, la diffrence que ltiquetage seffectue en probabilit avant r-
estimation.
Lalgorithme de Baum-Welch [23] est donn par lalgorithme 9. Sa complexit est

* J .
Dune manire nave, les probabilits utilises pour la r-estimation des matrices peuvent
tre obtenues par les algorithmes Forward et Backward. Cependant, toujours pour des
problmes dimplmentation numriques, on utilise plutt leurs versions utilisant les
algorithmes avec r-chelonnement.
63
Choisir un model initial
Rpter
*
Calculer les variables Forward et Backward pour
le model
Calculer w
Calculer 5
Calculer
Tant que /b | | 1
8'
Algorithme IV.9 : Algorithme de Baum-Welch
IV.4.2.3. Descente de gradient
La deuxime mthode permettant doptimiser la vraisemblance consiste

utiliser la descente de gradient. Lutilisation de la descente de gradient avec des MMC pose
un problme de taille, les contraintes de stochasticit doivent tre respectes par les
paramtres du modle.
A. Changement de lespace de reprsentation
Une solution simple consiste re-paramtrer les MMC avec des variables prenant leurs
valeurs dans lespace rel laide des quations suivantes :
YK
~ ,! ~ , ' ,!
,!
4 YK ,
YK ,!
~ ~ , ~ ! ~ J, ! J4 YK ,
YK ,
~ ~ , " 4 YK ,
Si lon suppose que les coefficients des matrices stochastiques sont strictement positifs,
alors il existe au moins une solution ces quations. Un MMC est alors parfaitement dfini
par les trois matrices stochastiques 5, , w ou les trois matrices relles , , , .
Dans le cas o tous les coefficients ne sont pas strictement positifs, il est toujours
possible de fixer le coefficient nul une valeur trs petite, mais non nulle, de manire ne pas
trop dformer le modle.
64
Il est intressant de noter que les paramtres ,! , ,! et . ne sont pas uniques. En effet,
lajout dune constante commune chaque bloc de variables stochastique donne des valeurs
vrifiant galement les quations. Pour passer des coefficients ' ,! , ! et " aux coefficients
,! , ,! et . , il suffit alors dutiliser les formules suivantes :
,! @A ' ,!
,! @A !
. @A "
Lutilisation de ce paramtrage pour le calcul des drives partielles pose cependant

problme lorsque lune des probabilits du modle est nulle. Une solution couramment
utilise est dimposer que les coefficients soient non nuls. Une autre solution consiste dfinir
loprateur LN en imposant une valeur 0 proche de zro et une valeur 2| ngative et
grande en valeur absolue, telle que
2| RS ~

@A RSALA
En remplaant loprateur @A dans les quations du paragraphe A, il est possible de ne pas

imposer de contraintes de stricte positivit aux coefficients du modle. Cependant, il faut
avoir lesprit que cette transformation nest pas rversible.
B. Calcul du gradient
Soit @A b | . Maximiser la vraisemblance b | est quivalent

maximiser le logarithme de la vraisemblance . Calculons le gradient de par rapport
aux paramtres de au point c.
b |
c c
b | c
Maximiser ncessite donc de calculer les drives partielles de b | par

rapport aux diffrents paramtres du modle.
b |
' ,! ! ^ ! 0 ' ,!
,!
65
b |
^ ! 0 !
,!
b |
" ^ 0" b |
.
3
b |
! 0 ' ,!
' ,! ! ^
3

b | ,! 3
b |

^ ! !

b | ,!
b |

" ^ 0"
b | .
A partir de ce gradient, il est possible dutiliser nimporte quelle descente de gradient

telles que celles dcrites dans o
Cependant, il faut garder lesprit que ce calcul est couteux en temps machine. Sa
complexit est * J .
On notera que, lalgorithme de Baum-Welch ou la descente de gradient, les deux

mthodes ncessitent un modle initial amliorer. Ces approches simples possdent un gros
inconvnient : elles sont sensibles au point de dpart et elles convergent vers des optima
locaux de la vraisemblance. Il existe de nombreuses variantes de lalgorithme EM construites
pour pallier certains de ces inconvnients.
Stochastic Expectation Maximisation
Lalgorithme SEM (Stochastic Expectation Maximisation) [42] peut galement tre

utilis pour effectuer lapprentissage de MMC. Lalgorithme SEM est une variante
stochastique de lalgorithme EM, beaucoup moins sensible au point de dpart. partir dun
modle initial , il consiste engendrer en probabilit, selon la loi de , une squence
dtats cachs ayant engendr la squence dobservations. partir de cette squence dtats
cachs, un apprentissage tiquet est raliser afin dobtenir un nouveau modle . La
procdure est ritre plusieurs fois.
Cette mthode possde deux avantages importantes par rapport lalgorithme EM : la

convergence est rapide et lalgorithme SEM est peu sensible au modle initial. Cependant, la
mthode possde galement deux gros dsavantages : elle est moins efficace que lalgorithme
66
EM (Baum-Welch) en prsence de squences dobservations trop courtes et la suite des

modles obtenus ne converge pas ponctuellement on na pas b | ~b |
7 mais uniquement globalement .
Le lecteur pourra remarquer que cet algorithme est proche de lalgorithme de segmental
k-means de la section 9: seul le mode de gnration de la squence dtats cachs change.
Estimation Conditionnelle Itrative : ICE
Lalgorithme dEstimation Conditionnelle Itrative (Iterative Conditional Estimation-

ICE) est une mthode doptimisation en prsence de donnes caches propose dans [47]. Le
principe de ICE consiste utiliser un estimateur des paramtres du modle calcul partir
des informations compltes, cest--dire partir de la squence dobservations et dune
squence dtats cachs. Il a t montr que la meilleure approximation du modle au sens de
lerreur quadratique moyenne est lesprance conditionnelle. Ainsi, dans des cas particulier
des MMC, lalgorithme ICE permet daboutir aux mmes formules de r-estimation que
lalgorithme de Baum-Welch
Les autres variantes
Dautres variantes de lalgorithme EM sont disponibles dans la littrature. Il est possible

de citer lalgorithme de SAEM [43], qui est un intermdiaire entre EM et SEM, ou MCEM
[44], qui utilise de manire intense la gnration de squences dtats et les mthodes de
Monte-Carlo.
IV.5. Critre du maximum a posteriori (MAP)
Le critre de maximum a posteriori MAP trouve son intrt dans la thorie de la dcision
baysienne. Jusqu' maintenant, nous avons considr des critres doptimisation des modles
utilisant la rgle de dcision suivante :
Si b | alors a t le plus probablement mise par le modle

.
Bien que la notion de plus probablement mise soit couramment utilise afin de dire
appartient , cest--dire, pour notre exemple, que la squence dobservation appartient
la classe modlise par , rien ne garantit que ce choix soit optimal.
67
Un moyen de garantir un choix optimal, au moins en thorie, est dutiliser la thorie de la

dcision baysienne [45]. Le critre de dcision utilis est alors
b | | , alors appartient la classe
Ce critre pose problme, car nous ne savons pas comment exprimer ces probabilits.
Cependant, en transformant ces probabilits, on obtient :
b | b
b |
b |
O b | est la probabilit a posteriori du modle connaissant la

squence dobservations , b est la probabilit a priori, dapparition du modle et
b | est la probabilit a priori dapparition de la squence dobservations .
Le critre MAP possde un avantage certain sur le critre de maximum de

vraisemblance :
Les probabilits a priori permettent de modliser le dsquilibre ventuel dans

lapparition des squences dobservations.
La premire remarque que lon peut faire est que les probabilits b | peuvent tre
ignores car, dans la rgle de dcision baysienne, elles peuvent tre simplifies.
Lapprentissage des modles avec le critre MAP dpend trs fortement des objectifs
viss.
Lorsque les modles sont appris sparment lobjectif est alors de maximiser la
probabilit b | , cest--dire, aprs simplification, maximiser b | b .
Si la probabilit b sexprime indpendamment des valeurs prises par les matrices
stochastiques qui le dfinissent, alors les deux probabilits peuvent tre apprises sparment.
Pour la probabilit b | , il suffit dutiliser le critre de maximum de vraisemblance et
pour la probabilit b on utilise gnralement une estimation statistique de lapparition de
ce modle.
Dans le cas o lexpression de b dpend des valeurs prises par les paramtres du
modle, il nest pas possible dutiliser le critre de maximum de vraisemblance.
Une solution consiste alors utiliser une descente de gradient afin de maximiser le critre
@A b | * @A b condition que b soit diffrentiable. Lorsque le critre devient
68
plus complexe, ou lorsquil utilise plusieurs modles ou squences dobservations en

simultan, la mme dmarche peut tre utilise : sil est possible doptimiser sparment les
deux types de probabilits, il faut les traiter sparment. Dans le cas o cela nest pas
possible, le moyen le plus courant deffectuer lapprentissage consiste utiliser la descente de
gradient. Pour certains critres, il nest pas possible dliminer les probabilits b | , il
est alors ncessaire de les modliser et de les inclure dans la descente de gradient.
IV.6. Maximisation de linformation mutuelle
Lun des buts principaux de lapprentissage de MMC est deffectuer une classification.
En effet, on cherche souvent, partir dune observation , dcider de manire automatique
quelle autre observation elle ressemble le plus et surtout dcider quelle classe de
squences dobservations elle appartient rellement.
Exemple illustratif On considre un systme didentification biomtrique bas sur la

photographie du visage. Initialement, le systme possde au moins une photographie
de chaque personne reconnaitre. Chaque photographie est modlise par un MMC
aprs quelle ait t transforme par un procd quelconque en squence
dobservations. Si une personne se prsente devant la camra, le systme va prendre
une photographie, la transformer en squence et comparer les diffrentes
vraisemblances avec les MMC appris. Le MMC qui permet dobtenir la meilleure
vraisemblance permet alors de dire que la personne est celle qui correspond la
photographie du MMC. En thorie, cette mthode fonctionne mais, en pratique, ce
nest pas toujours le cas. Si lensemble des photographies concerne des photographies
de visages de personnes de mme couleur de peau et de mme couleur de cheveux,
alors il ya de grande chances pour que les modles reconnaissent bien lensemble des
visages, car la modlisation des visages sera quasi identique. Une solution consiste
effectuer lapprentissage des MMC avec un autre critre que la vraisemblance. Le
critre de prdilection pour cette tache est la maximisation de linformation mutuelle
MIM, Plusieurs variantes de la maximisation de linformation mutuelle existent : elles
sont prsentes ci-dessous.
IV.6.1. Maximisation de linformation mutuelle de la vraisemblance
La premire forme du critre de MIM sattache diffrentier les modles par leurs
vraisemblances. A cet effet, on cherche maximiser la vraisemblance de la squence
69
dobservations apprendre mais galement minimiser la vraisemblance des squences

dobservations ne pas reconnaitre ,,
. Lavantage de ce critre est quil laisse le
MMC modliser ce qui est caractristique, tout en acceptant de moins bien modliser ce qui
ne lest pas.
Ce critre peut prendre plusieurs formes. La forme prsente ci-aprs est celle dcrite
dans [28]. Cette forme est intressante, car elle permet de grer facilement les problmes de
prcision numrique.
b |
88 4 b |
Comme nous pouvons le voir, maximiser cette expression entraine la maximisation de la

vraisemblance b | et la minimisation des vraisemblances b | .
On remarque alors que maximiser 8 8 est quivalent maximiser son logarithme

nprien. On dfinit alors
@A 8 8 @A b | 0 @A b |
Pour optimiser ce critre, il est alors possible dutiliser une descente de gradient, Il est
donc ncessaire de calculer le gradient de . Ce dernier est donn par lquation suivante :
b | b |
0
b | b |
Or ce gradient nest autre quune combinaison linaire des gradients calculs la section

6. Pour cela, on note
, , les variables Forward et Backward avec r-
chelonnement et les coefficients de r-chelonnement calculs pour la squence

dobservation . On note
, , et les variables Forward et Backward avec r-
chelonnement . Alors, en reprenant les quations de la section prcdente, on obtient
3

! 0 ' ,!
' ,! ! ^
3

,! 3
3
0
' ,! ! / ! 0 ' ,!
1
3

3

^ ! !

,!
70

/ !1 !
0
Et

" ^ 0"
.
0 "/
1 0"
Il suffit alors dutiliser la technique de la descente de gradient.
IV.6.2. Maximisation de linformation mutuelle du MAP
Le critre de maximisation de linformation mutuelle pour le critre de dcision MAP

dcrit dans [47] conduit la minimisation du critre , avec lensemble des MMC
i , , j reprsentant les classes et lensemble des squences dobservations
apprendre. On dfinit k . . le numro de la classe associe la squence
dobservations . Le critre est :
, 2 0
Avec
2 0 k b @A b
Et
b | ! ,
k ! k b | ! , @A
b b | !
Si lon considre que les probabilits b | sont constantes et que les probabilits
b | ! sont nulles, sauf quand ! , alors minimiser , est quivalent
maximiser [47] :

b/| ! ! 1b
k ! k
k b/| ! 1b
Avec ! k /! 1 .
La maximisation de peut alors tre ralise grce une descente de gradient ou

grce lalgorithme de Baum-Welch.
71
IV.7. Le critre de segmental k-means
Parmi lensemble des critres utiliss pour lapprentissage de MMC, le critre de

segmental k-means se dtache des autres. En effet, pour ce critre, on cherche optimiser la
probabilit b | , E ro avec ro la squence dtats cachs qui a le plus
probablement engendr la squence telle que calcule par lalgorithme de Viterbi. Une des
grandes difficults de ce critre est quil nest ni drivable, ni mme continu. Par consquent,
les mthodes sappuyant sur lalgorithme EM ou les descentes de gradient ne sont pas
utilisables. Cependant, il existe quand mme un moyen dajuster les paramtres dun modle
de manire maximiser cette probabilit. Cet algorithme appel segmental k-means repose
sur deux algorithmes dcrits prcdemment : lalgorithme de viterbi et lapprentissage
tiquet.
Son principe est simple :
partir dun modle initial et de la squence dobservations , on recherche la squence

dtats cachs qui a le plus probablement t suivie pour gnrer laide de lalgorithme de
Viterbi. Cette recherche permet dtiqueter la squence et par consquent de la segmenter ;
Une fois tiquete, la squence est alors apprise par comptage des transitions effectives
entre les tats et les missions de symboles. Cette tape peut alors tre considre comme un
k-means consistant r-estimer les centres des classes ;
Le nouveau modle est alors utilis comme modle initial et les deux oprations
prcdentes sont rptes tant que ncessaire.
Il a pu tre montr [46] que lalgorithme de segmental k-means algorithme III.10

permettait daugmenter la probabilit b | , E ro de manire itrative et quil
convergeait vers un maximum local du critre considr. Lorsque lon utilise ce critre, il faut
faire attention sa formulation. Laugmentation itrative de la probabilit consiste trouver
un modle 7 partir dun modle tel que
b | , E ro , ro 7 7
Et non pas tel que b | , E ro , ro 7 avec ro la

squence de Viterbi obtenue avec le modle et 7
o
la squence de Viterbi obtenue avec le
modle 7 . En effet, la squence de Viterbi change lorsque le modle est modifi.
72
Choisir un MMC initial
Rpter
*
ro
| ,
Estimer partir de ro
Tant que b | , E ro ,
ro
Algorithme IV.10 : Algorithme de segmental k-means
Lalgorithme de segmental k-means peut galement tre utilis avec plusieurs squences
dobservations. Pour cela, il suffit de considrer le critre dapprentissage
b | r ,E r o

Lalgorithme consiste alors appliquer lalgorithme de Viterbi chacune des squences

dobservations et utiliser lapprentissage tiquet de toutes ces squences simultanment,
comme dcrit prcdemment.
Cet algorithme est parfois utilis en raison de sa rapidit en lieu et place de lalgorithme
de Baum-Welch, en considrant lhypothse suivante : les probabilits compltes b |
, E r sont nulles ou ngligeables pour toutes les squences dtats, lexception de
celle de la squence ro de Viterbi associe. Par consquent, maximiser, b | est
quivalent maximiser b | , E ro . Bien quil soit possible de trouver des modles
pathologiques contredisant cette hypothse, dans la pratique, lhypothse est souvent
confirme.
IV.8. Minimisation du taux derreur de classification
Ce critre a pour objectif de minimiser le taux derreur de classification avec une dcision
soumise au critre MAP. Pour le dcrire brivement, on considre un ensemble
i , j de squences dobservations ainsi que le numro de la classe qui leur sont
associs. Soit i , , j les classes apprendre et i , , j les MMC associs.
IV.8.1. Premire approche
Dans cette premire approche, on a abouti au critre suivant, aprs plusieurs

transformations et approximations :
73
b | 8 b 8
0 8 k, 8 b | b
;4 ; ;
Si lon suppose que les classes apparaissent avec la mme probabilit . . b

pour tout , alors minimiser revient maximiser avec
b | 8
8 k, 8 b |
;4 ;
Il suffit alors dutiliser une descente de gradient sur lensemble des paramtres
i , , j pour maximiser et donc minimiser .
Pour que lapproximation effectue soit valable, il est ncessaire que les modles initiaux
utiliss par la descente de gradient aient t obtenus par la maximisation de k b |
par un des algorithmes de maximisation de la vraisemblance dcrit
prcdemment.
Bien que ce critre semble intressant, il nobtient pas toujours de bons rsultats. En effet,
minimiser ne garantit aucunement que ce taux sera faible sur un ensemble dobservations
autre que celui utilis pour lapprentissage.
IV.8.2. Deuxime approche
Dautres dfinissent le critre de minimisation des erreurs de classification (minimum

classification error MCE) sous la forme
b | !
k 8' ! k ! @A b |
|-| / 1
p .
.
p ^
Avec
Ce critre nest pas drivable, ni mme continu. Pour lapprocher sous forme continue, il
suffit dutiliser une sigmode * .
la place de . et loprateur softmax @A .
la place de 8' . . Le critre peut alors tre approch [47] par :
|-|
k
7YK @A b | / 1 @A ! k b | !
Le critre peut alors etre minimis laide dune descente de gradient.
74
Dans la litratures, On trouve dautre formes de critres de minimisation des erreurs de

classification que Les deux forme de prsentes ci-dessus.
IV.9. Remarques gnrales sur les critres dapprentissage
Comme nous venons de le voir, de nombreux critres peuvent tre considrs pour
lapprentissage de modles de Markov cachs. Les critres que nous avons dcrits dans ce
chapitre ne sont pas les seuls envisageables, mais ce sont les plus couramment utiliss. De
plus, la dmonstration des algorithmes dapprentissage fournit la majorit des outils
ncessaires la conception des algorithmes dapprentissage pour tous les critres
envisageables.
Tous les algorithmes dapprentissage de ce chapitre nont pas la mme complexit. Pour
faciliter le choix la fois du critre et de lalgorithme de rsolution, nous avons construit le
tableau suivant.
TAB. IV.1 complexit associe aux algorithmes en fonction des critres optimiss
i, , , j est lensemble des squences dobservations de longueurs

i , ,, j.
est le nombre dtats cachs du MMC. J est le nombre de symbole du MMC.
75
Il est intressant de remarquer que lalgorithme de segmental k-means peut tre beaucoup
plus rapide que lalgorithme de Baum-Welch. En effet, il est trs courant que le nombre de
symbole J soit beaucoup plus grand que le nombre des tats cachs. Dans ces conditions,
lorsque la longueur de la squence dobservations augmente, le terme dominant dans la
complexit de lalgorithme de Baum-Welch est J tandis que pour lalgorithme de
segmental k-means, ce terme dominant est . Par consquent, pour J }, lalgorithme
de segmental k-means est plus rapide que lalgorithme de Baum-Welch lorsque la longueur de
la squence dobservations augmente.
Lalgorithme de segmental k-means est donc parfois utilis en lieu et place de

lalgorithme de Baum-Welch, car plusieurs auteurs ont remarqu que la probabilit b |
, E ro est leve par rapport aux autres chemins dtats et quune grande majorit des
chemins ont une probabilit trs faible, voire nulle. Par consquent, certains travaux mettent
lhypothse que b | b | , E ro .
Un autre point important est que la complexit du calcul du gradient est du mme ordre
que celle de lalgorithme de Baum-Welch. Cette proprit est intressante car elle signifie, a
priori, quil nest pas forcment beaucoup plus couteux dutiliser des critres tels que la
maximisation de linformation mutuelle ou le critre MAP simple. En effet, on remarque que
la complexit de loptimisation de ces critres est linaire en fonction de la longueur totale des
squences dobservations impliques. Cependant, la descente de gradient peut ncessiter
deffectuer ce calcul plusieurs fois avant damliorer un modle et par consquent lapproche
par descente de gradient est considre comme tant relativement couteuse.
Conclusion
Nous avons prsents dans ce chapitre, les algorithmes pour la reconnaissance et

dapprentissage, et les critres de discrimination permettant, partir dun Modle MC initial,
de trouver un nouveau Modle MC augmentant le critre slectif pour reconnaissance de la
parole.
Dans la plupart des systmes de reconnaissances MMC actuelles, le but de lentrainement

acoustique est de trouver lensemble des paramtres acoustiques du MMC maximisant, sur
lensemble des phrases dentrainements, la vraisemblance des donnes tant donne les
modles corrects associes (supposs connues pendant lentrainement).
76
Le chapitre suivant, sera consacr dcrire notre mise en uvre. La mise en pratique de
notre tude sur la parole. Nous allons procder limplmentation informatique des modles
de markov cachs pour la reconnaissance automatique de la parole (RAP). La premire sous
matlab et la second sous la plate forme HTK, lune des plus utilise actuellement dans le
domaine de la RAP.
77
CHAPITRE V :
IMPLEMENTATION DE LA
RECONNAISSANCE
AUTOMATIQUE PAR MMC
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
Introduction
Nous allons, dans cette dernire partie, mettre en application le traitement

automatique de la parole pour la reconnaissance base de MMC. Pour cela, nous
commencerons par dcrire la structure gnrale dans un systme de reconnaissance de la
parole et les diffrents blocs intervenant dans cette opration. Par la suite, nous effectuons
deux application, et les rsultats obtenues. Ce qui distingue ces deux application est que la
premire est effectue sous matlab et la seconde sous la plate forme HTK [annaxe A]. Dans le
premier cas lapproche utilise est purement acoustique alors que dans le second (systme
triphone) avec dpendance contextuelle.
V.1. Objectif du travail :
Dans ce travail nous avons dvelopp deux systmes, le premier sous Matlab et le second
sous HTK et o lobjectif est la reconnaissance automatique de la parole qui seffectuera sous
la base de donnes parole TIdigit constitue dun ensemble dapprentissage et dun ensemble
de test. La base TIdigit [49] pour Texas Instruments digits est parmi les premires bases de
donnes de parole destines des applications de traitement de la parole. Conu initialement
des fins dvaluation des algorithmes de reconnaissance de la parole indpendante du
locuteur, elle contient 77 squences de digits connects prononcs par 326 locuteurs dont 114
femmes, 111 hommes, 51 filles et 50 garons.
Lobjectif que nous nous sommes fix consiste reconnaitre les chiffre un onze
prononc par les diffrents locuteurs de la base de donnes. Par ailleurs, nous effectuons une
comparaison des taux de reconnaissance entre le systme conu sous matlab (approche
acoustique) et le systme conu sous HTK avec dpendance contextuelle.
V.2. Structure gnrale dun Reconnaissance Automatique de la parole continue
Un systme de RAP continue est un systme destin reconnaitre des phrase plus au
moins longue avec ses hsitation et ses liaisonsetc. Etant donn la complexit du problme,
le formalisme de reconnaissance de la parole ncessite une dcomposition en plusieurs
oprations lmentaire qui sont les suivantes:
78
Un module de traitement du signal et danalyse acoustique (feature extraction)

transformant le signal de parole en une squence de vecteurs acoustiques (dtaill
au chap. II).
Un gnrateur dhypothses locales qui affectera une tiquette ou des hypothses
locales correspondant chaque segment lmentaire de parole (associ un ou
plusieurs vecteurs acoustique). Ce gnrateur dhypothses locales portera,
gnralement, sur des modles dunits lmentaires de parole (typiquement des
mots ou des phonmes). Cette opration ncessite un entrainement sur une grande
quantit dexemples (enregistrement de nombreuses phrases) contenant plusieurs
fois les diffrentes units de parole dans des contexte varis.
Un module dalignement temporel (pattern matching) transformant les hypothses
locales en un score global sur la phrase prononce. Ceci pourra tre ralis par
lalgorithme de Dformation Temporelle Dynamique(DTW) ,Modles de Markov
Cachs (MMC).
Un module syntaxique interagissant avec le module dalignement temporel et qui
forcera le reconnaisseur intgrer les contraintes syntaxiques et ventuellement
smantiques et pragmatiques.
Le schma synoptique dun tel systme est reprsent ci-dessous.
Modles des Dictionnaire

sous units en termes de
lexicales sous units Smantique
Grammaire
Phrase
Parole reconnue
Analyse Classification Dcodage Analyse Analyse

Acoustique Locale lexical Syntaxique Smantique
Fig. V.1-Schma gnral dun systme de R.A.P.
79
V.3. Structure dun Systme de Reconnaissance Automatique de la parole continue

par MMC
Le schma prcdant est une sructure gnrale qui ne tient pas compte de loutil de
traitement utilis en loccurrence les MMC. Dans le cas dun systme de reconnaissance par
MMC, le schma gnrale se prsente comme suit :
Architecture gnrale
Fig. V.2-Schma Gnrale de la R. A. P. par MMC.
Sous une vue plus dtaill, on retrouve les diffrents blocs qui se prsente dans le schma
suivant.
Parole
Phrase
reconnue
Classification Classification
MFCC Niveau Mots Niveau phrases
Composition modles de mots
Modles sous Grammaire Smantique

unit mots Lexique
Fig. V.3-Schma bloc dtaill de la R. A. P. par MMC .
80
Dans ce schma, les blocs (grammaire, smantique) font partie du modle de language,
par contre le cylindre (Modles sous unit mots) fait rfrence au modle acoustique, quand
aux blocs de classification font partie des algorithme dentrainement et de reconnaissance.
V.4. Premire Application : Dveloppement dun Systme de Reconnaissance de la

parole par MMC sous Matlab.
V.4.1.Organigramme gnrale
Notre application est prvu pour la base TIdigit [49], qui est une base de donnes paroles
constitue des chiffres un onze en anglais et prononce par plusieurs locuteurs, pour cela,
nous avons prvu onze modle , un pour chaque chiffre qui seront entrains avec
les donne dapprentissage dont le but de la reconnaissance.
HMM pour le mot numro 1
Sequences
P(O )
Calcul des
dObservation Probabilits
(O)

u -6 ] \
Extraction HMM pour le mot
1~ ~
des numro 2
paramtres
P(O )
acoustiques
pertinents Calcul des
Probabilits
MFCC
y
Slection du
y
Maximum
y y
y
Signal
de
parole HMM pour le mot
numro 11
Calcul des P(O )

Probabilits
Fig. V.4 Schma bloc dun systme de reconnaissance de parole isols
81
Lentrainement seffectuera avec lalgorithme de Baum welch dtaill en chapitre 4 et

schmatis la figure V.7. La reconnaissance quand elle se fera avec lalgorithme de viterbi
dtaill en chapitre 4.
V.4.2.Extraction des paramtres MFCC
La premire tape de traitement des donnes parole et ltape dextraction des paramtres
acoustique, qui dans notre cas est la Mel frquency cepstral cofficient (dtaille en annexe
B). Le choix sest port sur les 13 premiers coefficients MFCC except le coefficient OP qui
est substitu par le logarithme de lnergie du signal. Pour chaque coefficient, on attribue une
drive premire (13 drives premires au total) ainsi quune drive seconde (13 drives
secondes) pour prendre en compte la dynamique du signal. En somme, on obtient un vecteur
acoustique de 39 coefficients correspondant chaque trame du signal
Organigramme
Premphasis DFT Mel-filter

Bank
Signal de
parole
Window
Log(P)
energy
Drivs
IDFT
Fig. V.5 Schma bloc de la paramtrisation MFCC
V.4.3. Le modle HMM
Chacun des onze modles MMC choisi est un modle gauche droite Cinque tats
parfaitement adapt et le plus utilis du fait quil tient compte du caractre squentiel de la
parole. Chaque tat met des observations modlises avec une simple gaussienne dans notre
application.
82
Fig. V.6 Modle MMC
V.4.4. Lentrainement du modle MMC
Lorganigramme dapprentissage (Baum welch) des modles avec les donnes parole
dentrainement de la base Tidigit peut tre schmatis comme suit. le critre discriminatoire
est le critre du Maximum de vraisemblance (chapitre IV).
Model
Dinitialisation
Non
Segmentation
squence dtats
Convergence
Estimation des paramtres

de via le critre du M V. Oui
Donnes
dapprentissage
Paramtre
Model Du Model
Restimation
Fig. V.7 Schma dapprentissage de Baum-Welch
83
V.4.5 Tests et Rsultats
Dans ce tableau nous prsentons diffrent test qui sont fait en variant le nombre dtats du
modle MMC choisit puis en variant le nombre de donnes parole dapprentissage. Les
rsultats obtenus sont rsums dans le tableau suivant :
Nbre dtats Base dapprentissege Base de test Rsultats

4 2090 mots (100%) 2484(100%) 91,83%
4 (50%) (100%) 88,66%
5 (100%) (100%) 93,04%
5 (50%) (100%) 88,46%
6 (100%) (100%) 93,97%
6 (50%) (100%) 92,36%
A partir de ces rsultats on comprend le rle primordial du processus dapprentissage

dans la reconnaissance automatique de la parole (plus la base est importante plus le taux de
reconnaissance est meilleur) ce qui met en vidence lintrt et limportance de la base des
donnes parole.
V.5 Deuxime Application : Dveloppement dun systme de Reconnaissance de la

Parole sous HTK
Nous avons dvelopp, dans le cadre de ce mmoire, deux systmes, indpendants du

locuteur et fonds sur les modles de Markov cachs partir de la plateforme HTK (Hidden
Markov ToolKit) de lUniversit de Cambridge [50] et sur la base de donnes de parole
TIdigits [49]. La bote outils HTK est efficace, flexible (libert du choix des options et
possibilit dajout dautres modules) et complte dans le sens o elle fournit une
documentation trs dtaille, le livre HTK [48], est une encyclopdie dans le domaine de
reconnaissance de la parole.
Le premier systme est un systme monophone, le deuxime un systme triphone. Le

systme monophone linverse du systme triphone, ces units phontiques (phonme) sont
indpendantes, alors quelles sont dpendante dans le systme triphone. Lintrt est
dtudier limpact de la nature de lunit phontique sur les performances de la
reconnaissance de la parole.
84
Nous utiliserons la mme base de donne TIdigit et essaierons de reconnaitre les chiffres
un onze de cette base, puis nous comparerons les taux de reconnaissance ceux obtenue par
la premire mthode sous matlab.
V.5.1 Systme Monophone
Afin de concevoir notre systme, on se base sur des units acoustiques de type
monophone indpandante. On commence par dfinir les ressources ncessaires dont on a
besoin par la suite. On dfinit, alors, le modle de langage, appel aussi lexique ou grammaire
(TAB.V.2), qui dcrit lenchainement des mots. Ensuite, on construit le rseau de mots
(wdnet) et le dictionnaire (TAB. V.1) respectivement, grce aux outils HTK HParse et
HDMan .
Pour la base de donnes TIdigits, qui est une base de chiffres en anglais, le vocabulaire
est assez limit, do la simplicit de dfinir le dictionnaire et la grammaire (TAB V.1 et TAB
V.2).
f ; k ; n ; r ;s ;t ;v ;w ;z ;sil ;ah ;ao ;ax ;ay ;eh ;ey ;ih ;iy ;ow ;th ;uw
TAB. V.1-Dictionnaire de la base Tidigits
TAB. V.2-Grammaire de la base Tidigits
Soit un total de 21 phonmes, une fois quon a dfini le dictionnaire, la grammaire et la

liste des phonmes, on passe la description des modles de Markov cachs. On construit un
modle MMC pour chaque unit acoustique. La topologie MMC choisie est de type gauche-
droit 5 tats dont les transitions autorises sont dcrites dans la figure (Fig.V.8) et initialises
dans la matrice de transition. La moyenne est initialise 0 et la variance 1 (voir fichier
85
prototype dinitialisation (TAB.V.5)). Ces paramtres du modle MMC seront restimes par la
suite lors de la phase dapprentissage.
Fig.V.8 Modle de Markov Cachs utilis.

s , s\ s p^ 8 cp ';^p sc ;u ' '; s '; sX _ )'p ^p B' ^ p
Le fichier de configuration (TAB. V.3) config permet de dfinir les paramtres

indispensables pour la phase de lanalyse acoustique. Ces coefficients sont extraits des
fichiers wav et sur des fentres de 25ms grce loutil HCopy en se servant du fichier de
configuration comme paramtre dentre .
TAB. V.3-Fichier de configuration pour la phase de lanalyse acoustique
TAB.V.4-Fichier prototype dinitialisation
86
LApprentissage : La phase dapprentissage permet de constituer la base de donnes

des modles de rfrence du systme. La qualit de cette modlisation conditionne en grande
partie les rsultats du systme de reconnaissance de la parole. Lapprentissage est ralis sous
HTK en deux tapes majeures : linitialisation et la r-estimation. Pour cela, On utilise deux
outils: HCompV et HERest. La phase dinitialisation des modles MMC par loutil
HCompV, permet de mettre jour la moyenne et la variance qui valent, avant cette tape,
respectivement, 0 et 1. Cette mise jour est ralise sur lensemble des donnes du corpus
dapprentissage permettant daboutir, la fin, des valeurs globales qui seront clones pour
chaque tat des modles MMC.
Ensuite, on obtient dans le rpertoire hmm0 un nouveau fichier prototype

contenant des valeurs globales de la moyenne et de la variance. On copie le contenu de ce
fichier autant de fois quon a de phonmes et on stocke le rsultat du clonage dans un fichier
macro nomm modles.mmf. Tous les phonmes seront ainsi initialiss aux mmes valeurs
de moyenne et de variance. A noter galement que la mise jour des variances est effectue
par dfaut avec la commande HCompV, tandis que pour r estimer la moyenne, loption -m
devient indispensable.
Le raffinement des modles MMC consiste r estimer leurs paramtres (moyenne et

variance) suivant lalgorithme de Baum Welch (chapitre IV) grce loutil HERest (la r
estimation des modles MMC contenu dans le rpertoire hmmi est sauvegarde dans le
rpertoire hmm i +1 chaque itration i).
Ensuite, on gnr un autre fichier modeles0 dans un autre rpertoire. Les modles
contenus dans ce fichier seront r estims suite deux itrations de lalgorithme de Baum
Welch reprsent par loutil HERest. Les derniers paramtres estims, ce stade, sont
sauvegards dans le rpertoire hmm7.
Deux itrations de lalgorithme de Baum Welch permettent de r estimer les modles.

Ainsi sachve la phase dapprentissage des modles MMC avec une seule gaussienne.
Amlioration des modles(GMM) : Les modles obtenus peuvent tre amliors par
utilisation de densits de probabilits dmission multi-gaussiennes au lieu de se contenter
dune simple loi normale. Cela permet deviter certaines hypothses grossires sur la forme
de la densit si le nombre de gaussiennes est suffisant. En effet, le choix du nombre optimal
de gaussiennes est un problme difficile. Un outil dHTK, HHEd ralise laugmentation du
87
nombre de gaussiennes, o on augmente progressivement le nombre de gaussiennes (1, 2, 4,

8, 12, 16). Chaque augmentation de gaussienne est suivie de deux r estimations des modles
avec HERest, HERest.
Suite cette procdure les modles sont de plus en plus prcis. Le seul inconvnient est la
charge des calculs qui augmente son tour.
V.5.2 Systme triphone
Le premier systme conu est bas sur une modlisation par monophones, les modles
sont ainsi hors contexte. Or, un systme plus robuste de reconnaissance de la parole continue
devrait au moins envisager les effets de la co-articulation et de la vitesse dlocution qui
peuvent limiter son efficacit. souvent on considre que la production de la parole est parfaite
et on oublie que le dbit de la parole peut sacclrer et que les organes phonatoires ne
peuvent pas suivre car ils sont limits dans leur dplacement. Tout ceci provoque une certaine
influence mutuelle suivant ou prcdant les sons produits qui altre leurs formes en fonction
du contexte gauche ou droit. Do lintrt des modles contextuels (diphones, triphones,...).
Ceux-ci prennent en compte la source de variabilit du signal de parole permettant ainsi une
meilleure modlisation, un gain significatif en prcision de la transcription et ainsi de
meilleures performances. Le seul inconvnient de telles approches est laugmentation de la
charge de calcul vu le trs grand nombre de modles contextuels existants. Suite ces
remarques, ltape prochaine consiste laborer un systme de reconnaissance de la parole dit
contextuel car bas sur des triphones (contextes gauche et droit dun phonme).
Conversion de la transcription : On commence par convertir les transcriptions de

phonmes aligns aligned.mlf, du systme monophone (V.5.1), en transcription par triphones
avec loutil HLEd.
Ensuite, on r estime en deux itrations la moyenne et la variance des modles avec

lalgorithme Baum Welch toujours via loutil HERest.
Pareil la reconnaissance par monophones, on va procder laugmentation progressive

des gaussiennes jusqu en atteindre 16. Chaque augmentation sera suivie dune phase de r
estimation des modles par lalgorithme de Baum Welch.
88
La Reconnaissance : Le processus de dcodage consiste comparer limage de

lunit identifier avec celles de la base de rfrence. Le module de dcodage de la parole,
HVite, utilise lalgorithme de Viterbi pour trouver la squence dtats la plus probable
correspondant aux paramtres observs et en dduire les units acoustiques correspondantes.
Le dcodage est ralis par lalgorithme de Viterbi sous la contrainte dun rseau syntaxique
et ventuellement dun modle de langage.
V.5.3 Analyse des rsultats
Monophones Triphones
Base de test (Acc%) 99,51% 99,47%
Base dapprentissage (Acc%) 99,05% 99,23%
TAB.V.5 Performance des systme de reconnaissance base de monophones et triphones sur la base
de test et la base dapprentissage du corpus Tidigits
Daprs ce tableau, nos deux systmes bass sur une paramtrisation de type MFCC,
dtaille en Annexe B, sur une modlisation statistique de type HMM et sur une transcription
avec et sans contexte, donnent de trs bons rsultats.
Les performances du systme base de triphones ne se distinguent pas nettement des

performances du systme base de monophones, ceci peut tre expliqu par le fait que les
prononciations de la base de donnes TIdigits sont presque parfaites et les enregistrements ne
modlisent pas les eets de coarticulation, Lombard, stress, sans pour autant oublier de
signaler que cette base de parole est vocabulaire rduit.
Conclusion
Lapplication sous HTK base de monophone et triphone nous a permis davoir un

meilleur taux de reconnaissance. Cela peut tre expliqu par le fait que lapplication
dveloppe sous matlab est purement acoustique (sans contrainte de langage) et quelle ne
prend pas en compte la dpendance entre vecteurs acoustique (phonme) linverse de
lapplication HTK.
Les MMC nous fournit une solution efficace du problme de la reconnaissance

Automatique de la Parole et bnficie dalgorithmes trs efficaces pour la reconnaissance et
89
pour lapprentissage Automatique. Cependant, Les hypothses qui rendent loptimisation des
Modles de Markov Cachs possible limitent toutefois leurs gnralits et sans lorigine de
certaines de leurs faiblesses qui limitent les performances des systmes de RAP ( les donnes
lentre des MMCs sont supposes tre statiquement indpendantes, la corrlation
temporelle entre vecteurs acoustique est alors nglige. Aussi Lutilisation de MMCs de
premier ordre repose sur lhypothse, que la parole est galement un processus de Markov de
premier ordre, rendant la modlisation et lapprentissage de corrlations long terme
difficile). Beaucoup de variantes des MMCs (classique) prsent dans ce mmoire, existent, et
sont appliques dans les systmes de reconnaissance Automatique de la parole. De nos jours
LApproche MMC est la base de la plupart des systmes de Reconnaissance modernes
[50].
90
CONCLUSION GNRALE
Conclusion gnrale
Dans ce travail, notre objectif consiste dtudier le signal de parole afin de concevoir et
de dvelopper un systme pour son traitement et sa reconnaissance. Pour concevoir notre
systme, nous avons tudi ceux dj existants et avons choisi dutiliser une plateforme qui
nous a paru tre la plus performante, la plus utilise et celle qui a montr le plus ses preuves
actuellement, qui est la plateforme HTK, Hidden Markov Toolkit, base sur les modles de
Markov cachs.
Tout au long de ce travail nous avons abord diffrents aspects tout aussi importants les
uns que les autres. Nous avons commenc par comprendre le processus de gnration de la
parole par ltre humain puis nous nous sommes concentrs sur ltude des diffrents moyens
utiliss pour capter ce signal et le traiter. Par la suite, nous avons dcrit les modles de
Markov cachs qui sont utiliss dans de nombreux domaine dont celui du traitement de la
parole et avons finalement, choisi une plateforme base sur ces modles pour construire deux
systmes de reconnaissance automatique de la parole, le premier sous lenvironnement Matlab
et le second sous la plate forme HTK.
Nous avons, ainsi, raliser notre systme de reconnaissance de la parole sur la base de
donnes parole TIdigit, notre base de travail et avons obtenue des taux de reconnaissance plus
quapprciable, qui atteignant 99% dans le cas de lutilisation de HTK.
Malgr ces avances, les systmes actuels sont encore imparfaits. Les problmes
rsoudre reprsentent un des dfis les plus difficiles poss lintelligence artificielle. Un
important effort de recherche est ncessaire, notamment sur le plan de la robustesse des
mthodes de reconnaissance et de la conception de systmes de dialogue. Les travaux mener
ncessitent un effort pluridisciplinaire de collecte de signal vocal, mais aussi de modlisation
dun ensemble de faits et de connaissances sur la langue naturelle et sur les mcanismes de la
communication parle. Nous avons vu quune modlisation stochastique permet de rsoudre,
en partie, le problme, mais il nest pas exclu que lutilisation de connaissances explicites
revienne lordre du jour lavenir.
Pour clore, nous esprons, par ce travail, avoir dmontr limportance du sujet et la
ncessit de consacrer encore plus defforts et dtudes pouvant nous rapprocher rapidement
dune solution performante que seule notre imagination pourrait limiter.
91
ANNEXES
ANNEXE A : MISE EN UVRE
DELA RECONNAISSANCE
AUTOMATIQUE DE LA PAROLE
SOUS HTK.
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.
Introduction
HTK est une bote outils de modles de Markov cachs MMC, conue pour la
construction et la manipulation de ces modles. Cette bote est constitue dun ensemble de
modules bibliothque et doutils disponibles en codes sources C. Ces outils HTK sont conus
pour fonctionner en ligne de commande, gnralement sous lenvironnement linux avec le
Shell C. Chaque outil a un nombre darguments obligatoires en plus darguments optionnels
prfixs par le signe "". Le chapitre "Rfrence section" de louvrage htkbook [48] dcrit en
dtail tous les outils de la bote HTK ainsi que leurs arguments. Principalement, la bote
outils HTK est utilise pour la construction des systmes RAP bass sur les modles MMC
dans un but de recherche scientifique. Gnralement les deux processus indispensables pour le
fonctionnement dun RAP sont le processus dapprentissage et celui de reconnaissance (ou
dcodage). La figure A.1 illustre lenchanement de ces processus. Premirement, les outils
dapprentissage HTK sont utiliss pour estimer les paramtres de lensemble des modles
MMC en utilisant des signaux de parole ainsi que leurs transcriptions associes. Ensuite, les
signaux de parole inconnue sont transcrits en utilisant les outils de reconnaissance. Le lecteur
peut consulter le livre htkbook pour plus de dtails sur limplmentation des systmes RAP
sous la plateforme HTK.
Fig.A.1-Processus dun systme de RAP
Pratiquement, la construction dun systme RAP se base sur 4 phases principales:

prparation des donnes, apprentissage, test, analyse. La figure A.2 illustre les diffrents outils
HTK de chaque phase dun systme de Reconnaissance de la Parole continue.
94
Fig.A.2 Diffrentes phases du systme RAP sous HTK et outils associs
A.1. Outils de prparation de donnes
La construction dun ensemble de modles MMC exige un ensemble de fichiers de

donnes de parole (signaux), ainsi que leurs transcriptions correspondantes. Souvent les
donnes de parole sont rcupres partir dune base de donnes. Cette base doit tre rpartie
en un corpus dapprentissage et un corpus de test. Chacun de ces corpus contient un ensemble
de fichiers texte contenant la transcription orthographique des phrases et un ensemble de
fichiers de donnes contenant les chantillons des signaux correspondant aux fichiers texte.
Avant dtre utilises dans lapprentissage, ces donnes doivent tre converties en un format
paramtrique appropri et ses transcriptions associes doivent tre converties en format
correct.Si les donnes de parole ne sont pas disponibles, alors loutil HSLab peut tre utilis
pour enregistrer la parole et ltiqueter manuellement par nimporte quelle transcription (par
phonme ou mot). Ainsi pour chaque phrase prononce, on lui correspond un fichier signal
(exemple dextensions :.wav,.sig) et un fichier de transcription (extension.lab).
Cependant, avant deffectuer ces transcriptions, un dictionnaire des mots doit tre dfini
afin dtre utilis dans la phase dapprentissage et celle de test. Dans le cas dun systme bas
sur des modles HMM reprsentant des phonmes, la construction du dictionnaire seffectue
par loutil HDMan. De plus la grammaire de la tche considre doit tre dfinie en utilisant
loutil HParse. Cet outil gnre un rseau de mots dfinissant la grammaire considre dcris
sur la figure A.2.
95
La dernire tape dans la phase de prparation des donnes est la conversion du signal de
chaque phrase en une squence de vecteurs acoustiques tel prsent sur la figure A.3. Cette
conversion est effectue par une analyse acoustique en utilisant loutil HCopie. Diffrents
types de paramtres acoustiques sont supports par cet outil comme : LPC, LPCC, MFCC,
PLP, FBANK (Log Mel-Filter Bank), MELSPEC (Linear Mel-Filter Bank), LPCEPSTRA
(LPC Cepstral Coefficients), LPREFC (Linear Prediction Reflection Coefficients), USER
(type dfini par lutilisateur).
Fig.A.3-Processus de lanalyse acoustique
La ligne de commande pour lexcution de HCopy scrit comme suit :
HCopy -T 1 - C config -S codetr.scp
La figure A.4 montre le principe de fonctionnement de cet outil pour la conversion dun
ensemble de fichiers parole dextension .wav en un ensemble de fichiers dextension .mfc
contenant des vecteurs de paramtres acoustiques MFCC. La liste de lensemble de ces
fichiers est donne dans un fichier appel codetr.dcp dont un extrait est fourni :
root/training/corpus/sig/S0001.wav root/training/corpus/mfcc/S0001.mfc
root/training/corpus/sig/S0002.wav root/training/corpus/mfcc/S0002.mfc
root/training/corpus/sig/S0003.wav root/training/corpus/mfcc/S0003.mfc..etc.
96
Fig.A.4 Principe de fonctionnement de loutil HCopy
Cependant lexcution de loutil HCopy exige un fichier de configuration (config) pour

dfinir les diffrents paramtres de lanalyse acoustique considre. Voici un exemple de ce
type de fichier associ une analyse acoustique MFCC :
A.2. Outils dapprentissage
La deuxime phase consiste construire les modles MMC des mots appartenant au
dictionnaire de la tche considre. Premirement, pour chaque mot, il faut dfinir un modle
prototype contenant la topologie choisie savoir le nombre dtats du modle, la disposition
de transitions entre les tats, le type de la loi de probabilit associe chaque tat. Ltat
initial et final de chaque modle nmettent pas des observations mais servent seulement la
connexion des modles dans la parole continue. Les probabilits dmissions associes aux
tats sont des mlanges de gaussiennes multivaries (GMM) dont les composantes sont les
probabilits a priori dfinies chacune par une matrice de covariance et un vecteur de
moyennes dans lespace des paramtres acoustiques. La matrice de covariance peut tre
97
choisie diagonale si lon suppose l'indpendance entre les composantes des vecteurs
acoustiques.
Ces modles prototypes sont gnrs dans le but de dfinir la topologie globale des
modles HMM. Ainsi, lestimation de lensemble des paramtres de chaque modle MMC est
le rle du processus dapprentissage. Les diffrents outils dapprentissage sont illustrs dans
la figure A.5.
Selon cette figure, deux chaines de traitement peuvent tre envisags pour linitialisation
des modles MMC. La premire chane tient en compte des signaux tiquets en label de mot.
Dans ce cas, l'outil HInit extrait tous les segments correspondant au mot modlis et
initialise les probabilits d'mission des tats du modle au moyen de lalgorithme segmentale
k-means. Ensuite l'estimation des paramtres d'un modle est affine avec HRest, qui
applique l'algorithme optimal de Baum-Welch jusqu' la convergence et r estime les
probabilits d'mission et de transition.
Fig.A.5 Outils dapprentissage HTK
Dans la deuxime chane, les signaux ne sont pas tiquets. Dans ce cas, tous les modles
MMC sont initialiss avec le mme modle dont les moyennes et les variances sont gales
respectivement la moyenne et la variance globales de tous les vecteurs acoustiques du
corpus dapprentissage. Cette opration est effectue par loutil HCompV.
98
Aprs linitialisation des modles, l'outil HERest est appliqu en plusieurs itrations pour
r estimer simultanment l'ensemble des modles sur lensemble de toutes les squences de
vecteurs acoustiques non tiquets. Les modles obtenus peuvent tre amliors, en
augmentant par exemple le nombre de gaussiennes servants estimer la probabilit d'mission
d'une observation dans un tat. Cette augmentation est effectue par loutil HHEd. Les
modles doivent tre ensuite r estims par HRest , HERest.
A.3. Outils de reconnaissance
La bote HTK fournit un outil de reconnaissance appel HVite qui permet la transcription
dune squence de vecteurs acoustiques en une squence de mots. Le processus de
reconnaissance est illustr dans la figure A.6.
Fig.A.6 Processus de reconnaissance sous HTK
HVite utilise l'algorithme de Viterbi pour trouver la squence d'tats la plus probable qui
gnre la squence dobservations (vecteurs acoustiques) selon un modle MMC composite,
ceci afin d'en dduire les mots correspondants. Le modle composite permet la succession des
modles acoustiques en fonction du rseau de mots qui dfinit la grammaire de la tche
considre.
Le rsultat de dcodage par loutil HVite est enregistr dans un fichier dextension (.mlf)
contenant ltiquetage en mots du signal dentre.
99
A.4. Outils dvaluation
Gnralement les performances des systmes RAP sont values sur un corpus de test
contenant un ensemble de fichiers dchantillons parole ainsi que leurs fichiers dtiquetage
associs. Les rsultats de reconnaissance des signaux du corpus de test sont compars aux
tiquettes de rfrence par un alignement dynamique ralis par HResults, afin de compter
les tiquettes identifies, omises, substitues par une autre, et insres. Ces statistiques
permettent de calculer le taux ou la prcision de reconnaissance.
100
ANNEXE B :
LA PARAMTRISATION MFCC
Annexe B : La paramtrisation MFCC.
Introduction
Parmi les paramtrisations les plus utiliss dans le domaine de la reconnaissance de la

parole, les coefficients MFCC sont considrs comme tant les meilleurs paramtres qui
peuvent caractriser une voix parmi dautres et cest cette paramtrisation que nous nous
proposons de dcrire dans cette dernire annexe de notre travail.
B.1. La paramtrisation par MFCC
La paramtrisation MFCC (Mel-Frequency Cepstral Coefficients) est la paramtrisation

la plus rpandue dans les systmes de reconnaissance actuels. Nous donnons ci-dessous les
principales tapes de cette para mtrisation :
1. Fentrage du signal : Le signal de parole est spar en trames de chantillons,

chaque trame tant spare de J chantillons. Dans le cas courant o J } on dira quil y
a recouvrement (overlap en anglais) entre les trames. En pratique, la longueur dune trame
est couramment choisie de faon avoir des trames dont la dure est de lordre de 20 ms
associ un recouvrement entre trames de 50% correspondant une valeur de J .
Lopration prcdente consiste ainsi appliquer une fentre rectangulaire de dure finie sur
lensemble du signal. Pour rduire les effets dus aux discontinuits aux bords de la fentre, il
est frquent de pondrer une trame de longueur par une fentre de pondration. Lune des
fentres les plus utilise est la fentre de Hamming. Cette opration donne la trame fentre :
p p
"
O . X 0 . Q ^p G H 'B ~ ~ 0
2. Calcul de la transforme de Fourier rapide (FFT) pour chaque trame du signal

de parole.
3. Filtrage par un banc de filtres MEL : Cette opration permet dobtenir partir du
spectre E de chaque trame, un spectre modifi qui est en fait une suite de coefficients, not
E , reprsentant lnergie dans chaque bande frquentielle (dfinies sur lchelle Mel),
pour , , . En pratique, on utilise des filtres triangulaires de largeur de bande
constante et rgulirement espaces sur lchelle Mel (On peut par exemple choisir un
102
espacement entre filtres de 150 mels et une largeur des filtres triangulaire prise leur base de
300 mels).
4. Calcul des coefficients MFCC : Les coefficients MFCC sont alors obtenus en
effectuant une transforme en cosinus discrte inverse du logarithme des coefficients E :

"
/@L E 1 LR F 0 I )^c , , , .
O est le nombre de coefficients cepstraux dsirs.
5. Pondration : En raison de la grande sensibilit des premiers coefficients cepstraux

sur la pente spectrale gnrale et de la sensibilit au bruit des coefficients cepstraux dordre
lev, il est courant de pondrer ces coefficients pour minimiser cette sensibilit. Cette
pondration pourra scrire sous la forme :
8 8 8 )^c ~8~r
O r est le nombre de coefficients cepstraux.
La fentre de pondration cepstrale est en fait un filtre passe bande dont un choix
appropri peut tre :
r "8
8 * RSA F I )^c ~8~r
r
Cette fentre tronque le nombre de coefficients et diminue le poids des premiers et

derniers coefficients.
6. Calcul des drives temporelles , : La reprsentation cepstrale donne une

bonne reprsentation des proprits frquentielles locales du signal (i.e. pour une fentre de
signal donne). Une reprsentation amliore peut tre obtenue en incluant de linformation
lie lvolution temporelle des coefficients cepstraux. Celle-ci peut tre obtenue par
exemple laide des drives premires et secondes des coefficients cepstraux. Soit 8 les
coefficients cepstraux obtenus linstant (ou plus prcisment la fentre dindice ). Cette
suite est obtenue des instants discrets et ainsi il est bien connu quun simple moyennage aux
diffrences ne permet pas dobtenir des estimations non bruites. Ainsi, la drive est souvent
obtenue en effectuant une moyenne sur un plus grand horizon temporelle sous la forme :
103
8 8 *

O est une constante de normalisation et * est le nombre de trames utilises

pour ce calcul.
Une implmentation classique de la paramtrisation MFCC consiste prendre les 13

premiers coefficients cepstraux (en omettant lnergie reprsente par ) et construire des
vecteurs acoustiques de 39 lments incluant les drives premire et seconde de ces
coefficients.
104
BIBLIOGRAPHIE
Bibliographie
Bibliographie
[1] R. Boite & all.,Traitement de la parole, presses polytechniques et universitaires

Romandes, Novembre 1999.
[2] J P. Haton & all., Reconnaissance Automatique de la parole, Dunod
[3] G. Von Bekesy, Experiments in Hearing , McGraw-Hill, New York,1960.
[4] E. Zwicker, R. Feldetkeller, Psyachoacoustique, CENT-ENST, Collection technique
et scientifique des tlcommunications, Masson, Paris, 1981.
[5] JP. Haton, Reconnaissance Automatique de la Parole et dialogue oral homme-
machine,
[7] J. D. Markel et A. H. Gray Jr, Linear Prediction of Speech. Communication and
Cybernetics. Berlin Heidelberg New York : Springer-Verlag, 1976.
[8] L. Rabinier et B H. Huang, Fondamentals of speech Recognition, Englewood Cliffs,
NJ.: Prentice Hall, 1993.
[9] H. Hermansky, Perceptual linear predictive (plp) analysis of speech. The Journal of
the Acoustical Society of America 87, 17381752, 1990.
[10] H. Hermansky et N. Morgan, Rasta processing of speech. IEEE Transactions on
Speech and Audio Processing 2(4), 578 589,1994.
[11] R. Gemello & all., Multiple resolution analysis for robust automatic speech
recognition. Computer Speech and Language 20(1), 221, 2006.
[12] H. Hermansky, D. Ellis, et S. Sharma, Tandem connectionist feature extraction for
conventional hmm systems. Dans les actes de IEEE International Conference on Acoustics,
Speech and Language. Processing, Istanbul, Turkey, 16351638,2000.
[13] T. Vintsyuk, Speech discrimination by dinamique programming, Kibernetika, Vol.
4, pp,81-88, Jan-Fev, 1968.
[14] P.C Mahalanobis, On generalized distance in statistics, Procedings of the national
Inst. Sci. (India), Vol. 12, pp. 49-55, 1936.
[15] R. O. Duda &P. E. Hart, Patern Classification and scene Analysis, Wiley, 1973.
[16]N. Morgan & H. Bourlard, Continuous Speech Recognition: An Introduction to the
Hybrid HMM/Connectionist Approach, IEEE Signal Processing Magazine, Vol. 12, n3, pp.
25-42, Mai 1995.
[17] O. Capp, Ten years of Hmms,
http://www.tsi.enst.fr/cappe/docs/hmmbib.html,2001.
[18] A. A. Markov, An example of statistical investigation in the text of Eugene
oneygin illustrating coupling of test in chains. In Processings of Academic Scientific St.
Petersburg, IV, pages 153 162, 1913.
[19] C. C. Shannon, A mathematical theory of communications. Bell System
Technology Journal, 27:379 423, 623, 656, 1948.
106
Bibliographie
[20] W. Feller, An Introduction to probability theory and its applications, volume 1. John
Willey, New York, 2nd edition, 1958.
[21] H. O. Hartley, Maximum likelihood estimation from Incomplete Data. Biometrics,
14:147 194, 1958.
[17]O.Capp, Ten years of Hmms,http://www.tsi.enst.fr/cappe/docs/hmmbib.html,2001.
[18]A. A.Markov,An example of statistical investigation in the text of Eugene oneygin

illustrating coupling of test in chains. In Processings of Academic Scientific St. Petersburg,
IV, pages 153 162, 1913.
[19]C. C. Shannon, A mathematical theory of communications. Bell System Technology

Journal, 27:379 423, 623, 656, 1948.
[20]W. Feller, An Introduction to probability theory and its applications, volume 1. John
Willey, New York, 2nd edition, 1958.
[21]H. O. Hartley, Maximum likelihood estimation from Incomplete Data. Biometrics,

14:147 194, 1958.
[22]P. Billingsley, Statistical inferance for Markov process, University of Chicago Press,
Chicagoc, 1961.
[23]L. E. Baum, An inequality with applications to statistical estimation for probabilistic

functions of Markov Process. Inequalities, 3 :1 8, 1972.
[24]J. D. Furguson, Variable duration models for speech. In Procedings of the

Symposium on the Application of Hidden Markov Models to text and speech-IDA-CRD,
Pages 8 15, Princeton NJ, 1980.
[25]A. J. Viterbi, Error Bounds for conventionnal codes and asymptotically optinium
decoding algorithm. IEEE transactions on information theory, 13: 260 269, 1967.
[26]Jr. Forney, G. D., The Viterbi Algorithme. In Procedings of IEEE, Vol. 61, pages
268 278, 1973
[27]M. Slimane, Les chaines de Markov cachs : dfinitions, algorithmes, architectures.

Rapport interne n260, Universit Franois-Rabelais de Tours, Laboratoire dInformatique,
Tours, France, 2002.
107
Bibliographie
[28]L. R. Rabinier, A tutorial on hidden Markov models and selected applications in

speech recognition. In Procedings of the IEEE,Vol.77, pages 257 286, 1989.
[29]L. R. Bahl and F. Jelinek, Decoding For channels with insertions, deletions and
substitutions, with applications to speech recognition. IEEE Transactions Theory, 21:404 411,
1975.
[30]J. K. Baker, Stochastic Modeling as a Means of Automatic Speech Recognition.

PhD thesis, Carnegie-Mellon University, 1975.
[31]H. Bourland and C. Wellekens, Links Between Markov Models and multiplayer
perceptrons. IEEE transactions on Pattern Analysis and Machine Inteligence, 12(10):1 4,
1990.
[32]L. R. Rabinier & all., On the Application of vector Quantizisation and Hidden
Markov Models to Speaker-Independant isolated word recognition. The Bell System
Technical Journal, 62:1075 1105, 1983.
[33]L. R. Rabinier and S. E. Levinson, A Speaker independant, syntax directed

connected word recognition system based on Hidden Markov models and level building.
IEEE Transactions on Acoustics, Speech, Signal Precessing, 33(3):561 573, 1985.
[34]L. R. Bahl & All., A Maximum Likelihood approach to continuous speech

recognition. IEEE Transactions on Pattern Analysis and Machine Inteligence (PAMI),5(2):
197 190, 1983.
[35]A. E. Rosemberg and A. M. Colla, A Connected speech recognition system based

on spotting diphone-like segments-preliminary results. In Proccessings of IEEE International
Conference on Acoustics, Speech, Signal Precessing (ICASSP87), Pages 85 87, Dallas, 1987.
[36]F. Siamaria & A. Harter, Parameterisation of Stochastics model for human Face
Identification. In IEEE workshop on Applications of Computer Vision, Florida, 1994.
[37]A. Kundu & P. Bahl, Recognition of Handwritten script : a Hidden Markov model
based approach. In International Conference on Acoustics, Speech, Signal Processing
(ICASSP88), Pages 928 931, 1988.
108
Bibliographie
[38]A. Soukhal & all., Application des Chaines de Markov caches au problme
dordonnancement dans une cellule robotise. In Confrence Internationale sur la Productique
(CIP01), Pages 151 156, Algrie, 2001.
[39]M. R. Amini, Apprentissage automatique et recherche de linformation : Application

lextraction dinformation de surface et au rsum de texte. PhD thesis, Universit Paris 6,
2001.
[40]A. P. Dempster & all., Maximum-Likelihood from incomplete Data via the EM
algorithm. Journal of the Royal Statistical Society B,39(1):1 39, 1977.
[41]A. Ganapathiraju, Discriminative techniques in hidden Markov models. Course

paper, 1999.
[42]G. Celeux & J. Diebolt, Lalgorithme SEM : un algorithme dapprentissage

probabiliste pour la reconnaissance des mlanges de densits. Revue de Statistique Applique,
34(2) :35 52, 1986.
[43] G. Celeux & J. Diebolt, Une version de type recuit simule de lalgorithme EM.
Technical Report RR-1123, INRIA-Rocquencourt, 1989.
[44]O. Capp & all., Simulation-based methods for blind maximum- likelihood filter
identification. Signal Processing, 73: 3 25,1999.
[45]M. Berthold & D. J. Hand, Inteligent data analysis : an introduction. Springer-

Verlag, 1998.
[46]B. H. Juang & L. R. Rabinier, The segmental k-means algorithm for estimating
parameters of hidden Markov models. IEEE transactions on acoustics, speech and signal
processing, 38(9):1639 1641, 1990.
[47]L. Saul & M. Rahim, Maximum likelihood and minimum classification error factor
analysis for automatic speech recognition. IEEE Transactions on Speech and audio
Precessing, 8(2): 115 125, 2000.
[48]S. Young & all., The htk book (For htk version 3.4). Cambridge University
Engenereering Departement, 2006.
109
Bibliographie
[49] R. G. Leonard & G. R. Doddington, A Speaker-Independent Connected Digit

Database :Tidigits. Texas Instruments, USA.
[50]K. F. LEE, Automatic Speech Recognition-The Development of the sphinx System,

Kluwer Academic, Norwell Mass, 1989.
110

KB PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

KB PDF

Enviado por

Direitos autorais:

Formatos disponíveis

MINISTERE DE LENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE

UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU

FACULTE DE GENIE ELECTRIQUE ET DE LINFORMATIQUE

Modles de Markov Cachs : Application La

La ralisation de ce mmoire en vue de lobtention du diplme de Magister en

Jexprime mes sincres remerciements et ma profonde gratitude Mr Laghrouche

Je tiens remercier chaleureusement Mme Ameur Zohra, professeur lUniversit

galement, jexprime ma profonde gratitude Mr Hammouche Kamal, professeur

Jadresse mes vifs remerciements Mr Lazri Mourad, Maitre de confrance B

Mes remerciements et ma gratitude aux responsables, chercheurs du laboratoire LAMPA.

Je dsir aussi remercier les enseignants du dpartement lectronique de luniversit de

Je voudrais exprimer ma plus haute reconnaissance mes parents et toute ma famille

INTRODUCTION GNRALE ------------------------------------------------------------------- 1

CHAPITRE I : GNRALITS SUR LA PAROLE

I.1. Production de la parole ------------------------------------------------------------------------- 3

I.2. Audition-perception des sons de parole ----------------------------------------------------- 13

I.3. Traitement de la parole ------------------------------------------------------------------------ 16

I.4. Analyse du signal de parole ------------------------------------------------------------------- 18

CHAPITRE II : LES PARAMTRES PERTINENTS DU SIGNAL DE PAROLE

II.1. Coefficients cepstraux de prdiction linaire ---------------------------------------------- 25

II.2. Lanalyse en banc de filtre ------------------------------------------------------------------- 27

II.3. Analyse par prdiction linaire perceptuelle ---------------------------------------------- 28

II.5. Analyse rsolution multiple --------------------------------------------------------------- 30

II.6. Mthodes Acoustiques hybrides ------------------------------------------------------------ 33

II.7. Autres paramtres acoustiques -------------------------------------------------------------- 34

CHAPITRE III : LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

III.1. Niveaux de complexit de la RAP --------------------------------------------------------- 35

III.2. Approche et techniques de reconnaissance automatique de la parole----------------- 37

III.2.1. Approche par la normalisation temporelle---------------------------------------------- 37

III.2.2. Approche par modlisation stochastique ----------------------------------------------- 39

III.2.3. Approche par modles neuromtriques ------------------------------------------------- 42

III.2.4. Approche Baysienne---------------------------------------------------------------------- 44

CHAPITRE IV : LES MODLES DE MARKOV CACHS

IV.1. Historique ------------------------------------------------------------------------------------- 46

IV.2. Les chaines de Markov discrtes ----------------------------------------------------------- 48

IV.3. calcul de la vraisemblance ----------------------------------------------------------------- 53

IV.3.1. Lalgorithme Forward --------------------------------------------------------------------- 53

IV.3.2. Lalgorithme Backward ------------------------------------------------------------------- 55

IV.3.3. Probabilits dductibles ------------------------------------------------------------------- 57

IV.3.4. Dcodage/segmentation de squences dobservations -------------------------------- 57

IV.4.1 Apprentissage tiquet --------------------------------------------------------------------- 60

IV.4.2 Maximisation de la vraisemblance ------------------------------------------------------- 61

IV.5. Critre du maximum a posteriori (MAP) ------------------------------------------------ 67

IV.6. Maximisation de linformation mutuelle-------------------------------------------------- 69

IV.6.1. Maximisation de linformation mutuelle de la vraisemblance ---------------------- 69

IV.6.2. Maximisation de linformation mutuelle du MAP ------------------------------------ 71

IV.7. Le critre de segmental k-means ----------------------------------------------------------- 72

IV.8.1. Premire approche ------------------------------------------------------------------------- 73

IV.8.2. Deuxime approche ------------------------------------------------------------------------ 74

CHAPITRE V : IMPLEMENTATION DE LA RECONNAISSANCE

V.1. Objectif du travail : --------------------------------------------------------------------------- 78

V.2. Structure gnrale dun Reconnaissance Automatique de la parole continue ------- 78

V.3. Structure dun Systme de Reconnaissance Automatique de la parole continue par

V.4. Premire Application : Dveloppement dun Systme de Reconnaissance de la

V.4.2.Extraction des paramtres MFCC --------------------------------------------------------- 82

V.4.3. Le modle HMM ---------------------------------------------------------------------------- 82

V.4.4. Lentrainement du modle MMC --------------------------------------------------------- 83

V.5 Deuxime Application : Dveloppement dun systme de Reconnaissance de la

V.5.1 Systme Monophone ----------------------------------------------------------------------- 85

V.5.2 Systme triphone ---------------------------------------------------------------------------- 88

V.5.3 Analyse des rsultats ------------------------------------------------------------------------ 89

CONCLUSION GNRALE --------------------------------------------------------------------- 90

ANNEXE A : MISE EN UVRE DELA RECONNAISSANCE AUTOMATIQUE