Escolar Documentos
Profissional Documentos
Cultura Documentos
MEMOIRE DE MAGISTER
En vue de lobtention du diplme de Magister en Electronique
Option tldtection
Prsent par :
Mr BERBECHE Kamal
Intitul :
Je voudrais tout d'abord adresser tous mes remerciements mon directeur de mmoire
Monsieur HADDAB Salah, Maitre de Confrences A luniversit de Tizi Ouzou pour son
immense patience, sa grande disponibilit et ses conseils qui ont contribu grandement la
ralisation de ce travail. Quil trouve ici lexpression de ma profonde gratitude.
Finalement, je noublierai pas de citer tous mes amis et collgues qui m'ont toujours
soutenu et encourag tout au long de cette dmarche.
Remerciements
TABLES DES MATIRES
Table des matires
GLOSSAIRE
Introduction ------------------------------------------------------------------------------------------- 3
Introduction ------------------------------------------------------------------------------------------ 25
Conclusion ------------------------------------------------------------------------------------------- 34
Introduction ------------------------------------------------------------------------------------------ 35
Conclusion ------------------------------------------------------------------------------------------- 45
Introduction ------------------------------------------------------------------------------------------ 46
Conclusion ------------------------------------------------------------------------------------------- 76
Introduction ------------------------------------------------------------------------------------------ 78
Conclusion ------------------------------------------------------------------------------------------- 89
ANNEXES ------------------------------------------------------------------------------------------- 92
Introduction
ANNEXE B :
LA PARAMTRISATION MFCC
Introduction
BIBLIOGRAPHIE
Glossaire
GLOSSAIRE
2
INTRODUCTION GNRALE
Introduction gnrale
Sil nest pas en principe de parole sans cerveau humain pour la produire, lentendre, et la
comprendre, les techniques modernes de traitement de la parole tendent cependant produire
des systmes automatiques qui se substituent lune o lautre de ces fonctions.
1
Introduction gnrale
Dans ce mmoire, nous consacrons le premier chapitre aux gnralits sur la parole, sa
production et perception chez ltre humain, son acquisition et ses traitements et analyse.
Dans le second chapitre, nous dcrivons les paramtres acoustiques pertinents du signal
de parole. Par la suite, le chapitre trois est consacr la description des systmes de
reconnaissance automatique de la parole.
Dans le quatrime chapitre, nous allons introduire les Modles de Markov Cachs et leurs
algorithmes, critres qui sont la base des systmes modernes de reconnaissance automatique
de la parole.
Nous terminons, dans le chapitre Cinq, par dcrire lapplication ralise qui consiste la
reconnaissance automatique de la parole sous matlab et sous HTK.
2
CHAPITRE I : GNRALITS
SUR LA PAROLE
Chapitre I Gnralits sur la parole
Introduction
Linformation porte par le signal de parole peut tre analyse de bien des faons. On
distingue, gnralement, plusieurs niveaux de description non exclusifs : Acoustique,
phontique et bien dautres [1].
Dans ce chapitre nous allons, dans un premier temps, dcrire les processus de production
et de perception auditive de la parole puis nous donnerons un aperu sur les notions de
phontique. Nous terminerons par la conversion de la parole en signal lectrique et nous
rappellerons quelques outils de base utiliss en traitement de signaux acoustiques.
La parole peut tre dcrite comme le rsultat de laction volontaire et coordonne dun
certain nombre de muscles des appareils respiratoires et articulatoires [1]. Cette action se
droule sous le contrle du systme nerveux central qui reoit, en permanence, des
informations par rtroaction auditive et par les sensations kinesthsiques [2].
Dans le premier cas, la source rsulte dune vibration quasi-priodique des cordes vocales
et produit ainsi une onde de dbit quasi-priodique.
Dans le second cas, la source sonore est soit un bruit de friction soit un bruit dexplosion
qui peut apparatre sil y a un fort rtrcissement dans le conduit vocal o si un brusque
relchement dune occlusion du conduit vocal sest produit.
Lensemble de cavits situes aprs la glotte, dites les cavits supraglottiques, vont ainsi
tre excites par la ou les sources et "filtrer" le son produit au niveau de ces sources. Ainsi, en
changeant la forme de ces cavits, lhomme peut produire des sons diffrents. Les acteurs de
cette mobilit du conduit vocal sont communment appels les articulateurs.
3
Chapitre I Gnralits sur la parole
Fig.1.1-Lappareil phonatoire.
La gnration dun flux dair qui va tre utilis pour faire natre une source
sonore (au niveau des cordes vocales ou au niveau dune constriction du
conduit vocal) Cest le rle de la soufflerie.
La gnration dune source sonore sous la forme dune onde quasi-priodique
rsultant de la vibration des cordes vocales ou/et sous la forme dun bruit
rsultant dune constriction ou dun brusque relchement ou occlusion du
conduit vocal : Cest le rle de la source vocale.
La mise en place des cavits supraglottiques (conduits nasal et vocal ) pour
obtenir le son dsir ( cest principalement le rle des diffrents articulateurs
du conduit vocal).
4
Chapitre I Gnralits sur la parole
Le larynx est dabord compltement ferm, ce qui accroit la pression en amont des cordes
vocales, et les force souvrir, ce qui fait tomber la pression, et permet aux cordes vocales de
se refermer ; des impulsions priodiques de pression sont ainsi applique, au conduit vocal,
compos des cavits pharyngienne et buccale pour la plupart des sons. Lorsque la luette est en
position basse, la cavit nasale vient sy ajouter en drivation.
Dans la suite de cette section, nous allons dfinir au mieux les organes intervenants dans
ce processus.
La parole est essentiellement produite par deux types de sources vocales. La premire,
plus sonore, est celle qui prend naissance au niveau du larynx suite la vibration des cordes
vocales. La seconde, moins sonore, prend naissance au niveau dune constriction du conduit
vocal ou lors dun relchement brusque dune occlusion du conduit vocal. On parlera dans ce
cas de sources de bruit.
I.1.3.1. Le larynx
Le larynx est un organe situ dans le cou qui joue un rle crucial dans la respiration et
dans la production de parole. Le larynx (fig.1.2) est plus spcifiquement situ au niveau de la
sparation entre la trache artre et le tube digestif, juste sous la racine de la langue. Sa
position varie avec le sexe et lge : il sabaisse progressivement jusqu la pubert et il est
sensiblement plus lev chez la femme.
Fig.1.2-Schma du larynx
Il est constitu dun ensemble de cartilages, il est constitu dun ensemble de cartilages
entours de tissus mous. La partie la plus prominente du larynx est forme du thyrode. La
5
Chapitre I Gnralits sur la parole
partie antrieure de cartilage est communment appele la "pomme dAdam". On trouve, juste
au dessus du larynx, un os en forme de U appel los hyoid. Cet os relie le larynx la
mandibule par lintermdiaire de muscles et de tendons qui joueront un rle important pour
lever le larynx pour la dglutition ou la production de parole.
Les mouvements du larynx sont contrls par deux groupes de muscles. On distingue
ainsi les muscles intrinsques, qui contrlent le mouvement des cordes vocales et des muscles
lintrieur du larynx, et les muscles extrinsques, qui contrlent la position du larynx dans le
cou.
La figure I.3 nous reprsente les muscles intrinsques. Les cordes vocales sont ouvertes
par une paires de muscles (les muscles cricoarytnoide postrieur) qui sont situs entre la
partie arrire du cricode et le cricoarytenode.
6
Chapitre I Gnralits sur la parole
Les cordes vocales situes au centre du larynx ont un rle fondamental dans la
production de la parole.
Elles sont constitues de muscles recouverts dun tissus assez fin couramment appel la
muqueuse. Sur la partie arrire de chaque corde vocale, on trouve une petite structure faite de
cartilages : Les arytnoides. De nombreux muscles y sont rattachs qui permettent de les
carter pour assurer la respiration.
Durant la production de parole, les arytnoides sont rapprochs (voir figure I.3). Sous la
pression de lair provenant des poumons, les cordes vocales souvrent puis se referment
rapidement. Ainsi, lorsquune pression soutenue de lair dexpiration est maintenue, les
cordes vocales vibrent et produisent un son qui sera par la suite modifi dans le conduit vocal
pour donner lieu un son vois. Ce processus de vibration des cordes vocales est dcrit un
peu plus en dtail ci-aprs.
Fig.1.4 Les cordes vocales en position ouvertes durant la respiration ( gauche) et ferms pour la
production de parole ( droite)
Plusieurs muscles aident pour fermer et tendre les cordes vocales. Les cordes vocales sont
elles mme constitues dun muscle, le thyroarytnoide. Un autre muscle, linterarytnoide ,
permet de rapprocher ces deux cartilages. Le muscle cricoarytnoide latral qui est lui aussi
situ entre larytnoide et le cartilage cricode sert la fermeture du larynx.
Les muscles extrinsques naffectent pas le mouvement des cordes vocales mais lvent
ou abaissent le larynx dans sa globalit.
7
Chapitre I Gnralits sur la parole
La figure 1.5 donne une vue schmatique dune coupe verticale du larynx. Sur ce schma,
les cordes vocales sont ici clairement spares, comme elles seraient durant la respiration. On
peut galement remarquer au-dessus des cordes vocales, des tissus ayant pour principal rle
dviter le passage de substances dans la trache durant la dglutition : ce sont les fausses
cordes vocales. Il est important de noter quelles ne jouent aucun rle lors de la phonation. Le
cartilage mou en forme grossire de langue qui se trouve au-dessus est appel lpiglotte et a
galement un rle pour protger laccs de la trache lors de la dglutition.
Le conduit vocal
Le conduit nasal
Le couplage acoustique entre les deux cavits est contrl par louverture au niveau du
velum (figure I.1). On notera que le velum -ou voile du palais- est largement ouvert. Dans ce
8
Chapitre I Gnralits sur la parole
cas, on aura la production dun son nasal. Dans le cas contraire, lorsque le velum ferme le
conduit nasal le son produit sera dit non-nasal.
Dautre organes, dits articulateurs, joue galement un rle chacun en ce qui le concerne.
Les articulateurs sont :
La langue
La langue est une structure frontire, appartenant la fois la cavit buccale pour sa
partie dite mobile et au glosso-pharynx pour sa partie dite fixe, qui applique contre le palais
ou les dents constituent un organe vibratoire accessoire, intervenant dans la formation des
consonnes. Elle a donc de limportance pour la phonation.
La mchoire
La mchoire possde un nombre de degrs de libert plus faible et tant un corps rigide
ne peut pas se dformer comme la langue. Nanmoins, la mchoire peut non seulement
souvrir et se fermer, mais peut galement savancer ou effectuer des mouvements de rotation.
Son rle dans la parole nest cependant pas primordial dans la mesure o il est possible
en bloquant la mchoire de parler de faon trs intelligible.
Les lvres
Les lvres sont situes lextrmit du conduit vocal et comme pour la langue, elles
possdent une grande mobilit en raison des nombreux muscles impliqus dans leur contrle.
Les points de jonction des lvres suprieure et infrieure sappellent les commissures et jouent
un grand rle dans la diplomatie (pour le sourire, bien sur...).
Au point de vue acoustique, cest lespace introlabial qui est important. On peut
observer diffrents mouvements importants pour la phonation dont :
9
Chapitre I Gnralits sur la parole
Dans ce qui suit, nous allons sintresser aux diffrentes classes de sons au niveau
phontique tout en expliquant comment ces sons sont produits.
Notions de phontique
La parole, quelle quen soit la langue, est constitue dun nombre finis dlments
sonores distinctifs. Ces lments forment les units linguistiques lmentaires et ont la
proprit de changer le sens dun mot. Ces units lmentaires sont appels phonmes [3].
Un phonme est donc la plus petite unit phonique fonctionnelle, cest--dire distinctive.
Il nest pas dfini sur un plan acoustique, articulatoire, ou perceptuel, mais bien sur le plan
fonctionnel. Les phonmes nont pas dexistence indpendante : Ils constituent un ensemble
structur dans lequel chaque lment est intentionnellement diffrent de tous les autres, la
diffrence tant chaque fois porteuse de sens. La liste des phonmes pour la plupart des
langues europennes a t tablie ds la fin du 19 sicle.
Les phonmes peuvent ainsi tre vus comme les lments de base pour le codage de
linformation linguistique.
Cependant, ces phonmes peuvent se regrouper en classes dont les lments partagent des
caractristiques communes. On parlera ici de "traits distinctifs".
10
Chapitre I Gnralits sur la parole
En fait, les phonmes (qui peuvent donc tre dcrits suivant leurs traits distinctifs) sont
des lments abstraits associs des sons lmentaires. Bien entendu, les phonmes ne sont
pas identiques pour chaque langue et le /a/ du franais nest pas totalement quivalent au /a/
de langlais. Ainsi, est ne lide de dfinir un alphabet phontique international (alphabet
IPA) qui permettrait de dcrire les sons et les prononciations de ces sons de manire compacte
et universelle.
Il existe dautres faons dorganiser les sons, par exemple en opposant les sons sonnants
(voyelles), les consonnes nasales, les liquides ou les glissantes aux sons obstruants
occlusives, fricatives .
Les voyelles
Les voyelles sont typiquement produites en faisant vibrer ses cordes vocales. Le son de
telle ou telle voyelle est alors obtenu en changeant la forme du conduit vocal laide des
diffrents articulateurs. Dans un mode darticulation normal, la forme du conduit vocal est
maintenue relativement stable pendant quasiment toute la dure de la voyelle.
Les consonnes
Comme pour les voyelles, les consonnes vont pouvoir tre regroupes en traits distinctifs.
Contrairement aux voyelles, elles ne sont pas exclusivement voises (mme si les voyelles
prononces en voix chuchote sont, dans ce cas galement, non voises) et ne sont pas
ncessairement ralises avec une configuration stable du conduit vocal.
On parlera de consonnes voises lorsquelles sont produites avec une vibration des cordes
vocales comme par exemple /b/ dans "bol" o les cordes vocales vibrent avant le
11
Chapitre I Gnralits sur la parole
Les fricatives
Sont produites par un flux dair turbulent prenant naissance au niveau dune constriction
du conduit vocal. On distingue plusieurs fricatives suivant le lieu de cette constriction
principale :
Les labio-dentales, pour une constriction ralise entre les dents et les lvres
comme pour le /f/ dans "foin" .
Les dentales, pour une constriction au niveau des dents comme pour le /t/
anglais dans "thin"
Les alvolaires, pour une constriction juste derrire les dents comme pour le /s/
dans "son" .
En fait, suivant les langues, en regardant plusieurs langues, on saperoit que quasiment
tous les points darticulations du conduit vocal peuvent tre utiliss pour raliser des
fricatives.
Cest dailleurs lune des difficults de lapprentissage des langues trangres car il nest
pas ais dapprendre raliser des sons qui demandent de positionner la langue des endroits
inhabituels.
Les plosives
Elles sont caractrises par une dynamique importante du conduit vocal. Elles sont
ralises en fermant le conduit vocal en un endroit. Lair provenant des poumons cre alors
une pression derrire cette occlusion qui est ensuite soudainement relche suite au
mouvement rapide des articulateurs ayant ralis cette occlusion. De mme, que pour les
fricatives, lun des traits distinctifs entre les plosives est le lieu darticulation. Pour les
plosives, on aura ainsi :
12
Chapitre I Gnralits sur la parole
En plus du lieu darticulation, les plosives peuvent galement tre voises ou non voises.
Ainsi, une dentale voise /d/ se distinguera uniquement par la prsence de voisement
vibration des cordes vocales du /t/ qui est prononce avec le mme lieu darticulation.
Elles sont en gnral voises et sont produites en effectuant une occlusion complte du
conduit vocal et en ouvrant le vlum permettant au conduit nasal dtre lunique rsonateur.
Comme pour les autres consonnes, on aura, suivant le lieu darticulation :
Les labiales, pour une occlusion du conduit vocal ralise au niveau des lvres.
Les dentales, pour une occlusion du conduit vocal au niveau des dents.
Les vlo-palatales, pour une occlusion du conduit vocal au niveau du palais.
Cette classe de consonnes regroupe des sons qui ressemblent aux voyelles. Les liquides
sont dailleurs parfois appeles semi consonnes ou semi-voyelles. Les glissantes et les
liquides, en gnral, voises et non nasales.
Les glissantes, comme leur nom lindique, sont des sons en mouvement et
prcdent toujours une voyelle ou un son vocalique .
Les liquides ou semi-voyelles sont des sons tenus, trs similaires aux voyelles
mais en gnral avec une constriction plus consquente et avec lapex de la langue
plus relev.
Loreille est spare en 3 parties principales comme indiqu sur le schma de lappareil
auditif de la figure1.6
13
Chapitre I Gnralits sur la parole
La parole peur tre dcrite comme le rsultat de laction volontaire et coordonne dun
certain nombre de muscles. Cette action se droule sous le contrle du systme nerveux
central qui reoit en permanence des informations par rtroaction auditive et par les sensations
kinesthsiques, ce principe est prsent sur la figure 1.7.
14
Chapitre I Gnralits sur la parole
Les ondes sonores sont recueillies par lappareil auditif, ce qui provoque les sensations
auditives. Ces ondes de pression sont analyses dans loreille interne qui envoie au cerveau
linflux nerveux qui en rsulte. Le phnomne physique induit alors un phnomne psychique
grce un mcanisme physiologique complexe [3].
Les fibres nerveuses aboutissent une rgion de lcorce crbrale, appele aire de
projection auditive, et situe dans le lobe temporal. En cas de lsion de cette aire, on peut
observer des troubles auditifs. Les fibres nerveuses auditives affrentes de loreille au
cerveau et effrentes du cerveau vers loreille sont partiellement croises : chaque moiti
du cerveau est mise en relation avec les deux oreilles internes.
. Entre larrive des signaux vibratoires aux oreilles et la sensation du son dans le
cerveau, a lieu le phnomne de traitement des signaux par le systme nerveux. Cela signifie
que la vibration physique de lair ne parvient pas de faon brute au cerveau. Elle est
transforme, Comme dcrit sur la figure 1.8.
Il reste trs difficile de nos jours de dire comment linformation auditive est traite par le
cerveau. On a pu par contre tudier comment elle tait finalement perue, dans le cadre dune
science spcifique appele psychoacoustique [4]. Sans vouloir entrer dans trop de dtails sur
la contribution majeure des psychoacousticiens dans ltude de la parole, il est intressant
den connatre les rsultats les plus marquants.
Ainsi, loreille ne rpond pas galement toutes les frquences. La figure 1.9 prsente le
champ auditif humain, dlimit par la courbe de seuil de l'audition et celle du seuil de la
15
Chapitre I Gnralits sur la parole
douleur. Sa limite suprieure en frquence (~16000 Hz, variable selon les individus) fixe la
frquence d'chantillonnage maximale utile pour un signal auditif (~ 32000 Hz).
A l'intrieur de son domaine d'audition, l'oreille ne prsente pas une sensibilit identique
toutes les frquences. La figure 1.10, fait apparatre les courbes d'gale impression de
puissance auditive - physiologie auditive (aussi appele sonie, exprime en sones) en fonction
de la frquence. Elles rvlent un maximum de sensibilit dans la plage [500 Hz, 10 kHz], en
dehors de laquelle les sons doivent tre plus intenses pour tre perus.
Fig.1.10
La parole apparait physiquement comme une variation de lair cause et mise par le
systme articulatoire. Cest un phnomne physique acoustique qui prend une forme
analogique.
16
Chapitre I Gnralits sur la parole
De nos jours, le signal lectrique rsultant est le plus souvent numris. Il peut alors tre
soumis un ensemble de traitements, dans le but den extraire les informations et les
paramtres pertinents en rapport avec lapplication. Ainsi, la conversion du phnomne de
parole en signal lectrique ncessite les oprations suivantes.
I.3.1. Numrisation
I.3.2. Lchantillonnage
En ce qui concerne le signal vocal, le choix de rsulte dun compromis. Son spectre
peut stendre jusqu' 12kHz. Il faut donc en principe choisir une frquence gale 24kHz
au moins pour satisfaire raisonnablement au thorme de shannon. Cependant, le cout dun
traitement numrique, filtrage, transmission, ou simplement enregistrement peut tre rduit
dune faon notable si lon accepte une limitation du spectre par un filtrage pralable. Cest le
rle du filtre de garde, dont la frquence de coupure est choisie en fonction de la frquence
dchantillonnage retenue.
17
Chapitre I Gnralits sur la parole
I.3.3. La Quantification
Cette tape consiste approximer les valeurs relles des chantillons selon une chelle de
niveaux appele chelle de quantification.
I.3.4. Le Codage
Cest la reprsentation binaire des valeurs quantifies qui permet le traitement du signal
sur machine.
Une fois numris, le signal de parole peut tre trait de diffrentes faons suivant les
objectifs viss. Le nombre de techniques possible tant trs vaste, nous allons, dans ce qui
suit, citer les outils relatifs au signal de parole.
18
Chapitre I Gnralits sur la parole
Une seconde approche pour caractriser et reprsenter le signal de parole est dutiliser
une reprsentation spectrale.
les mthodes gnrales : valables pour tout signal volutif dans le temps, en
particulier les analyses spectrales.
les mthodes se rfrant un modle : un modle de production du signal vocal
ou un modle daudition.
Mthodes gnrales
19
Chapitre I Gnralits sur la parole
La figure 1.14 illustre la transforme de Fourier dune tranche voise et celle dune
tranche non voise. Les parties voises du signal apparaissant sous la forme de successions de
pics spectraux marqus, dont les frquences centrales sont multiples de la frquence
fondamentale. Par contre, le spectre dun signal non vois ne prsente aucune structure
particulire. La forme gnrale de ces spectres, appele enveloppe spectrale, prsente elle-
mme des pics et des creux qui correspondent aux rsonnances et aux anti-rsonnances du
conduit vocal et sont appels formants et anti-formants.
Spectrogramme
! "
1
20
Chapitre I Gnralits sur la parole
figure 1.16. On parle de spectrogramme large bande ou bande troite selon la dure de la
fentre de pondration. Les spectrogrammes bande large sont obtenus avec des fentres de
pondration de faible dur ; ils mettent en vidence lenveloppe spectrale du signal, et
permettent par consquent de visualiser lvolution temporelle des formants. Les priodes
voises y apparaissent sous la forme de bandes verticale plus sombres.
Fig.1.16- Spectrogramme large bande (en bas), bande troite (en haut), et volution temporelle de
la phrase anglaise Alices adventures , chantillonne 11.25 kHz (calcul avec fentre de hamming de
10 et 30 ms respectivement).
Traits acoustiques :
La frquence fondamentale
Cest Le premier trait acoustique, cest la frquence de vibration des cordes vocales.
Pour les sons voiss, la frquence fondamentale correspond la frquence du cycle
douverture/fermeture des cordes vocales.
21
Chapitre I Gnralits sur la parole
Le spectre de frquence
Lnergie
Le timbre
Le pitch
Intensit
Lintensit dun son, appele aussi volume, permet de distinguer un son fort dun
son faible. Elle correspond lamplitude de londe acoustique. Pour le son, onde de
compression, cette grandeur est la pression.
Dans cette catgorie, les mthodes dites de Codage Prdictif Linaire LPC [1] ont t
largement utilises pour lanalyse de la parole. Elles font rfrence un modle du systme de
phonation, que lon reprsente en gnral comme un tuyau sonore section variable.
Lanalyse LPC est utilise essentiellement en codage et en synthse de la parole.
22
Chapitre I Gnralits sur la parole
Mthodes cepstrales
Une mthode danalyse du signal vocal fonde sur une modlisation est actuellement trs
rpandue en reconnaissance automatique de la parole : il sagit de lanalyse cepstrale [5].
Cette mthode, appele aussi analyse homomorphique, a pour but de sparer dans le
signal vocal les contributions respectives de la source du signal savoir la vibration des
cordes vocales et du conduit vocal dont les frquences de rsonance conduisent notamment
aux formants des voyelles.
La figure1.17 montre les phases dobtention de coefficients MFCC partir dun signal.
Ces coefficients sont robustes car, dune part, ils assurent comme il vient dtre dit une
sparation entre la fonction de transfert du conduit vocal et les caractristiques du
fondamental de la voix, et, dautre part, ils sont peu sensibles la puissance acoustique du
signal analys.
Modles doreille
Les modles doreille [5], sont utiliss pour obtenir une reprsentation frquentielle de la
parole. On les trouve dans des systmes de reconnaissance de parole, notamment en prsence
de bruits.
23
Chapitre I Gnralits sur la parole
Analyse perceptive
Parmi les travaux mens pour amliorer les techniques danalyse de signaux, lanalyse
par ondelettes [2], prsente un intrt certain. Ce type danalyse permet dobtenir une
reprsentation temps-frquence locale dun signal comme alternative au spectre de Fourier.
Lintrt, pour des signaux non stationnaires comme la parole, est de pouvoir mener une
analyse multi-rsolution des phnomnes correspondant des chelles de temps et de
frquence diffrentes.
Dans le chapitre suivant nous allons prsenter les mthodes danalyses et dextraction, les
plus utiliss pour le signal de parole dont le but de la reconnaissance automatique de la parole.
24
CHAPITRE II : LES
PARAMTRES PERTINENTS DU
SIGNAL DE PAROLE
Chapitre II Les Paramtres Acoustiques
Introduction
Le signal de parole est trop redondant et variable pour tre utilis directement dans un
systme de reconnaissance automatique de la parole. Il est donc ncessaire den extraire
linformation pertinente afin de caractriser et didentifier le contenu linguistique. Le signal
de parole est reprsent, en gnral, dans le domaine frquentiel montrant lvolution
temporelle de son spectre. Ce domaine est appropri pour la reconnaissance puisque lon peut
raisonnablement considrer que les proprits du spectre restent stationnaires durant des
intervalles de temps denviron une dizaine de ms (valeur adopte de manire classique).
Dans ce chapitre, nous allons prsenter les mthodes; les plus utilises, les plus rcentes
et les variantes amliores; dextraction des paramtres acoustiques pertinents de la parole
pour la reconnaissance automatique de la parole, sujet de ce travail de mmoire.
% ) ' .
O les ' sont des coefficients constants sur une fentre danalyse. La dfinition devient
exacte si on inclut un terme dexcitation :
25
Chapitre II Les Paramtres Acoustiques
) ' . *+
/ 0
)
+- . '. 1 .
Do :
. + +
2 . )
4 ' .3
- . 5 .
Cette quation peut tre interprte comme suit : Le signal 6 est le rsultat de lexcitation
+
du filtre tout ple 2 . 5 .
par le signal dexcitation .
Les coefficients ' sont les coefficients qui minimisent lerreur quadratique moyenne :
- 8 +. 78 98/ 78 0
)
' 78 1:
partir de ces chantillons prdis, on peut calculer les paramtres cepstraux. Le cepstre
est le rsultat de la transforme de Fourier inverse applique au logarithme de la transforme
de Fourier du signal de parole. Les paramtres cepstraux sont les coefficients du
dveloppement de Taylor du logarithme du filtre tout ple :
+
; <|5 > 7?
? .
. |
Ce qui donne :
@A +
Les paramtres cepstraux ont lavantage dtre peu corrls entre eux. Cela permet
dutiliser des matrices de covariances diagonales pour leur moment de second ordre, et ainsi
gagner beaucoup de temps lors du dcodage. Les diffrentes tapes de lanalyse LPCC sont
dtailles dans la figure 2.1
26
Chapitre II Les Paramtres Acoustiques
Lanalyse par banc de filtres [8] est une technique initialement utilise pour le codage
du signal de parole. Elle produit des paramtres cepstraux (Mel-Frequency Cepstral
Coefficients) -MFCC. Le signal de parole est analys laide de filtres passe-bande
permettant destimer lenveloppe spectrale en calculant lnergie dans les bandes de
frquences considres.
Les bandes de frquences des filtres sont espaces logarithmiquement selon une chelle
perceptive afin de simuler le fonctionnement du systme auditif humain. Les chelles
perceptives les plus utilises sont celles de Mel et de Bark [8]. Plus la frquence centrale du
filtre est basse, plus la bande passante du filtre est troite. Augmenter la rsolution pour les
basses frquences permet dextraire plus dinformation dans ces zones o elle est plus dense.
Il est possible dutiliser directement les coefficients obtenus la sortie des filtres pour la
reconnaissance de la parole, cependant, dautres coefficients plus discriminants, plus robustes
au bruit ambiant et surtout dcorrls entre eux sont prfrs : les coefficients cepstraux. Un
ensemble de M coefficients cepstraux, gnralement entre 10 et 15, sont calculs en effectuant
un liftrage (filtrage dans le domaine cepstral) du spectre en puissance dun signal selon la
transforme en cosinus discret ( Discrete Cosinus Transform DCT ) :
"
J
8 E8 . F G8 * H I KLMN ,,J 0
Les diffrentes tapes de lanalyse MFCC sont dtailles dans la figure 2.1.
27
Chapitre II Les Paramtres Acoustiques
Elle est base sur le mme principe que lanalyse prdictive et intgre trois
caractristiques de la perception :
.
Q RSAT
Q
La nouvelle densit spectrale est chantillonne selon cette nouvelle chelle, ce qui
augmente la rsolution pour les basses frquences.
0 . WX. .
28
Chapitre II Les Paramtres Acoustiques
Les PLP sont bass sur le spectre court terme du signal de parole, comme les
coefficients LPC. Cela signifie que le signal est analys sur une fentre glissante de courte
dure. En gnral, on utilise une fentre de longueur 10 30 ms. que lon dcale de 10 ms
pour chaque trame.
29
Chapitre II Les Paramtres Acoustiques
compress par une fonction non linaire. Lide principale est de supprimer les facteurs
constants dans chaque composante du spectre court-terme avant lestimation du modle
tout-ple. Lanalyse RASTA est souvent utilise en combinaison avec les paramtres PLP.
Les tapes dune analyse RASTA-PLP sont dcrites dans la figure 2.3.
Les tapes grises sont celles qui font la spcificit du traitement RASTA. La diffrence
entre RASTA et J-RASTA se situe au niveau du logarithme (4me tape) :
30
Chapitre II Les Paramtres Acoustiques
diminue quand on descend dans larbre, mais lintervalle temporel associ aux chantillons
filtrs reste inchang.
31
Chapitre II Les Paramtres Acoustiques
.
TAB. 2.1-Correspondance entre rsolution frquentielle et temporelle pour lanalyse MRA
La norme ]:
| |) 'B ) , ,\
Lentropie moyenne :
2 . ;^_
Loprateur teager :
/ 0 . 7 1
32
` -. )
32
Chapitre II Les Paramtres Acoustiques
linformation quils contiennent sera diffrente de celle fournie par les reprsentations
cepstrales.
Ces paramtres sont calculs partir de paramtres discriminants obtenus laide dun
rseau de neurones. Les systmes de reconnaissance automatique de la parole utilisent en
gnral des modles base de GMMs pour estimer les distributions de vecteurs de
paramtres dcorrls qui correspondent des units acoustiques de courte dure syllabes,
phonmes, phonmes en contexte, ... . En comparaison, les systmes hybrides ANN/MMC
[12] utilisent des rseaux de neurones entrans de manire discriminante pour estimer les
distributions de probabilit des units tant donn les observations acoustiques.
Cette approche consiste combiner des paramtres discriminants issus dun rseau de
neurones avec une modlisation des distributions par GMMs. Le rseau de neurones gnre
les probabilits postrieures des units qui sont ensuite transforms pour tre utiliss comme
paramtres dentre pour le modle MMC/GMM qui est alors appris de manire
conventionnelle. Les transformations sur les distributions de probabilit sont de diffrentes
sortes. Les rseaux de neurones produisent directement des probabilits a posteriori
contrairement aux mixtures de gaussiennes. tant donn que les probabilits postrieures ont
une distribution trs biaise, il est avantageux de les transformer en prenant leur logarithme
par exemple. Une alternative cela est domettre la dernire non-linarit la sortie du rseau
de neurones. Cette non linarit, le softmax, correspond normaliser les exponentiels ce qui
est trs proche de prendre le logarithme des probabilits . Les vecteurs de probabilits
postrieures ont tendance possder une valeur leve, correspondant au phonme prononc,
et les autres basses. Les rseaux de neurones nont pas la contrainte dutiliser des paramtres
acoustiques dcorrls comme les MMCs. Cependant, il savre que la transformation de
Karhunen-Loeve, plus connue sous le nom danalyse en composante principale Principal
Component Analysis PCA est utile pour dcorrler les paramtres, vraisemblablement
parce quelle augmente la correspondance entre les paramtres et les modles base de
mixture de gaussiennes. Les principaux rsultats obtenus avec ce genre de technique sont
prsents dans plusieurs travaux.
33
Chapitre II Les Paramtres Acoustiques
Conclusion
Dans ce chapitre, nous avons dcris les mthodes, les plus utilises dextraction des
paramtres acoustiques pertinents en termes defficacit et de performances pour les systmes
de Reconnaissance Automatique de la parole de la parole.
34
CHAPITRE III : LA
RECONNAISSANCE
AUTOMATIQUE DE LA PAROLE
Chapitre III La Reconnaissance Automatique de la Parole
Introduction
Depuis plus de deux dcennies, des recherches intensives dans ce domaine ont t
accomplies par de nombreux laboratoires internationaux. Des progrs importants ont t
accomplis grce au dveloppement d'algorithmes puissants ainsi qu'aux avances en
traitement du signal. Diffrents systmes de reconnaissance de la parole ont t dvelopps,
couvrant de vastes domaines tel que la reconnaissance de quelques mots cls sur lignes
tlphoniques, les systmes dicter vocaux, les systmes de commande et contrle sur PC, et
allant jusqu'aux systmes de comprhension du langage naturel.
Le signal de parole est un des signaux les plus complexes : En plus de la complexit
physiologique inhrente au systme phonatoire et des problmes de coarticulation qui en
rsultent, le conduit vocal varie galement trs fort d'une personne l'autre.
Evidemment, les systmes dpendants du locuteur sont plus faciles dvelopper et sont
caractriss par de meilleurs taux de reconnaissance que les systmes indpendants du
locuteur tant donn que la variabilit du signal de parole est plus limite. Cette dpendance
35
Chapitre III La Reconnaissance Automatique de la Parole
au locuteur est cependant acquise au prix d'un entranement spcifique chaque utilisateur.
Ceci n'est cependant pas toujours possible. Par exemple, dans le cas d'applications
tlphoniques, les systmes doivent pouvoir tre utiliss par n'importe qui et doivent donc tre
indpendants du locuteur.
Bien que la mthodologie de base reste la mme, Cette indpendance au locuteur est
cependant obtenue par l'acquisition de nombreux locuteurs couvrant si possible les
diffrents dialectes qui sont utiliss simultanment pour l'entranement de modles
susceptibles d'en extraire toutes les caractristiques majeures. Une solution intermdiaire
parfois utilise consiste dvelopper des systmes capable de s'adapter rapidement (de faon
supervise ou non supervise) au nouveau locuteur.
Par ailleurs, un systme peut tre destin reconnaitre des mots isols ou de la parole
continue. Il est plus simple de reconnatre des mots isols bien spars par des priodes de
silence que de reconnatre la squence de mots constituant une phrase. En effet, dans ce
dernier cas, non seulement la frontire entre mots n'est plus connue mais, de plus, les mots
deviennent fortement articuls (c'est--dire que la prononciation de chaque mot est affecte
par le mot qui prcde ainsi que par celui qui suit - un exemple simple et bien connu tant les
liaisons du franais).
Dans le cas de la parole continue, le niveau de complexit varie galement selon qu'il
s'agisse de texte lu, de texte parl ou, beaucoup plus difficile, de langage naturel avec ses
hsitations, phrases grammaticalement incorrectes, faux dparts, etc. Un autre problme, qui
commence tre bien matris, concerne la reconnaissance de mots cls en parole libre. Dans
ce dernier cas, le vocabulaire reconnatre est relativement petit et bien dfini mais le
locuteur n'est pas contraint de parler en mots isols.
La taille du vocabulaire et son degr de confusion sont galement des facteurs importants.
Les petits vocabulaires sont videmment plus faciles reconnatre que les grands
vocabulaires, tant donn que dans ce dernier cas, les possibilits de confusion augmentent.
Un systme est dit robuste sil est capable de fonctionner proprement dans des
conditions difficiles. En effet, de nombreuses variables peuvent affecter significativement les
performances des systmes de reconnaissance:
36
Chapitre III La Reconnaissance Automatique de la Parole
Certains systmes peuvent tre plus robustes que d'autres l'une ou l'autre de ces
perturbations, mais en rgle gnrale, les reconnaisseurs de parole actuels restent encore trop
sensibles ces paramtres.
Les premiers succs en reconnaissance vocale ont t obtenus dans les annes 70 laide
dun paradigme de reconnaissance de mots. Lide, trs simple dans son principe, consiste
faire prononcer un ou plusieurs exemples de chacun des mots susceptibles dtre reconnus, et
les enregistrer sous forme de vecteurs acoustiques (typiquement : un vecteur de coefficients
LPC ou assimils toutes les 10 ms). Ltape de reconnaissance proprement dite consiste alors
analyser le signal inconnu sous la forme dune suite de vecteurs acoustiques similaires, et
comparer la suite inconnue chacune des suites des exemples pralablement enregistrs. Le
mot (reconnu) sera alors celui dont la suite de vecteurs acoustique (spectrogramme) ressemble
le mieux celle du mot inconnu. Ce principe de base nest cependant pas implmentable
directement : Un mme mot peut en effet tre prononc dune infinit de faons diffrentes,
en changeant le rythme de llocution. Il en rsulte des spectrogrammes plus ou moins
37
Chapitre III La Reconnaissance Automatique de la Parole
Une solution ce problme dlasticit ou recalage temporel fait appel aux technique de
la programmation dynamique est formalise mathmatiquement par un algorithme dsormais
bien connu : Lalgorithme DTW (Dynamic Time Warping) [13].
Les dfinitions de distances locales peuvent galement tre adaptes de faon tenir
compte du type de caractristiques acoustiques utilises (distance euclidienne, distance de
Mahalanobis[14], distance dItakura[1] ou de limportance relative des diffrentes
composantes).Cette mthode donne dexcellents rsultats. On dmontre quelle fournit la
solution optimale du problme.
38
Chapitre III La Reconnaissance Automatique de la Parole
Dans le paragraphe prcdent, nous avons montr comment on pouvait effectuer par
programmation dynamique lintgration temporelle de distances locales, permettant en mme
temps de normaliser les variations temporelle des units de parole. Cette approche conduit
galement une segmentation automatique de la phrase en termes de segments de rfrences.
Pour toutes ces raisons, les modles statistiques [15] sont maintenant trs utiliss dans les
problmes de reconnaissance de squences complexes telles que le signal de parole. De plus,
lintroduction dun formalisme statistique permet lutilisation de plusieurs outils
mathmatiques trs puissants (lalgorithmeEM (IV.5.2)) pour dterminer les paramtres par
entrainement, et pour effectuer la reconnaissance et la segmentation automatique de mots et
de parole continue. Ces outils mathmatiques sont maintenant largement utiliss et constituent
aujourdhui lapproche dominante en reconnaissance de la parole.
Pour la plupart de ces systmes de reconnaissance, la parole est suppose avoir t
gnre selon un ensemble de distributions statistiques. Par dfinition, une distribution unique
ne peut gnrer quun processus stationnaire. Etant donn que la parole est constitue de
plusieurs sons diffrents, il est ncessaire de considrer plusieurs distributions. Chaque
distribution est modlise par un ensemble de paramtres qui seront dtermins sur base dun
ensemble dentrainement de faon minimiser la probabilit derreur. Pendant la
reconnaissance, nous recherchons alors, travers lespace de toutes les squences de
distributions possibles (dans les limites de contraintes phonologiques et, ventuellement,
39
Chapitre III La Reconnaissance Automatique de la Parole
syntaxiques), la squence de modles (et donc de la phrase (mot) associe) qui maximise la
probabilit a posteriori par exemple.
La chane interne : est une chane de Markov que lon suppose chaque instant dans un
tat o la fonction alatoire correspondante engendre un segment lmentaire (de lordre de
40
Chapitre III La Reconnaissance Automatique de la Parole
Un des grands intrts des MMC rside dans lautomatisation de lapprentissage des
diffrents paramtres et distributions de probabilits du modle partir de donnes
acoustiques reprsentatives de lapplication considre, essentiellement les probabilits de
transition dun tat du MMC un autre tat et surtout les lois dmission. Ces lois
dmissions (probabilits) sont en gnral reprsentes sous forme dune somme de fonctions
gaussiennes (parfois plusieurs (GMM), permettant de mieux approcher la loi relle du
phnomne), comme lillustre la figure III.2. Cet apprentissage est assur par des algorithmes
itratifs destimation des paramtres, notamment lalgorithme de Baum-Welch (IV.5.2), cas
particulier de lalgorithme EM (Expectation-Maximisation) fond sur le principe de
maximum de vraisemblance.
Les MMC peuvent tre utiliss de plusieurs faons en RAP, selon limportance de
lapplication (taille du vocabulaire et type de parole : mots isols ou parole continue).
Pour la reconnaissance de mots isols, il est possible de modliser chaque mot par un
MMC, La reconnaissance revient alors calculer la vraisemblance de la suite dobservations
acoustiques constituant le mot reconnatre par rapport chacun des modles. Le modle
prsentant la plus grande vraisemblance davoir mis cette suite dobservations fournit le mot
reconnu. Lalgorithme permettant doptimiser ce calcul est nouveau fond sur la
programmation dynamique, mais dans un cadre stochastique, lalgorithme de Viterbi (IV.4.4).
41
Chapitre III La Reconnaissance Automatique de la Parole
Ces units peuvent tre de nature varie : phonmes, diphones, syllabe, fenone,
allophones.
Les modles de mots sont construits par concatnation des modles analytiques
lmentaires correspondant aux transcriptions phontiques de ces mots. Pour mettre au point
des MMC aussi indpendants du locuteur que possible, il est ncessaire daugmenter le
nombre de paramtres des MMC.
42
Chapitre III La Reconnaissance Automatique de la Parole
La figure III.3 illustre le fonctionnement dun perceptron avec une couche cache.
Lhybridation dun MMC avec un rseau neuronal est intressante du fait des proprits
discriminantes du rseau neuronal. Lhybridation dun MMC avec dautres classifieurs
discriminants sest rvle intressante en RAP, notamment les SVM.
Pour ajouter des paramtres neuronaux, aux paramtres calculs partir du signal de
parole par une des mthodes exposes au chapitre 2, notamment les paramtres cepstraux. On
utilise dans ce cas la capacit dun rseau neuronal modliser une distribution de
43
Chapitre III La Reconnaissance Automatique de la Parole
Le signal de parole est analys par une des mthodes prsentes au chapitre 2. Un mot ou
une phrase en entre du systme est ainsi reprsent comme une suite de vecteurs de
paramtres. La reconnaissance revient trouver la suite de mots a, forme de n mots, n > 1
ntant pas connu a priori, dont la probabilit conditionnelle b a connaissant lentre
est maximale.
b a est la probabilit de la suite de mots a dans le langage utilis. Elle est fournie
par un modle de langage ML.
44
Chapitre III La Reconnaissance Automatique de la Parole
Conclusion
Le chapitre suivant sera consacr la dfinition des Models de Markov Cachs , les
algorithmes dentrainements et de reconnaissance qui ont contribuer grandement , la thorie
et la recherches sur les Modles de Markov cachs et qui leurs ont permis de sappliquer et de
simposer dans beaucoup de domaines .
De nos jours, les MMC, sont un outil largement utilis dans beaucoup de domaines,
incontournable en termes defficacits et performances dans le domaine de la reconnaissance
automatique de la parole.
45
CHAPITRE IV : LES MODLES
DE MARKOV CACHS
Chapitre IV Les Modles de Markov Cachs
Introduction
Les modles de Markov cachs sont des outils statistiques permettant de modliser des
phnomnes stochastiques. Ces modles sont utiliss dans de nombreux domaines [17] tels
que la reconnaissance et la synthse de la parole, la biologie, lordonnancement, lindexation
de documents, la reconnaissance dimages, la prdiction de sries temporelles, Pour
pouvoir utiliser ces modles efficacement, il est ncessaire den connaitre les principes.
Ce chapitre a pour objectif dtablir les principes, les notations utiles et les principaux
algorithmes qui constituent la thorie des modles de Markov cachs (MMC).
A cet effet, nous commenons en prsentant un historique des tapes les plus marquantes
dans la construction de cette thorie. Aprs avoir dfini ce que sont les chaines de Markov,
nous verrons que pour mieux modliser les phnomnes tudis, il est ncessaire de
considrer un modle ayant un pouvoir dexpression suprieur. Les modles de Markov
cachs (MMC) en font partie. Nous prsentons alors les MMC. La suite sattache prsenter
les algorithmes classiques des MMC pour le dcodage\seguementation o la reconnaissance:
Forward, Backward et de Viterbi. La dernire section de ce chapitre est consacre aux
diffrents critres utilisables classiquement pour lapprentissage de MMC. Finalement, nous
terminons chapitre par plusieurs remarques sur les critres dapprentissage.
IV.1. Historique
Les modles de Markov cachs ont une longue histoire derrire eux. En 1913, les
premiers travaux sur les chaines de markov pour lanalyse du langage permettent A.A.
Markov de concevoir la thorie des chaines de Markov [18]. De 1948 1951, Shannon
conoit la thorie de linformation en utilisant les chaines de Markov [19].
46
Chapitre IV Les Modles de Markov Cachs
dobservations, pour le calcul de la squence dtats cachs. En 1970, les termes modles de
Markov cachs ou chaines de Markov caches ( hidden Markov models) mis au point
par L. P. Neuwirt afin de remplacer lappellation fonction probabiliste dune chaine de
markov utilise jusque l [27].
partir de 1975, les modles de Markov cachs ont commenc tre utiliss dans de
nombreux domaines, parmi lesquelles la reconnaissance automatique de la parole [28]. Les
premiers travaux sur les modles de Markov cachs pour la reconnaissance automatique de la
parole ont t mens en parallle par le groupe IBM compos de L. R. Bahl et F. Jelinek [29]
et par J. K. Baker au CMU [30]. Ces travaux ont permis de dcouvrir les capacits des
modles de Markov cachs pour la reconnaissance de la parole.
Dans les annes 1980, les modles de Markov cachs incorporant des rseaux de
neurones apparaissent [31]. Depuis lors, ces nouveaux modles ont t trs largement utiliss
pour la reconnaissance de mots isols [32],pour la reconnaissance de mots enchains [33],
pour la reconnaissance de la parole continue [34] ou pour la localisation de mots dans une
phrase [35].
partir des annes 1990, sont mises en uvre les premires applications la
reconnaissance dimages [36] et de lcriture apparaissent [37].
Rcemment, les modles de Markov cachs ont mme t utiliss pour lordonnancement
de taches [38] et les technologies [39].
Les modles de markov cachs sont une famille doutils mathmatiques probabilistes
parfaitement adapts la modlisation de squences temporelles. Il existe plusieurs types de
modles de markov cachs afin de mieux rpondre des problmes spcifiques. Dans le cadre
de notre travail et plus particulirement de ce chapitre, nous nous intresserons principalement
aux modles de markov cachs discrets du premier ordre, que nous abrgerons par la suite en
MMC. Pour pouvoir prsenter les MMC, il est ncessaire de commencer par prsenter les
modles de Markov et les proprits qui leurs sont associes.
47
Chapitre IV Les Modles de Markov Cachs
En calcul des probabilits, on dfinit une variable alatoire v. a. relle comme une
fonction mesurable : e f g. e est appel lunivers. Dans de nombreux cas de figures, e
est lensemble des rels g, lensemble des entiers positifs h ou un de leurs sous-ensembles.
:e f g
l est dnombrable ou fini. Dans ce cas et pour simplifier les notations ultrieures, il est
toujours possible de prendre l n o i , , j. Cette condition signifie que le processus ne
change de valeur qu des instants dtermins a priori.
Lensemble m des tats du processus est dnombrable. Dans la suite, nous supposerons
galement que m est fini. Nous pouvons alors dfinir m ip , , p j cet ensemble.
48
Chapitre IV Les Modles de Markov Cachs
b E s E s ,,E s b E s E s 12
Homognit dune chaine de Markov : Une chaine de Markov est homogne (dans
le temps) si et seulement si les probabilits de transition ne dpendent pas du temps t
les probabilits de transition sont stationnaires , cest--dire que pour tout , u
k
l , on a :
b/E 7 p! E p1 b E v7 p! E v p
Une chaine de Markov homogne est donc totalement dfinie par la donne des tats, des
probabilits des tats initiaux w et des probabilits des transitions entre tats A avec :
"
w x y z " ,," u
" b E p
"
Pour tout , ~ B ~ , B .
si Pour tout ! , ~ 8 ,! ~ ,
Pour tout , ! 8 ,! .
49
Chapitre IV Les Modles de Markov Cachs
Une matrice est stochastique si et seulement si les lignes qui la composent sont des
vecteurs stochastiques.
Le systme est forcment dans un et un seul tat particulier au dpart donc est un
vecteur stochastique. 5 est une matrice stochastique car, en partant dans un tat p linstant
, le processus transite forcment vers lun des tats du systme au temps * .
un graphe + dont lensemble des sommets est en bijection avec lensemble des tats m
et dont lensemble des arcs (orients dans le sens des transitions) est dfini par
p , p! k ' ,! 0
Afin de simplifier les notations, lensemble des sommets du graphe + est reprsent par
lensemble m. La figure IV.5 prsente la reprsentation graphique associe la chaine de
Markov w, 5 .
50
Chapitre IV Les Modles de Markov Cachs
Cependant, dans certains cas, ces modles ne permettent pas dexprimer le comportement
du systme avec suffisamment de prcision. Pour amliorer cette prcision, les modles de
Markov cachs ont t dvelopps.
Un modle de Markov cach discret du premier ordre est alors dfini par les probabilits
suivantes :
b | B! E p .
Si le modle de Markov cach est stationnaire alors les probabilits de transition entre
tats cachs et les probabilits dmission des symboles dans chaque tat cach sont
indpendantes du temps 1.
51
Chapitre IV Les Modles de Markov Cachs
cachs stationnaires du premier ordre. Les relations de dpendance entre les diffrentes
variables alatoires dun MMC sont schmatises par la figure . Dans cette reprsentation, les
flches partent de la v. a. qui conditionne et se terminent au niveau de la variable alatoire
conditionne. Dans la figure IV.7, seules les transitions au temps 0 , et * sont
reprsentes.
b | , E r5 , , w
Ou plus simplement
b | , E r
b | , E r b | E r, b E r
De plus,
b | E r, b | ^ E s ,
b E r b E s b E7 s 7 E s ,
A partir dun MMC , dune squence dtats cachs r et dune squence dobservations
, il est possible de calculer ladquation entre le modle et les deux squences r et .
52
Chapitre IV Les Modles de Markov Cachs
Lorsque la squence dtats cachs nest pas connue, il est possible dvaluer la
vraisemblance dune squence dobservation par rapport un modle . La vraisemblance
correspond la probabilit b | que la squence dobservations ait t engendre par
le modle pour lensemble des squences dtats cachs possibles. On remarque alors que la
formule suivante est vrifie :
b | rkE b | , E r
Pour prsenter rapidement cet algorithme, il est ncessaire de dfinir les variables
Forward [28] (pour tout et ):
b | ^ ,E p
b | ^ ,,| ^ ,E p
On remarque alors que la relation de rcurrence suivante est vrifie pour tout
0 et ! .
7 ! ! ^ 7 ' ,!
53
Chapitre IV Les Modles de Markov Cachs
Pour faire
" ^
Fin pour
Pour 0 Faire
Pour ! Faire
7 ! '! ^7
Fin Pour
Fin pour
b |
u
u !
! ' ,! . ! ^
. .
par 4 v
. On pose u avec .
b |
54
Chapitre IV Les Modles de Markov Cachs
@A b | @A 0 @A
Pour Faire
u " ^
Fin pour
4 v
Pour Faire
u
Fin Pour
Pour 0 Faire
Pour ! Faire
7 !
u
/ ' ! 1! ^ 7
Fin Pour
!4 v !
Pour ! Faire
7 !
7 !
u
Fin Pour
Fin pour
b |
Bien que le problme du calcul de la vraisemblance soit rsolu, nous allons galement
prsenter lalgorithme Backward [36] qui permet aussi de calculer la vraisemblance et qui
surtout sera ncessaire dans les sections ultrieurs, notamment pour lapprentissage. Les
variables Backward sont dfinies par
(pour tout et 0 ):
b | 7 ^ 7 ,,| ^ E p
' ,! 7 ^7
b | " ^
Lalgorithme Backward, de mme complexit que lalgorithme Forward, est donn par
lalgorithme IV.3.
55
Chapitre IV Les Modles de Markov Cachs
Pour Faire
Fin Pour
Pour 0 Faire
Pour Faire
! ' ! 7 ! ! ^ 7
Fin Pour
Fin Pour
b | " ^
! ' ,! ! ^ 7
7 !
On pourra remarquer que les coefficients O sont ceux calculs prcdemment pour
lalgorithme Forward avec r-chelonnement.
` b |
` 7 b |
Lalgorithme Backward avec r-chelonnement [28] est donn par lalgorithme IV.4. Sa
complexit est identique celle de lalgorithme Backward, cest--dire . On remarque
galement que le calcul de par cet algorithme offre peu dintrt, car il ncessite
de connaitre les coefficients de lalgorithme Forward avec r-chelonnement.
56
Chapitre IV Les Modles de Markov Cachs
Pour Faire
Fin Pour
Pour 0 Faire
Pour Faire
!
' ,! 7 ! ! ^ 7
A partir des variables Forward et Backward, avec ou sans r-chelonnement, il nous est
dores et dj possible dexprimer deux probabilits utiles.
b | , E p
b |
b/| , E p ,E 7 p! 1 ' ,! ! ^ 7 7 !
' ,! ! ^ 7 7 !
b |
57
Chapitre IV Les Modles de Markov Cachs
so N 8' b | , E p
Il est donc ncessaire, daprs la formule 1.1, de calculer en premier lieu les variables
Forward et Backward. Malgr sa formulation simple, le recherche de ltat cach le plus
probable chaque instant a une complexit en . De plus, la squence ro obtenue peut
tre inconsistante, dans le sens o b | , E ro . En effet, il est possible que la
transition entre deux tats p et p! existe dans la squence ro , alors que la probabilit ' ,! est
nulle.
ro N 8' rkm b | , E r
On dfinit
58
Chapitre IV Les Modles de Markov Cachs
Pour Faire
" ^
Fin Pour
Pour Faire
Pour ! Faire
! '_8' { { ' !
! 8' { { / ! 1' ! .! ! ^
Fin Pour
Fin Pour
so '_ 8' { { i j
b | , E ro 8' { { i j so
Pour 0 Faire
so 7 so7
Algorithme. IV.5 :Algorithme de Viterbi
Tout comme les algorithmes Forward et Backward, cet algorithme souffre de problmes
lis limplmentation. Pour les rsoudre, il est galement ncessaire de mettre en place une
stratgie de r-chelonnement. A cet effet, on dfinit
8' s ,,s 3 km 3 @A b E s ,,E s ,E p ,| ^ ,,|
^
Lalgorithme de Viterbi avec r-chelonnement [28] est alors donn par lalgorithme 6.
Sa complexit est , cependant, le calcul des logarithmes peut davrer plus couteux.
Pour Faire
; " *; ^
Fin Pour
Pour Faire
Pour ! Faire
! '_8' { { * ; ' !
!
8' { { * ; ' ! * ; ! ^
! * ; ' ! .! * ; ! ^
Fin Pour
Fin Pour
so '_8' { {
; b | , E r o
8' { { so
0 Faire
7 so7
Pour
so
Fin Pour
59
Chapitre IV Les Modles de Markov Cachs
60
Chapitre IV Les Modles de Markov Cachs
Dans cet algorithme, le coefficient de lissage est identique pour toutes les probabilits,
mais rien nempche de le choisir diffrent pour chacune delles, afin dinclure des
connaissances expertes dans lapprentissage.
,
,! , ,!
,! J, . ,!
Pour Faire
Incrmenter s
Pour Faire
Incrmenter s , ^
Si Alors
Incrmenter .s , s 7
Fin Si
Fin Pour
*
Fin Pour
,"
*
* ,!
,! , ' ,!
* ,
* . ,!
,! J, !
J * J . ,
Algorithme IV.8 : Apprentissage tiquet avec lissage
61
Chapitre IV Les Modles de Markov Cachs
8, 8u k b ,J 8u @A b , J 8
-k @A b , J 8 ,J 8u
Lalgorithme EM [40] consiste donc construire, partir dun modle initial 8 , une
suite de modles 8 P vrifiant
8 7 ,8 8 ,8
Une condition suffisante est alors de rechercher le modle -7 qui maximise la fonction
8 7 , 8 . La suite 8 P vrifie, pour tout 1 et 8 7 8 , la relation
b J 8 7 J 8
62
Chapitre IV Les Modles de Markov Cachs
^ , u rkm b E r| , u @A b | , E r
" b E p , u
43 b/E p ,E p! | ,v 1
' ,! 43 b E p | ,v
4 b/E p | ,v 1 ^ !
! 4 b E p | ,v
On peut alors remarquer que le principe reste similaire celui de lapprentissage tiquet
du paragraphe IV.4.1, la diffrence que ltiquetage seffectue en probabilit avant r-
estimation.
Dune manire nave, les probabilits utilises pour la r-estimation des matrices peuvent
tre obtenues par les algorithmes Forward et Backward. Cependant, toujours pour des
problmes dimplmentation numriques, on utilise plutt leurs versions utilisant les
algorithmes avec r-chelonnement.
63
Chapitre IV Les Modles de Markov Cachs
Rpter
*
Calculer les variables Forward et Backward pour
le model
Calculer w
Calculer 5
Calculer
Tant que /b | | 1
8'
Une solution simple consiste re-paramtrer les MMC avec des variables prenant leurs
valeurs dans lespace rel laide des quations suivantes :
YK
~ ,! ~ , ' ,!
,!
4 YK ,
YK ,!
~ ~ , ~ ! ~ J, ! J4 YK ,
YK ,
~ ~ , " 4 YK ,
Si lon suppose que les coefficients des matrices stochastiques sont strictement positifs,
alors il existe au moins une solution ces quations. Un MMC est alors parfaitement dfini
par les trois matrices stochastiques 5, , w ou les trois matrices relles , , , .
Dans le cas o tous les coefficients ne sont pas strictement positifs, il est toujours
possible de fixer le coefficient nul une valeur trs petite, mais non nulle, de manire ne pas
trop dformer le modle.
64
Chapitre IV Les Modles de Markov Cachs
Il est intressant de noter que les paramtres ,! , ,! et . ne sont pas uniques. En effet,
lajout dune constante commune chaque bloc de variables stochastique donne des valeurs
vrifiant galement les quations. Pour passer des coefficients ' ,! , ! et " aux coefficients
,! @A ' ,!
,! @A !
. @A "
2| RS ~
@A RSALA
B. Calcul du gradient
b |
c c
b | c
b |
' ,! ! ^ ! 0 ' ,!
,!
65
Chapitre IV Les Modles de Markov Cachs
b |
^ ! 0 !
,!
b |
" ^ 0" b |
.
3
b |
! 0 ' ,!
' ,! ! ^
3
b | ,! 3
b |
^ ! !
b | ,!
b |
" ^ 0"
b | .
Cependant, il faut garder lesprit que ce calcul est couteux en temps machine. Sa
complexit est * J .
66
Chapitre IV Les Modles de Markov Cachs
Le lecteur pourra remarquer que cet algorithme est proche de lalgorithme de segmental
k-means de la section 9: seul le mode de gnration de la squence dtats cachs change.
Le critre de maximum a posteriori MAP trouve son intrt dans la thorie de la dcision
baysienne. Jusqu' maintenant, nous avons considr des critres doptimisation des modles
utilisant la rgle de dcision suivante :
Bien que la notion de plus probablement mise soit couramment utilise afin de dire
appartient , cest--dire, pour notre exemple, que la squence dobservation appartient
la classe modlise par , rien ne garantit que ce choix soit optimal.
67
Chapitre IV Les Modles de Markov Cachs
Ce critre pose problme, car nous ne savons pas comment exprimer ces probabilits.
Cependant, en transformant ces probabilits, on obtient :
b | b
b |
b |
La premire remarque que lon peut faire est que les probabilits b | peuvent tre
ignores car, dans la rgle de dcision baysienne, elles peuvent tre simplifies.
Lapprentissage des modles avec le critre MAP dpend trs fortement des objectifs
viss.
Lorsque les modles sont appris sparment lobjectif est alors de maximiser la
probabilit b | , cest--dire, aprs simplification, maximiser b | b .
Si la probabilit b sexprime indpendamment des valeurs prises par les matrices
stochastiques qui le dfinissent, alors les deux probabilits peuvent tre apprises sparment.
Pour la probabilit b | , il suffit dutiliser le critre de maximum de vraisemblance et
pour la probabilit b on utilise gnralement une estimation statistique de lapparition de
ce modle.
Dans le cas o lexpression de b dpend des valeurs prises par les paramtres du
modle, il nest pas possible dutiliser le critre de maximum de vraisemblance.
Une solution consiste alors utiliser une descente de gradient afin de maximiser le critre
@A b | * @A b condition que b soit diffrentiable. Lorsque le critre devient
68
Chapitre IV Les Modles de Markov Cachs
Lun des buts principaux de lapprentissage de MMC est deffectuer une classification.
En effet, on cherche souvent, partir dune observation , dcider de manire automatique
quelle autre observation elle ressemble le plus et surtout dcider quelle classe de
squences dobservations elle appartient rellement.
La premire forme du critre de MIM sattache diffrentier les modles par leurs
vraisemblances. A cet effet, on cherche maximiser la vraisemblance de la squence
69
Chapitre IV Les Modles de Markov Cachs
Ce critre peut prendre plusieurs formes. La forme prsente ci-aprs est celle dcrite
dans [28]. Cette forme est intressante, car elle permet de grer facilement les problmes de
prcision numrique.
b |
88 4 b |
@A 8 8 @A b | 0 @A b |
Pour optimiser ce critre, il est alors possible dutiliser une descente de gradient, Il est
donc ncessaire de calculer le gradient de . Ce dernier est donn par lquation suivante :
b | b |
0
b | b |
Or ce gradient nest autre quune combinaison linaire des gradients calculs la section
6. Pour cela, on note
, , les variables Forward et Backward avec r-
chelonnement et les coefficients de r-chelonnement calculs pour la squence
dobservation . On note
, , et les variables Forward et Backward avec r-
chelonnement . Alors, en reprenant les quations de la section prcdente, on obtient
3
! 0 ' ,!
' ,! ! ^
3
,! 3
3
0
' ,! ! / ! 0 ' ,!
1
3
3
^ ! !
,!
70
Chapitre IV Les Modles de Markov Cachs
/ !1 !
0
Et
" ^ 0"
.
0 "/
1 0"
, 2 0
Avec
2 0 k b @A b
Et
b | ! ,
k ! k b | ! , @A
b b | !
Si lon considre que les probabilits b | sont constantes et que les probabilits
b | ! sont nulles, sauf quand ! , alors minimiser , est quivalent
maximiser [47] :
b/| ! ! 1b
k ! k
k b/| ! 1b
Avec ! k /! 1 .
71
Chapitre IV Les Modles de Markov Cachs
Une fois tiquete, la squence est alors apprise par comptage des transitions effectives
entre les tats et les missions de symboles. Cette tape peut alors tre considre comme un
k-means consistant r-estimer les centres des classes ;
Le nouveau modle est alors utilis comme modle initial et les deux oprations
prcdentes sont rptes tant que ncessaire.
b | , E ro , ro 7 7
72
Chapitre IV Les Modles de Markov Cachs
Rpter
*
ro
| ,
Estimer partir de ro
Tant que b | , E ro ,
ro
Algorithme IV.10 : Algorithme de segmental k-means
Lalgorithme de segmental k-means peut galement tre utilis avec plusieurs squences
dobservations. Pour cela, il suffit de considrer le critre dapprentissage
b | r ,E r o
Cet algorithme est parfois utilis en raison de sa rapidit en lieu et place de lalgorithme
de Baum-Welch, en considrant lhypothse suivante : les probabilits compltes b |
, E r sont nulles ou ngligeables pour toutes les squences dtats, lexception de
celle de la squence ro de Viterbi associe. Par consquent, maximiser, b | est
quivalent maximiser b | , E ro . Bien quil soit possible de trouver des modles
pathologiques contredisant cette hypothse, dans la pratique, lhypothse est souvent
confirme.
Ce critre a pour objectif de minimiser le taux derreur de classification avec une dcision
soumise au critre MAP. Pour le dcrire brivement, on considre un ensemble
i , j de squences dobservations ainsi que le numro de la classe qui leur sont
associs. Soit i , , j les classes apprendre et i , , j les MMC associs.
73
Chapitre IV Les Modles de Markov Cachs
b | 8 b 8
0 8 k, 8 b | b
;4 ; ;
b | 8
8 k, 8 b |
;4 ;
Il suffit alors dutiliser une descente de gradient sur lensemble des paramtres
i , , j pour maximiser et donc minimiser .
Pour que lapproximation effectue soit valable, il est ncessaire que les modles initiaux
utiliss par la descente de gradient aient t obtenus par la maximisation de k b |
par un des algorithmes de maximisation de la vraisemblance dcrit
prcdemment.
Bien que ce critre semble intressant, il nobtient pas toujours de bons rsultats. En effet,
minimiser ne garantit aucunement que ce taux sera faible sur un ensemble dobservations
autre que celui utilis pour lapprentissage.
b | !
k 8' ! k ! @A b |
|-| / 1
p .
.
p ^
Avec
Ce critre nest pas drivable, ni mme continu. Pour lapprocher sous forme continue, il
suffit dutiliser une sigmode * .
la place de . et loprateur softmax @A .
|-|
k
7YK @A b | / 1 @A ! k b | !
74
Chapitre IV Les Modles de Markov Cachs
Comme nous venons de le voir, de nombreux critres peuvent tre considrs pour
lapprentissage de modles de Markov cachs. Les critres que nous avons dcrits dans ce
chapitre ne sont pas les seuls envisageables, mais ce sont les plus couramment utiliss. De
plus, la dmonstration des algorithmes dapprentissage fournit la majorit des outils
ncessaires la conception des algorithmes dapprentissage pour tous les critres
envisageables.
Tous les algorithmes dapprentissage de ce chapitre nont pas la mme complexit. Pour
faciliter le choix la fois du critre et de lalgorithme de rsolution, nous avons construit le
tableau suivant.
TAB. IV.1 complexit associe aux algorithmes en fonction des critres optimiss
75
Chapitre IV Les Modles de Markov Cachs
Il est intressant de remarquer que lalgorithme de segmental k-means peut tre beaucoup
plus rapide que lalgorithme de Baum-Welch. En effet, il est trs courant que le nombre de
symbole J soit beaucoup plus grand que le nombre des tats cachs. Dans ces conditions,
lorsque la longueur de la squence dobservations augmente, le terme dominant dans la
complexit de lalgorithme de Baum-Welch est J tandis que pour lalgorithme de
segmental k-means, ce terme dominant est . Par consquent, pour J }, lalgorithme
de segmental k-means est plus rapide que lalgorithme de Baum-Welch lorsque la longueur de
la squence dobservations augmente.
Un autre point important est que la complexit du calcul du gradient est du mme ordre
que celle de lalgorithme de Baum-Welch. Cette proprit est intressante car elle signifie, a
priori, quil nest pas forcment beaucoup plus couteux dutiliser des critres tels que la
maximisation de linformation mutuelle ou le critre MAP simple. En effet, on remarque que
la complexit de loptimisation de ces critres est linaire en fonction de la longueur totale des
squences dobservations impliques. Cependant, la descente de gradient peut ncessiter
deffectuer ce calcul plusieurs fois avant damliorer un modle et par consquent lapproche
par descente de gradient est considre comme tant relativement couteuse.
Conclusion
76
Chapitre IV Les Modles de Markov Cachs
Le chapitre suivant, sera consacr dcrire notre mise en uvre. La mise en pratique de
notre tude sur la parole. Nous allons procder limplmentation informatique des modles
de markov cachs pour la reconnaissance automatique de la parole (RAP). La premire sous
matlab et la second sous la plate forme HTK, lune des plus utilise actuellement dans le
domaine de la RAP.
77
CHAPITRE V :
IMPLEMENTATION DE LA
RECONNAISSANCE
AUTOMATIQUE PAR MMC
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
Introduction
Dans ce travail nous avons dvelopp deux systmes, le premier sous Matlab et le second
sous HTK et o lobjectif est la reconnaissance automatique de la parole qui seffectuera sous
la base de donnes parole TIdigit constitue dun ensemble dapprentissage et dun ensemble
de test. La base TIdigit [49] pour Texas Instruments digits est parmi les premires bases de
donnes de parole destines des applications de traitement de la parole. Conu initialement
des fins dvaluation des algorithmes de reconnaissance de la parole indpendante du
locuteur, elle contient 77 squences de digits connects prononcs par 326 locuteurs dont 114
femmes, 111 hommes, 51 filles et 50 garons.
Lobjectif que nous nous sommes fix consiste reconnaitre les chiffre un onze
prononc par les diffrents locuteurs de la base de donnes. Par ailleurs, nous effectuons une
comparaison des taux de reconnaissance entre le systme conu sous matlab (approche
acoustique) et le systme conu sous HTK avec dpendance contextuelle.
Un systme de RAP continue est un systme destin reconnaitre des phrase plus au
moins longue avec ses hsitation et ses liaisonsetc. Etant donn la complexit du problme,
le formalisme de reconnaissance de la parole ncessite une dcomposition en plusieurs
oprations lmentaire qui sont les suivantes:
78
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
Phrase
Parole reconnue
79
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
Le schma prcdant est une sructure gnrale qui ne tient pas compte de loutil de
traitement utilis en loccurrence les MMC. Dans le cas dun systme de reconnaissance par
MMC, le schma gnrale se prsente comme suit :
Architecture gnrale
Sous une vue plus dtaill, on retrouve les diffrents blocs qui se prsente dans le schma
suivant.
Parole
Phrase
reconnue
Classification Classification
MFCC Niveau Mots Niveau phrases
80
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
Dans ce schma, les blocs (grammaire, smantique) font partie du modle de language,
par contre le cylindre (Modles sous unit mots) fait rfrence au modle acoustique, quand
aux blocs de classification font partie des algorithme dentrainement et de reconnaissance.
V.4.1.Organigramme gnrale
Notre application est prvu pour la base TIdigit [49], qui est une base de donnes paroles
constitue des chiffres un onze en anglais et prononce par plusieurs locuteurs, pour cela,
nous avons prvu onze modle , un pour chaque chiffre qui seront entrains avec
les donne dapprentissage dont le but de la reconnaissance.
Sequences
P(O )
Calcul des
dObservation Probabilits
(O)
u -6 ] \
Extraction HMM pour le mot
1~ ~
des numro 2
paramtres
P(O )
acoustiques
pertinents Calcul des
Probabilits
MFCC
y
Slection du
y
Maximum
y y
y
Signal
de
parole HMM pour le mot
numro 11
81
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
La premire tape de traitement des donnes parole et ltape dextraction des paramtres
acoustique, qui dans notre cas est la Mel frquency cepstral cofficient (dtaille en annexe
B). Le choix sest port sur les 13 premiers coefficients MFCC except le coefficient OP qui
est substitu par le logarithme de lnergie du signal. Pour chaque coefficient, on attribue une
drive premire (13 drives premires au total) ainsi quune drive seconde (13 drives
secondes) pour prendre en compte la dynamique du signal. En somme, on obtient un vecteur
acoustique de 39 coefficients correspondant chaque trame du signal
Organigramme
Log(P)
energy
Drivs
IDFT
Chacun des onze modles MMC choisi est un modle gauche droite Cinque tats
parfaitement adapt et le plus utilis du fait quil tient compte du caractre squentiel de la
parole. Chaque tat met des observations modlises avec une simple gaussienne dans notre
application.
82
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
Lorganigramme dapprentissage (Baum welch) des modles avec les donnes parole
dentrainement de la base Tidigit peut tre schmatis comme suit. le critre discriminatoire
est le critre du Maximum de vraisemblance (chapitre IV).
Model
Dinitialisation
Non
Segmentation
squence dtats
Convergence
Paramtre
Model Du Model
Restimation
83
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
Dans ce tableau nous prsentons diffrent test qui sont fait en variant le nombre dtats du
modle MMC choisit puis en variant le nombre de donnes parole dapprentissage. Les
rsultats obtenus sont rsums dans le tableau suivant :
84
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
Nous utiliserons la mme base de donne TIdigit et essaierons de reconnaitre les chiffres
un onze de cette base, puis nous comparerons les taux de reconnaissance ceux obtenue par
la premire mthode sous matlab.
Afin de concevoir notre systme, on se base sur des units acoustiques de type
monophone indpandante. On commence par dfinir les ressources ncessaires dont on a
besoin par la suite. On dfinit, alors, le modle de langage, appel aussi lexique ou grammaire
(TAB.V.2), qui dcrit lenchainement des mots. Ensuite, on construit le rseau de mots
(wdnet) et le dictionnaire (TAB. V.1) respectivement, grce aux outils HTK HParse et
HDMan .
Pour la base de donnes TIdigits, qui est une base de chiffres en anglais, le vocabulaire
est assez limit, do la simplicit de dfinir le dictionnaire et la grammaire (TAB V.1 et TAB
V.2).
f ; k ; n ; r ;s ;t ;v ;w ;z ;sil ;ah ;ao ;ax ;ay ;eh ;ey ;ih ;iy ;ow ;th ;uw
85
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
prototype dinitialisation (TAB.V.5)). Ces paramtres du modle MMC seront restimes par la
suite lors de la phase dapprentissage.
86
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
Ensuite, on gnr un autre fichier modeles0 dans un autre rpertoire. Les modles
contenus dans ce fichier seront r estims suite deux itrations de lalgorithme de Baum
Welch reprsent par loutil HERest. Les derniers paramtres estims, ce stade, sont
sauvegards dans le rpertoire hmm7.
Amlioration des modles(GMM) : Les modles obtenus peuvent tre amliors par
utilisation de densits de probabilits dmission multi-gaussiennes au lieu de se contenter
dune simple loi normale. Cela permet deviter certaines hypothses grossires sur la forme
de la densit si le nombre de gaussiennes est suffisant. En effet, le choix du nombre optimal
de gaussiennes est un problme difficile. Un outil dHTK, HHEd ralise laugmentation du
87
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
Suite cette procdure les modles sont de plus en plus prcis. Le seul inconvnient est la
charge des calculs qui augmente son tour.
Le premier systme conu est bas sur une modlisation par monophones, les modles
sont ainsi hors contexte. Or, un systme plus robuste de reconnaissance de la parole continue
devrait au moins envisager les effets de la co-articulation et de la vitesse dlocution qui
peuvent limiter son efficacit. souvent on considre que la production de la parole est parfaite
et on oublie que le dbit de la parole peut sacclrer et que les organes phonatoires ne
peuvent pas suivre car ils sont limits dans leur dplacement. Tout ceci provoque une certaine
influence mutuelle suivant ou prcdant les sons produits qui altre leurs formes en fonction
du contexte gauche ou droit. Do lintrt des modles contextuels (diphones, triphones,...).
Ceux-ci prennent en compte la source de variabilit du signal de parole permettant ainsi une
meilleure modlisation, un gain significatif en prcision de la transcription et ainsi de
meilleures performances. Le seul inconvnient de telles approches est laugmentation de la
charge de calcul vu le trs grand nombre de modles contextuels existants. Suite ces
remarques, ltape prochaine consiste laborer un systme de reconnaissance de la parole dit
contextuel car bas sur des triphones (contextes gauche et droit dun phonme).
88
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
Monophones Triphones
Base de test (Acc%) 99,51% 99,47%
TAB.V.5 Performance des systme de reconnaissance base de monophones et triphones sur la base
de test et la base dapprentissage du corpus Tidigits
Daprs ce tableau, nos deux systmes bass sur une paramtrisation de type MFCC,
dtaille en Annexe B, sur une modlisation statistique de type HMM et sur une transcription
avec et sans contexte, donnent de trs bons rsultats.
Conclusion
89
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole
pour lapprentissage Automatique. Cependant, Les hypothses qui rendent loptimisation des
Modles de Markov Cachs possible limitent toutefois leurs gnralits et sans lorigine de
certaines de leurs faiblesses qui limitent les performances des systmes de RAP ( les donnes
lentre des MMCs sont supposes tre statiquement indpendantes, la corrlation
temporelle entre vecteurs acoustique est alors nglige. Aussi Lutilisation de MMCs de
premier ordre repose sur lhypothse, que la parole est galement un processus de Markov de
premier ordre, rendant la modlisation et lapprentissage de corrlations long terme
difficile). Beaucoup de variantes des MMCs (classique) prsent dans ce mmoire, existent, et
sont appliques dans les systmes de reconnaissance Automatique de la parole. De nos jours
LApproche MMC est la base de la plupart des systmes de Reconnaissance modernes
[50].
90
CONCLUSION GNRALE
Conclusion gnrale
Dans ce travail, notre objectif consiste dtudier le signal de parole afin de concevoir et
de dvelopper un systme pour son traitement et sa reconnaissance. Pour concevoir notre
systme, nous avons tudi ceux dj existants et avons choisi dutiliser une plateforme qui
nous a paru tre la plus performante, la plus utilise et celle qui a montr le plus ses preuves
actuellement, qui est la plateforme HTK, Hidden Markov Toolkit, base sur les modles de
Markov cachs.
Tout au long de ce travail nous avons abord diffrents aspects tout aussi importants les
uns que les autres. Nous avons commenc par comprendre le processus de gnration de la
parole par ltre humain puis nous nous sommes concentrs sur ltude des diffrents moyens
utiliss pour capter ce signal et le traiter. Par la suite, nous avons dcrit les modles de
Markov cachs qui sont utiliss dans de nombreux domaine dont celui du traitement de la
parole et avons finalement, choisi une plateforme base sur ces modles pour construire deux
systmes de reconnaissance automatique de la parole, le premier sous lenvironnement Matlab
et le second sous la plate forme HTK.
Nous avons, ainsi, raliser notre systme de reconnaissance de la parole sur la base de
donnes parole TIdigit, notre base de travail et avons obtenue des taux de reconnaissance plus
quapprciable, qui atteignant 99% dans le cas de lutilisation de HTK.
Malgr ces avances, les systmes actuels sont encore imparfaits. Les problmes
rsoudre reprsentent un des dfis les plus difficiles poss lintelligence artificielle. Un
important effort de recherche est ncessaire, notamment sur le plan de la robustesse des
mthodes de reconnaissance et de la conception de systmes de dialogue. Les travaux mener
ncessitent un effort pluridisciplinaire de collecte de signal vocal, mais aussi de modlisation
dun ensemble de faits et de connaissances sur la langue naturelle et sur les mcanismes de la
communication parle. Nous avons vu quune modlisation stochastique permet de rsoudre,
en partie, le problme, mais il nest pas exclu que lutilisation de connaissances explicites
revienne lordre du jour lavenir.
Pour clore, nous esprons, par ce travail, avoir dmontr limportance du sujet et la
ncessit de consacrer encore plus defforts et dtudes pouvant nous rapprocher rapidement
dune solution performante que seule notre imagination pourrait limiter.
91
ANNEXES
ANNEXE A : MISE EN UVRE
DELA RECONNAISSANCE
AUTOMATIQUE DE LA PAROLE
SOUS HTK.
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.
Introduction
HTK est une bote outils de modles de Markov cachs MMC, conue pour la
construction et la manipulation de ces modles. Cette bote est constitue dun ensemble de
modules bibliothque et doutils disponibles en codes sources C. Ces outils HTK sont conus
pour fonctionner en ligne de commande, gnralement sous lenvironnement linux avec le
Shell C. Chaque outil a un nombre darguments obligatoires en plus darguments optionnels
prfixs par le signe "". Le chapitre "Rfrence section" de louvrage htkbook [48] dcrit en
dtail tous les outils de la bote HTK ainsi que leurs arguments. Principalement, la bote
outils HTK est utilise pour la construction des systmes RAP bass sur les modles MMC
dans un but de recherche scientifique. Gnralement les deux processus indispensables pour le
fonctionnement dun RAP sont le processus dapprentissage et celui de reconnaissance (ou
dcodage). La figure A.1 illustre lenchanement de ces processus. Premirement, les outils
dapprentissage HTK sont utiliss pour estimer les paramtres de lensemble des modles
MMC en utilisant des signaux de parole ainsi que leurs transcriptions associes. Ensuite, les
signaux de parole inconnue sont transcrits en utilisant les outils de reconnaissance. Le lecteur
peut consulter le livre htkbook pour plus de dtails sur limplmentation des systmes RAP
sous la plateforme HTK.
94
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.
Cependant, avant deffectuer ces transcriptions, un dictionnaire des mots doit tre dfini
afin dtre utilis dans la phase dapprentissage et celle de test. Dans le cas dun systme bas
sur des modles HMM reprsentant des phonmes, la construction du dictionnaire seffectue
par loutil HDMan. De plus la grammaire de la tche considre doit tre dfinie en utilisant
loutil HParse. Cet outil gnre un rseau de mots dfinissant la grammaire considre dcris
sur la figure A.2.
95
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.
La dernire tape dans la phase de prparation des donnes est la conversion du signal de
chaque phrase en une squence de vecteurs acoustiques tel prsent sur la figure A.3. Cette
conversion est effectue par une analyse acoustique en utilisant loutil HCopie. Diffrents
types de paramtres acoustiques sont supports par cet outil comme : LPC, LPCC, MFCC,
PLP, FBANK (Log Mel-Filter Bank), MELSPEC (Linear Mel-Filter Bank), LPCEPSTRA
(LPC Cepstral Coefficients), LPREFC (Linear Prediction Reflection Coefficients), USER
(type dfini par lutilisateur).
La figure A.4 montre le principe de fonctionnement de cet outil pour la conversion dun
ensemble de fichiers parole dextension .wav en un ensemble de fichiers dextension .mfc
contenant des vecteurs de paramtres acoustiques MFCC. La liste de lensemble de ces
fichiers est donne dans un fichier appel codetr.dcp dont un extrait est fourni :
root/training/corpus/sig/S0001.wav root/training/corpus/mfcc/S0001.mfc
root/training/corpus/sig/S0002.wav root/training/corpus/mfcc/S0002.mfc
root/training/corpus/sig/S0003.wav root/training/corpus/mfcc/S0003.mfc..etc.
96
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.
La deuxime phase consiste construire les modles MMC des mots appartenant au
dictionnaire de la tche considre. Premirement, pour chaque mot, il faut dfinir un modle
prototype contenant la topologie choisie savoir le nombre dtats du modle, la disposition
de transitions entre les tats, le type de la loi de probabilit associe chaque tat. Ltat
initial et final de chaque modle nmettent pas des observations mais servent seulement la
connexion des modles dans la parole continue. Les probabilits dmissions associes aux
tats sont des mlanges de gaussiennes multivaries (GMM) dont les composantes sont les
probabilits a priori dfinies chacune par une matrice de covariance et un vecteur de
moyennes dans lespace des paramtres acoustiques. La matrice de covariance peut tre
97
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.
choisie diagonale si lon suppose l'indpendance entre les composantes des vecteurs
acoustiques.
Ces modles prototypes sont gnrs dans le but de dfinir la topologie globale des
modles HMM. Ainsi, lestimation de lensemble des paramtres de chaque modle MMC est
le rle du processus dapprentissage. Les diffrents outils dapprentissage sont illustrs dans
la figure A.5.
Selon cette figure, deux chaines de traitement peuvent tre envisags pour linitialisation
des modles MMC. La premire chane tient en compte des signaux tiquets en label de mot.
Dans ce cas, l'outil HInit extrait tous les segments correspondant au mot modlis et
initialise les probabilits d'mission des tats du modle au moyen de lalgorithme segmentale
k-means. Ensuite l'estimation des paramtres d'un modle est affine avec HRest, qui
applique l'algorithme optimal de Baum-Welch jusqu' la convergence et r estime les
probabilits d'mission et de transition.
Dans la deuxime chane, les signaux ne sont pas tiquets. Dans ce cas, tous les modles
MMC sont initialiss avec le mme modle dont les moyennes et les variances sont gales
respectivement la moyenne et la variance globales de tous les vecteurs acoustiques du
corpus dapprentissage. Cette opration est effectue par loutil HCompV.
98
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.
Aprs linitialisation des modles, l'outil HERest est appliqu en plusieurs itrations pour
r estimer simultanment l'ensemble des modles sur lensemble de toutes les squences de
vecteurs acoustiques non tiquets. Les modles obtenus peuvent tre amliors, en
augmentant par exemple le nombre de gaussiennes servants estimer la probabilit d'mission
d'une observation dans un tat. Cette augmentation est effectue par loutil HHEd. Les
modles doivent tre ensuite r estims par HRest , HERest.
La bote HTK fournit un outil de reconnaissance appel HVite qui permet la transcription
dune squence de vecteurs acoustiques en une squence de mots. Le processus de
reconnaissance est illustr dans la figure A.6.
HVite utilise l'algorithme de Viterbi pour trouver la squence d'tats la plus probable qui
gnre la squence dobservations (vecteurs acoustiques) selon un modle MMC composite,
ceci afin d'en dduire les mots correspondants. Le modle composite permet la succession des
modles acoustiques en fonction du rseau de mots qui dfinit la grammaire de la tche
considre.
Le rsultat de dcodage par loutil HVite est enregistr dans un fichier dextension (.mlf)
contenant ltiquetage en mots du signal dentre.
99
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.
Gnralement les performances des systmes RAP sont values sur un corpus de test
contenant un ensemble de fichiers dchantillons parole ainsi que leurs fichiers dtiquetage
associs. Les rsultats de reconnaissance des signaux du corpus de test sont compars aux
tiquettes de rfrence par un alignement dynamique ralis par HResults, afin de compter
les tiquettes identifies, omises, substitues par une autre, et insres. Ces statistiques
permettent de calculer le taux ou la prcision de reconnaissance.
100
ANNEXE B :
LA PARAMTRISATION MFCC
Annexe B : La paramtrisation MFCC.
Introduction
p p
"
O . X 0 . Q ^p G H 'B ~ ~ 0
3. Filtrage par un banc de filtres MEL : Cette opration permet dobtenir partir du
spectre E de chaque trame, un spectre modifi qui est en fait une suite de coefficients, not
E , reprsentant lnergie dans chaque bande frquentielle (dfinies sur lchelle Mel),
pour , , . En pratique, on utilise des filtres triangulaires de largeur de bande
constante et rgulirement espaces sur lchelle Mel (On peut par exemple choisir un
102
Annexe B : La paramtrisation MFCC.
espacement entre filtres de 150 mels et une largeur des filtres triangulaire prise leur base de
300 mels).
4. Calcul des coefficients MFCC : Les coefficients MFCC sont alors obtenus en
effectuant une transforme en cosinus discrte inverse du logarithme des coefficients E :
"
/@L E 1 LR F 0 I )^c , , , .
8 8 8 )^c ~8~r
La fentre de pondration cepstrale est en fait un filtre passe bande dont un choix
appropri peut tre :
r "8
8 * RSA F I )^c ~8~r
r
103
Annexe B : La paramtrisation MFCC.
8 8 *
104
BIBLIOGRAPHIE
Bibliographie
Bibliographie
106
Bibliographie
[20] W. Feller, An Introduction to probability theory and its applications, volume 1. John
Willey, New York, 2nd edition, 1958.
[21] H. O. Hartley, Maximum likelihood estimation from Incomplete Data. Biometrics,
14:147 194, 1958.
[17]O.Capp, Ten years of Hmms,http://www.tsi.enst.fr/cappe/docs/hmmbib.html,2001.
[20]W. Feller, An Introduction to probability theory and its applications, volume 1. John
Willey, New York, 2nd edition, 1958.
[22]P. Billingsley, Statistical inferance for Markov process, University of Chicago Press,
Chicagoc, 1961.
[25]A. J. Viterbi, Error Bounds for conventionnal codes and asymptotically optinium
decoding algorithm. IEEE transactions on information theory, 13: 260 269, 1967.
[26]Jr. Forney, G. D., The Viterbi Algorithme. In Procedings of IEEE, Vol. 61, pages
268 278, 1973
107
Bibliographie
[29]L. R. Bahl and F. Jelinek, Decoding For channels with insertions, deletions and
substitutions, with applications to speech recognition. IEEE Transactions Theory, 21:404 411,
1975.
[31]H. Bourland and C. Wellekens, Links Between Markov Models and multiplayer
perceptrons. IEEE transactions on Pattern Analysis and Machine Inteligence, 12(10):1 4,
1990.
[32]L. R. Rabinier & all., On the Application of vector Quantizisation and Hidden
Markov Models to Speaker-Independant isolated word recognition. The Bell System
Technical Journal, 62:1075 1105, 1983.
[36]F. Siamaria & A. Harter, Parameterisation of Stochastics model for human Face
Identification. In IEEE workshop on Applications of Computer Vision, Florida, 1994.
[37]A. Kundu & P. Bahl, Recognition of Handwritten script : a Hidden Markov model
based approach. In International Conference on Acoustics, Speech, Signal Processing
(ICASSP88), Pages 928 931, 1988.
108
Bibliographie
[38]A. Soukhal & all., Application des Chaines de Markov caches au problme
dordonnancement dans une cellule robotise. In Confrence Internationale sur la Productique
(CIP01), Pages 151 156, Algrie, 2001.
[40]A. P. Dempster & all., Maximum-Likelihood from incomplete Data via the EM
algorithm. Journal of the Royal Statistical Society B,39(1):1 39, 1977.
[43] G. Celeux & J. Diebolt, Une version de type recuit simule de lalgorithme EM.
[44]O. Capp & all., Simulation-based methods for blind maximum- likelihood filter
identification. Signal Processing, 73: 3 25,1999.
[46]B. H. Juang & L. R. Rabinier, The segmental k-means algorithm for estimating
parameters of hidden Markov models. IEEE transactions on acoustics, speech and signal
processing, 38(9):1639 1641, 1990.
[47]L. Saul & M. Rahim, Maximum likelihood and minimum classification error factor
analysis for automatic speech recognition. IEEE Transactions on Speech and audio
Precessing, 8(2): 115 125, 2000.
[48]S. Young & all., The htk book (For htk version 3.4). Cambridge University
Engenereering Departement, 2006.
109
Bibliographie
110