Você está na página 1de 113

Cours R.A.P, Aspects Pratiques Dr M.

Debyeche 1
Analyse du Signal de la Parole
en vue de sa Reconnaissance
Dr Mohamed DEBYECHE
PG: Communication Parle

LCPTS: Laboratoire de Communication Parle et Traitement des Signaux
Universit des Sciences et de la Technologie Houari Boumediene
Facult d Electronique et d Informatique
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 2
Plan du cours
Processus danalyse acoustique du signal de
parole
Acquisition et mise en forme du signal
Pr traitements acoustiques
Extraction des paramtres
Introduction
Prise en compte du canal de transmission
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 3
Introduction
Le premier tage de traitement dans un systme de R.A.P est
ltage acoustique.
La parole est un signal alatoire trs complexe qui contient
plusieurs types dinformations.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 4
Introduction
Ce signal vhicule un message linguistique qui sert la
communication entre individus.
Ce signal vhicule galement des informations sur
lindividu ayant prononc le message (les humains se
servent de ces informations pour identifier les personnes
quils connaissent, en particulier lorsquils ne peuvent pas
voir leur locuteur, au tlphone par exemple.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 5
Introduction
Le module danalyse acoustique a pour but dextraire les
paramtres pertinents pour la reconnaissance. Ces
paramtres permettent didentifier le message linguistique
vhicul par le signal de parole. Il est souhaitable que ces
paramtres soient aussi insensibles que possible aux
causes non linguistiques de variabilit tels que lidentit du
locuteur, les bruits environnants ou le canal de
transmission ( par exemple, la distorsion induite par une
ligne tlphonique ou un microphone inadapt).
Ces paramtres sont envoys par la suite au module de
dcodage qui identifie les sons prsents dans le signal.
Remarque: Si on cherche extraire du signal les informations sur
lindividu ( le locuteur) on est dans ce cas l dans le domaine de
la reconnaissance automatique du locuteur (R.A.L).
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 6
Processus d Analyse Acoustique du
Signal Vocal
Acquisition et
mise en forme
Pr traitements
acoustiques
Paramtrisation
du signal
Prise en compte
du canal de
transmission
Modlisation
Spectrale
Signal de parole
Vers le module de
dcodage
Chane de traitement acoustique d un systme de R.A.P
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 7
Processus d Analyse Acoustique du
Signal Vocal
Acquisition et mise en forme du signal
Filtre
passe-bas (Fc)
Signal de parole capt
par un microphone
pramplificateur
x(t)
CAN
Fe
b , q
x(n)
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 8
Processus d Analyse Acoustique du
Signal Vocal
Prise en compte du canal de transmission
Ce canal de transmission est en gnral assimil un filtre. Il
est possible dinclure dans ce canal des informations comme la
rponse impulsionnelle de la pice ou lenregistrement est
effectu, ou encore le bruit de fond.
Si lon prend comme exemple lenregistrement via un
microphone, la rponse en frquence de ce dernier introduit une
distorsion qui modifie les frquences identifiables dans le
signal.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 9
Processus d Analyse Acoustique du
Signal Vocal
Prise en compte du canal de transmission
Si lenregistrement de la voix est ralise par le biais dune ligne
tlphonique, la rduction frquentielle est encore plus forte. En
effet, dans ce cas, la bande passante se situe entre 300Hz et
3400Hz, ce qui limine toutes les autres frquences.
De plus, avec larrive des serveurs de reconnaissance distribue, le
canal peut aussi comporter une transmission via le rseau Internet.
Dans ce cas, nous parlerons de transmission de Voix sur IP (VoIP
pour Voice over IP en anglais). Les applications de visioconfrence,
entre autres, emploient de tels protocoles. Dans ce cas-l, le canal
provoque non seulement une distorsion due au codage de la voix
mais aussi, du fait que limplmentation de ces protocoles est base
sur UDP/IP, une perte de paquets et donc de donnes dans le signal
reconnatre.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 10
Processus d Analyse Acoustique du
Signal Vocal
Prise en compte du canal de transmission
IP : Internet Protocol
Cest la partie la plus fondamentale dInternet. Si vous voulez
envoyer des donnes sur Internet, vous devez les emballer dans
un paquet IP. Il faut savoir pour linstant que ces derniers ne
doivent pas tre trop gros ; la plupart du temps, ils ne peuvent
pas contenir toute linformation quon voudrait envoyer sur
Internet, et cette dernire doit par consquent tre fractionne
en de nombreux paquets IP.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 11
Processus d Analyse Acoustique du
Signal Vocal
Prise en compte du canal de transmission
UDP : User Diagram Protocol
est un protocole de la famille des TCP/IP comme le DNS, FTP ,
.
TCP/IP: Transmission Control Protocol
Il vrifie le bon acheminement d un paquet IP.
DNS: Domaine Name Systems
FTP: File Transfer Protocol
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 12
Processus d Analyse Acoustique du
Signal Vocal
Prise en compte du canal de transmission
Il existe plusieurs faons de saffranchir du canal par lequel le
signal passe pour obtenir des rsultats optimaux de
reconnaissance. Il faut soit rduire la diffrence entre les
donnes servant apprendre les modles de reconnaissance,
soit raliser un traitement pour annuler les effets du canal. Ces
deux mthodes posent nanmoins des problmes. La premire
mthode ncessite davoir une connaissance du canal et de
pouvoir construire des bases acoustiques pour lapprentissage
des modles acoustiques. La seconde, souvent base, sur des
filtres adaptatifs, permet de sadapter en cours de
reconnaissance. Dans ce cas, il est ncessaire de connatre le
type du canal.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 13
Processus d Analyse Acoustique du
Signal Vocal
Pr traitements acoustiques
Une fois le signal de parole numris des pr traitements
acoustiques sont gnralement excuts sur lui avant sa
paramtrisation.
x(n)
Filtre de
praccentuation
Fentrage
x(An)
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 14
Processus d Analyse Acoustique du
Signal Vocal
La pr accentuation (preemphasis en anglais)
Le filtre de pr accentuation ( cest un filtre numrique), souvent
un filtre rponse impulsionelle finie (R.I.F) non-recursif du 1
er

ordre (donc un seul coefficient) dont la fonction de transfert
est donne par:
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 15
Processus d Analyse Acoustique du
Signal Vocal
La pr accentuation
les valeurs typiques de a
1
sont comprise entre [ 0.4 et 1.0], une
valeur proche de 1 est souvent utilise pour la reconnaissance
(de lordre de 0.96).
Dans le domaine temporelle, cette opration se traduit par une
diffrentiation :
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 16
Processus d Analyse Acoustique du
Signal Vocal
La pr accentuation
Il y a des explications quand aux avantages procurs par
lutilisation dun tel filtre de pr accentuation :
Les segments voiss du signal possdent une pente spectrale
ngative approximativement de 20dB par dcade (donc une
attnuation de 20dB par dcade), ceci est du aux
caractristiques physiologiques de lappareil phonatoire. La pr
accentuation sert annuler cette attnuation avant une analyse
spectrale par exemple.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 17
Processus d Analyse Acoustique du
Signal Vocal
La pr accentuation
Une autre explication est que: lappareil auditif est plus
sensible la rgion se trouvant au dessus de 1KHz, la pr
accentuation amplifie cette rgion.
On note aussi quun tel filtre de pr accentuation relvent les
frquences au-dessus de 5Khz, une rgion pour laquelle le
systme daudition devient de moins en moins sensible.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 18
Processus d Analyse Acoustique du
Signal Vocal
Le Fentrage
A cause de ces proprits, le signal de parole est analys sur
des dures successives limites ( on dit quil est analys en
trames). Une trame est un prlvement limit en temps du
signal. Ces dures successives sobtiennent en prlevant les
chantillons de parole laide dune fentre temporelle
glissante. En gnral, les fentres successives se recouvrent.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 19
Processus d Analyse Acoustique du
Signal Vocal
Le Fentrage
Le signal x(n) est fragment en trame de N chantillons avec
un recouvrement de M chantillons. Le signal de parole est
gnralement analys avec un recouvrement des trames dune
dure comprise entre 10ms et 30ms.
Question: Si la frquence dchantillonnage est de 8Kz, le
nombre dchantillons de la trame est par exemple gale 240
et M=80. Donner la dure de la trame et le pas de dplacement?
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 20
Processus d Analyse Acoustique du
Signal Vocal
Le Fentrage
Considrant x
i
(m) qui reprsente la ime trame du signal,
alors :
) . ( ' ) ( M i m x m X
i
+ =
avec m = 0, , N-1
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 21
Processus d Analyse Acoustique du
Signal Vocal
Le Fentrage
Si lon dfinit la fentre par W(n), le rsultat du fentrage est :
) ( ). ( ) ( ' m w m x m x
i i
=
avec m = 0, , N-1
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 22
Processus d Analyse Acoustique du
Signal Vocal
Le Fentrage
La fentre utilise gnralement en reconnaissance est la
fentre de Hamming. On reviendra plus tard sur le choix de la
fentre qui doit obir certains critres.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 23
Processus d Analyse Acoustique du
Signal Vocal
Extraction des paramtres
On distingue en gnral quatre classes de paramtres qui
peuvent tre extrait en vue de la reconnaissance.
Des paramtres calculs directement sur la forme temporelle
du signal.
Des paramtres calculs aprs des transformations usuelles
telles que la transforme discrte de Fourier ou la transforme
en Z. Se sont donc des transforms qui ne se rfrent pas un
modle de production ni de perception.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 24
Processus d Analyse Acoustique du
Signal Vocal
Extraction des paramtres
Des paramtres fonds sur la dconvolution
source/conduit (Cepstre) et le codage prdictif linaire
(LPC : Linear Predictive Coding) qui sappuient sur un modle
simplifi de production de la parole.
Des paramtres fonds sur un modle de perception : par
exemple le vocodeur canaux (banc de filtres) ou les modles
daudition.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 25
Processus d Analyse Acoustique du
Signal Vocal
Energie du Signal
Le premier paramtre intuitif pour caractriser le signal de
parole lnergie. Cette nergie correspond la puissance du
signal. La formule de calcul de ce paramtre est :
2
1 n
0 m
w(m) m).
2
N
x(n
N
1
E(n)

=
|
.
|

\
|
+ =
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 26
Processus d Analyse Acoustique du
Signal Vocal
Energie du Signal
|
|
.
|

\
|
=

B
n x
fenetre E
2
) ( '
log 20 ) (
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 27
Processus d Analyse Acoustique du
Signal Vocal
Le taux de passage par zro
Le taux de passage par zro (Zero Crossing Rate, en anglais)
reprsente le nombre de fois que le signal, dans sa
reprsentation amplitude/temps, passe par la valeur centrale
de lamplitude (gnralement zro).
Pour un signal chantillonn x(n), on dit quil y a passage par
zro si deux chantillons successifs sont de signes opposs :
0 ) 1 ( ). ( ( n x n x
Avec 0 < n < N-1, N: taille du signal
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 28
Processus d Analyse Acoustique du
Signal Vocal
Le taux de passage par zro
( )

=
m
m n w n x Sign n x Sign n Z ) ( ) 1 ( ) (
2
1
) (
Ou w(n) = (1/N) pour 0 < n < N
= 0 ailleurs
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 29
Processus d Analyse Acoustique du
Signal Vocal
Le taux de passage par zro
Une variante nomme le Band-Crossing est aussi propose.
Cette variante permet dliminer certains phnomnes
parasites. Un seuil damplitude S permet de dfinir une zone
autour du zro de largeur 2S au sein de laquelle les oscillations
ne sont pas prise en compte. La formule du Band-Crossing-
Rate (BCR) pour chaque fentre analyse est :

=
n
n f n f fenetre BCR ) 1 ( ) ( ) (
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 30
Processus d Analyse Acoustique du
Signal Vocal
Le taux de passage par zro
f(n) = 1 si n > S
f(n) = f(n-1) si -S s n s S
f(n) = -1 si n < -S
Remarque:
Utilisation pour la dtection des sons voiss/non voiss,
un son vois son taux de passage par zro est lev para
rapport au son non vois.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 31
Processus d Analyse Acoustique du
Signal Vocal
Le taux de passage par zro
Cette mesure BCR se montre trs intressante, dans le
cadre d une dtection de parole en amont d un systme
de reconnaissance.
Pour la dtection des fricatives en fin du signal
reconnatre ou d attaque de plosive.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 32
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Les proprits spectrales du signal de parole prsentent
un intrt majeur pour la perception auditive; on estime en
effet que l oreille procde en premier lieu une analyse
spectrale (analyse frquentielle) de l onde acoustique
reue. Plusieurs classes d analyse spectrales sont
utilises par les systmes de R.A.P. Parmi ces classes,
nous avons:
L analyse par Transforme de Fourier (T.F)
L analyse cepstrale
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 33
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
L analyse base sur la modlisation auto
rgressive (AR) connue sous le nom d analyse
LPC (Linear Predictive Coding).
L analyse par bancs de filtres numriques
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 34
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Analyse par Transforme de Fourier
La T.F joue un rle de premier plan pour l obtention du
spectre court-terme. Son obtention est base sur la
squence d oprations suivantes:
F.F.T
Log
10
| |
Log
10
| |
2

x(n) spectre
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 35
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
La TFD de la squence x(n) est donne par lquation suivante:
)
2
)exp( ( ) ( ( ) (
1
0

=
= =
N
n
kn
N
j n x n x TFD k X
t
Pour utiliser la TFD, il faut un signal priodique dou le
fentrage du signal de parole.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 36
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Soit Te la priode dchantillonnage, x le signal de dpart, w la
fentre applique au signal, X
w
(e) sa transforme de Fourier,
on a:
W(nTe) = 0 pour |n| > (N/2) avec N pair

W(-nTe) = W(nTe) avec W(N/2) = 0

+
=
=
n
W
nTe j nTe x nTe W X ) )exp( ( ) ( ) ( e e
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 37
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
X
W
est la transforme dun produit, cest donc la convolution
des transformes :
}
+

= dx x W x X X
W
) ( ) (
2
1
) ( e
t
e
) ( ) ( ) ( e e e W X X
w
=
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 38
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Exemple simple:
Si je considre la fentre rectangulaire:
W(nTe) = 1

=
= =
) 1 2 / (
) 2 / (
) )exp( ( ) ( ) ( (
N
N n
nTe j nTe W W nTe W TF e e
)
2
1
sin(
)
2
sin(
) 2 / exp( ) (
Te
Te
N
Te j W
e
e
e e =
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 39
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Enjeu: Choix de la fentre
Une bonne fentre qui rduit la convolution dont la
largeur du lobe principal ( le lobe central) est faible et
la prominence du lobe central forte ( de faibles lobes
secondaires).
Exemple de fentre : La Fentre de Hamming
)
2
cos( 46 . 0 54 . 0 ) ( n
T
n W
t
=
n = 0,1,2, , N-1
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 40
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
La FFT (Fast Fourier Transform) (TFR: Transforme de
Fourier rapide, en franais) est un algorithme de calcul
rapide de la TFD. Il a t propos par Cooley et al en 1965.
Le temps de calcul dune FFT est 10 fois infrieur celui
dune TFD classique.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 41
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Exemple de spectre court terme
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 42
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
La FFT est intressante pour une analyse qualitative de la
parole la fois parce que le volume des calculs nest pas trop
important et parce que limage obtenue est proche de celle du
sonagraphe (reprsentation utilise par les phonticiens, la
base du dveloppement dapproche systmes expert (I.A) :
expertise en lecture de spectrogrammes (reprsentation de
lvolution de spectre dans le temps).
Pour une analyse quantitative dautres mthodes lui sont
prfrs. Ce que nous allons essayer de voir aprs avoir
donner comment calculer les spectrogrammes numriques.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 43
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Spectrogrammes Numriques de Parole
Un spectrogramme est une reprsentation graphique de
lvolution du spectre dans le temps. Il sagit dune
reprsentation tridimensionnelle : frquence, temps et
amplitude (lamplitude des raies est indique par la noirceur
des traits ou niveau de gris).
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 44
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Calcul dun spectrogramme
FFT dune fentre du signal de 4 32ms qui se dplace
de la moiti de sa dure (par exemple).
Avec une frquence dchantillonnage Fe = 16KHz, cette
fentre a donc entre 64 et 512 points.
En fonction de limportance du lissage, deux types de
spectrogrammes peuvent tre calculer :
Fentre longue faible lissage
Fentre courte fort lissage
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 45
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Spectrogramme bande large
Des filtres de 300Hz de bandes ( fentre plus courte que la
priode du fondamentale), on a donc un fort lissage
frquentiel, pas dharmoniques :
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 46
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Exemple de spectrogramme bande large
Met en vidence la structure formantique
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 47
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Des filtres faibles bande passante (environ 50Hz)
(fentre plus longue que la priode du fondamentale).
Nous avons donc un faible lissage frquentiel et une
visualisation des harmoniques.
Spectrogramme bande large
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 48
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Met en vidence la structure harmonique (structure
du pitch pour les sons voiss).
Exemple de spectrogramme bande large
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 49
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Analyse Spectrale Homomorphique: analyse cepstrale
Le dfaut majeur de la FFT pour le calcul du spectre rside
dans linter modulation source/conduit qui rend difficile la
mesure des formants Fi (rsonances du C.V, caractristiques
du conduit) et la mesure du fondamental F0 (pitch)
(caractristique de la source).
Le lissage cepstrale ou analyse cepstrale est une mthode
qui vise sparer par dconvolution la contribution
respective du conduit et de la source.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 50
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Pour cela, on fait lhypothse dun modle simplifi de la
production de la parole.
v(n)
e(n) x(n)
Conduit Vocal
e(n): source priodique (son vois) ou bruite (son non vois)
x(n): le signal de parole la sortie du conduit
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 51
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Le signal x(n) est produit par un signal excitateur e(n) (source
glottique) traversant un systme linaire passif (C.V) de
rponse impulsionnelle v(n).
) ( ) ( ) ( n v n e n x =
Question:
Est-il possible de sparer dans le signal de parole x(n) les
contributions de l excitation (la source) et du C.V.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 52
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Rponse:
Les diffrentes tapes de ce traitement:
Traitement homomorphique
Signal x(n) = e(n) * v(n)
On applique la T.F (pour passer de la convolution une
multiplication)
) ( . ) ( ) ( e e e V E X =
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 53
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
T.F inverse: le signal revient dans le domaine tempore
(pseudo-temporel ou qufrentiel)
Logarithme
) ( ) ( ) ( ) (
^
e e e e V Log E Log X Log X + = =
) ( ) ( ) (
^ ^ ^
n v n e n x + =
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 54
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Les premiers coefficients cepstraux (basses qufrences)
portent linformation sur le C.V.
Traitement linaire (par exemple par filtrage)
La squence d impulsions (hautes qudfrences) reflte la
contribution de la source (fondamental)
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 55
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Calcul du fondamental et des formants
Il suffit de sparer les deux contributions (source, conduit)
par une fentre temporelle. Il faut connatre, ou au moins
avoir une ide, de la frquence fondamentale pour choisir
le filtrage.
Le fondamental F
0
est facilement dtermin, la prsence dun
pic important dans le cepstre renseigne dune part sur le
caractre vois ou non du son et dautre part constitue une
bonne indication sur la frquence fondamentale F
0
= (1/T
0
).
Calcul du fondamental
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 56
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Calcul des formants
Lenveloppe spectrale du conduit vocal donc la structure
formantique est obtenue par une transformation
supplmentaire schmatise par le processus suivant :
FFT
cepstre
Spectre liss
X
Fentre
cepstrale
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 57
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Calcul des formants
Le spectre liss thoriquement dbarrass de la contribution
de la source ne contient que des informations sur le conduit
vocal et en particulier ses extremums correspondent aux
rsonances du conduit, cest dire aux formants.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 58
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Calcul des coefficients Cepstraux
F.F.T
Log | . |
x(n)
F.F.T
-1

X (k)
X (k)
) ( ) (
^
n C n x =

=
=
1
0
)
2
exp( ) (
1
) (
N
k
kn
N
j k X
N
n C
t
0 s n s N-1
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 59
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Considrations Pratiques d Implmentation

= = =
1
0
1
^
)
2
exp( ) ( ) ( ( ) ( ) (
N
k
kn
N
j k X k X TFD n C n x
t
Cette quation C(n) est aussi la DFT inverse du logarithme
de lamplitude. Elle peut tre simplifie en notant que le
logarithme du spectre est une fonction relle symtrique
(c.a.d que la DFT inverse est applique un signal rel
symtrique). On peut donc utiliser au lieu et place une
transforme en cosinus.
Nous avons:
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 60
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Si X(k) est rel et symtrique X(N-m) = X(m) alors:

=
=
1
1
)
2
cos( ) (
2
) (
N
k
kn
N
k X
N
n C
t
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 61
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Exemple de cepstre d un son vois
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 62
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Exemple de cepstre d un son non vois
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 63
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Analyse par Prdiction Linaire
Cette mthode connue sous le sigle LPC (linear predictive
coding, en anglais) sappuie sur la modlisation du systme
phonatoire par un filtre numrique. Le modle gnral de
production de la parole donn par la figure suivante est
assimil un systme linaire.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 64
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Modle gnral de production de la parole
g
n

Glotte
G(z)
Source
E(z)
C.V
V(z)
e
n

Radiation
lvres
R(z)
+
C. nasal
N(z)
x(n)
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 65
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
La fonction de transfert d un tel systme est de la forme:

+
+
=
P
k
k
k
q
l
l
l
z a
z b
G z H
1
1
1
1
) (
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 66
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Il apparat donc que pour prtendre caractriser tous les
sons de la parole lensemble du conduit doit tre modlis
par un filtre ARMA (Auto Regressif Moving Average).
Seulement lestimation du modle ARMA, donc des
coefficients a
k
et b
l
, est difficile parce quelle conduit la
rsolution dquations non linaires et de ce fait une telle
approche devient lourde appliquer pour le cas de la parole.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 67
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
En gnral, il est amplement suffisant de considrer le
modle de phonation comme tant un filtre numrique tout
ple (modle Auto Rgressif) parce que dune part, un tel
modle conduit la rsolution dquations linaires et
dautre part, il donne une bonne estimation des paramtres
de base de la parole tels que les formants, la fonction daire
du conduit, etc.. Cest avec un tel modle que la mthode
LPC a t dveloppe.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 68
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
La LPC est une technique destimation spectrale importante.
Dans cette technique, le conduit vocal est simplement
assimil un filtre linaire tout pole dont la fonction de
transfert peut tre reprsente par lquation suivante :

= =
P
k
k
k
z a
G
z A
G
z H
0
) (
) (
a
k
: sont appels coefficients de prdiction
G : reprsente le gain du modle
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 69
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Dans le domaine temporel, la sortie x(n) associe H(z)
satisfait lquation aux diffrence suivante :
h(n) U(n)
x(n)

=
+ =
P
k
k
n U G k n x a n x
1
) ( . ) ( ) (
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 70
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
U(n) tant lentre du filtre prdicteur suivant :
U(n)
X +
Prdicteur
d ordre P
x(n)

=

P
k
k
k n x a
1
) (
G
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 71
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
En supposant que lentre U(n) soit totalement inconnue, le
signal de parole peut tre prdit par une combinaison
linaire des p chantillons qui le prcdent, soit :

=
=
P
k
k
k n x a n x
1
^
) ( ) (
L erreur de prdiction est alors:

=
+ = =
P
k
k
k n x a n x n x n x n e
1
^
) ( ) ( ) ( ) ( ) (
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 72
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
L nergie de l erreur est dfinie par la somme:
Si les coefficients a
k
sont choisis tels qu ils minimisent
l nergie de prdiction, il suffit pour les obtenir de poser:
2
1
2
2
1
) ( ) ( ) (

(
(

+ = =
=
n
n
P
k
k p
k n x a n x n e E
P i
a
E
i
p
....., , 2 , 1 , 0 = =
c
c
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 73
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Le calcul de cette relation conduit au rsultat suivant:
ou
P i a
p
k
i ik k
,....., 2 , 1 ,
1
0
= =

=
2
1
) ( ) (
n
n
ik
k n x i n x
Eq. Yule-Walker
(7)
(6)
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 74
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Ces quations normales (6), dites de Yule-Walker, constituent un
systme linaire de p quations p inconnues. La rsolution de
ce systme permettra dobtenir les coefficients a
k
du filtre.
Parmi les mthodes de minimisation de lnergie de lerreur donc
de rsolution du systme, on trouve la mthode de covariance
(base sur la matrice de covariance), la mthode dautocorrelation
et la mthode harmonique.
J. Markel and R.W Gray Linear prediction of speech springer-
Verlag, New York, USA, 1980.

S.L Marpel, Jr., Digital spectral analysis with application
Printice-hall, Englewood Cliffs, New Jersey, USA, 1987.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 75
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
En reconnaissance de la parole, la mthode dautocorrelation est la
seule utilise parce quelle conduit un systme facile rsoudre
et elle assure la stabilit du modle auto rgressif trouv.
Mthode d autocorrlation

=
=
n
p
n e E ) (
2
Lnergie de lerreur Ep, est minimise sur une dure infinie :
(8)
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 76
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
La fonction d aucorrlation est dfinie par:
Le signal de parole est dfini pour toutes les valeurs du temps ; il
est identiquement nul en dehors dune squence de N chantillons
ceci quivaut multiplier le signal par une fentre de longueur finie
correspondant N chantillons.

=
=
n
i n x n x i R ) ( ) ( ) (
) ( ) ( i R i R =
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 77
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
La sommation infinie de lquation (8) se ramne donc une
somme finie soit :

+
=
=
P N
n
p
n e E
1
0
2
) (
La relation (7) devient alors:

+
=
+
=
+ = =
n n
ik
k i n x n x k n x i n x ) ( ) ( ) ( ) (
0

Cours R.A.P, Aspects Pratiques Dr M. Debyeche 78


Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Dans ce cas
ik
n est autre que la fonction d autocorrlation
value pour (i - k) soit :
) ( k i R
ik
=
Le systme (6) s crira sous la forme:
P i i R k i R a
P
k
k
......, , 2 , 1 ) ( ) (
1
= =

=
(13)
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 79
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
La matrice R(i - k) est une matrice de Toepltiz car elle est carre,
symtrique et dfinie positive; de plus les lments de chaque
diagonale parallle la diagonale principale sont gaux.

Diffrents algorithmes permettent la rsolution de ce systme
(13) par une rcursion sur lordre de prdiction. Parmi ces
algorithmes nous pouvons citer lalgorithme Levinson-Durbin
et lalgorithme de Leroux-Gueguen. Le plus efficient et
ncessitant moins de temps de calcul est lalgorithme de
Levinson-Durbin.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 80
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Initialisation : E(0) = R(0)
Recurssion :
pour m = 1,, p

=
1
0
1
) ( ) ( )
) 1 (
1
(
m
i
m
m i m R i a
m E
K
) ( ) ( ) (
1 1
i m a K i a i a
m
m
m
m + =

1 s i s m-1
a
m
= K
m
) 1 ( ) 1 ( ) (
2
= m E K m E m
Calcul des coefficients a
k
:
Algorithme de Levinson-Durbin
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 81
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Estimation des formants et du fondamental
Le spectre du modle auto rgressif reproduit bien
lenveloppe du spectre vocal. Les maximas de ce spectre
correspondent donc aux rsonances du conduit cest dire
aux formants.
Une possibilit dextraction de ces formants consiste donc
calculer ce spectre en appliquant un algorithme de FFT la
suite des coefficients a
k
prolongs par des zros de faon
obtenir une puissance de 2 compatible avec la rsolution
spectrale souhaite suivie dune recherche de maximum
(procdure Peak Picking).
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 82
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Estimation des formants et du fondamental
Une autre manire de calculer les formants ainsi que leurs
bandes 3dB est de calculer les racines du dnominateur de
la fonction de transfert dfinie prcdemment.
Lerreur e(n) gnre dans la mthode LPC est une bonne
approximation de la source dexcitation. Pour un son vois,
chaque impulsion glottique (fondamental), lerreur passe par
un maximum. La localisation de ces maximums permet donc
de mesurer la priode du fondamental. Dautres mthodes lui
sont prfrs.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 83
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Exemple de spectre LPC
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 84
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Les coefficients cepstraux drivs des coefficients LPC
Les coefficients cepstraux sont calculs de prfrence
partir des coefficients LPC parce que le temps de calcul
est moins important que dans le cas de lanalyse
homomorphique (deux FFT calculer).

Si le filtre de prdiction linaire est stable (ce qui est le cas
avec la mthode dautocorrlation), le logarithme de la
fonction de transfert peut sexprimer comme une srie de
puissance en z
-1
. Nous avons alors :
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 85
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale

= =
c
N
n
n
LP LP
z n C z C z H
0
) ( ) ( ) ( ln
Pour calculer les coefficients, les deux termes de lgalit
sont drives par rapport z
-1
, on aura :
| |


=
(
(
(
(
(

(
(
(
(
(

=
C
LP
N
n
n
LP
N
j
j
LP
LP
z n C
dz
d
z j a
G
dz
d
z H
dz
d
0
1
0
1 1
) (
) (
ln ) ( ln
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 86
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale

=
=

+
=
C
LP
LP
N
n
N
j
j
LP
N
i
i
LP
n
LP
z j a
z i a i
z n C n
1
0
0
1
) (
) (
) (
En dveloppant, on aura:
) 1 ( ) 1 (
LP LP
a C =
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 87
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Pour 2 s i s N
C

=
=
1
1
) ( ) ( ) 1 ( ) ( ) (
i
j
LP LP LP LP
j i C j a
i
j
i a i C
Remarque:
Pour le calcul des coefficients cepstraux, Nc (nombre de coef.
Cepstraux) na pas t specifi. En ralit nous avons une T.F
inverse de la rponse impulsionnelle du filtre prdicteur et
comme le modle LP possde une rponse impulsionnelle
infinie nous pouvons en thorie calculer un nombre infini de
coefficients cepstraux. (on aurai pu mettre Nc = ).
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 88
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Remarque:
Cependant, le nombre de coefficients cepstraux calcul est
gnralement en relation avec le nombre de coefficients LPC
du filtre.
Il est compris entre : 0.75p s N
C
s 1.25p (en reconnaissance
p est entre 10 et 16 et N
C
entre 10 et 12)
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 89
Processus d Analyse Acoustique du
Signal Vocal
Modlisation Spectrale
Analyse MFCC (Mel Frequency Cepstral Coefficient)
Les coefficients MFCC sont une extension des coefficients
cepstraux par le passage de lchelle frquentielle linaire
une chelle frquentielle non linaire proche de laudition
humaine.
Cette chelle non linaire est lchelle perceptive Mel. Elle est
linaire pour les basses frquences (infrieures 1000Hz) et
logarithmique pour les hautes frquences.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 90
Processus d Analyse Acoustique du
Signal Vocal
Analyse MFCC (Mel Frequency Cepstral Coefficient)
Lchelle Mel est ainsi dfinie par la relation suivante entre la
frquence en Hertz et sa correspondante en mels :
|
|
.
|

\
|
+ =
y
f
x f Mel
Hertz
1 log ) (
10
Plusieurs valeurs sont utilises pour x et y.
De nos jours, les valeurs les plus couramment utilises sont
x=2595 et y=700.
Exemple: x=1000/log(2) et y=1000.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 91
Processus d Analyse Acoustique du
Signal Vocal
Analyse MFCC (Mel Frequency Cepstral Coefficient)
Cest ainsi que des filtres rpartis linairement en basses
frquences et logarithmiquement en hautes frquences sont
utiliss afin de capturer les caractristiques phontiques
importantes du signal de parole. Ces filtres possdent la
caractristique suivante : plus la frquence est leve, plus la
bande passante est large ce qui permet une meilleure
rsolution temporelle des hautes frquences.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 92
Processus d Analyse Acoustique du
Signal Vocal
Analyse MFCC (Mel Frequency Cepstral Coefficient)
H
Frquence (Hz) 4000
3500 3000 2000
1
H
Frquence (Hz) 4000
3500 3000 2000
1
Bancs de filtres Mel.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 93
Processus d Analyse Acoustique du
Signal Vocal
Analyse MFCC (Mel Frequency Cepstral Coefficient)
Signal S(t)
Mise en forme
du signal
MFCC Ci
S(n)
FFT
W(n)
Trans. Mels et Filtres
triangulaires
S
k
Log | S
k
| IDCT
nergies
spectrales
Processus de calcul des coefficients MFCC
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 94
Processus d Analyse Acoustique du
Signal Vocal
Analyse MFCC (Mel Frequency Cepstral Coefficient)
On applique dabord une transforme de Fourier discrte
(DFT : Discret Fourier Transform), en particulier FFT (Fast
Fourier Transform) pour passer dans le domaine frquentiel
et extraire le spectre du signal.
Ensuite, un filtrage est effectu en multipliant le spectre
obtenu par les gabarits des filtres rpartis linairement sur
lchelle Mel. Ces filtres sont en gnral de forme triangulaire
ou sinusodale. Des filtres triangulaires sont le plus souvent
utiliss.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 95
Processus d Analyse Acoustique du
Signal Vocal
Analyse MFCC (Mel Frequency Cepstral Coefficient)
Cette analyse homomorphique a pour effet de rendre les
coefficients obtenus plus discriminants, plus robustes au
bruit ambiant et moins corrls entre eux. La formule de la
transforme en cosinus discrte est la suivante :
Les sorties du banc de filtres (nergies) subissent alors une
analyse homomorphique par lapplication de la transforme
en cosinus discrte (DCT : Discret Cosinus Transform) aux
valeurs logarithmiques des nergies.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 96
Processus d Analyse Acoustique du
Signal Vocal
Analyse MFCC (Mel Frequency Cepstral Coefficient)

=
|
|
.
|

\
|
=
N
j
i
j i
j
N
m
N
C
1
) 5 . 0 ( cos
2
t
La formule de la transforme en cosinus discrte est la
suivante :
i = 1 , ., P
m
j
: valeurs logarithmiques des nergies la sortie des filtres,
N : le nombre de filtres
P : le nombre de coefficient MFCC.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 97
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
Malgr que le traitement de l information par le cerveau est
pour l heure partiellement (incompltement) connu, les
relations entre les stimilus acoustiques et les sensations
perceptives auditives sont en revanche bien cernes grace
la psycoacoustique.
Tout d abord, l oreille rpond de faon slective en fonction de
la frquence d un son.
Psycoacoustique
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 98
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
Le champ auditif humain est ainsi dlimit par des courbes
du seuil d audition (qui varie de 0 40dB selon la frquence)
et du seuil de douleur (qui se situe vers 120dB).
Les frquences limites, variables selon l ge et l individu, se
situent autour de 20 Hz et 20KHz.
Psycoacoustique
Selon le thorme de Shannon, il est donc inutile
d chantillonner un signal sonore une frquence suprieure
environ 40KHz (44.1KHz pour les disques compacts audio).
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 99
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
La figure suivante donne, en fonction de la frquence, les
courbes d gale impression sonore, ou sonie, exprime en
sones. La parole se situe dans la zone de sensibilit
maximale.
Psycoacoustique
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 100
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
Psycoacoustique
Courbes d isotonie (d aprs Zwicker et Feldtkeller (1981))
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 101
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
Psycoacoustique
Un aspect important de l audition humaine est le
phnomne de masquage qui fait que la perception d un son
est perturbe par la prsence d un autre son. Plus
prcisment, le seuil d audibilit d un son est accru en
prsence d un autre son de frquence adjacente lorsque les
deux sons sont perus simultanment ou avec un lger
dcalage temporel.
Si la diffrence des frquences des deux sons devient
suprieur un certain seuil, ce phnomne disparat.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 102
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
Psycoacoustique
L tude exprimentale a conduit la notion de bande
critique: des signaux dont la frquence se situe l intrieur
d une bande critique influent sur la perception de signaux
situs dans la mme bande, mais pas l extrieur de cette
bande.
Un bande critique peut tre considre comme un filtre
passe-bande dont la rponse en frquence correspond
approximativement une courbe d accord d une fibre
nerveuse auditive.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 103
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
Les connaissances issues de la psyco-acoustqiue dans
l estimation d un modle AR a conduit l analyse PLP
(Hemansky, 1987).
La mthode PLP est une mthode inspire donc du principe
de prdiction linaire. Elle combine ce principe une
reprsentation du signal qui suit lchelle humaine daudition.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 104
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
La mthode LP identifie uniformment le spectre sur toutes
les frquences de la bande audible. Or cette proprit est loin
dtre vrifie pour loreille humaine, car il a t tabli que
celle-ci est plus sensible aux frquences situes au milieu de
la bande danalyse du spectre.
Ainsi, il est possible que certains dtails spectraux
importants du spectre ne soient pas pris en compte par
lanalyse LP ou encore quils prennent une importance
majeure sans quils soient physiologiquement pris en compte
par loreille.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 105
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
Lanalyse PLP permet de rsoudre ce problme.
Le processus de calcul des coefficients PLP peut tre dcrit
par la figure suivante:
Elle permet destimer les paramtres du filtre auto-rgressif
tout ple, modlisant au mieux le spectre auditif.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 106
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
Signal de parole
Mise en
forme du
signal
Analyse
spectrale
FFT et | |
2

Bandes
critiques
Passage
l chelle Bark
Loi de Puissance
cubique
Isotonie +
compression (1/3)
Modlisation
autorgressive
LP
Calcul des
coefficients
Coefficients PLP
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 107
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
Aprs une mise en forme du signal de parole, le spectre de
puissance P(e) est calcul. Ensuite, un passage de lchelle
de frquence usuelle lchelle de Bark est effectu.
( )
|
|
.
|

\
|
|
.
|

\
|
+ + = O
5 . 0
2
1
1200 1200
ln 6 ) (
t
e
t
e
e
e reprsentant la frquence angulaire exprime en rd/s et O la
frquence de Bark.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 108
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
Ce passage lchelle Bark, permet dapproximer de manire
grossire ce que nous savons de la forme des filtres auditifs.
Elle est approximativement constante le long de lchelle de
Bark. Le spectre de puissance dans lchelle de Bark est
convolu avec le spectre de puissance de la courbe de bande
critique en utilisant lquation suivante:

> O
s O s
s O s
s O s
< O
= O
O
+ O
5 . 2 0
5 . 2 5 . 0 10
5 . 2 5 . 0 1
5 . 0 3 . 1 10
3 . 1 0
) (
) 5 . 0 ( 0 . 1
) 5 . 0 ( 5 . 2
pour
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 109
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
Cette courbe de masquage est une approximation de la
courbe de masquage asymtrique de Schroeder.
On essaye ensuite dapproximer la sensibilit de loreille
humaine diffrentes frquences par lintermdiaire dune
fonction de transfert E(e). Le spectre de puissance est
multipli par cette fonction de transfert.
) ( . ) ( ) ( O O = O e E E

= O
= O
O + O O = O O
3 . 2
3 . 1
) ( . ) ( ) (
t t
P
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 110
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
La non linarit entre lintensit dun son et sa force de
perception par loreille est ensuite approxime par une loi de
puissance :
33 . 0
) ( ) ( O = O u E
33 . 0
) ( ) ( O = O u E
33 . 0
) ( ) ( O = O u E
Ltape finale consiste en une modlisation autorgressive
classique du spectre du modle auditif tout ple, en calculant
les coefficients autorgressifs du filtre.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 111
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
33 . 0
) ( ) ( O = O u E
33 . 0
) ( ) ( O = O u E
Lanalyse PLP est trs similaire lanalyse MFCC. La
diffrence est que lanalyse PLP utilise lchelle Bark au lieu
de lchelle Mel et un modle autorgressif tout ple au lieu
de la transforme en cosinus discrte (DCT) pour le calcul
des coefficients.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 112
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
33 . 0
) ( ) ( O = O u E
33 . 0
) ( ) ( O = O u E
Cette mthode PLP a t par la suite amliore pour rsister
certaines conditions de bruit. Cest ainsi que lanalyse
RASTA-PLP a t dveloppe, RASTA tant lacronyme de
RelAtive SpecTrAl.
Cours R.A.P, Aspects Pratiques Dr M. Debyeche 113
Processus d Analyse Acoustique du
Signal Vocal
Analyse PLP (Perceptual Linear Prediction)
33 . 0
) ( ) ( O = O u E
33 . 0
) ( ) ( O = O u E
La mthode PLP, dont lalgorithme repose sur des spectres
court terme de la parole, rsiste difficilement aux contraintes
qui peuvent lui tre imposes par la rponse frquentielle
dun canal de communication. Pour attnuer les effets de
distorsion spectrales linaires, Hermansky, propose de
modifier lalgorithme PLP en remplaant le spectre court
terme par un spectre estim o chaque canal frquentiel est
modifi par passage travers un filtre. Cette modification est
la base de la mthode RASTA PLP. La mise en uvre de
ce filtrage (RASTA) permet, lorsquil est effectu dans le
domaine spectral logarithmique, de supprimer les
composantes spectrales constantes, supprimant ainsi les
effets de convolution du canal de communication.

Você também pode gostar