Você está na página 1de 51

2005, it - instituto de telecomunicaes. Todos os direitos reservados.

!"#" %"&'()"*

Lab de rocessamenLo de lala
unlversldade de Colmbra, uLLC, orLugal
11 a 12 seLembro 2012 So Carlos - S, 8rasll
ulLCCC Ln18L PCMLnS L MCulnAS
C ALL uC LlnCulS1A nLS1L nCvC lC8MA1C uL CCMunlCAC
VI Lsco|a 8ras||e|ra de L|ngu|snca Computac|ona|
2
1odos os seres humanos nascem ||vres e |gua|s em d|gn|dade e em
d|re|tos. (Dec|arao Un|versa| dos D|re|tos numanos, 1. art)
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
! uma das aes-chave para o reconheclmenLo da dlgnldade humana
passa pela promoo do acesso a lnformao, permlundo a lncluso
de Lodos os cldados.
! SlsLemas de lnformao com lnLerface de fala Lornam essa
acesslbllldade mals slmples, mals faclllLada, mals poLenclada.
! A oporLunldade de dlalogar com uma mqulna capaz de reconhecer e
de proferlr mensagens aumenLa a posslbllldade de Lodos os cldados
acederem a lnformao, Lornando a socledade mals lguallLrla, mals
humana.
Lsta sesso aborda a descr|o dos s|stemas de processamento de fa|a em L,
centrado-se na ||nha de |ntegrao da teor|a ||ngu|snca.
3
LANC
! LNUADkAMLN1C
! rocessamento da L|ngua Ia|ada
! rocessamento da Ia|a
! rocesso de Comun|cao
! S|stemas de 11S
! S|stemas de ASk
! SINAL DL IALA
! Iatores de Var|ab|||dade
! Lxtrator de Carater|sncas
! kCCLSSAMLN1C DL IALA
! Mdu|os L|ngu|sncos
! Abordagens
! Ap||caes 1ecno|g|cas
! C ape| do L|ngu|sta
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
4
1ecno|og|as
da
L|ngua
rocessamenLo da
Llngua naLural
rocessamenLo da
lala
rocessamento da L|ngua Ia|ada
LnCuAu8AMLn1C
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
5
1ratamento do texto
! Anllse compuLaclonal
! lonolglco
! Morfolglco
! Semnuco
! SlnLuco
! ragmuco
! ue esulo
! .
1ecno|og|as
da
L|ngua
rocessamenLo da
Llngua naLural
rocessamenLo da
lala
rocessamento da L|ngua Ia|ada
LnCuAu8AMLn1C
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
6
reas
! Cerao de LexLo
! 8ecuperao de
lnformao
! LxLrao auLomuca
de Lermos
! Sumarlzao
! 8esposLa auLomuca
a pergunLas
! 1raduo auLomuca
ou asslsuda
1ecno|og|as
da
L|ngua
rocessamenLo da
Llngua naLural
rocessamenLo da
lala
rocessamento da L|ngua Ia|ada
LnCuAu8AMLn1C
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
7
S|na| acsnco
! Modelos de produo e
perceo da fala
! Anllse da fala
! Codlcao da fala
! Melhorla de slnal
! SlnLese de fala
! 8econheclmenLo de fala
! Converso de lala
para 1exLo
! 8econheclmenLo do
orador
! 8econheclmenLo da
llngua/dlaleLos
1ecno|og|as
da
L|ngua
rocessamenLo da
Llngua naLural
rocessamenLo da
lala
rocessamento da L|ngua Ia|ada
LnCuAu8AMLn1C
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
8
Processamento
da
Fala
Lingustica
clssica
Processamento
de sinal
Aprendizagem
automtica
Psicologia
Acstica
e
Fisiologia
Matemtica
LnCuAu8AMLn1C
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
9
rocessamento de Ia|a
- vertentes -

keconhec|mento de Ia|a
(ASk - +,-./"01 !2((13 4(1.5&)0.&)
S|ntese de Ia|a
(11S - 6(7-8-.8!2((13)
LnCuAu8AMLn1C
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
10
SLn1luC
CL8AC
MLnSACLM
CCulllCAC
SlnAL SlnAL
uLSCCulllCAC
MLnSACLM
CCM8LLnSC
SLn1luC
LMlSSC8 8LCL1C8
18AnSMlSSC
8CCLSSC de CCMunlCAC
LnCuAu8AMLn1C
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
11
SLn1luC
CL8AC
MLnSACLM
CCulllCAC
SlnAL
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
SlnAL
uLSCCulllCAC
MLnSACLM
CCM8LLnSC
SLn1luC
LMlSSC8 8LCL1C8
18AnSMlSSC
8CCLSSC de CCMunlCAC
LnCuAu8AMLn1C
12
SLn1luC
CL8AC
MLnSACLM
CCulllCAC
SlnAL
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
SlnAL
uLSCCulllCAC
MLnSACLM
CCM8LLnSC
SLn1luC
LMlSSC8 8LCL1C8
18AnSMlSSC
8CCLSSC de CCMunlCAC
LnCuAu8AMLn1C
13
SLn1luC
CL8AC
MLnSACLM
CCulllCAC
SlnAL
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
SlnAL
uLSCCulllCAC
MLnSACLM
CCM8LLnSC
SLn1luC
LMlSSC8 8LCL1C8
18AnSMlSSC
8CCLSSC de CCMunlCAC
LnCuAu8AMLn1C
14
SLn1luC
CL8AC
MLnSACLM
CCulllCAC
SlnAL
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
SlnAL
uLSCCulllCAC
MLnSACLM
CCM8LLnSC
SLn1luC
LMlSSC8 8LCL1C8
18AnSMlSSC
8CCLSSC de CCMunlCAC
LnCuAu8AMLn1C
15
SLn1luC
CL8AC
MLnSACLM
CCulllCAC
SlnAL
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
SlnAL
uLSCCulllCAC
MLnSACLM
CCM8LLnSC
SLn1luC
LMlSSC8 8LCL1C8
18AnSMlSSC
CCM8LLnSC uL CCnvLn0LS:
LlL1lvluAuL
LllClLnClA
A81lLPA uL (8ACk)C8Cunu:
CCn1Lx1C
Sl1uAC
CCnPLClMLn1C uC CAnAL:
AuA1AC
8CCLSSC de CCMunlCAC
LnCuAu8AMLn1C
16
SLn1luC
CL8AC
MLnSACLM
CCulllCAC
SlnAL
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
LMlSSC8 8LCL1C8
rocesso de crlar slnal de fala a parur da mensagem:
codlcao de fala ou s|ntese de fa|a (11S)
8CCLSSC de CCMunlCAC
LnCuAu8AMLn1C
17
Anallsador
1ranscrlLor
fonolglco
Cerador de
prosdla
MoLor de
slnLese
LexLo
voz slnLeuzada
A8Cul1L1u8A CL8AL
SlS1LMA uL 11S
normallzador
de LexLo
ueLermlnao
de foco
LnLoao,
uurao,
lnLensldade
MCuLLCS
8CSCulCCS
Cerao de
emoes
Conversor
de
grafema-
fonema
DICICNkIC DL
kCNUNCIAC
8ASL uL
uAuCS uL
lALA/vCZ
Modelos
acusucos
de
fonemas
ulvlsor sllblco
Marcador de Lonlcldade
LelLor de esLrangelrlsmos
uesamblguador de
homgrafos heLerfonos
.
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
18 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
SlnAL
uLSCCulllCAC
MLnSACLM
CCM8LLnSC
SLn1luC
LMlSSC8 8LCL1C8
rocesso de crlar mensagem LexLual a parur do slnal:
descodlcao de mensagem ou reconhec|mento de fa|a (ASk)
8CCLSSC de CCMunlCAC
LnCuAu8AMLn1C
19 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
LxLraLor de
caracLerlsucas
uescodlcador
LexLo
SlS1LMA uL AS8
slnal de fala
CbLeno de
parmeLros
(MlCC, LC,.)
Anallsador
espeLral
8epresenL.
espeLral dos
fones
Modelos
acusucos de
fonemas
(PMM)
8ASL uL
uAuCS
uL 1Lx1C
Modelos de
llnguagem
- Ccorrncla de
sequncla de
palavras
Conversor
de
grafema-
fonema
DICICNkIC DL
kCNUNCIAC
Sequnclas de fonemas
ConLexLos fonolglcos
(Marcador de Lonlcldade)
(uesamblguador de
homgrafos heLerfonos)
.
A8Cul1L1u8A CL8AL
20 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
SlnAL uL lALA

Cue upo de |nformao podemos reurar do slnal de fala?

Cue upo de processamento preclsamos para obLer essa lnformao?
! alavras (" Sllabas " lones/Alofones)
! ALos de fala (prosdla)
! Lmoes, esLados de esplrlLo (pragmuca)
! ldenudade do falanLe (verlcao, ldenucao)

! Anllse espeLral para exLrao de caracLerlsucas perunenLes ("#$%&'#()
! AspeLos do slnal a capLurar nas "#$%&'#(
! AspeLos do slnal a exclulr das "#$%&'#(
21 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
LxLraLor de
caracLerlsucas
uescodlcador
LexLo
SlS1LMA uL AS8
slnal de fala
A8Cul1L1u8A CL8AL
Iatores
de
Var|ab|||dade
22 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
lA1C8LS de vA8lA8lLluAuL
SlnAL uL lALA
Necess|dade de reduz|r a |nunc|a de a|guns destes fatores por forma a constru|r
mode|os de fonemas to robustos quanto poss|ve|!

23 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
1rlngulos acusucos para as vogals nasals de 2 regles dlsunLas (1elxelra eL al., 2003)
ln1L8LCCu1C8LS: CLCC8llCAS
lAC1C8LS uL vA8lA8lLluAuL
ESTUDO DA POSIO DA LNGUA NO INCIO DAS VOGAIS NASAIS DE SEIS REGIES DE PORTUGAL PELA ANLISE
DAS DUAS PRIMEIRAS FORMANTES
15
IV. Anli se por regi o
A. As nasai s
Nas duas Figuras seguintes apresentam-se os tringulos acsticos para as vrias regies
contempladas no corpus recolhido. Na primeira figura, apresentam-se os resultados para as
vogais nasais, na segunda, para as vogais orais. Sero apresentados resultados de forma
mais detalhada nas seces seguintes.
6~
e~
i~
o~
u~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
Minho - Nasais - Homens
o~
u~
6~
e~
i~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
Minho - Nasais - Senhoras
u~
o~
i~
e~
6~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
TrsOsMontes - Nasais - Homens
e~
6~
i~ o~ u~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
TrsOsMontes - Nasais - Senhoras
o~
6~
u~
e~
i~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
BeiraLitoral- Nasai s - Homens
o~
u~
6~
e~
i~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
BeiraLitoral- Nasai s - Senh oras
o~
u~
i~
e~
6~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
BeiraInterior - Nasais - Homens
u~
o~
i~
e~
6~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
BeiraInterior - Nasais - Senhoras
u~
o~
i~
e~
6~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
Algarve - Nasais - Homens
e~
6~
i~
o~
u~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
Algarve - Nasais - Senhoras
o~
u~
i~
e~ 6~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
Alentejo- Nasais - Homens
u~
o~
i~
e~
6~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
Alentejo- Nasais - Senhoras
Figura 10 Tringulos acsticos para as vogais nasais das seis regies contempladas no corpus.
ESTUDO DA POSIO DA LNGUA NO INCIO DAS VOGAIS NASAIS DE SEIS REGIES DE PORTUGAL PELA ANLISE
DAS DUAS PRIMEIRAS FORMANTES
15
IV. Anli se por regi o
A. As nasai s
Nas duas Figuras seguintes apresentam-se os tringulos acsticos para as vrias regies
contempladas no corpus recolhido. Na primeira figura, apresentam-se os resultados para as
vogais nasais, na segunda, para as vogais orais. Sero apresentados resultados de forma
mais detalhada nas seces seguintes.
6~
e~
i~
o~
u~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
Minho - Nasais - Homens
o~
u~
6~
e~
i~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
Minho - Nasais - Senhoras
u~
o~
i~
e~
6~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
TrsOsMontes - Nasais - Homens
e~
6~
i~ o~ u~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
TrsOsMontes - Nasais - Senhoras
o~
6~
u~
e~
i~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
BeiraLitoral- Nasai s - Homens
o~
u~
6~
e~
i~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
BeiraLitoral- Nasai s - Senh oras
o~
u~
i~
e~
6~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
BeiraInterior - Nasais - Homens
u~
o~
i~
e~
6~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
BeiraInterior - Nasais - Senhoras
u~
o~
i~
e~
6~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
Algarve - Nasais - Homens
e~
6~
i~
o~
u~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
Algarve - Nasais - Senhoras
o~
u~
i~
e~ 6~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
Alentejo- Nasais - Homens
u~
o~
i~
e~
6~
3000 2500 2000 1500 1000 500
1
0
0
0
8
0
0
6
0
0
4
0
0
2
0
0
F2
F
1
Alentejo- Nasais - Senhoras
Figura 10 Tringulos acsticos para as vogais nasais das seis regies contempladas no corpus.
24
LocuLores femlnlnos vs mascullnos
1raLos vocals mals curLos
lrequnclas de formanLes em medla 13 aclma
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
222 224 226 228 230 232 234 236 238
0
500
1000
1500
2000
2500
3000
326 328 330 332 334 336 338 340 342
0
500
1000
1500
2000
2500
3000
LocuLor femlnlno
LocuLor mascullno
ln1L8LCCu1C8LS: CLnL8C
lAC1C8LS uL vA8lA8lLluAuL
Sonograma de [o[]
25 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
Clclo das cordas vocals
26 Spoken Language Structure
erwise it is unvoiced. Vowels are voiced throughout their duration. The distinct vowel tim-
bres are created by using the tongue and lips to shape the main oral resonance cavity in dif-
ferent ways. The vocal folds vibrate at slower or faster rates, from as low as 60 cycles per
second (Hz) for a large man, to as high as 300 Hz or higher for a small woman or child. The
rate of cycling (opening and closing) of the vocal folds in the larynx during phonation of
voiced sounds is called the fundamental frequency. This is because it sets the periodic base-
line for all higher-frequency harmonics contributed by the pharyngeal and oral resonance
cavities above. The fundamental frequency also contributes more than any other single fac-
tor to the perception of pitch (the semi-musical rising and falling of voice tones) in speech.
Figure 2.6 Vocal fold cycling at the larynx. (a) Closed with sub-glottal pressure buildup; (b)
trans-glottal pressure differential causing folds to blow apart; (c) pressure equalization and tis-
sue elasticity forcing temporary reclosure of vocal folds, ready to begin next cycle.
Figure 2.7 Waveform showing air flow during laryngeal cycle.
The glottal cycle is illustrated in Figure 2.6. At stage (a), the vocal folds are closed and
the air stream from the lungs is indicated by the arrow. At some point, the air pressure on the
underside of the barrier formed by the vocal folds increases until it overcomes the resistance
of the vocal fold closure and the higher air pressure below blows them apart (b). However,
the tissues and muscles of the larynx and the vocal folds have a natural elasticity which
tends to make them fall back into place rapidly, once air pressure is temporarily equalized
(c). The successive airbursts resulting from this process are the source of energy for all
voiced sounds. The time for a single open-close cycle depends on the stiffness and size of
(a) (b)
(c)
A
i
r
f
l
o
w
(
c
m
3
/
s
)
100
500
Cy-
Open
Time
8 16 24
l
l
u
x
o

d
e

a
r

(
c
m
3
/
s
)
1empo
lorma de onda
As sucesslvas exploses de ar resulLanLes desLe clclo so a fonLe de energla para Lodos os sons
sonoros.
uma medlda comum e o n. de clclos por segundo (Pz), ou da frequncla fundamenLal ou Lom
(l0) (l.e, a perlocldade com que se d a vlbrao de pulsos gloLals).
C ALL das CC8uAS vCCAlS: Sons vozeados/no vozeados
Lx18A1C8 uL CA8AC1L8lS1lCAS
26 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
Tempo(frames)
F
r
e
q
u
e
n
c
i
a

(
H
z
)
10 20 30 40 50 60
0
500
1000
1500
2000
2500
3000
3500
4000
llusLrao de um slnal de fala correspondendo ao dlglLo (#)( ([s6[S]) amosLrado a 8kPz
SCnS vCZLAuCS / nC vCZLAuCS

Sonograma LC do slnal

0 10 20 30 40 50 60
0
10
20
30
40
50
60
70
80
90
100
Tempo(frames)
F
r
e
q
u
e
n
c
i
a

(
H
z
)
/s/ /6j/ /S/
Crco do valor
de Lom
ao longo do Lempo
Ak1LS VC2LADAS (no
dom|n|o tempora|):
! |cos quase
per|d|cos de a|ta
energ|a (pu|sos
g|ota|s)
! er|oc|dade desses
p|cos = I0 (tom)
27 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
C ALL dos lC8MAn1LS
! ara sons vozeados o espeLro apresenLa vrlos
plcos espeLrals que lndlcam as frequnclas de
ressonncla do LraLo vocal (formanLes = l).
Tempo (frames)
F
r
e
q
u

n
c
i
a

(
H
z
)
620 630 640 650 660 670 680 690
0
500
1000
1500
2000
2500
3000
3500
[o[] [tu]
! Cs l dependem da forma do LraLo vocllco
! C numero de l e varlvel consoanLe o som
produzldo, embora ha[a uplcamenLe 3 ou 4 l
na gama de 300Pz a 4kPz.
! um dado segmenLo de fala e vulgarmenLe
caracLerlzado pelas suas 3 frequnclas
formanLes mals balxas: I1, I2 e .
! !unLamenLe com a frequncla fundamenLal (l0
ou Lom), os l consuLuem os prlnclpals
parmeLros acusucos da fala.
Lx18A1C8 uL CA8AC1L8lS1lCAS
28 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
Lx18A1C8 uL CA8AC1L8lS1lCAS
LSL18CC8AMAS
! Cada fone dlsungue-se no espeLrograma pelo seu prprlo padro.
! C valor dos formanLes podem varlar largamenLe de pessoa para pessoa.

LelLores e anallsadores de
espeLrogramas:
! 8AA1
! Wavesurfer
! AudaclL
! ...
! An||se acsnca de dados
! Scr|pts como suporte de
|dennhcao automnca
Arqulvo de som av
LspeLograma de banda larga
LuqueLas (labels)
Curva de l0
Curva de lnLensldade
! MAS um lelLor de espeLrogramas aprende a reconhecer padres sLandard que permlLem
ldenucar os vrlos fones com um elevado grau de conana.

T o P i t c h ( a c ) . . . t i me _ s t e p
minimum_pitch maximum_candidates
' a c c ur a t e$' s i l enc e_t hr es hol d
v o i c e _t h r e s h o l d o c t a v e _c o s t
o c t a v e _ j u m p _ c o s t
voiced_unvoiced_cost maximum_pitch


29
CbLeno de
parmeLros
(MlCC, LC,.)
Anallsador
espeLral
LxLraLor de
caracLerlsucas
uescodlcador
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
slnal de fala
SlS1LMA uL AS8
! num reconhecedor de fala subsuLul-se a represenLao Lemporal do slnal pela sua
represenLao espeLral (ou *#+(%'$,)
! 8L8LSLn1AC LSL18AL: mals adequada, permlLe uma reduo da quanudade de dados
envolvldos

LexLo
A8Cul1L1u8A CL8AL
30
CbLeno de
parmeLros
(MlCC, LC,.)
Anallsador
espeLral
8epresenL.
espeLral dos
fones
Modelos
acusucos de
fonemas
(PMM,.)
LxLraLor de
caracLerlsucas
uescodlcador
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
slnal de fala
A8Cul1L1u8A CL8AL
SlS1LMA uL AS8
normallzao de caracLerlsucas:
! Lornar os modelos acusucos de fonemas separvels no espao de
caracLerlsucas de forma a dlmlnulr a confuso enLre eles

LexLo
31 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
LxLraLor de
caracLerlsucas
uescodlcador
LexLo
SlS1LMA uL AS8
slnal de fala
8ASL uL
uAuCS
uL 1Lx1C
Modelos de
llnguagem
- Ccorrncla de
sequncla de
palavras
Conversor
de
grafema-
fonema
DICICNkIC DL
kCNUNCIAC
A8Cul1L1u8A CL8AL
CbLeno de
parmeLros
(MlCC, LC,.)
Anallsador
espeLral
8epresenL.
espeLral dos
fones
Modelos
acusucos de
fonemas
(PMM,.)
Sequnclas de fonemas
ConLexLos fonolglcos
(Marcador de Lonlcldade)
(uesamblguador de
homgrafos heLerfonos)
.
32 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
8CCLSSAMLn1C uL lALA
AnALlSAuC8
uLSCCulllCAuC8
MCuuLCS LlnCulS1lCCS
kLS1kILS SLMN1ICAS e LLkICAIS: normallzador de LexLo, .
kLS1kILS ICNL1ICAS e ICNCLCGICAS: Modelos acusucos de fonemas (alofones, xenofones),
Marcador de Lonlcldade, ulvlsor sllblco, Conversor de Crafema em lonema, .
kLS1kILS MCkICLCGICAS e SIN11ICAS: Modelos de llnguagem (probabllldades de sequnclas de
palavras), uesamblguador de homgrafos heLerfonos, .
33
8C8LLMAS
CA8ulnAlS:
Concordnc|a em gnero

L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
nC8MALlZAuC8 de 1Lx1C
MCuuLCS LlnCulS1lCCS
1 gato = um gato; 1 gata?
Nmeros romanos ] |e|tura de |etras

V = v (letra) e V = quinto?
Card|na|s ] Nmeros de te|efone
931231234 = novecentos e trinta e um milhes, duzentos e trinta e um mil, duzentos
e trinta e quatro; nove trs um dois trs um dois trs um?

Datas ] Iraes ] Card|na|s
3/10 = trs de outubro; trs dcimos? trs de dez?

Med|das ] 1empo
5 m. = cinco metros; 5 minutos?
34 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
ulvlSC8 SlL8lCC
MCuuLCS LlnCulS1lCCS
(INPUT)
Palavra
ortogrfica
Definio de
VOGAL,
CONSOANTE,
GLIDE
Busca das
VOGAIS de
cada palavra
Anlise da sua
vizinhana
Regras de
diviso silbica
(OUTPUT)
Palavra
ortogrfica
dividida em
slabas
-'$&(
aLaque: -' rlma: $&(
nucleo: $ coda: &(
35 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
ulvlSC8 SlL8lCC
MCuuLCS LlnCulS1lCCS
8C8LLMAS
'(,.)'
-$(/,(.
0),.123*3
'(, .)'
-$ (/ ,(.
0), .1 23 *3
- ManLer as
sequnclas de vs
como 4)%3.-3(
*'#(*#.%#( ?
'( , .)' : '((volLar) ,.)'(Lo unlLe)
0) , .1 23 *3: 0) (dols) ,.123 *3
- Conslderar a
Lendncla em fazer
colncldlr a dlvlso
sllblca com poLenclas
morfemas?
$'9#'5'
3:-#'
32;63
$' 9#' 5'
3: -#'
32 ;63
- ulvldlr a sllaba enLre
a v e a C ploslva?
$ '9#' 5'
3 :-#'
3 2;63
- Llgar a sequncla de C
de forma a colocar as
ploslvas em poslo de
aLaque sllblco?
36
MA8CAuC8 de 1CnlCluAuL
MCuuLCS LlnCulS1lCCS
$'9#'5' (Lo arn)
3:-#'7 8%3 30%$).9
:32;63 (opuon)
$' 9#' 5'
3: -#'
32 ;63
- Pavlng Lhe sllable boundar
beLeen Lhe v and Lhe C
ploslve.
$ '9#' 5'
3 :-#'
3 2;63
- Llnklng a C sequence ln order Lo
puL ploslves alas ln an onseL
locauon.
$'9#'5' (Lo arn)
3:-#'7 8%3 30%$).9
:32;63 (opuon)
$' 9#' 5'
3: -#'
32 ;63
- Pavlng Lhe sllable boundar
beLeen Lhe v and Lhe C
ploslve.
$ '9#' 5'
3 :-#'
3 2;63
- Llnklng a C sequence ln order Lo
puL ploslves alas ln an onseL
locauon.
$'9#'5' (Lo arn)
3:-#'7 8%3 30%$).9
:32;63 (opuon)
$' 9#' 5'
3: -#'
32 ;63
- Pavlng Lhe sllable boundar
beLeen Lhe v and Lhe C
ploslve.
$ '9#' 5'
3 :-#'
3 2;63
- Llnklng a C sequence ln order Lo
puL ploslves alas ln an onseL
locauon.
(INPUT)
Palavra
ortogrfica
Anlise da
direita para a
esquerda
Regras de
marcao da
VOGAL
TNICA
(OUTPUT)
Palavra
ortogrfica com
marca de vogal
tnica
EBRALC2012 So Carlos-SP, Brasil - set. 11-12, 2012
37
MA8CAuC8 de 1CnlCluAuL
MCuuLCS LlnCulS1lCCS

!"#!$%
"'"()*+%
,
%- " #"$"%&" '() *)" ! +,) )"&+"-., /&012+" 3( "+(4',5
"./01 ! ! !
#$%&'(
6
(%)*+&,-
,)$#)./
2
%- " #"$"%&" 4., 7 )"&+"3" +,) "+(4', /&012+, ( '(&)24"
() 8"95 8(9 ,* 8,9 :(/*23" ;,* 4.,< #,& 8)=4=:95
"./01 " ! "4'(&2,& " 8"95 8(9 ,* 8,9 ! !
#$%&'(
6
')(0#(1,2
'/%#)-%#-1,2
-,#)34/1,2
3
%- " #"$"%&" 4., 7 )"&+"3" +,) "+(4', /&012+, ( '(&)24"
() 5 8$95 8&95 8>9 ,* 8?95 "./01 " @$'2)" ! ! !
#$%&'(
6
'(%#)(0
(00)/6
4
%- " #"$"%&" 4., 7 )"&+"3" +,) "+(4', /&012+, ( '(&)24"
() ! 829 ,* 8*95 :(/*23" ;,* 4.,< #,& 8)=4=:95
"./01 829 ,* 8*9 ! !
#$%&'(
6
4-+7)&8
(+9)38
'/8)3%,
5
%- () A5 B ( C5 ": ! 829 ,* 8*9 :., #&(+(323": #,& ,*'&" !5
"./01 " ,*'&" ! ! !
#$%&'(
6
:)(&1,2
(4)-3,
6
%- () D " ! 829 ,* 8*9 7 :(/*23" #,& 8+E95 84E95 8) F
5=G9 ,* 84 F 595 "./01 829 ,* 8*9 ! !
#$%&'(
6
,(%43)&';-
(8-%4/)&8


L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
38
MA8CAuC8 de 1CnlCluAuL
MCuuLCS LlnCulS1lCCS
(lnu1) alavra
orLogrca
Anllse da dlrelLa
para a esquerda
8egras de
marcao da
vCCAL 1CnlCA
(Cu1u1)alavra
orLogrca com
marca de vogal
Lnlca
ADVLk8ICS 1LkMINADCS LM </(&-(>?
';+)43'$+)4$<#.%#, dcll#docllmenLe
EBRALC2012 So Carlos-SP, Brasil - set. 11-12, 2012
39 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
CCnvL8SC8 de C8AlLMA em lCnLMA
MCuuLCS LlnCulS1lCCS
< B r a s i l >

/ b r 6 z i l /
< c h a m o u > < t m >

/ S 6 m o / / t 6~ i~ 6~ i~ /

CCAk1ICULAC? Inseres? Apagamentos?
8eduo vocllca e degemlnao consonnuca: sapo pequeno sa]p p]equeno
Paplologla (Lroqueu mrlco/sllblco): pato tomava # pa]t o]mava
Crase (luso vocllca): A menlna acena. [6 6] ]a]
8eduo da vogal nal: Lla |mps [6l] [|]
Semlvocallzao: SalLo alLo [u a] [wa]
40
! 8LC8AS LlnCulS1lCAS
! orLugus: regularldade foneuca e fonolglca orLograa de base fonolglca
! 8egras fonolglcas para conLexLos frequenLes
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
A8C8uACLnS
8CCLSSAMLn1C uL lALA
ou # /o/
al= : a # /a/ (<almoar /almusar/)
>s> : s # /z/ (casa /kaz6/)
41 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
A8C8uACLnS
8CCLSSAMLn1C uL lALA
! nenhuma llngua naLural humana sausfaz LoLalmenLe a assuno do C2l um
para um
! LlsLa/dlclonrlo de excees
! MulLo complexo, pesado, cansauvo, caro
! MCuLLCS LS1A1lS1lCCS
! usando exemplos de pronunclao e posslvel, por analogla, predlzer a
pronunclao de palavras novas
! no e suclenLemenLe esperLo. vaga # v a g 6 : vagarosa # v 6 g 6 r C z 6
! MCDLLCS nI8kIDCS
! 8LC8AS LlnCulS1lCAS
! orLugus: regularldade foneuca e fonolglca orLograa de base fonolglca
! 8egras fonolglcas para conLexLos frequenLes
42
- 1CkNAk A CCMUNICAC LSSCA-MUINA MAIS NA1UkAL
- IACILI1ADCkLS DA CCMUNICAC LN1kL nUMANCS
SlS1LMAS de AS8 e de 11S
ALlCA0LS 1LCnCLCClCAS
! CulCSCuLS ulCl1AlS e MuL1lMLulA
! e-commerce e-banklng lelLura de pglnas eb, de emalls Cu com lnformao Lurlsuca
slsLemas de Lelecomunlcaes de execuo de chamada por lndlcao do nome ou do n do
desunaLrlo
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
8CCLSSAMLn1C uL lALA
43
- 1CkNAk A CCMUNICAC LSSCA-MUINA MAIS NA1UkAL
- IACILI1ADCkLS DA CCMUNICAC LN1kL nUMANCS
SlS1LMAS de AS8 e de 11S
! CulCSCuLS ulCl1AlS e MuL1lMLulA
! ALlCA0LS uL ul1AuC
! SlsLemas de dlLado llvre (escrlLores) slsLemas de dlLado de documenLos (medlcos,
advogados)
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
ALlCA0LS 1LCnCLCClCAS
8CCLSSAMLn1C uL lALA
44
- 1CkNAk A CCMUNICAC LSSCA-MUINA MAIS NA1UkAL
- IACILI1ADCkLS DA CCMUNICAC LN1kL nUMANCS
SlS1LMAS de AS8 e de 11S
! CulCSCuLS ulCl1AlS e MuL1lMLulA
! ALlCA0LS de ul1AuC
! LnSlnC da LlnCuA (CALL)
! Lnslno da L2 e enslno da lelLura na L1 Lrelno de lelLura com llvros falados dlglLals deLeo
e correo de erros de pronuncla
!"#$%& !"#$"% '( $)*%*+"'(,
-./012-3 4*56(" 77

llgura 11: 8eallzao dum exerclclo

C uLlllzador pode gravar a sua resposLa: para lnlclar a gravao cllca-se no lcone de
gravao e para parar a gravao cllca-se no lcone de sLop . A resposLa e de
segulda avallada pela !oana, podendo esLar cerLa ou errada. Se a resposLa esLlvera
errada pode repeLlr-se o exerclclo aLe um numero llmlLado de LenLaLlvas
(normalmenLe 3). Lm qualquer caso, o uLlllzador sempre pode ouvlr a sua ulLlma
resposLa cllcando on boLo de reproduo . llnalmenLe, o uLlllzador pode sempre
passar ao exerclclo segulnLe cllcando no lcone ou volLar ao menu prlnclpal
cllcando no lcone .


llgura 12: 8esposLa errada


L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
ALlCA0LS 1LCnCLCClCAS
8CCLSSAMLn1C uL lALA
45
- 1CkNAk A CCMUNICAC LSSCA-MUINA MAIS NA1UkAL
- IACILI1ADCkLS DA CCMUNICAC LN1kL nUMANCS
SlS1LMAS de AS8 e de 11S
ALlCA0LS 1LCnCLCClCAS
! CulCSCuLS ulCl1AlS e MuL1lMLulA
! ALlCA0LS de ul1AuC
! LnSlnC da LlnCuA (CALL)
! CluAuCS com nLCLSSluAuLS LSLClAlS
! SlnLeuzadores de fala (lelLura de SMS) legendagem auLomuca casas lnLellgenLes
(domuca) cadelras de roda que obedecem a comandos de voz
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
8CCLSSAMLn1C uL lALA
46
- 1CkNAk A CCMUNICAC LSSCA-MUINA MAIS NA1UkAL
- IACILI1ADCkLS DA CCMUNICAC LN1kL nUMANCS
SlS1LMAS de AS8 e de 11S
ALlCA0LS 1LCnCLCClCAS
! CulCSCuLS ulCl1AlS e MuL1lMLulA
! ALlCA0LS de ul1AuC
! CluAuCS com nLCLSSluAuLS LSLClAlS
! LnSlnC da LlnCuA (CALL)
! 8CCLSSAMLn1C de Cu18AS vA8lLuAuLS do C81uCuLS
! orLabllldade para ouLras varlanLes (esforo na consLruo de recursos llngulsucos que
cubram Lodas as varlanLes do orLugus)
ape| do L|ngu|sta?
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
8CCLSSAMLn1C uL lALA
47
! SCLlulllCA8/CCM8CvA8 A 1LC8lA LlnCulS1lCA CCM 8ASL LM Lx1LnSCS
CC8C8A
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
C ALL do LlnCulS1A
8CCLSSAMLn1C uL lALA
! CCnS18uC uL 8u (lnfra-esLruLuras de base)
! LsLruLurao/consLruo de slmbologla consensual que descreva com rlgor
os fenmenos da llngua
! ulclonrlo foneuco de uma llngua (alofones, xenofones)
! ulclonrlo para uma llngua (monemas, lexemas, .)
! MapeamenLo enLre dlclonrlo da llngua e de pronunclao:
! lormas de pronunclao no dlclonrlo
48
! SCLlulllCA8/CCM8CvA8 A 1LC8lA LlnCulS1lCA CCM 8ASL LM Lx1LnSCS
CC8C8A
! CCnS18uC uL 8u (lnfra-esLruLuras de base)
! CCLLC L AnC1AC uL 8u
! Crlao de frases foneucamenLe rlcas (balanceadas)
! Cravao de voz com boa coberLura de paLenLes enLoaclonals
! Coleo de grandes corpora de LexLo
! AnoLao de 8u (lnclulndo evenLos de ruldo, heslLaes,.)
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
C ALL do LlnCulS1A
8CCLSSAMLn1C uL lALA
49
! SCLlulllCA8/CCM8CvA8 A 1LC8lA LlnCulS1lCA CCM 8ASL LM Lx1LnSCS
CC8C8A
! CCnS18uC uL 8u (lnfra-esLruLuras de base)
! CCLLC L AnC1AC uL 8u
! 8LC8AS L ALCC8l1MCS
! ConLrlbulo na crlao e valldao de ouLpuL
L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
C ALL do LlnCulS1A
1LCnCLCClAS uA lALA
50 L8kALC2012 - So Car|os-S, 8ras|| - set. 11-12, 2012
C ALL do LlnCulS1A
1LCnCLCClAS uA lALA

put(pal[i-1])
NCO de palavra
put(pal[i])
vogal(pal[i]) ?
Yes
No
pal[i]='\0' ?
No
vogal(pal[i]) ?
No
i<-0
i++ pal[i]='\0' ? No
FM de palavra
put(pal[i])
Yes
Yes
pal[i]='\0' ?
No
Yes
vogal(pal[i]) ?
No
put(pal[i-1])
vogal(pal[i+1]) ? Yes
i++
i++
seg(pal[i-1], pal[i]) ?
put(pal[i-1]) put('.')
vogal(pal[i]) ? No
Yes
put(pal[i])
i++
put(pal[i])
put('.')
put(pal[i])
No
Yes
Yes
No
Yes
Yes
FM de palavra
FM de palavra
put(pal[i]) i++ put(pal[i])
put(pal[i-1]) i++ put(pal[i])
put('.') put(pal[i-1]) put(pal[i])
No
put('.') put(pal[i-1])
i++
put(pal[i])
put(pal[i])
semivog(pal[i])
put('.')
vogal(pal[i+2]) ? No i++
seg(pal[i-1], pal[i])
ou pal[i]='s' ?
Yes
Yes put('.')
No put(pal[i-1]) i++ put(pal[i]) put('.')
?
v
c c?
...v
...v
?
c? c c
ccv
...v?
...vv
...v ...v.v
v: vogal ... : qualquer sequncia de letras negrito: letra j gravada na string de sada
c: consoante . : separador de slabas sublinhado: letra referenciada pelo ndice !
?: letra ainda no determinada
LEGENDA:
...vc ?
...vc
...vc c
...vc v
...v.cv
...vc c v
...vc. c v
...v. c c v
...vc c cv
...vc c cc
...vc c . c c
...c v
...vc c . c v
...vc . c c v
INSLkIk CCNnLCIMLN1C LINGUIS1ICC
NCS MCDLLCS DL LINGUA NA1UkAL IALADA
Conhec|mentos bs|cos de:
rogramao
AlgorlLmla
LsLasuca
rocessamenLo de slnal
2005, it - instituto de telecomunicaes. Todos os direitos reservados.
!"#" %"&'()"*
saracande|asQco.|t.pt


Lab de rocessamenLo de lala
unlversldade de Colmbra, uLLC, orLugal
11 a 12 seLembro 2012 So Carlos - S, 8rasll
VI Lsco|a 8ras||e|ra de L|ngu|snca Computac|ona|
ulLCCC Ln18L PCMLnS L MCulnAS
C ALL uC LlnCulS1A nLS1L nCvC lC8MA1C uL CCMunlCAC
Muito obrigada

Você também pode gostar