Você está na página 1de 45

Anlise de associao, copulas e aplicao a dados lingsticos

Vernica Andrea Gonzlez-Lpez & Jess Enrique Garca


Universidade Estadual de Campinas IMECC
16o. SINAPE
Simpsio Nacional de Probabilidade e Estatstica

Motivao
Copulas
Dados Lingsticos
Etapas na Modelagem
Anlise
Discrepncia
Suporte Parcial:
VAGL: FAPESP/Brasil-Projeto 01/02576-0
JEG: FAPESP/Brasil-Projetos 98/3382-0 e 00/07959-1;
Acordo USP-COFECUB e CAPES/PICDT
Agradecemos a Franck Ramus por ter cedido as frases para este estudo

0.0

0.2

0.4

0.6

Geramos
xy
x=(x1,...,xn)~Exp(2)
y=(y1,...yn)~Exp(10)

0.0

0.5

1.0

1.5
x

2.0

2.5

3.0

1.0

independncia mascarada
Pelas marginais

0.2

0.4

Fy

0.6

0.8

Fx=1-exp(-2*x)
Fy=1-exp(-10*y)

0.0

Genest & Boies(2003)


0.0

0.2

0.4

0.6
Fx

0.8

1.0

Dependncia entre X e Y como composio de:


(FX, FY, Copula)

Sklar(1959): FX,Y(x,y)=C(FX(x),FY(y))
f.d.a. conjunta
f.d.a. marginais
Copula entre X e Y

(f.d.a.

FX,Y
FX , FY
C

de (U,V)=(FX(x),FY(y))

Copulas: f.d.a. em [0,1]2

Conhecidas FX,Y , FX , FY determinamos C


C(u,v)= FX,Y (F-1X(u) , F-1Y(v))

Tipos de dependncia:
Concordncia (TP2, PA, SI)
Discordncia (RR2, NA, SD)

Lnguas: Catalo(cat), Holands(dul), Ingls(enl), Espanhol(esp), Francs (frl),


Italiano(itl), Japons(jap), Polons(pol).

Interesse: construir grupos de lnguas que apresentam famlias de copulas


semelhantes.
Fundamento para a existncia destes grupos:

%V a proporo de tempo
correspondente a vogais
C o desvio padro dos
intervalos consonantais
(Ramus, F., Nespor, M., Mehler,
J., 1999)

Sinal Acstico frase do Italiano


(itl1151)

I genitori lasciano Marco senza risorse

Ampliao Local do Sinal Acstico

O sinal x(t) representa a presso do ar no microfone

Sinal Acstico e Espectrograma

O espectrograma
O espectrograma para o tempo t e freqncia f , sx(t,f), pode
ser interpretado como a energia que a freqncia f aporta ao
sinal acstico no tempo t.
No grfico do espectrograma as regies mais obscuras
correspondem a valores maiores de energia.

Para a regularidade (sonoridade) dividimos o espectrograma


em duas regies: de 80 a 800 hz e de 800 hz a 5000 hz
Irregular

Regular

Para a energia dividimos o espectrograma em trs regies:


de 80 hz a 800 hz, de 800 a 1500 hz e de 1500hz a 5000hz
Baixa energia

Alta energia

Regies de Interesse no
espectrograma
5000 hz

1500 hz

800 hz
80 hz

Variveis

SL: sonoridade no intervalo de freqncias (80 hz, 800 hz)


SH: sonoridade no intervalo (800 hz, 5000 hz)
S: variao da sonoridade no intervalo (80 hz, 800 hz)
NmaxL: media do mximo da diferencia entre pt e pt-1 no intervalo (80 hz, 800 hz)
NmaxH: media do mximo da diferencia entre pt e pt-1 no intervalo (800 hz, 5000
hz)
NmaxT: media do mximo da diferencia entre pt e pt-1 no intervalo (80 hz, 5000
hz)
EntrL: media da entropia de pt no intervalo (80 hz, 800 hz)
EntrH: media da entropia de pt no intervalo (800 hz, 5000 hz)
E1: Energia no intervalo de freqncias (80 hz, 800 hz)
E2: Energia no intervalo de freqncias (800 hz, 1500 hz)
E3: Energia no intervalo de freqncias (1500 hz, 5000 hz)
PE1: Proporo de energia no intervalo de freqncias (80 hz, 800 hz)
PE2: Proporo de energia no intervalo de freqncias (800 hz, 1500 hz)
PE3: Proporo de energia no intervalo de freqncias (1500 hz, 5000 hz)
PPE1, PPE2 e PPE3: Proporo de energia nos intervalos de freqncias
anteriores mas com pesos diferentes

Estrutura dos dados (exemplo: dul)


Varivel: Sonoridade Baixa (SL)
falante 1

falante 2 falante 3 falante 4

0.6550426 0.6135087 0.6117972 0.5730899


0.7323834 0.6992477 0.7009909 0.6487062
0.6542365 0.6234283 0.5932358 0.5971551
0.6874328 0.7043169 0.7221783 0.6267546
...
Varivel: Sonoridade Alta
...

(SH)

falante 1

falante 2

falante 3 falante 4

0.2941877
0.3928520
0.3615761
0.3233377
...
...

0.2685418
0.3540849
0.2726972
0.3160166

0.3287807
0.4185050
0.3262655
0.3742268

0.3082171
0.3928807
0.3221294
0.3324148

Holands(dul): SL vs SH por falante


Falante 3

0.40

SH
0.30

0.34

0.36

0.35

0.38

SH

0.42

0.40

0.44

0.46

0.45

Falante 1

0.65

0.70

0.75

0.80

0.60

0.65

0.70

0.75

SL

SL

Falante 2

Falante 4

0.80

0.30

0.28

0.30

0.35

SH

SH

0.32

0.40

0.34

0.45

0.60

0.60

0.65

0.70
SL

0.75

0.80

0.60

0.65

0.70
SL

0.75

0.80

Japons(jap): SL vs SH por falante


Falante 2

SH

0.45

0.38

0.35

0.32

0.34

0.40

0.36

SH

0.40

0.50

0.42

0.44

0.55

Falante 1

0.70

0.75

0.65

0.70

0.75

SL

SL

Falante 3

Falante 4

0.32

0.35

0.34

0.40

0.36

SH

SH

0.38

0.45

0.40

0.42

0.50

0.65

0.60

0.65

0.70
SL

0.75

0.80

0.60

0.65

0.70
SL

0.75

0.80

Propsito:
1. modelar a dependncia (copula) entre SL e
SH (e outras variveis), tirando a influncia
dos falantes.
2. Usando esta modelagem construir grupos de
lnguas que apresentam famlias de copulas bi
variadas semelhantes.

Passos da modelagem:
1. Ajuste de um modelo de Regresso
2. Ajuste Copula

Yij=+i+ij , i=1,...,4 (falantes)


j=1,...,n (frases)
Yij (SL, SH, etc...)
Se Yij =SL (por exemplo)
=SL media
i =SL (contribuio para + ou de cada falante)
ij =erro associado ao falante i na frase j

Sob suposies de independncia em Yij, podemos


assumir ij ~ d(0,e2) independentes
Estimativas robustas de eij =ij/ e
(Yij-TM(i))/sr
TM(i): M - estimador de posio para o falante i
(sr)2: - estimador de e2

Estimativas MV de eij =ij/ e


(Yij-YM(i))/sv

YM(i): media do falante i


(sv)2: estimador de MV de e2

X=esLij (estimativas para SL)


Y=esHij (estimativas para SH)

Holands e Japons

Japones

y(MV)

-1

0
-2

-2

-1

y(MV)

Holandes

-2

-1

-2

x(MV)

x(MV)

Japones

-1

y(R)

0
-1

-2

-2
-3

y(R)

Holandes

-2

-1

1
x(R)

-4

-2

0
x(R)

dul

(R)

(MV)

2e (R)

2e(MV)

SL

0.660579

0.661683

0.001610

0.001791

SH

0.362121

0.356897

0.000746

0.000829

Jap

(R)

(MV)

2e (R)

2e(MV)

SL

0.706116

0.704387

0.000963

0.001255

SH

0.409311

0.408720

0.001700

0.001645

Variabilidade nas classes de falantes (SL)


jap

2 (MV)

2(R)

dul

2 (MV)

2(R)

SL

0.000248

0.000109

SL

0.000364

0.000122

Falante/jap YM

TM

Falante/dul YM

TM

0.710308

0.711612

0.6813747

0.6794029

0.701974

0.701671

0.6603075

0.6574430

0.722242

0.726853

0.6702471

0.6682459

0.683025

0.683052

0.6348015

0.6314455

Variabilidade nas classes de falantes (SH)


jap

2 (MV)

2(R)

dul

2 (MV)

2(R)

SH

0.001371

0.001111

SH

0.001073

0.000203

Falante/jap YM

TM

Falante/dul YM

TM

0.389836

0.391283

0.372275

0.371723

0.450763

0.450403

0.309141

0.309141

0.427250

0.428198

0.383640

0.382699

0.367032

0.366988

0.362531

0.358220

Algoritmo VAGL-NIT
Percorre 7 famlias de copulas bi - variadas e bi paramtricas, Arquimedianas Generalizadas mais a
copula do mximo : CBBi, i=1,...,7 e CMax

Dados: (ui,vi)=(FM1(xi),FM2(yi)), i=1,..., m; onde


FMk, k=1,2: f.d.a. a ser utilizada exemplo: emprica,
normal...

A copula emprica bi variada baseada em {(uj,vj),


j=1,...,m} ser comparada com as famlias de copulas
disponveis na biblioteca do algoritmo, usando algum
teste de comparao de amostras.
Para detalhes: Vide pster 20 - Tanaka, N.I. (Quarta, 28 de Julho)

Fx(x)=(#xi: xix)/n
Fy(y)=(#yi: yiy)/n

Croquis da Copula entre X e Y

dul:Fx vs Fy

0.0

0.0

0.2

0.2

0.4

0.4

Fy(R)

Fy(MV)

0.6

0.6

0.8

0.8

1.0

1.0

jap:Fx vs Fy

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

Fx(R)

Fx(MV)

dul:Fx vs Fy

jap:Fx vs Fy

0.8

1.0

0.8

1.0

0.0

0.0

0.2

0.2

0.4

0.4

Fy(R)

Fy(MV)

0.6

0.6

0.8

0.8

1.0

1.0

0.0

0.0

0.2

0.4

0.6
Fx(MV)

0.8

1.0

0.0

0.2

0.4

0.6
Fx(R)

Outros croquis de copulas

0.8
0.6
Fy(MV)
0.4
0.2
0.0

0.0

0.2

0.4

Fy(MV)

0.6

0.8

1.0

jap:Fx vs Fy-variaveis originais:(SL,NormaXL)

1.0

jap:Fx vs Fy-variaveis originais:(SL,deltaSL)

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

Fx(MV)

jap:Fx vs Fy-variaveis originais:(SH,NormaXH)

jap:Fx vs Fy-variaveis originais:(SH,deltaSL)

1.0

0.8
0.6
Fy(MV)
0.4
0.2
0.0

0.0

0.2

0.4

Fy(MV)

0.6

0.8

1.0

Fx(MV)

1.0

0.0

0.0

0.2

0.4

0.6
Fx(MV)

0.8

1.0

0.0

0.2

0.4

0.6
Fx(MV)

0.8

1.0

Ajuste Copula por VAGL-NIT


para Holands y Japons
jap: SL vs SH - MV

0.6

Copula BB7

0.2

0.4

0.6
0.4
0.0

0.0

0.2

Copula BB4

0.8

0.8

1.0

1.0

dul: SL vs SH - MV

0.0

0.2

0.4

0.6

0.8

0.0

1.0

0.2

dul: SL vs SH - R

0.6

0.8

1.0

0.6

Copula BB1

0.4

0.2

0.2

0.4

0.6

0.8

0.8

1.0

1.0

jap: SL vs SH - R

0.0

0.0

Copula BB4

0.4

Copula Empirica

Copula Empirica

0.0

0.2

0.4

0.6

Copula Empirica

0.8

1.0

0.0

0.2

0.4

0.6

Copula Empirica

0.8

1.0

Ajuste Copula por VAGL-NIT para Holands y Japons

SL VS SH

Copula

MSE

M-W

K-S

dul(MV)

BB4

0.486823

0.450280

0.000109

0.9997

dul(R)

BB4

0.526823

0.400280

9e-005

Jap(MV)

BB7

0.832455

1.131040

5e-005

Jap(R)

BB1

1.141040

0.625466

5e-005

Comparao de duas lnguas(MV)


(Holands e Japons): matriz de concordncia(M) -copulas entre
varivel i e varivel i+j

i= [1]
[2]
[3] [4] [5]
[6]
[7]
[8] [9]
[i+1] "-"
"-"
"-" "-"
"-" "BB6 "-"
"-"
"-"
[i+2] "-"
"-"
"-" "-" "BB6" "BB6 "BB7" "-"
"-"
[i+3] "-"
"-"
"-" "-" "BB6 "BB6" "-" "BB6" "-"
[i+4] "-"
"-"
"-" "-" "BB6 "BB6 "-" "BB6 "-"
[i+5] "-"
"-" "BB6" "-" "BB6 "BB6" "-"
"-" "BB6
[i+6] "-" "BB1 "-" "-" "BB6" "-"
"-" "BB6" "-"
[i+7] "-"
"-" "-" "BB6" "-" "BB6 "-" "BB6" "-"
[i+8] "BB6" "-" "BB6" "-" "BB6" "-"
"-"
"-"
"-"
[i+9] "BB6" "BB6" "-" "-"
"-"
"-"
"-" "BB6
[i+10] "BB6 "-" "-" "-"
"-" "BB6" "-"
[i+11] "-"
"-" "-" "BB4" "BB6" "-"
[i+12] "BB6" "-" "-" "-"
"-"
[i+13] "-" "BB6" "-" "-"
[i+14] "-"
"-" "-"
[i+15] "BB6" "BB1"
[i+16] "-"

[10] [11] [12] [13] [14]


"BB6" "BB6 "-"
"-" "-"
"-" "BB6 "-"
"-" "-"
"-"
"-"
"-"
"-" "-"
"-" "BB6" "-"
"-"
"-" "BB6" "-"
"BB7 "-"
"-"

[15] [16]
"-" "BB6"
"-"

Critrio de Discrepncia (1): soma de indicadores vezes p valor


mnimo nas discrepncias

pLi,j =p-valor do teste M-W, para a copula ajustada na lngua L ,


L=cat,...,pol; para a dupla de variveis (i,j)

p0 = maxij {min{pL1ij, pL2ij}} onde L1 e L2 so duas lnguas diferentes


I(Mij) = 1 se Mij=-; I =0 em caso contrrio
N=# total de copulas ajustadas

M1(L1,L2)=(1/N)ij I(Mij)min{pL1ij,pL2ij}/p0

Discrepncia : soma de indicadores vezes p valor mnimo nas


discrepncias
M1(MV) cat
cat 0.000000
dul 0.575451
enl 0.504272
esp 0.477394
frl 0.437538
itl 0.394352
jap 0.473412
pol 0.409204

dul
0.575451
0.000000
0.476681
0.473979
0.501307
0.471290
0.532815
0.434835

enl
0.504272
0.476681
0.000000
0.503792
0.443667
0.370986
0.555930
0.440167

esp
0.477394
0.473979
0.503792
0.000000
0.444721
0.424004
0.468421
0.347931

frl
0.437538
0.501307
0.443667
0.444721
0.000000
0.393887
0.428266
0.360984

itl
0.394352
0.471290
0.370986
0.424004
0.393887
0.000000
0.411169
0.371256

jap
0.473412
0.532815
0.555930
0.468421
0.428266
0.411169
0.000000
0.404769

pol
0.409204
0.434835
0.440167
0.347931
0.360984
0.371256
0.404769
0.000000

M1(R) cat
cat 0.000000
dul 0.512683
enl 0.514699
esp 0.441988
frl 0.451922
Itl 0.418509
jap 0.513326
pol 0.428690

dul
0.512683
0.000000
0.478937
0.470930
0.467406
0.374885
0.512814
0.430389

enl
0.514699
0.478937
0.000000
0.466390
0.443947
0.358231
0.527366
0.415599

esp
0.441988
0.470930
0.466390
0.000000
0.436995
0.440963
0.473083
0.342357

frl
0.451922
0.467406
0.443947
0.436995
0.000000
0.406157
0.394006
0.335798

itl
0.418509
0.374885
0.358231
0.440963
0.406157
0.000000
0.407137
0.358050

jap
0.513326
0.512814
0.527366
0.473083
0.394006
0.407137
0.000000
0.408945

pol
0.428690
0.430389
0.415599
0.342357
0.335798
0.358050
0.408945
0.000000

Cluster Discrepncia : soma de indicadores vezes p valor mnimo


nas discrepncias

dul

enl
frl

itl

cat

0.36

cat

0.42

pol

frl

esp

itl

enl

dul

0.40
0.38
0.36
0.34

pol

esp

0.34

Discrepancia Ponderada por p-valor - R

jap

0.38

jap

0.40

0.42

Discrepancia Ponderada por p-valor - MV

Critrio de Discrepncia (2): soma de indicadores vezes p valor


mnimo nas discrepncias, ponderada pelas medidas nas caudas

pLi,j =p-valor do teste M-W, para a copula ajustada na lngua L ,


L=cat,...,pol; para a dupla de variveis (i,j)
LL(i,j)=medida na cauda inferior da copula para (i,j)
UL(i,j)=medida na cauda superior da copula para (i,j)
definimos para um par de lnguas L1 e L2
(i,j)={| LL1(i,j)- LL2(i,j) |+| UL1(i,j)- UL2(i,j)|}/2

t0 = maxij {(i,j)min{pL1ij, pL2ij}} onde L1 e L2 so duas lnguas


diferentes
I(Mij) = 1 se Mij=-; I =0 em caso contrrio
N=# total de copulas ajustadas
M2(L1,L2)=(1/N)ij I(Mij) (i,j)min{pL1ij,pL2ij}/t0

Cluster de discrepncia: soma de indicadores vezes p valor mnimo


nas discrepncias, ponderados pelas medidas nas caudas
M2(MV) cat
Cat 0.000000
dul 0.210499
enl 0.162398
esp 0.169914
frl 0.125045
itl 0.149718
jap 0.148932
pol 0.163315

dul
0.210499
0.000000
0.150137
0.183674
0.181730
0.165417
0.157821
0.183412

enl
0.162398
0.150137
0.000000
0.176209
0.149436
0.151243
0.189031
0.154153

esp
0.169914
0.183674
0.176209
0.000000
0.154918
0.149519
0.180642
0.139990

frl
0.125045
0.181730
0.149436
0.154918
0.000000
0.153649
0.153342
0.123173

itl
0.149718
0.165417
0.151243
0.149519
0.153649
0.000000
0.149064
0.143485

jap
0.148932
0.157821
0.189031
0.180642
0.153342
0.149064
0.000000
0.145061

pol
0.163315
0.183412
0.154153
0.139990
0.123173
0.143485
0.145061
0.000000

M2(R) cat
cat 0.000000
dul 0.170610
enl 0.161725
esp 0.142283
frl 0.176776
itl 0.150295
jap 0.188911
pol 0.159761

dul
0.170610
0.000000
0.157286
0.167721
0.174214
0.157020
0.173750
0.185207

enl
0.161725
0.157286
0.000000
0.158903
0.147521
0.156322
0.173768
0.161733

esp
0.142283
0.167721
0.158903
0.000000
0.140024
0.149554
0.165917
0.128513

frl
0.176776
0.174214
0.147521
0.140024
0.000000
0.184346
0.136060
0.136335

itl
0.150295
0.157020
0.156322
0.149554
0.184346
0.000000
0.129852
0.156588

jap
0.188911
0.173750
0.173768
0.165917
0.136060
0.129852
0.000000
0.135324

pol
0.159761
0.185207
0.161733
0.128513
0.136335
0.156588
0.135323
0.000000

Cluster de discrepncia : soma de indicadores vezes p valor mnimo


nas discrepncias, ponderados pelas medidas nas caudas

esp

itl

jap

enl

dul

0.125

0.130

0.135

0.140

0.145

0.150

Discrepancia Ponderada por p-valor e medida caudas - MV

enl

dul

jap

pol

itl

frl

cat

esp

0.125

0.130

0.135

0.140

0.145

0.150

0.155

pol

frl

cat

0.120

Discrepancia Ponderada por p-valor e medida caudas - R

cat

frl

dul

itl

esp

jap

pol

enl

0.15

0.20

0.25

0.30

0.35

0.40

0.45

Similaridade / p-valor entre empiricas(K-S)

Critrio: so feitas as comparaes (entre idiomas) via teste K-S


comparando as empricas bi dimensionais das variveis uniformizadas .
O critrio consiste em considerar o p-valor mximo de todas as comparaes

Comparao entre critrios

SL

esp

itl

jap

dul

enl

pol

frl

cat

0.120

0.125

0.130

0.135

0.140

0.145

0.150

Discrepancia Ponderada por p-valor e medida caudas - MV

Nelsen R.(1999).An Introduction to Copulas. Lecture Notes in Statistic. 139. New

York: Springer
Genest C. & MacKay R.(1986)Copules archimdiennes el families de lois
bidimensionnelles dont les marges sont donnes, The Canadian Journal of
Statistics, vol 14 # 2, 145-159
Genest C. & Boies J.C.(2003) Detecting dependence with Kendall PLot, The
American Statistician, vol 57 # 4
Gonzlez-Lpez V. & Tanaka, N. (2003) Bi-variate data modeling through
generalized archimedean copula. RT-MAE 2003-03/IME-USP.
Sklar A. (1959) Fonctions de rpartition n dimensions et leurs margens.
Publications de l Institut de Statistique de lUniversit de Paris, 8, 229-231.
Schweizer B. & Sklar, A.(1983). Probabilistics Metric Spaces, Amsterdam: NorthHolland.
Galves, A., Garcia, J., Duarte, D., Galves, C. , 2002 Sonority as a basis for
rhythmic class discrimination. Speech Prosody 2002. www.lpl.univaix.fr/sp2002/pdf/galves-etal.pdf.
Garcia, J., Gut, U., Galves, A. , 2002, Vocale - A Semi-Automatic Annotation Tool
for Prosodic Research.Speech Prosody 2002, http:/www.lpl.univaix.fr/sp2002/pdf/garcia-gut-galves.pdf
Ramus, F., Nespor, M., Mehler, J., 1999. Correlates of linguistic rhythm in the
speech signal. Cognition, 73, 265-292.

Você também pode gostar