Escolar Documentos
Profissional Documentos
Cultura Documentos
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 1 / 186
Normal bivariada: introdução
Normal bivariada
z
z
y
y
x x
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 2 / 186
Normal bivariada: introdução
Normal bivariada
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 3 / 186
Normal bivariada: introdução
Densidade e amostra
● ●
2
●
● ●
●
●● ●
● ● ●
● ● ●
● ● ●
● ●
● ● ● ●
● ●
●● ●●
1
● ● ● ● ● ●
● ●
● ● ● ●
● ●
● ● ● ● ● ●●
● ● ● ● ●●
●
● ● ●● ● ● ●
● ● ●
rnorm(200)
●● ● ●● ●
● ● ● ●●●●●●●
● ● ●● ● ● ●
● ● ●●
0
● ● ●● ●● ● ● ● ● ●
● ●
● ●
z
● ● ● ●
● ●● ● ●
● ● ●● ● ● ● ●●●●
●
●●
● ●
●
● ● ● ● ●
●
● ● ● ●
● ●● ● ●●
●●●
−1
● ● ● ● ● ● ● ● ● ●
●●● ● ● ●●
y ●● ● ● ● ●●
● ● ●● ●
● ●
●
● ● ●
−2
●
x ● ● ●
●
−3
●
−3 −2 −1 0 1 2 3
rnorm(200)
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 4 / 186
Normal bivariada: introdução
Densidade e amostra
● ●
● ● ● ●
2
●
●
● ●●
● ●
●● ●
● ●● ● ●
● ●
● ●● ● ●
●
1
● ● ● ●● ● ●
● ● ●
● ●● ●
● ● ● ●
● ●● ● ● ● ●● ● ● ●
● ●●● ●● ● ● ●●●
● ● ● ●● ● ●
● ●● ●
●
● ●● ●●
●
● ●● ● ● ●
●●
● ●
● ●
●●●●●● ● ● ●
y2
● ● ●
z
0
●● ● ● ●● ● ●
●● ●● ●● ● ●● ● ●●
● ● ●
●● ● ● ●●● ●
●● ●●
● ●● ● ●●
●● ●●● ● ●
●●●
● ● ●
● ● ●
−1
y2 ● ●
● ●● ●
● ● ●
● ● ●●
y1 ●
● ●●
● ●
●● ●
−2
●
●
●
●
●
−2 −1 0 1 2 3
y1
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 5 / 186
Normal bivariada: introdução
80
●
●
● ●
● ●
p 1 ) = µ1
●
E(Y ●
● ●
●
●● ● ●
●
●● ●
●
●
● ● ● ● ●● ●
V(Y1 ) = σ1 ● ●● ●
●
●
● ●● ●
●
●
● ● ●● ● ●
●●
●
●
60
● ● ● ●
●●
● ● ● ●
● ●● ● ●
e também E(Y2 ) = µ2 ●
●
●● ●
●●
●
●
●
●
●●
●● ●●
●●
● ●
● ● ●
y2
● ● ●●
p ● ● ● ●
● ●● ●
● ●
● ●
e V(Y2 ) = σ2 ●
●
●●
●● ●
● ● ●● ●● ●
●●
● ●● ●
●
● ●
●
●
●
40
● ● ● ● ● ● ● ● ●
● ● ● ● ●
●●
Estes valores são facilmente estimados ●
●
●
●
● ● ●
●
● ●●
●
●●
●
●● ● ● ●
● ●
● ● ●
● ● ●●
a partir das MARGENS do gráfico. ●
●
●
●
●
●
●
●● ● ●
●
20 ●
Por exemplo: ●
●
E(Y1 ) = µ1 ≈ 10 4 6 8 10 12 14 16
σ1 ≈ 2.5 y1
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 6 / 186
Normal bivariada: introdução
● ●
●
●
●
80
●
●
● ●
● ●
Temos E(Y2 ) = µ2 ≈ 15 ●
● ●
●
●● ● ●
●
●● ●
●
●
● ●● ● ●
● ● ● ●
● ● ● ●● ● ●
E σ2 ≈ 15 ● ●● ● ● ●● ●
●
●
●●
●
●
60
● ● ● ●
●●
● ● ● ●
● ●● ●
● ●
● ●● ●● ●
●
Os valores de Y1 e Y2 medidos num ● ●● ●
●●
● ●● ●● ● ●
● ● ●
y2
● ● ●●
● ● ● ●
● ●● ●
● ●
● ●
mesmo ω não são independentes. ●
●
●●
●● ●
● ● ●● ●● ●
●●
● ●● ●
● ●
●
●
●
●
40
● ● ● ● ● ● ● ● ●
● ● ● ● ●
O valor de Y1 dá informação sobre o ●
●
●
●
● ● ●
●
●●
●
●●
●
●●
●●
● ● ●
● ●
● ●
●
valor de Y2 . ●
●
●
●
●
● ● ●●
●
● ●
●● ● ●
Como assim? 20
●
●
●
●
Vamos ser mais especı́ficos...
4 6 8 10 12 14 16
y1
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 7 / 186
Normal bivariada: introdução
● ●
●
●
●
80
●
Qual a distribuição de Y2 ● ●
●
● ●
●
●
●
● ●
● ●● ●
●
●
●● ●
● ● ●●
● ● ●● ● ●
●
●●● ●
●
●
●
●
● ●● ● ●●
60
● ● ● ●
●●
● ● ● ●
● ●● ●
y2
● ● ●●
● ● ● ●
● ●● ●
● ●
●● ● ●
40
● ● ● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ●●
Y1 = 14? ●
●
●
●
●
●
●
●
●
●
●
●
● ● ●●
●●
●
●● ●● ● ● ●
● ●
● ●
● ●
●
Este valor esperado continua 20
●●
●
●
●
●
µ2 = 50? 4 6 8 10 12 14 16
y1
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 8 / 186
Normal bivariada: introdução
Temos µ2 = 50 mas ●
●
80
●
●
● ●
●
60
● ● ● ●
●●
● ● ● ●
● ●● ●
● ●
● ●● ●● ●
●
● ●● ●● ●● ●● ● ●
● ● ●
●●
y2
●●
Qual a sua estimativa para ● ●
● ● ●
●
●●
●● ●
●
●
●
● ●●
●
●
●
●
●
●
● ● ● ●● ●● ● ●
● ●●
● ●● ●
40
● ● ● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ●●
● ● ● ●
● ● ●● ●● ● ● ●
● ● ● ●●
● ● ●
● ● ●●
●
●
●
●
●
●
20
aleatório será escolhido da ●
●
●
distribuição CONDICIONAL 4 6 8 10 12 14 16
de Y2 dados Y1 = 14. y1
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 9 / 186
Normal bivariada: introdução
● ●
●
80
●
●
● ●
●
● ●
●
●
●● ●
●
●● ●
●
●
●
● ● ● ● ●● ● ●
60
● ●● ●
● ● ● ●
●●
●
● ●● ● ●
● ●
v.a. Y2 DADO que Y1 = 14. ●
●
●●●
●●
●
●
●
●
●●
●● ●●
●●
● ●
● ● ●
y2
● ● ●●
● ● ● ●
● ●● ●
● ●
●● ● ● ●
●● ● ● ● ●
40
● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ●●
● ● ● ●
● ● ●● ●● ● ● ●
● ● ● ●●
●
●
●●
●
●
●
●
●
●
●
●
● ● ●●
●
20
●
µ2 é a esperança MARGINAL de Y2 . ●
●
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 10 / 186
Normal bivariada: introdução
● ●
80
p
V(Y2 |Y1 = 14) ? ● ●
● ●
●
●
● ●
●
Olhando os pontos (y1 , y2 ) que possuem ● ●
●
● ●
●
●● ●
● ● ●●
●●● ●
● ●
●
● ● ● ●● ● ●
y1 ≈ 14, qual o tamanho médio dos ● ●● ● ● ●● ●
●
●
●●
●
●
60
● ● ● ●
●●
● ● ● ●
● ●● ●
● ● ●● ●
desvios de Y2 EM TORNO DE SUA ● ●● ●
●●
●
●
●
●● ●●
●●
● ●
● ● ●
y2
● ● ●●
● ● ● ●
● ●● ●
ESPERANÇA E(Y2 |Y1 = 14) ≈ 70?? ●
●
●●
●● ●
●
● ● ●● ●● ●
●
●
●
●
●
●
●
● ●●
● ●● ●
●
40
● ● ● ● ● ● ● ● ●
Os pontos estão no intervalo de [50, 80] ●
● ●
● ● ●
●
●
●
●●
●
●
●●
●
●●
● ● ●
● ●
●
● ● ●●
grosseiramente. ● ●
●
●
●
●
●
●
● ● ●●
●
● ●
●● ● ●
Eu
p chutaria (ou estimaria) que 20
●
●
p
Veja que 7.5 << 15 = V(Y2 ), que é 4 6 8 10 12 14 16
o DP marginal de Y2 . y1
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 11 / 186
Normal bivariada: introdução
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 12 / 186
Normal bivariada: introdução
ρσ2 0.8 ∗ 15
µY2 |Y1 =14 = µ2 + (14 − µ1 ) = 50 + (14 − 10) = 69.2
σ1 2.5
e p p
σY2 |Y1 =y = σ2 1 − ρ2 = 15 1 − 0.82 = 9
e portanto
(Y2 |Y1 = 14) ∼ N(69.2, 92 )
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 13 / 186
Normal bivariada: introdução
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 14 / 186
Normal bivariada: introdução
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 16 / 186
Normal bivariada: introdução
Decaimento exponencial
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 17 / 186
Resumo - Uma variável
Resumos teóricos
o o
0.8
0.20
o
0.6
0.15
o
P(Y=y)
f(y)
0.4
0.10
o
0.2
0.05
o o
o
0.00
o
0.0
0 1 2 3 0 2 4 6 8 10
y y
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 18 / 186
Resumo - Uma variável
Resumos teóricos
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 19 / 186
Resumo - Uma variável
0.30
1.0
teorico teorico
empirico empirico
o
0.25
0.8
o o
o
0.20
o
0.6
P(Y=y)
0.15
f(y)
o
o
0.4
0.10
o
o
0.2
o
0.05
o o
o
o
o o
o
0.00
o
0.0
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 20 / 186
Resumo - Uma variável
Podemos ESTIMAR
p os resumos TEÓRICOS E(Y ) e
σ = DPY = V(Y ) a partir dos dados.
Pela Lei dos Grandes Números, se o tamanho n da amostra é grande,
temos
= (Y1 + . . . + Yn ) ≈ E(Y )
A média aritmética Y q
P 2
O DP amostral S = i Yi − Y /n ≈ σ
Às vezes, define-se S usando n − 1 no denominador. A diferença é
mı́nima a não ser que n seja muito pequeno.
Note que Y 6= E(Y )
E que S 6= σ
Y e S dependem dos dados e variam de amostra para amostra,
MESMO QUE O MECANISMO GERADOR DOS DADOS NÃO
MUDE.
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 21 / 186
Correlação
Desvio padronizado
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 22 / 186
Correlação
Duas variáveis
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 23 / 186
Correlação
Duas variáveis
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 24 / 186
Correlação
120
100
forca do braco
80
60
40
20
50 100 150
forca da mao
Figura: Relação entre força de preensão (do aperto de mão) e força do braço para
147 pessoas que trabalham em empregos fisicamente extenuantes.
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 25 / 186
Correlação
120
100
forca do braco
µ2
80
60
40
µ1
20
50 100 150
forca da mao
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 26 / 186
Correlação
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 27 / 186
Correlação
60
40
80 100
80 100
20
0
60
60
40
40
−40
20
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 28 / 186
Correlação
Natureza de Z1 Z2
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 29 / 186
Correlação
Correlação
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 30 / 186
Correlação
Propriedades de ρ
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 31 / 186
Correlação
Propriedades de ρ
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 32 / 186
Correlação
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 33 / 186
Matriz de correlação
Correlation Matrix
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 34 / 186
Matriz de correlação
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 35 / 186
Matriz de correlação
Matriz de correlação 9 × 9
Figura: Correlações entre pares formados a partir de 9 medidas feitas num mesmo
indivı́duo em um teste de personalidade
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 36 / 186
Matriz de correlação
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 37 / 186
Matriz de correlação
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 39 / 186
Matriz de correlação
Figura: Uma visualização com qgraph: v.a.’s são vértices e correlações são
arestas. Verde = correlação positiva e vermelha = negativa. As arestas mais
grossas e saturadas tem |ρ| grande.
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 40 / 186
Matriz de correlação
Propriedades de ρ
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 43 / 186
Matriz de correlação
Propriedades de ρ
Estimando ρ
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 45 / 186
Matriz de correlação
Estimando ρ
Como Y ≈ E(Y )
q 2
P
e como S = i Yi − Y /n ≈ σ
podemos aproximar
Y1 − µ1 Y2 − µ2 Y1 − Y1 Y2 − Y2
ρ=E × ≈E ×
σ1 σ2 S1 S2
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 46 / 186
Matriz de correlação
Pressão sistólica
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 48 / 186
Distância Estatı́stica
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 49 / 186
Distância Estatı́stica
90
● ●
● ●
● ●
●
● ●● ● ● ●● ●●
●● ● ● ● ●
● ● ●● ●
● ● ●
● ● ●
85
●
● ● ●● ●
● ● ● ●● ●
● ● ● ●
● ● ● ●
● ●
●● ● ●
●● ● ●
● ●
●● ● ● ●
● ● ●● ●
● ●● ●
● ●● ● ● ● ●●
● ●●●● ●
●
diastolica
● ● ● ● ●● ● ● ●
● ● ●● ● ●
80
● ● ●
●●
● ● ● ● ●●
● ●●
● ● ● ●●
●
●● ● ● ● ●●
●
● ● ●
● ●● ● ● ●●● ●
● ● ●
●●●● ●● ● ● ● ● ●●●● ●● ●
● ●● ●
●
● ● ●● ● ●●
● ●
● ● ● ● ●
●● ● ● ● ●●
● ● ●
75
● ●● ●●● ●
● ● ● ● ●
● ● ● ●● ● ● ●
●
● ● ●●
●● ● ● ●
● ● ●● ●
● ● ● ●
●
● ●
70
●
● ● ●
●
65
sistolica
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 50 / 186
Distância Estatı́stica
100
●
95
●
●
● ●
●
90
● ●
●
● ● ● ● ●
● ●
●●
● ● ●● ●
● ●● ● ●● ●●
● ● ●●● ●
● ●
85
● ●
● ● ● ●
● ● ● ●●
diastolica
● ● ● ●
●
● ● ●● ●●● ● ● ● ● ● ●
●
●● ●● ●● ● ● ●●
● ● ● ●
● ● ● ●● ●
● ●● ●●● ● ● ● ●
µ2 ●● ●
● ●● ●
● ●●
●●●
● ●● ● ● ●
80
● ●● ● ● ● ● ● ●
●● ● ●● ●● ● ●
● ●● ●● ● ● ● ●
● ●
●
●● ●●●● ● ● ● ● ●
● ● ● ●
● ●●● ●●●
● ●●
●
●
● ●
● ● ● ●
● ●●
● ● ●●● ● ● ● ● ●
●
● ● ●● ● ● ●
●
75
● ● ● ●●
● ● ● ● ● ●● ●
● ● ●
● ● ● ● ●
● ● ●
● ●● ● ●
●
● ● ●
70
● ●
● ●
● ● ●
●
●
µ1
65
sistolica
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 51 / 186
Distância Estatı́stica
**
●
95
**
●
●
● ●
●
90
● ●
●
● ● ● ● ●
● ●
●●
● ● ●● ●
● ●● ● ●● ●●
● ● ●●● ●
● ●
85
● ●
● ● ● ●
● ● ● ●●
diastolica
● ● ● ●
●
● ● ●● ●●● ● ● ●●● ● ●
●● ●● ● ● ● ● ●●
● ● ● ●
● ● ● ● ● ● ●
● ●● ●●● ●● ● ● ● ●●
µ2 ●● ●
● ●● ●
●
●●
● ● ● ● ●
80
● ●● ● ● ● ● ● ●
●● ● ●● ●● ●
● ●● ●● ● ● ● ●
●●
●● ●
●●● ●● ●
● ●● ●● ●● ● ●●●● ●
● ●
●
● ●●● ● ●
● ●
● ●
● ●●
● ● ●●● ● ● ● ● ●
●
● ● ●● ● ● ●
●
75
● ● ● ●●
● ● ● ● ●
**
● ● ● ● ● ●
● ● ● ● ●
● ● ●
● ●● ● ●
●
● ● ●
70
● ●
● ●
● ● ●
●
●
µ1
65
sistolica
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 52 / 186
Distância Estatı́stica
Exagerando um pouco...
100
90
●
● ●● ●
diastolica
●● ● ● ●● ●
● ● ● ● ●● ●
µ2 ●
● ● ●● ●
● ●●● ●● ●●
●●●
● ● ●● ● ●
●● ●●
●●
● ● ●●
●● ●● ● ●● ●
●●
●
● ●●
●●●● ●●● ●● ● ●
●
●● ●● ● ●●●● ●● ●● ● ●● ● ●● ● ●
●
● ● ● ● ●●●●
80
●● ●●●●
● ● ●● ●●●● ●●● ● ●● ●●● ● ● ●
● ●●● ●
●●●● ●●● ●●
●●●●●●
●
●
● ●●●●●● ●●
●●● ●
●● ●●●● ●
● ● ● ●● ● ● ● ●●●● ● ●●● ●● ● ● ● ● ● ●
● ●● ● ●
● ● ● ●●●●● ●
●● ● ● ●
● ● ● ● ● ● ●
● ●
● ● ● ●
●
70
60
µ1
sistolica
100
90
*
●
*
● ●● ● ●
diastolica
●● ● ● ●● ● ●● ● ● ●● ●
µ2 ●
● ● ● ● ●
● ● ●●● ●●
●●
● ● ●● ● ●
●● ●●
● ●
●
● ●● ●● ●
●● ● ●● ● ●
● ●● ●
●
●
●● ●● ● ●●
●●
●● ●
● ●●
●● ●●● ● ●● ●●●●● ● ●● ● ● ●
● ●
●
80
●● ●●●●●● ●● ●● ●●
●●● ● ●● ●●● ● ●● ●
● ●●● ●●● ●●● ● ●
●●●●●●
●
●
●
● ●●●●●● ● ●●●●●●●● ●● ● ●
●
● ●●
● ●● ● ●
● ● ● ● ● ● ●● ●●●● ● ● ● ●●● ●
●●
*
● ● ● ●
● ● ● ● ●●●● ●● ● ● ●
● ● ● ● ● ● ● ●
● ●
● ● ●
*
●
70
60
µ1
sistolica
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 54 / 186
Distância Estatı́stica
*
95
90
85
diastolica
µ2
*
80
*
75
70
*
65
Figura: Amostra
Renato Assunção, DCC, UFMG de (ypara, Ciência
Estatı́stica y ) com i = 1, 2, . . . , 250.
dos Dados 55 / 186
Distância Estatı́stica
*
95
90
85
diastolica
µ2
*
80
*
75
70
*
65
*
95
90
85
diastolica
µ2
*
80
*
75
70
*
65
Medida de dispersão
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 58 / 186
Distância Estatı́stica
100
90
●
● ●● ●
diastolica
●● ● ● ●● ●
● ● ● ● ●● ●
µ2 ●
● ● ●● ●
● ●●● ●● ●●
●●●
● ● ●● ● ●
●● ●●
●●
● ● ●●
●● ●● ● ●● ●
●●
●
● ●●
●●●● ● ●
● ●●
●
●
●
●
●● ●● ● ●●●● ●● ●●● ● ●● ● ● ●● ● ● ●
●
80
●● ●●●●
● ● ●● ●●●● ●●● ● ●● ●●● ● ● ● ●
● ●●● ●
●●●● ●●● ●●
●●●●●●
●
●
● ●●●●●● ●●
●●● ●
●● ●●●● ●
● ●●
● ● ● ●● ● ● ● ●●●● ● ●●● ●● ● ● ● ● ●● ● ●
● ●
● ● ● ●●●●● ●
●● ● ● ● ●
● ● ● ● ● ● ●
● ●
● ● ● ●
●
70
60
µ1
sistolica
100
90
●
● ●● ●
diastolica
●● ● ● ●● ●
● ● ● ● ●● ●
µ2 ●
● ● ●● ●
● ●●● ●● ●●
●●●
● ● ●● ● ●
●● ●●
●●
● ● ●●
●● ●● ● ●● ●
●●
●
● ●●
●●●● ● ●
● ●●
●
●
●
●
●● ●● ● ●●●● ●● ●●● ● ●● ● ● ●● ● ● ●
●
80
●● ●●●●
● ● ●● ●●●● ●●● ● ●● ●●● ● ● ● ●
● ●●● ●
●●●● ●●● ●●
●●●●●●
●
●
● ●●●●●● ●●
●●● ●
●● ●●●● ●
● ●●
● ● ● ●● ● ● ● ●●●● ● ●●● ●● ● ● ● ● ●● ● ●
● ●
● ● ● ●●●●● ●
●● ● ● ● ●
● ● ● ● ● ● ●
● ●
● ● ● ●
●
70
60
µ1
sistolica
Distância medida em DP
*
95
90
85
diastolica
µ2
80
*
75
70
65
Distância medida em DP
*
95
90
85
diastolica
µ2
80
*
75
70
65
Distância medida em DP
d(y , µ)
q
= z12 + z22
s
y1 − 120 2 y2 − 80 2
= +
10 2
s 2
y2 − µ2 2
y1 − µ1
= +
σ1 σ2
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 63 / 186
Distância Estatı́stica
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 64 / 186
Distância Estatı́stica
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 65 / 186
Distância Estatı́stica
Variando a distância
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 67 / 186
Distância Estatı́stica
Elipses e distâncias
Vimos que
2 2
y1 − µ1 y2 − µ2
d 2 (y , µ) = + = (y − µ)0 Σ−1 (y − µ)
σ1 σ2
onde
σ12 0
X
=
0 σ22
é a equção de uma elipse centrada no vetor µ = (µ1 , µ2 ).
P
Quando a matriz é DIAGONAL com elementos positivos (com as
variâncias σi ’s), então a elipse tem eixos paralelos aos eixos e o
tamanho de cada eixo é porporcional ao σi da variável associada.
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 68 / 186
Distância Estatı́stica
100
●
●
90
● ●
● ●●
● ●
● ● ● ●● ● ●
●●
●●●
● ● ●●●
● ● ● ● ●● ● ● ● ● ●● ●
diastolica
●●●●
●● ● ● ●●
●●●●●● ● ● ●
●●
µ2 ●
●●
●● ●●● ● ● ●
●●●
● ●●●●●●●
●
●
●●
● ●
● ●
●
●
●
●● ●●●● ●● ●●
● ● ●● ●●● ●● ●
●
80
● ●● ●● ●
● ●●●●● ●
●●● ● ● ●●●●● ●●●
● ● ● ●●● ● ●● ●●●
● ● ● ● ● ●● ● ● ●
● ●
● ● ●
● ● ●
●● ●●●●● ● ●
● ●●●● ● ●
● ● ●
● ● ● ●● ● ●●●● ●● ●●●
● ● ●● ● ● ●●
● ●●●
● ●●● ● ● ●
● ● ●
● ●● ●
● ●
● ●●
70
●
●● ●
●
µ1
60
sistolica
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 69 / 186
Distância Estatı́stica
●
●
90
● ●
● ●●
● ●
● ● ● ●● ● ●
●●
●●●
● ● ●●●
●● ● ● ● ● ●● ● ● ● ● ●● ●
● ●●● ● ●● ● ●
●●●●●● ● ● ●
●●
µ2 ●
● ● ●● ●●
●●●●●●
●●
●●●
●●●●● ●●
●
●
●●
●●
●
●
●
●
● ● ● ● ● ●● ●● ● ●
● ●● ●● ●● ●
80
● ● ●● ●
●●● ●● ●●●
y
●●
● ●
●● ● ●● ●
●●● ● ●● ●●●
● ●
● ● ●
● ●● ●● ● ● ●●●●●
● ● ● ● ●●● ●●●●● ● ● ●
● ● ●
●● ●●● ●●●● ● ●●●
● ●
● ● ● ● ● ●●●
●● ● ●● ● ● ●●
● ●●● ● ●● ● ● ●
● ● ●
● ●● ●
● ●
● ●●
70
●● ●●
●
µ1
60
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 70 / 186
Distância Estatı́stica
Forma Quadrática
●
●
90
● ●
● ●●
● ●
● ● ● ●● ● ●
●●
●●●
● ● ●●●
●● ● ● ● ● ●● ● ● ● ● ●● ●
● ●●● ● ●● ● ●
●●●●●● ● ● ●
●●
µ2 ●
● ● ●● ●●
● ●●●
●●
●
●●●●●
● ●●
●
●●●
●●
●
●
●
●
● ●●●●●● ●
● ●●● ● ●● ●
●
●● ●● ●
80
● ● ●●● ● ●
●●
y
● ●
●● ●●
● ●● ● ● ●●●
● ● ●
●●●
●●● ● ●● ●●●
● ●
● ● ● ●● ●● ● ● ● ●
● ● ●
● ● ●
●● ●●● ●● ●●●●● ● ● ● ●
●●●● ● ●●●
●
● ● ● ● ● ●●●
●● ● ●● ● ● ●●
● ●●● ● ●● ● ● ●
● ● ●
● ●● ●
● ●
● ●●
70
●● ●●
●
µ1
60
P
Quem é ?
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 72 / 186
Distância Estatı́stica
P
Relação entre e a elipse
Distância é
d 2 (y , µ) = (y − µ)0 Σ−1 (y − µ)
P
onde a matriz é 2 × 2 simétrica e dada por
σ12
X ρσ1 σ2
=
ρσ1 σ2 σ22
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 73 / 186
Distância Estatı́stica
A · y=λy
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 74 / 186
Distância Estatı́stica
Autovetores de Σ e Σ−1
..COMPLETAR...
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 75 / 186
Distância Estatı́stica
d 2 (y , µ) = (y − µ)0 Σ−1 (y − µ)
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 76 / 186
Distância Estatı́stica
Caso 3-dim
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 77 / 186
Distância Estatı́stica
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 78 / 186
Distância Estatı́stica
Calcule Y = µ + LZ.
P
Temos Y ∼ Nk (µ, )
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 80 / 186
Simulação de uma normal multivariada
Como achar L
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 81 / 186
Decomposição de Cholesky
l11 0 0 l11 l21 l31
A = LLt = l21 l22 0 0 l22 l32
l31 l32 l33 0 0 l33
2
l11 l21 l11 l31 l11
l21 l11 2 2
= l21 + l22 l31 l21 + l32 l22
2 2 2
l31 l11 l31 l21 + l32 l22 l31 + l32 + l33
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 82 / 186
Decomposição de Cholesky
l11 0 0 l11 l21 l31
t l21 l22 0 0 l22 l32
A = LL =
l31 l32 l33 0 0 l33
2
l11 ∗ ∗
2 2
= l21 l11 l21 + l22 ∗
2 2 2
l31 l11 l31 l21 + l32 l22 l31 + l32 + l33
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 83 / 186
Decomposição de Cholesky
l11 0 0 l11 l21 l31
t l21 l22 0 0 l22 l32
A = LL =
l31 l32 l33 0 0 l33
2
l11
l21 l11 2 2
= l21 + l22
2 2 2
l31 l11 l31 l21 + l32 l22 l31 + l32 + l33
√
De maneira idêntica, obtemos l31 = a31 / a11 .
Primeira coluna de L está pronta. Vamos agora obter a segunda
coluna de L.
Iguale o elemento a22 e o elemento 22 do produto LLt :
2 + l 2 ).
a22 = l21 22
q q
Assim, l22 = a22 − l212 = 2 /a .
a22 − a21 11
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 84 / 186
Decomposição de Cholesky
l11 0 0 l11 l21 l31
t l21 l22 0 0 l22 l32
A = LL =
l31 l32 l33 0 0 l33
2
l11
l21 l11 2 2
= l21 + l22
2 2 2
l31 l11 l31 l21 + l32 l22 l31 + l32 + l33
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 85 / 186
Decomposição de Cholesky
25 15 −5 l11 0 0 l11 l21 l31
15 18 0 = l21 l22 0 0 l22 l32
−5 0 11 l31 l32 l33 0 0 l33
primeira coluna de L
25 15 −5 5 0 0 5 3 −1
15 18 0 = 3 l22 0 0 l22 l32
−5 0 11 −1 l32 l33 0 0 l33
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 86 / 186
Decomposição de Cholesky
conclusão:
25 15 −5 5 0 0 5 3 −1
15 18 0 = 3 3 0 0 3 1
−5 0 11 −1 1 3 0 0 3
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 87 / 186
Exemplo de simulação
P
Exemplo - simulando N4 (µ, )
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 88 / 186
Exemplo de simulação
P
Exemplo - simulando N4 (µ, )
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 89 / 186
Exemplo de simulação
P
Exemplo - simulando N4 (µ, )
No nosso exemplo:
1.0 −0.1 0 −0.7
X −0.1 16 −0.4 20
=
= V1/2 ρ V1/2
0 −0.4 0.04 −0.1
−0.7 20 −0.1 64
onde √
1 √ 0 0 0
0 16 0 0
V1/2 √
=
0 0 0.04 √ 0
0 0 0 64
e
1.0000 −0.0250 0.0000 −0.0875
−0.0250 1.0000 −0.5000 0.6250
ρ=
0.0000 −0.5000 1.0000 −0.0625
−0.0875 0.6250 −0.0625 1.0000
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 90 / 186
Exemplo de simulação
P
Exemplo - simulando N4 (µ, )
Na direção inversa
1.0000 −0.0250 0.0000 −0.0875
−0.0250 1.0000 −0.5000 0.6250 X
ρ=
= V−1/2 V−1/2
0.0000 −0.5000 1.0000 −0.0625
−0.0875 0.6250 −0.0625 1.0000
−1
onde V−1/2 = V1/2 é dada por
√ −1
1 √ 0 0 0 1.000 0 0 0
0 16 √ 0 0
=
0 0.250 0 0
0 0 0.04 0 0 5.000 0
√ 0
0 0 0 64 0 0 0 0.125
P
Exemplo - simulando N4 (µ, )
nsims = 100
mu = matrix(c(0, 10, 0, 1020), ncol=1)
S = matrix(c(1, -0.1, 0, -0.7,
-0.1, 16, -0.4, 20,
0, -0.4, 0.04, -0.1,
-0.7, 20, -0.1, 64), ncol=4)
L = t(chol(S))
Z = matrix(rnorm(4*nsims), nrow=4)
Y = mu + L %*% Z # matriz 4 x nsims
pairs(t(Y)) # ver proximo slide
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 92 / 186
Exemplo de simulação
P
Exemplo - simulando N4 (µ, )
P
Exemplo - simulando N4 (µ, )
library(scatterplot3d)
scatterplot3d(Y[2,], Y[3,], Y[4,])
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 94 / 186
Exemplo de simulação
P
Exemplo - simulando N4 (µ, )
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 95 / 186
Exemplo de simulação
P
Exemplo - simulando N4 (µ, )
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 96 / 186
Exemplo de simulação
P
Exemplo - simulando N4 (µ, )
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 97 / 186
Forma quadrática
Forma quadrática
Exemplos bi-dimensionais:
1 0 y1
(y1 , y2 ) = y12 + y22
0 1 y2
9 0 y1
(y1 , y2 ) = 9y12 + 4y22
0 4 y2
9 3 y1
(y1 , y2 ) = 9y12 + 4y22 + 3y1 y2 + 3y2 y1 = 9y12 + 4y22 + 6y1 y2
3 4 y2
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 99 / 186
Forma quadrática
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 101 / 186
Matrizes positivas definidas
Outro exemplo:
9 −3 y1
(y1 , y2 ) = 9y12 + 4y22 + 3y1 y2 + 3y2 y1 = 9y12 + 4y22 − 6y1 y2 > 0
−3 4 y2
Não é óbvio que esta última matriz seja dp. E é apenas um caso
2-dim!!
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 102 / 186
Matrizes positivas definidas
Um exemplo:
9 0 y1
(y1 , y2 ) = 9y12 − 4y22
0 −4 y2
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 103 / 186
Matrizes positivas definidas
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 104 / 186
Matrizes positivas definidas
P
Qual a relação entre e a elipse?
●
●
90
● ●
● ●●
● ●
● ● ● ●● ● ●
●●
●●●
● ● ●●●
●● ● ● ● ● ●● ● ● ● ● ●● ●
● ● ●
●● ● ● ● ●
●●●●●● ● ● ●
●●
µ2 ●
● ● ●● ●●
●●●●●●
●●
●●●
●●●●● ●●
●
●●●
●●
●
●
●
●
● ● ● ●●● ●●
● ●● ●
●● ●● ●
●
80
● ● ● ● ●● ●●
●●
● ●● ●●●
y
● ●
●● ●● ●●●
● ●●●
● ● ● ● ● ●
● ●
● ●
● ● ● ●● ●● ● ● ● ●●●● ● ●
● ● ●
●● ●●● ●● ●●●●● ● ● ● ●
●●●● ● ●●●
●
● ● ● ● ● ●●●
●● ● ●● ● ● ●●
● ●●● ● ●● ● ● ●
● ● ●
● ●● ●
● ●
● ●●
70
●● ●●
●
1
Autovetores e autovalores
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 106 / 186
Autovetores e autovalores
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 107 / 186
Autovetores e autovalores
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 108 / 186
Autovetores e autovalores
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 109 / 186
Autovetores e autovalores
Matriz
1 1.2
A=
1.2 5
20
*
100
10
50
o *
o
0
−50
−10
−100
−20 −20 −10 0 10 20 −100 −50 0 50 100
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 111 / 186
Autovetores e autovalores
Cara Engraçada
2.0
1.5
1.0
0.5
0.0
Espichando verticalmente
Espichando verticalmente com
1 0
A=
0 2
2.0
2.0
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 113 / 186
Autovetores e autovalores
Espichando lateralmente
Espichando lateralmente com
2 0
A=
0 1
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
−1.0 −0.5 0.0 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 114 / 186
Autovetores e autovalores
1.5
1.0
1.0
0.5
0.5
0.0
0.0
−0.5
−1.0 −0.5 0.0 0.5 1.0 −0.5 −1.0 −0.5 0.0 0.5 1.0
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 115 / 186
Autovetores e autovalores
Direções especiais
2
1
1
0
0
−1
−1
−1.0 −0.5 0.0 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 116 / 186
Autovetores e autovalores
Direções especiais
2
1
1
0
0
−1
−1
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 117 / 186
Autovetores e autovalores
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 118 / 186
Autovetores e autovalores
Teorema Espectral - 1
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 119 / 186
Autovetores e autovalores
Teorema Espectral - 2
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 120 / 186
Autovetores e autovalores
Coordenadas
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 121 / 186
Autovetores e autovalores
Resumindo...
d 2 (y , µ) = (y − µ)0 Σ−1 (y − µ)
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 122 / 186
Exemplo de normal multivariada
S(t + 1) − S(t)
Z (t + 1) =
S(t)
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 123 / 186
Exemplo de normal multivariada
Quatro ações
S(t + 1) − S(t)
Z (t + 1) = = 0.3 ⇒ S(t + 1) = (1 + 0.1)S(t)
S(t)
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 124 / 186
Exemplo de normal multivariada
Quatro ações
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 125 / 186
Exemplo de normal multivariada
Telebrás no tempo
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 126 / 186
Exemplo de normal multivariada
Telebrás no tempo
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 127 / 186
Exemplo de normal multivariada
Vale no tempo
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 128 / 186
Exemplo de normal multivariada
Suzano no tempo
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 129 / 186
Exemplo de normal multivariada
Petrorás no tempo
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 130 / 186
Exemplo de normal multivariada
As quatro no tempo
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 131 / 186
Exemplo de normal multivariada
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 132 / 186
Exemplo de normal multivariada
Figura: Tele, Vale e Pet são bem correlacionadas. Quando uma sobe muito, as
outras duas também sobem. Suzano não parece ser muito correlacionada com
estas outras.
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 133 / 186
Exemplo de normal multivariada
Correlação no tempo
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 134 / 186
Exemplo de normal multivariada
Correlação no tempo
Figura: Gráfico de yt+1 versus yt para as quatro ações. Não existe correlação
entre os retornos de uma mesma aa̧ão em dias sucessivos.
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 135 / 186
Exemplo de normal multivariada
Matriz de correlação
Seja Yt = (Y1t , Y2t , Y3t , Y4t ) os retornos das quatro ações no dia t.
Vamos calcular empiricamente o coeficiente de correlação de Pearson
para os pares de ações.
Temos 401 instâncias de Yt correspondentes a 401 dias.
O vetor esperado pode ser estimado a partir dos dados
µ = (µ1 , µ2 , µ3 , µ4 ) ≈ (ȳ1 , ȳ2 , ȳ3 , ȳ4 ) = ȳ = (1.0940.2761.038 − 1.459) × 10−3
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 136 / 186
Exemplo de normal multivariada
Matriz de correlação
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 137 / 186
Exemplo de normal multivariada
Matriz de covariância
Matriz de covariância:
Tel4 Tel5 Pet4 Suz4
X
Tel4 9.08 6.58 7.49 2.53
−4
≈ S = 10 Tel5 6.58 9.27 6.53 2.00
Pet4 7.49 6.53 10.01 2.86
Suz4 2.53 2.00 2.86 7.69
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 138 / 186
Propriedades da normal multivariada
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 139 / 186
Propriedades da normal multivariada
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 140 / 186
Propriedades da normal multivariada
P
Marginais de Nk (µ, )
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 141 / 186
Propriedades da normal multivariada
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 142 / 186
Propriedades da normal multivariada
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 145 / 186
Momentos de combinação linear
Momentos de c0 Y
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 146 / 186
Momentos de combinação linear
E(c0 Y)
Isto é,
E c0 Y = c0 E (Y)
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 147 / 186
Momentos de combinação linear
V(c0 Y)
Agora a variância.
V(X ) = V(c1 Y1 + c2 Y2 + . . . + ck Yk )
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 148 / 186
Momentos de combinação linear
V(c0 Y)
Assim, temos
V(c0 Y) = V(c1 Y1 + c2 Y2 + . . . + ck Yk )
c1
X .
= (c1 , . . . , ck ) ..
ck
= c0 Σc
P
onde é matriz de covariância do vetor Y.
Veja que no caso univariado tı́nhamos a fórmula
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 149 / 186
Momentos de combinação linear
Enfatizando
e
V(c0 Y) = c0 Σc
Estes resultados são válidos mesmo no caso em que Y não é nomal
multivariado.
Caso Y ∼ Nk (µ, Σ) então c0 Y ∼ N(c0 µ, c0 Σc)
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 150 / 186
Momentos de combinação linear
Seja Yt = (Y1t , Y2t , Y3t , Y4t ) os retornos das quatro ações no dia t.
Suponha que Y ∼ N4 (µ, Σ) com
µ = 10−3 × (1.10.31.0 − 1.5)
e
Tel4 Tel5 Pet4 Suz4
X Tel4 9.08 6.58 7.49 2.53
= 10−4 Tel5 6.58 9.27 6.53 2.00
Pet4 7.49 6.53 10.01 2.86
Suz4 2.53 2.00 2.86 7.69
Temos
onde
1.1
0.3
µx = (0.3, 0.2, 0.3, 0.2) 10−3 1.0 = 0.00039
−1.5
e
0.3
X 0.2
−4
σx2 = (0.3, 0.2, 0.3, 0.2) 0.3 = 6.1247 × 10 = (0.0247)
2
0.2
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 152 / 186
Mais propriedades da normal multivariada
Mais propriedades
Y ∼ Nq Aµ, AΣA0
A
q×k k×1
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 154 / 186
Mais propriedades da normal multivariada
Independência e covariância
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 155 / 186
Mais propriedades da normal multivariada
Distribuição condicional
Distribuição condicional
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 157 / 186
Mais propriedades da normal multivariada
Condicional: exemplo
Seja Yt = (Y1t , Y2t , Y3t , Y4t ) os retornos das quatro ações no dia t.
Suponha que Y ∼ N4 (µ, Σ) com
Tel4 Vale5 Pet4 Suz4
0.001 Tel4
9.08 6.58 7.49 2.53
0.003
, 10−4 Vale5
Y ∼ N4 (µ, Σ) = N4 6.58 9.27 6.53 2.00
0.001
Pet4
7.49 6.53 10.01 2.86
−0.001
Suz4 2.53 2.00 2.86 7.69
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 158 / 186
Mais propriedades da normal multivariada
Condicional: exemplo
Distribuição de (Y1t , Y2t ) dado que Y3t = 0.05 e Y4t = 0.05: Como
Tel4 Vale5 Pet4 Suz4
0.001 Tel4
0.003 9.08 6.58 7.49 2.53
e Σ = 10−4
µ= Vale5 6.58 9.27 6.53 2.00
0.001
Pet4 7.49 6.53 10.01 2.86
−0.001
Suz4 2.53 2.00 2.86 7.69
sabemos que (Y1t , Y2t ) será uma normal bivariada N2 (m, Φ) com os
seguintes parâmetros:
m = µ12 + Σ12 Σ−1
22
y3 − µ3
y4 − µ4
−1
0.001 7.49 2.53 10.01 2.86 0.05 − 0.001
= +
0.003 6.53 2.00 2.86 7.69 0.05 + 0.001
0.040
=
0.036
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 159 / 186
Mais propriedades da normal multivariada
Condicional: exemplo
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 160 / 186
Mais propriedades da normal multivariada
Condicional: exemplo
Condicional: exemplo
1.69 × 10−4
= 0.40
0.019 × 0.022
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 162 / 186
Mais propriedades da normal multivariada
Condicional: exemplo
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 163 / 186
Mais propriedades da normal multivariada
Propriedades: resumo
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 164 / 186
Detecção de anomalias multivariadas
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 165 / 186
Detecção de anomalias multivariadas
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 166 / 186
Detecção de anomalias multivariadas
Anomalias em k dimensões
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 167 / 186
Detecção de anomalias multivariadas
Distribuição de D 2
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 169 / 186
Detecção de anomalias multivariadas
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 170 / 186
QQ-plot de D 2
2-dim ou k-dim
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 171 / 186
QQ-plot de D 2
Distribuição qui-quadrado
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 172 / 186
QQ-plot de D 2
Distribuição qui-quadrado
Por exemplo:
f (x) = cte e −x/2 com k = 2 degrees of freedom
f (x) = cte xe −x/2 com k = 4 d.f.
9 −x/2
f (x) = cte x e com k = 20 d.f.
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 173 / 186
QQ-plot de D 2
Quantil de qui-quadrado
Quantil de qui-quadrado
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 175 / 186
QQ-plot de D 2
Os quantis q(p)
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 178 / 186
QQ-plot de D 2
2
proporção das variáveis leqD(76) = 76/100 ,
2
podemos esperar D(76) ≈ q(0.76) = 5.4969.
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 179 / 186
QQ-plot de D 2
i − 0.5 i − 0.5
quantil = qi tal que P(χ2 (k) ≤ qi ) =
n n
Variamos i calculamos os quantis qi para i = 1, 2, . . . , n.
2 .
Para cada i, pareamos qi e a i-ésima distância ordenada D(i)
2 para todo i.
Devemos ter qi ≈ D(i)
2 ) devem cair ao longo da reta y = x se os
Portanto, os pares (qi , D(i)
pontos são uma amostra aleatória de uma nomal multivariada.
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 180 / 186
QQ-plot de D 2
Checando em R
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 181 / 186
QQ-plot de D 2
Script R
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 182 / 186
QQ-plot de D 2
Script R
par(mfrow=c(1,2))
hist(d2, n=15, prob=T, main = "Histograma de D2")
rug(d2)
aux = seq(0, 15, by=0.01)
yaux = dchisq(xaux, df=ncol(pts))
lines(xaux, yaux, , lwd=2, col="blue")
qqplot(qchisq(ppoints(nrow(pts)), df = ncol(pts)), d2,
main = expression("Q-Q plot:" * ~D^2 *
" x quantiles " * ~ chi[2]^2))
abline(0, 1, col = ’gray’)
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 183 / 186
QQ-plot de D 2
Amostra de N4 (µ, Σ)
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 184 / 186
QQ-plot de D 2
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 185 / 186
QQ-plot de D 2
set.seed(1)
pts = mvrnorm(nsims, c(4,3,2,1), Sigma)
pts = rbind(pts, c(4,3,-3,-5), c(10,6,2,4))
m = apply(pts, 2, mean); S = cov(pts)
d2 = mahalanobis(pts, m, S)
par(mfrow=c(1,2))
hist(d2, n=15, prob=T, main = "Histograma de D2"); rug(d2)
aux = seq(0, 15, by=0.01); yaux = dchisq(xaux, df=ncol(pts))
lines(xaux, yaux, , lwd=2, col="blue")
qqplot(qchisq(ppoints(nrow(pts)), df = ncol(pts)), d2,
main = expression("Q-Q plot:" * ~D^2 *
" x quantiles " * ~ chi[2]^2))
abline(0, 1, col = ’gray’)
Renato Assunção, DCC, UFMG Estatı́stica para Ciência dos Dados 186 / 186