Aula5 Lda

Problemas de classificação (ADL e QDA)
Aprendizagem Estatística para

Engenharia da Terra e do Ambiente
Manuel Ribeiro
Ultima atualização : 2023-10-10
1 / 29
Aula 5
2 / 29
Conteúdo da aula
▶ Capítulo 4 do ISLR1 (continuação)
1
An Introduction to Statistical Learning with Applications in Python
3 / 29
Analise discriminante
▶ Linear, fk (x ) tem uma f.d.p. N(µk , Σ).

▶ Quadrática, fk (x ) tem uma f.d.p. N(µk , Σk ).
Quando usar?
▶ Classes estão bem separadas,
▶ Se o n é pequeno e xk ∼ N(µk , Σ), k = 1, . . . , K ,
▶ Se há mais que duas classes (K > 2).
4 / 29
Exemplo
Queremos um algoritmo que classifique novas amostras de um

maciço rochoso numa das diferentes litologias A, B, C, D (K = 4).
Nos dados de treino, para além da litologia (Y) de cada amostra,
temos os teores de 1 elemento quimico como preditor (X).
5 / 29
Probabilidades
A partir dos dados de treino podemos calcular:

▶ Probabilidade à priori de uma observação ser da classe k
▶ A f.d.p de X para uma observação extraída da classe k.
De acordo com o Teorema de Bayes o que queremos calcular é:
Pr(x |y ) Pr(y )
Pr(y |x ) =
Pr(x )
a probabilidade à posteriori de x pertencer à classe y = k.
6 / 29
Probabilidade à posteriori de pertencer à classe k
1. pk é a probabilidade à priori de X pertencer a k e

2. fk (x ) é a f.d.p de X pertencer a k.
3. fk (x ) tem uma f.d.p. N(µk , Σ).
pk × fk (x )
Pr(Y = k | X = x ) = pk (x ) = P
pl × fl (x )
Escolhemos a classe k (k = 1, . . . , K ) com a máxima probabilidade

à posteriori, dados os dados x .
7 / 29
Análise discriminante linear (p = 1)
fk (x ) tem uma f.d.p. N(µk , Σ), i.e. Σ é igual entre classes.

Para 1 preditor (p = 1) apenas fk (x ) é dado por:
" #
1 1
fk (x ) = √ · exp − 2 · (x − µk )2
2π · σ 2σ
onde Σ é a variância de x , σ 2 .
8 / 29
Exemplo fk (x )
0.3
0.2
Litologia
A
density
B
C
D
0.1
0.0
−5 0 5 10
Zn
9 / 29
Exemplo pk
Obtiveram-se 491 amostras classificadas. As probabilidades à priori

de uma amostra pertencer à classe k é dada pela proporção de
amostras em cada classe:
Litologia nk pk
A 183 0.37
B 23 0.05
C 204 0.42
D 81 0.16
10 / 29
Função discriminante δk (x )
Recorremos ao classificador de Bayes para atribuir uma observação à

classe onde pk (x ) é a maior.
Obteremos um resultado equivalente se usarmos a função (linear)
discriminante, δk (x ):
µk µ2k
δk (x ) = ∗ x − + log(pk )
σ2 2σ 2
11 / 29
Exemplo
Depois de calcularmos pk , µk e Σ podemos determinar o valor da

função discriminante para qualquer observação (proveniente da
mesma distribuição conjunta). No exemplo das litologias, os
resultados são:
Litologia uk pk
A 5.48 0.37
B 3.04 0.05
C 2.13 0.42
D 1.29 0.16
A variânca (ponderada) é 1.9.
12 / 29
Exemplo
Por exemplo, chega uma nova amostra x = 6
5.48 30.03
δA (6) = ∗6− + log(0.37)
1.9 2 · 1.9
..
.
1.29 1.66
δD (6) = ∗6− + log(0.16)
1.9 2 · 1.9
13 / 29
Resultados
Litologia dk(x) pk(x)

A 8.41 0.96
B 4.17 0.01
C 4.66 0.02
D 1.80 0.00
14 / 29
Análise discriminante linear com p > 1
Com p > 1 preditores, assume-se a f.d.p dos preditores segue uma

distribuição Gaussiana multivariada, com vetor µk = (µk1 , . . . , µkp )
e matriz de variância-covariância Σk (na ADL, Σk = Σ).
1 h 1 i
fk (x ) = · exp − (x − µk )T Σ−1 (x − µk )
(2π)p/2 |Σ|1/2 2
onde os vetores coluna x e µk têm dimensão p e Σ tem dimensão

p × p. Os preditores podem estar correlacionados.
15 / 29
Distribuição gaussiana multivariada (p = 2) #1
" # " #
1 0 0
Σ= µ=
0 1 0
3
2
1
x2
0
−1
−2
−3
−3 −2 −1 0 1 2 3
x1
16 / 29
" # " #
0.5 0 0
Σ= µ=
0 0.5 0
3
2
1
x2
0
−1
−2
−3
−3 −2 −1 0 1 2 3
x1
17 / 29
" # " #
3 0 0
Σ= µ=
0 3 0
3
2
1
x2
0
−1
−2
−3
−3 −2 −1 0 1 2 3
x1
18 / 29
" # " #
1 0.5 0
Σ= µ=
0.5 1 0
3
2
1
x2
0
−1
−2
−3
−3 −2 −1 0 1 2 3
x1
19 / 29
" # " #
1 0.8 0
Σ= µ=
0.8 1 0
3
2
1
x2
0
−1
−2
−3
−3 −2 −1 0 1 2 3
x1
20 / 29
" # " #
1 0 0
Σ= µ=
0 1 1
3
2
1
x2
0
−1
−2
−3
−3 −2 −1 0 1 2 3
x1
21 / 29
Distribuição Gaussiana multivariada (p = 2) #7
" # " #
1 0 0
Σ= µ=
0 1 1.5
3
2
1
x2
0
−1
−2
−3
−3 −2 −1 0 1 2 3
x1
22 / 29
Exemplo
" # " # " # " #
1 0 0 1 0 2
Σ̂A = µ̂A = ; Σ̂B = µ̂B =
0 1 0 0 1 1
4
Classe A
Classe B
2
0
−2
−4
−4 −2 0 2 4
23 / 29
Exemplo fk (x )
" # " # " # " #
1 0 0 1 0 2
Σ̂A = µ̂A = ; Σ̂B = µ̂B =
0 1 0 0 1 1
4
Classe A
Classe B
0.02
0.04
0.08
0.02
2
0.12
0.14
0.06
0.1
0.1
0
0.14 0.06
0.12
0.08
0.04
−2
−4
−4 −2 0 2 4
24 / 29
Função discriminante δk (x )
A versão multivariada da função discriminante é dada por:
1
δk (x ) = x T Σ−1 µk − µT Σ−1 µk + log(pk )
2 k
A linha de fronteira entre duas classes k, l é dada por:
δk (x ) = δl (x )
25 / 29
A linha de fronteira (ADL)
4
2
x2
0
−2
−4
−4 −2 0 2 4
x1
26 / 29
Análise Discriminante Quadrática (ADQ)
QDA é similar à ADL mas assume que cada classe tem a sua matriz
de variância-covariância, i.e., fk (x ) tem uma f.d.p. N(µk , Σk ).
1 h 1
T −1
i
fk (x ) = · exp − (x − µ k ) Σk (x − µ k )
(2π)p/2 |Σk |1/2 2
1 1
δk (x ) = − (x − µk )T Σ−1
k (x − µk ) − log |Σk | + log(pk )
2 2
27 / 29
A linha de fronteira (ADQ)
4
2
x2
0
−2
−4
−4 −2 0 2 4
x1
28 / 29
ADL vs QDA
ADQ é mais flexível, tende a ajustar-se melhor aos dados, mas tem
mais parâmetros para estimar.
29 / 29

Aula5 Lda

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula5 Lda

Enviado por

Direitos autorais:

Formatos disponíveis

Problemas de classificação (ADL e QDA)

Aprendizagem Estatística para

Ultima atualização : 2023-10-10

▶ Capítulo 4 do ISLR1 (continuação)

▶ Linear, fk (x ) tem uma f.d.p. N(µk , Σ).

Queremos um algoritmo que classifique novas amostras de um

A partir dos dados de treino podemos calcular:

1. pk é a probabilidade à priori de X pertencer a k e

Escolhemos a classe k (k = 1, . . . , K ) com a máxima probabilidade

fk (x ) tem uma f.d.p. N(µk , Σ), i.e. Σ é igual entre classes.

Obtiveram-se 491 amostras classificadas. As probabilidades à priori

Recorremos ao classificador de Bayes para atribuir uma observação à

Depois de calcularmos pk , µk e Σ podemos determinar o valor da

Por exemplo, chega uma nova amostra x = 6

Litologia dk(x) pk(x)

Com p > 1 preditores, assume-se a f.d.p dos preditores segue uma

onde os vetores coluna x e µk têm dimensão p e Σ tem dimensão

A versão multivariada da função discriminante é dada por:

A linha de fronteira entre duas classes k, l é dada por:

Você também pode gostar