Você está na página 1de 29

Problemas de classificação (ADL e QDA)

Aprendizagem Estatística para


Engenharia da Terra e do Ambiente

Manuel Ribeiro

Ultima atualização : 2023-10-10

1 / 29
Aula 5

2 / 29
Conteúdo da aula

▶ Capítulo 4 do ISLR1 (continuação)

1
An Introduction to Statistical Learning with Applications in Python
3 / 29
Analise discriminante

▶ Linear, fk (x ) tem uma f.d.p. N(µk , Σ).


▶ Quadrática, fk (x ) tem uma f.d.p. N(µk , Σk ).
Quando usar?
▶ Classes estão bem separadas,
▶ Se o n é pequeno e xk ∼ N(µk , Σ), k = 1, . . . , K ,
▶ Se há mais que duas classes (K > 2).

4 / 29
Exemplo

Queremos um algoritmo que classifique novas amostras de um


maciço rochoso numa das diferentes litologias A, B, C, D (K = 4).
Nos dados de treino, para além da litologia (Y) de cada amostra,
temos os teores de 1 elemento quimico como preditor (X).

5 / 29
Probabilidades

A partir dos dados de treino podemos calcular:


▶ Probabilidade à priori de uma observação ser da classe k
▶ A f.d.p de X para uma observação extraída da classe k.
De acordo com o Teorema de Bayes o que queremos calcular é:

Pr(x |y ) Pr(y )
Pr(y |x ) =
Pr(x )
a probabilidade à posteriori de x pertencer à classe y = k.

6 / 29
Probabilidade à posteriori de pertencer à classe k

1. pk é a probabilidade à priori de X pertencer a k e


2. fk (x ) é a f.d.p de X pertencer a k.
3. fk (x ) tem uma f.d.p. N(µk , Σ).

pk × fk (x )
Pr(Y = k | X = x ) = pk (x ) = P
pl × fl (x )

Escolhemos a classe k (k = 1, . . . , K ) com a máxima probabilidade


à posteriori, dados os dados x .

7 / 29
Análise discriminante linear (p = 1)

fk (x ) tem uma f.d.p. N(µk , Σ), i.e. Σ é igual entre classes.


Para 1 preditor (p = 1) apenas fk (x ) é dado por:

" #
1 1
fk (x ) = √ · exp − 2 · (x − µk )2
2π · σ 2σ

onde Σ é a variância de x , σ 2 .

8 / 29
Exemplo fk (x )
0.3

0.2

Litologia
A
density

B
C
D

0.1

0.0

−5 0 5 10
Zn

9 / 29
Exemplo pk

Obtiveram-se 491 amostras classificadas. As probabilidades à priori


de uma amostra pertencer à classe k é dada pela proporção de
amostras em cada classe:

Litologia nk pk
A 183 0.37
B 23 0.05
C 204 0.42
D 81 0.16

10 / 29
Função discriminante δk (x )

Recorremos ao classificador de Bayes para atribuir uma observação à


classe onde pk (x ) é a maior.
Obteremos um resultado equivalente se usarmos a função (linear)
discriminante, δk (x ):

µk µ2k
δk (x ) = ∗ x − + log(pk )
σ2 2σ 2

11 / 29
Exemplo

Depois de calcularmos pk , µk e Σ podemos determinar o valor da


função discriminante para qualquer observação (proveniente da
mesma distribuição conjunta). No exemplo das litologias, os
resultados são:

Litologia uk pk
A 5.48 0.37
B 3.04 0.05
C 2.13 0.42
D 1.29 0.16
A variânca (ponderada) é 1.9.

12 / 29
Exemplo

Por exemplo, chega uma nova amostra x = 6

5.48 30.03
δA (6) = ∗6− + log(0.37)
1.9 2 · 1.9
..
.
1.29 1.66
δD (6) = ∗6− + log(0.16)
1.9 2 · 1.9

13 / 29
Resultados

Litologia dk(x) pk(x)


A 8.41 0.96
B 4.17 0.01
C 4.66 0.02
D 1.80 0.00

14 / 29
Análise discriminante linear com p > 1

Com p > 1 preditores, assume-se a f.d.p dos preditores segue uma


distribuição Gaussiana multivariada, com vetor µk = (µk1 , . . . , µkp )
e matriz de variância-covariância Σk (na ADL, Σk = Σ).

1 h 1 i
fk (x ) = · exp − (x − µk )T Σ−1 (x − µk )
(2π)p/2 |Σ|1/2 2

onde os vetores coluna x e µk têm dimensão p e Σ tem dimensão


p × p. Os preditores podem estar correlacionados.

15 / 29
Distribuição gaussiana multivariada (p = 2) #1
" # " #
1 0 0
Σ= µ=
0 1 0

3
2
1
x2

0
−1
−2
−3

−3 −2 −1 0 1 2 3

x1

16 / 29
Distribuição gaussiana multivariada (p = 2) #2
" # " #
0.5 0 0
Σ= µ=
0 0.5 0

3
2
1
x2

0
−1
−2
−3

−3 −2 −1 0 1 2 3

x1

17 / 29
Distribuição gaussiana multivariada (p = 2) #3
" # " #
3 0 0
Σ= µ=
0 3 0

3
2
1
x2

0
−1
−2
−3

−3 −2 −1 0 1 2 3

x1

18 / 29
Distribuição gaussiana multivariada (p = 2) #4
" # " #
1 0.5 0
Σ= µ=
0.5 1 0

3
2
1
x2

0
−1
−2
−3

−3 −2 −1 0 1 2 3

x1

19 / 29
Distribuição gaussiana multivariada (p = 2) #5
" # " #
1 0.8 0
Σ= µ=
0.8 1 0

3
2
1
x2

0
−1
−2
−3

−3 −2 −1 0 1 2 3

x1

20 / 29
Distribuição gaussiana multivariada (p = 2) #6
" # " #
1 0 0
Σ= µ=
0 1 1

3
2
1
x2

0
−1
−2
−3

−3 −2 −1 0 1 2 3

x1

21 / 29
Distribuição Gaussiana multivariada (p = 2) #7
" # " #
1 0 0
Σ= µ=
0 1 1.5

3
2
1
x2

0
−1
−2
−3

−3 −2 −1 0 1 2 3

x1

22 / 29
Exemplo
" # " # " # " #
1 0 0 1 0 2
Σ̂A = µ̂A = ; Σ̂B = µ̂B =
0 1 0 0 1 1

4
Classe A
Classe B
2
0
−2
−4

−4 −2 0 2 4
23 / 29
Exemplo fk (x )
" # " # " # " #
1 0 0 1 0 2
Σ̂A = µ̂A = ; Σ̂B = µ̂B =
0 1 0 0 1 1

4
Classe A
Classe B
0.02

0.04

0.08
0.02
2

0.12
0.14
0.06

0.1

0.1
0

0.14 0.06

0.12

0.08

0.04
−2
−4

−4 −2 0 2 4
24 / 29
Função discriminante δk (x )

A versão multivariada da função discriminante é dada por:

1
δk (x ) = x T Σ−1 µk − µT Σ−1 µk + log(pk )
2 k

A linha de fronteira entre duas classes k, l é dada por:

δk (x ) = δl (x )

25 / 29
A linha de fronteira (ADL)

4
2
x2

0
−2
−4

−4 −2 0 2 4

x1

26 / 29
Análise Discriminante Quadrática (ADQ)

QDA é similar à ADL mas assume que cada classe tem a sua matriz
de variância-covariância, i.e., fk (x ) tem uma f.d.p. N(µk , Σk ).

1 h 1
T −1
i
fk (x ) = · exp − (x − µ k ) Σk (x − µ k )
(2π)p/2 |Σk |1/2 2

1 1
δk (x ) = − (x − µk )T Σ−1
k (x − µk ) − log |Σk | + log(pk )
2 2

27 / 29
A linha de fronteira (ADQ)

4
2
x2

0
−2
−4

−4 −2 0 2 4

x1

28 / 29
ADL vs QDA

ADQ é mais flexível, tende a ajustar-se melhor aos dados, mas tem
mais parâmetros para estimar.

29 / 29

Você também pode gostar