Você está na página 1de 35

Universidade Federal do Ceará

Programa de Pós-Graduação em Engenharia Mecânica

MÉTODOS
NUMÉRICOS
Capítulo 4 – Classificação
Aluno : Victor Oliveira Santos

Professor: Paulo Alexandre Costa Rocha

Fortaleza
2021
Capítulo 4 – Classificação
Análise Discriminante Linear (LDA)

• LDA, ao contrário do modelo de regressão logística, modela a


distribuição dos preditores X para cada classe possível;
• Apresenta forma semelhante a regressão logística quando
assumida uma distribuição normal para os preditores;
• LDA é recomendado para:
• Classes bem separadas (LDA é mais estável do que a regressão
logística);
• Se o número de observações é pequeno e a distribuição dos
preditores é aproximadamente normal (gaussiana);
• Para casos com mais de duas classes possíveis;
Capítulo 4 – Classificação
LDA – Teorema de Bayes para Classificação

• Assume-se o caso de haver K classes possíveis, sendo K≥2 e


sem ordem definida;
• Determinando que é chamada de probabilidade à priori, e
indica a probabilidade de que, uma observação aleatória, tem
de ser da k-ésima classe;
• Assim, determina a função densidade de
probabilidade que uma observação x que pertence à classe k;
• Valore maiores de indicam grande probabilidade de x ser
da classe k, e vice-versa;
Capítulo 4 – Classificação
LDA – Teorema de Bayes para Classificação

• O teorema de Bayes é definido como:

• Onde é chamada de probabilidade a posteriori, e quantifica a


probabilidade de uma observação ser da classe K dado um valor
da observação x;
• O desafio consiste em estimar (a função densidade de
probabilidade);
• Tendo estimado , um classificador que se aproxima do
classificador de Bayes;
Capítulo 4 – Classificação
LDA – Caso de p=1

• Assumindo um caso p=1 (ou seja, apenas uma variável


preditora);
• A classificação de uma observação se dará para o máximo
valor de ;
• Primeiramente, uma suposição inicial sobre a forma de
deve ser feita; essa suposição irá impor uma forma de
distribuição normal (gaussiana) para a função densidade de
probabilidade;
Capítulo 4 – Classificação
LDA – Caso de p=1

• Na distribuição normal, e representam, respectivamente,


a média e a variância dos valores para a k-ésima classe;
• A princípio, assume-se que a variância é a mesma para todas
as K classes;
• Substituindo no equacionamento do teorema de Bayes, obtém-
se:
Capítulo 4 – Classificação
LDA – Caso de p=1

• Na distribuição normal, e representam, respectivamente,


a média e a variância dos valores para a k-ésima classe;
• A princípio, assume-se que a variância é a mesma para todas
as K classes;
• Substituindo no equacionamento do teorema de Bayes, obtém-
se:
Capítulo 4 – Classificação
LDA – Caso de p=1

• Reorganizando os termos, obtém-se uma função que é definida


como:

• Para a função acima, no caso de K=2, a fronteira de decisão


para a divisão das classes é calculada como sendo:
Capítulo 4 – Classificação
LDA – Caso de p=1

• O gráfico mostra a distribuição normal de para duas classes;


• A fronteira de decisão é representada pela linha tracejada;
• Para o exemplo, valores de x>0 são classificados como
classe 1 e valores x<0 pertencem à classe 2;
Capítulo 4 – Classificação
LDA – Caso de p=1

• O LDA aproxima-se da classificação de Bayes através da


estimação dos parâmetro de média, variância e probabilidade à
priori;
Capítulo 4 – Classificação
LDA – Caso de p=1

• Assim, é possível obter a equação para a função discriminante


definida como:

• Como é possível observar da equação acima, a função tem


forma linear pois os termos x são lineares;
• A fronteira de decisão para LDA é calculada da mesma forma
que do classificador de Bayes;
Capítulo 4 – Classificação
LDA – Caso de p=1

• O gráfico mostra um histograma para 2 classes com 20


observações cada;
• A fronteira de decisão para o classificador de Bayes é
representada pela linha tracejada; a linha sólida é a linha de
decisão para LDA;
• Para o exemplo, valores de x>0 são classificados como
classe 1 e valores x<0 pertencem à classe 2;
Capítulo 4 – Classificação
LDA – Caso de p>1

• Quando há mais de 1 preditor (p>1), é assumido que cada


preditor possui uma distribuição gaussiana (normal)
multivariada;
• Essa suposição diz que cada preditor possui uma distribuição
normal unidimensional, mas possuindo alguma correlação entre
os preditores;
Capítulo 4 – Classificação
LDA – Caso de p>1

• A figura mostra duas distribuições normais multivariadas;


• Mais vermelho o ponto, maior a sua probabilidade;
• Um corte transversal com referência a uma das variáveis, resultaria numa distribuição normal de
uma variável;
• A figura mais à esquerda possui variâncias iguais para os preditores e Cor(X1,X2)=0;
Capítulo 4 – Classificação
LDA – Caso de p>1

• A notação que indica uma variável X contendo p preditores pode


ser representada por , onde µ é o valor médio e Σ
representa a matriz de covariância de dimensão p x p de X;
• A função densidade de probabilidade pode ser escrita como sendo:

• Deve-se atentar que µ e Σ não são escalares; eles representam,


respectivamente, um vetor de valores médios para cada classe k e
a matriz de covariância p x p de X (que é comum para toda classe
k);
Capítulo 4 – Classificação
LDA – Caso de p>1

• Assim, pode-se obter que o classificador de Bayes para p>1


assume forma de:

• A classe k será atribuida a observação x para o maior valor


obtido pela função acima;
Capítulo 4 – Classificação
LDA – Caso de p>1

• A imagem representa o resultado de um classificador Bayesiano para k=3 com distribuição normal;
cada elipse possui 95% de chance de conter uma observação;
• As linha pontilhadas são as fronteiras de decisão quando , ou seja:

• Cada linha pontilhada separa um par de classes entre si;


Capítulo 4 – Classificação
LDA – Caso de p>1

• Como no caso de p=1, os parâmetros de média, variância e


probabilidade à priori são estimados (a formulação é
semelhante a apresentada para o caso anterior);
• A função discriminante pode ser então obtida de forma
similar para o caso de p=1;
Capítulo 4 – Classificação
LDA – Caso de p>1

• A imagem representa o resultado de um classificador usando LDA para k=3;


• As linha pontilhadas são as fronteiras de decisão quando do classificador Bayesiano; as linhas
contínuas são as fronteiras de decisão para o LDA;
Capítulo 4 – Classificação
LDA – Caso de p>1

• Classificadores binários podem classificar erroneamente as


observações;
• No caso do exemplo do livro, o classificador pode indicar que
uma podessoa não pagar o cartão, mesmo que ela pague e
vice-versa;
• Uma forma de representar esse tipo de erro pelo modelo, é
através de uma matriz de confunsão;
Capítulo 4 – Classificação
LDA – Caso de p>1

• A matriz acima é um exemplo de matriz de confusão; As colunas representam as classes corretas e as


linhas as classes previstas pelo modelo;
• Os valores na diagonal indicam as observações corretamente classificadas;
• O modelo possui erro geral para classificação de pessoas que pagam o cartão de 23/9667 = 0,24%
• Entretanto, quando se considera a classificação das pessoas que tendem a não pagar o cartão, o erro
obtido pelo modelo tem razão de 252/333 = 75,7% ;
• A sensibilidade do modelo pode ser definida como a taxa de acerto para quem não paga o cartão que
foi corretamente classificado; a sensibilidade é de 81/333 = 24,3% ;
• A especificidade pode ser definida como sendo a taxa de acerto para as pessoas que foram
classificadas como quem paga o cartão; tem valor de 9644/9667 = 99,8% (ou ainda 1-23/9667);
• A taxa de acerto geral do modelo é de (9644+81)/10000 = 97,25% ; a taxa de erro é de 100-97,25 =
2,75%
Capítulo 4 – Classificação
LDA – Caso de p>1

• O exemplo de matriz de confusão anterior ilustra uma


característica dos classificadores binários: o erro total da
classifciação pode ser baixo, mas quando comparado classe a
classe, o erro de uma classe pode ter erro muito maior do que
a outra;
• Isso é devido ao modelo de LDA ser baseado no modelo
Bayesiano, que busca a menor taxa de erro independente do
erro individual para cada classe;
• O limiar (threshold) tanto para LDA quanto para Bayes é
Capítulo 4 – Classificação
LDA – Caso de p>1

• Esse limite de 50% para atribuição da classe pode ser reduzido


para que os erros de classificação sejam reduzidos;
• Uma opção é reduzir de 50% para 20% o limiar do modelo:
Capítulo 4 – Classificação
LDA – Caso de p>1

• Com o novo limiar, o modelo classificou erroneamente 138 pessoas como quem não paga o cartão
(138/333 = 41,4%); é um erro menor do que quando comparado com o limiar de 50%;
• A melhoria quanto ao erro, entretanto, vem juntamente com uma piora na taxa de acerto total do
modelo: a taxa geral de acerto agora é de (9432+195)/96,27% e a de erro é de 100-96,27 = 3,73%
Capítulo 4 – Classificação
LDA – Caso de p>1

• A linha azul indica a razão pessoas que não pagam cartão classificadas erroneamente;
• Alinha preta indica a taxa geral de erro;
• Os pontos laranjas indicam a razão de pessoas que pagam o cartão classificadas erroneamente;
• Fica evidente o trade-off existente entre a escolha do limiar de classificação e o erro geral do modelo;
Capítulo 4 – Classificação
LDA – Caso de p>1

• Outra forma de visualizar os erros do modelo para cada classe,


é atrvés da curva ROC;
• A área sob a curva (area under the curve, AUC) represeta o
desempenho do modelo para todo limiar;
• Uma ROC ideal estaria “agarrada” no canto superior esquerdo
do gráfico, pois a AUC seria a maior possível (tendo valor
máximo de 1);
• ROC pode comparar classificadores diferentes
Capítulo 4 – Classificação
LDA – Caso de p>1
Capítulo 4 – Classificação
LDA – Caso de p>1
Capítulo 4 – Classificação
Análise discriminante quadrática (QDA)
• Como visto, LDA assume uma distribuição gaussiana
multivariada para cada observação, supondo um vetor de valor
médio µ para cada classe e uma matriz de covariância igual
para todas as classes;
• A diferença entre LDA e QDA é que, para o segundo modelo,
se supõe uma matriz de covariância diferente para cada classe
k;
Capítulo 4 – Classificação
Análise discriminante quadrática (QDA)
• Baseado nessa suposição, o classificador Baysiano obtém
forma:

• Novamente, é necessário estimar os valores de covariância,


média e probabilidade a priori;
Capítulo 4 – Classificação
Análise discriminante quadrática (QDA)
• A escolha entre LDA e QDA se da baseada na relação de trade-off entre os
erros de viés (bias) e variância;
• A suposição de uma matriz de variância comum para todas as classes k,
torna o modelo LDA menos flexível (menor variância) quando comparado
com QDA;
• Entretanto, essa suposição costuma ser errada, o que gera um aumento no
erro de viés do LDA quando comparado com QDA;
• De modo geral, LDA se destaca quando há relativamente poucos preditores
p;
• De modo similar, QDA é indicado para muitos preditores (ou quando
claramente a suposição de uma mesma matriz de variância para todas as
classes é errada);
Capítulo 4 – Classificação
Análise discriminante quadrática (QDA)

• A linha roxa indica a fronteira de decisão Bayesiana; os ponto pretos, do LDA; e a verde, do QDA;
• O exemplo à esquerda assume que ; o à direita
Capítulo 4 – Classificação
Comparação entre modelos de classificação

• Cenário 1: as observações são não correlacionadas e têm distribuição normal. Cada classe tem um valor
médio (µ) diferente;
• Cenário 2: mesmas condições do cenário 1, mas com valor de correlação de -0,5 entre os dois preditores
utilizados;
• Cenário 3: as variáveis preditoras possuem uma distribuição t-student (que é similar a distribuição
normal, mas com mais pontos distantes da média).
Capítulo 4 – Classificação
Comparação entre modelos de classificação

• Cenário 4: os dados possuem distribuição normal, mas com correlações diferentes para cada classe;
• Cenário 5: os dados foram gerados de uma distribuição normal sem correlação entre os preditores, e
com forma não linear;
• Cenário 6: mesmo que cenário 5, mas com uma relação não linear mais forte entre os preditores;
Referência
• GARETH, James et al. An introduction to statistical
learning: with applications in R. Spinger, 2013.

Você também pode gostar