Escolar Documentos
Profissional Documentos
Cultura Documentos
TÉCNICAS DE CLASSIFICAÇÃO
3- PROBABILÍSTICAS
As técnicas de classificação são categorizadas (três categorias) de acordo com suposições
Estimam um grau de confiança da classificação SIMCA
usadas na construção dos modelos (Derde & Massart):
- DETERMINÍSTICAS
1- PARAMÉTRICAS Não estimam um grau de certeza de uma classificação. KNN
Técnicas paramétricas consideram que as variáveis tenham uma distribuição normal
(devendo satisfazer os requisitos para o número de graus de liberdade (amostra/variável) e a
homogeneidade da matriz de variância – covariância. SIMCA; LDA
- NÃO PARAMÉTRICAS KNN Kth Nearest Neighbor (K-ésimo Vizinho mais Próximo)
Estas técnicas não consideram informação da distribuição da população como no caso
anterior; elas deixam os próprios dados definirem sua própria estrutura e serem capazes de Neste método, calcula-se a distância entre uma amostra desconhecida e todas as amostras
encontrar esta estrutura explícita ou implicitamente. KNN do conjunto de treinamento. A atribuição a uma classe é feita por votos usando a classe de
amostras mais próximas como critério.
2- DISCRIMINANTES
As amostras pertencem a uma e somente uma classe. KNN; LDA.
SIMCA Soft Independent Modeling of Class Analogy
MODELATIVAS
As amostras podem pertencer a nenhuma classe, uma classe ou várias classes ao mesmo
Neste método, modela-se a localização e distribuição das classes, através do uso de
tempo. SIMCA
componentes principais.
As duas primeiras técnicas fixam uma fronteira entre as classes. Nas técnicas modelativas, as
fronteiras podem se superpor com fronteiras de outras classes.
Ambas são técnicas baseadas na suposição de que quanto mais as amostras se
assemelham entre si, mais próximas elas estarão no espaço multidimensional gerado pelas
variáveis.
KNN: K-ÉSIMOS VIZINHOS MAIS PRÓXIMOS VANTAGENS DO MÉTODO
METODOLOGIA 1- Computacionalmente muito simples.
♣ Calcula-se a distância entre todas as amostras do conjunto de treinamento no 2- Funciona bem quando o número de amostras numa classe é pequeno
espaço J-Dimensional. Pode-se usar a distância Euclidiana ou outra, como por
DESVANTAGEM DO MÉTODO
exemplo, a distancia de Mahalanobis.
1- Incapaz de de detectar amostras anômalas, alocando-as em uma das
♣ Os K vizinhos mais próximos de cada amostra são escolhidos para votar.
classes do conjunto de treinamento.
♣ Cada um deles dá um voto para sua classe. 2- Não é possível estimar o nível de confiança no resultado de uma
♣ A classe que recebe mais votos ganha a amostra. Em caso de empate, a classe classificação.
com a menor distância acumulada fica com a amostra.
EXEMPLO
♣ O processo é repetido para diferentes valores de K. O número de vizinhos
selecionado no modelo final é escolhido com base no número de erros de Grutzner, J.B.; Dence, J.B.; Smith, R.A.; Robert, J. D., J. Amer. Chem. Soc. 92,
classificação. 7107 (1970).
Este exemplo é usado para classificar compostos norbornanos exo e endo
Validação do modelo: novas amostras (do conjunto usando o deslocamento químico de cada um dos 7 carbonos de norbornanos
teste) podem ser classificadas da mesma maneira. A substituidos, relativo ao deslocamento dos mesmos nos norbornanos não
classe de uma amostra teste é atribuída com base substituidos.
na sua distancia às K amostras mais próximas do
conjunto de treinamento. Ela será alocada na classe
que receber mais votos.
EXO (CLASSE 1) ENDO (CLASSE 2)
EXEMPLO
Grutzner, J.B.; Dence, J.B.; Smith, R.A.; Robert, J. D.,
J. Amer. Chem. Soc. 92, 7107 (1970).
Classificação de compostos norbornanos exo e endo usando deslocamento CLASSE 1 (q)
químico dos 7 carbonos nos norbornanos substituidos, relativo ao X1=X(1:8,:);
deslocamento dos mesmos em norbornanos não substituidos. X1=(X1-ones(8,1)*mean(X1))./(ones(8,1)*std(X1));
%Cada classe sera autoescalada separadamente
[u s v]=svd(X1);
T=u*s;
Valores singulares (s): 5,44 3,47 2,50 0,81 0,66 0,17 0,013
três componentes principais (A = 3).
( )
2- Variância residual de cada amostra nesta classe. Sp2 2
Soq
Variância Residual para cada amostra na classe q Sp2
J
( )q 2
∑ res pj
j =1
J = No de variáveis e A = No de componentes principais desta
classe.
Apenas o valor de Fcalculado de uma das amostras está ao redor de 1,0000
Sp =
(J-Aq )
Estes valores calculados são comparados com o valor crítico (tabelado) de F. Para um
determinado nível de probabilidade, por exemplo, 95% e usando os graus de liberdade
(Iq-Aq-1)(J-Aq) temos
Variância Residual TOTAl na classe q So2 Fcrítico = 3,010
Iq J
( )
q 2
∑ ∑ res pj
p =1 j =1
Iq = número de amostras na classe q e o denominador
Portanto, todas as amostras pertencem a esta classe. Poderíamos calcular F para todas
as 15 amostras usando as 3 PCs e verificar que os valores de F para as outras 7
So =
(I q − Aq − 1)(J-Aq ) corresponde ao número de graus de liberdade.
amostras da CLASSE 2 é bastante alto.
Quantitativamente, os limites da hipercaixa são obtidos utilizando os desvio-padrão dos PODER DE MODELAGEM
escores em cada componente principal. da variável “j” dá uma indicação da habilidade de da variável para modelar a informação
⎧t max + S1 c contida nos dados e é definido como,
Para PC1 : ⎨ onde S1 é o desvio padrão dos escores em PC1 S j ,res
⎩ t min − S1 c MPj = 1 −
o coeficiente c em geral é igual a 1,0 ou pode variar de acordo com o número de amostras S j ,X
na classe. O mesmo procedimento é repetido para as outras duas componentes principais Sj,res é o desvio padrão residual da variável j na classe q e Sj,X é a expressão familiar do
desta classe e assim o tamanho da hipercaixa esta definido. desvio padrão da variável j. Esta equação acima, é a razão sinal/ruído da variável j.
RESULTADOS PARA A CLASSE 2 (r) S j ,res
À medida que a razão Aumenta indica que o conteúdo de informação decresce.
X2 = X(9:15,:); S j ,X
X2 = (X2-ones(7,1)*mean(X2))./(ones(7,1)*std(X2)); O poder de modelagem varia entre zero e um. Um poder de modelagem alto, se
[u s v] = svd(X2); aproximando de 1,0, indica que a variável é relevante.
T = u*s;
Para MP → zero, a utilidade da variável no modelo se aproxima de zero.
Será usada apenas uma componente principal
res2 = X2-T(:,1)*v(:,1)';
sp2 = sqrt(sum(res2'.^2)./6)
sp2 = 0,6921 0,2630 0,6643 0,7397 0,5301 0,3828
so2 = sqrt(sum(sum(res2'.^2))./30)
0,7078 Iq
( ) q 2
∑ res pj
p =1
Iq
(
p =1
q
∑ x pj − x j
2
)
so2 = 0,7022 S j, res = S j, X =
I q − Aq − 1 Iq −1
Duas amostras apresentam valores de F ao redor de 1,0000) Os dados foram autoescalados, portanto este desvio padrão Sj,X = 1,000 para cada
variável (std(X1)).
Fcrítico = 2,42
Conclusão: não temos “outliers” neste conjunto de dados.
Cálculo do desvio padrão residual Sj,res para ambas as classes O PODER DE MODELAGEM TOTAL DE CADA VARIÁVEL É DADO POR
Para a classe q
Sjres = sqrt(sum(res1.^2)./5)
Sjres = 0,1885 0,1829 0,1898
MPj = ones(1,7)-Sjres
0,0656 0,2073 0,1556 0,2233
Iq
( ) q 2
∑ respj
p=1 J
Ir
( )
r 2
∑ respj
p=1 J
Iq
p=1
(q
∑ xpj − x j
2
) Ir
p=1
(r
∑ xpj − x j
2
)
S j,res = × + × S j,X = +
Iq − Aq −1 J − Aq Ir − Ar −1 J − Ar Iq −1 Ir −1
MPj = 0,8115 0,8171 0,8102 0,9344 0,7927 0,8444 0,7767
r,q
Φj =
s q 2
j,r( ) ( )
− s r 2
j,q
−1 onde S q =
J ∑ res qp, j
p =1
variâncias residuais (a compacidade) de cada classe.
( ) ( )
2
s rj,r − s qj,q
2 j,r I r J − Aq( ) A distância entre duas classes q e r, é definida como:
A soma é para Ir (usa-se aqui os resíduos das amostras da classe r na classe q)
D r,q =
(s ) + (s )
q 2
r
r 2
q
−1
res qp , j
é o desvio padrão das amostras p da classe r projetadas na classe q (as amostras
da classe r do conjunto de treinamento são ajustadas ao modelo da classe q).
(s ) + (s )
q 2
o
r 2
o
Temos um desvio padrão para cada variável.
♦ Um valor próximo de zero indica um baixo poder discriminatório. (s )
q 2 é a variância residual dos pontos na classe r se ajustarem ao modelo da classe
( )
r
♦Valores maiores que 1,0 quanto maiores indicam melhor poder discriminatório. r 2
q e vice versa para s q , calculada para todas as variáveis.
Para o exemplo dos norbornanos, usando 3PCs para a classe q e 1PC para classe r,
♦ Um valor próximo de zero indica que as duas classes r e q são praticamente
Disc Power = 1,3956 1,1394 2,2292 4,9474 3,4600 9,5014 5,6097
idênticas.
A variável DELTA6: melhor poder discriminatório,
DELTA2: tem o menor poder de discriminação.
♦ Valores maiores que 1,0 indicam diferenças reais. A separação inter-classe
melhora à medida que a distância entre as classes aumenta.
Pode-se melhorar a classificação eliminando variáveis de acordo com o poder de
discriminação. Isto deve ser feito com cautela pois tende a exagerar a diferença entre as Note que neste exemplo, autoescalamos cada classe separadamente. Pode-se
classes. Uma boa conduta seria: remover apenas as variáveis que tem AMBOS: baixo poder escalar os dados globalmente. Neste caso, é ainda mais simples
de modelagem e de discriminação. computacionalmente.
PREVISÃO EXEMPLO
Até aqui vimos como construir um modelo de classificação usando um conjunto de amostras Voltamos ao exemplo das naftoquinonas para construir um modelo SIMCA para cada uma
onde se conhece a priori a classe de cada uma delas (conjunto de treinamento). O das classes. A figura abaixo mostra os escores em 3 dimensões com os limites das
interessante é utilizar este modelo para estimar a classe de novas amostras. Para isto, hipercaixas para ambas as classes.
primeiro precisa-se calcular os escores das amostras a serem classificadas em cada uma das
classes do conjunto de treinamento.
( ) J restj q
2
tˆt = xt v (:,1 : 3) rest = x t − tˆt v (:,1 : 3) T S t2 = ∑ Escores 3D com os limites das
j =1 ( J − A ) hipercaixas para ambas as classes
2
Se S t é da ordem de Sp, indica que a amostra pertence a esta classe q.
2
No caso de S t ser muito maior, não tem as características desta classe
Quantitativamente pode-se usar um teste F para decidir se a amostra pertence a uma Uma delas é bem compacta que a outra.
determinada classe ou não. Ambas as classes são bem modeladas com 2 componentes principais usando os dados
Quando o escore estimado de uma amostra teste, tˆt , cai fora dos limites da hipercaixa, é
localmente autoescalados (cada classe é pré-processada separadamente). Pelo que
vimos anteriormente no gráfico de escores, é de se esperar que as classes tenham um
necessário calcular a distancia da mesma até à fronteria da caixa bom poder discriminatório.
( ) [
dtq = Stq + tˆta − tlimite
a
]
2
φ
Isto pode ser verificado pela distância inter classes e pelos resíduos interclasses:
significativamente menores quando as amostras são ajustadas na sua própria classe que
a quando à outra classe. COLOCAR A DIST INTERCLASSE E ANALISAR JUNTO!
onde a se refere à aésima componente principal, tlimite é o escore limite nesta componente
principal, que define a fronteira da caixa. Para que os dois termos da equação acima tenham Residuos Interclasse Uma vez definido o número de PCs e as fronteiras de cada
mesma ordem de grandeza e possam ser comparados, o coeficiente φ é usado. A I classe, o modelo pode ser usado para previsões. Um conjunto
(S ) 2 A 0,5702 7,1075 de 16 amostras foi utilizado co o teste. Os resultados para
φ= o 2
( ) Sp I 13,911 0,5618 ambos os modelos KNN e SIMCA estão na tabela.