Você está na página 1de 6

MÉTODOS DE CLASSIFICAÇÃO OU Classificação de azeites de oliva de acordo com a origem;

RECONHECIMENTO SUPERVISIONADO DE PADRÕES


Amostras de azeite de oliva de 9
As técnicas de reconhecimento de padrões são usadas para identificar as semelhanças e regiões diferentes da Itália (Forina M.
diferenças em diferentes tipos e amostras, comparando-as entre si. Estas técnicas se Ann. Chim. (Rome) 72, 127 (1982)).
fundamentam nas seguintes suposições:
♣ amostras do mesmo tipo são semelhantes; Foi feita a análise de 8 ácidos graxos
♣ existem diferenças entre diferentes tipos de amostras; de aproximadamente 500 amostras
♣ as semelhanças e diferenças são refletidas nas medidas utilizadas para de azeite de oliva de origem
caracterizar as amostras. conhecida.

Análise PCA: espaço de dimensão 8


Deve-se saber a priori quais amostras são semelhantes e quais são diferentes para encontrar
foi reduzido para o espaço
os critérios de classificação. Estas técnicas são ditas serem SUPERVISIONADAS, pois
bidimensional das componentes
supervisionam no desenvolvimento dos critérios de discriminação das amostras.
principais.
O reconhecimento de padrões foi introduzido na química na década de 70 com a utilização da
técnica LLM (Linear Learning Machine) em dados de espectrometria de massa, para
determinar a fórmula molecular de moléculas contendo C, H, N e O. A desvantagem deste Utilizando este conjunto de dados onde se conhece a priori a categoria das amostras como
método é que a solução não é única. O resultado pode ser alterado, dependendo de como as “CONJUNTO DE TREINAMENTO”, construímos um modelo (uma regra) de classificação.
amostras foram ordenadas.
Amostras de azeite de origem conhecida supervisionam a classificação de amostras de
origem desconhecidas.
Este é um problema de RECONHECIMENTO SUPERVISIONADO DE PADRÕES.
EXEMPLOS:
O objetivo final deste tipo de análise é usar esta regra para identificar a origem
Classificação de amostras arqueológicas:
de novas amostras.
Classificação de azeites de oliva de acordo com a origem

TÉCNICAS DE CLASSIFICAÇÃO
3- PROBABILÍSTICAS
As técnicas de classificação são categorizadas (três categorias) de acordo com suposições
Estimam um grau de confiança da classificação SIMCA
usadas na construção dos modelos (Derde & Massart):
- DETERMINÍSTICAS
1- PARAMÉTRICAS Não estimam um grau de certeza de uma classificação. KNN
Técnicas paramétricas consideram que as variáveis tenham uma distribuição normal
(devendo satisfazer os requisitos para o número de graus de liberdade (amostra/variável) e a
homogeneidade da matriz de variância – covariância. SIMCA; LDA
- NÃO PARAMÉTRICAS KNN Kth Nearest Neighbor (K-ésimo Vizinho mais Próximo)
Estas técnicas não consideram informação da distribuição da população como no caso
anterior; elas deixam os próprios dados definirem sua própria estrutura e serem capazes de Neste método, calcula-se a distância entre uma amostra desconhecida e todas as amostras
encontrar esta estrutura explícita ou implicitamente. KNN do conjunto de treinamento. A atribuição a uma classe é feita por votos usando a classe de
amostras mais próximas como critério.
2- DISCRIMINANTES
As amostras pertencem a uma e somente uma classe. KNN; LDA.
SIMCA Soft Independent Modeling of Class Analogy
MODELATIVAS
As amostras podem pertencer a nenhuma classe, uma classe ou várias classes ao mesmo
Neste método, modela-se a localização e distribuição das classes, através do uso de
tempo. SIMCA
componentes principais.
As duas primeiras técnicas fixam uma fronteira entre as classes. Nas técnicas modelativas, as
fronteiras podem se superpor com fronteiras de outras classes.
Ambas são técnicas baseadas na suposição de que quanto mais as amostras se
assemelham entre si, mais próximas elas estarão no espaço multidimensional gerado pelas
variáveis.
KNN: K-ÉSIMOS VIZINHOS MAIS PRÓXIMOS VANTAGENS DO MÉTODO
METODOLOGIA 1- Computacionalmente muito simples.
♣ Calcula-se a distância entre todas as amostras do conjunto de treinamento no 2- Funciona bem quando o número de amostras numa classe é pequeno
espaço J-Dimensional. Pode-se usar a distância Euclidiana ou outra, como por
DESVANTAGEM DO MÉTODO
exemplo, a distancia de Mahalanobis.
1- Incapaz de de detectar amostras anômalas, alocando-as em uma das
♣ Os K vizinhos mais próximos de cada amostra são escolhidos para votar.
classes do conjunto de treinamento.
♣ Cada um deles dá um voto para sua classe. 2- Não é possível estimar o nível de confiança no resultado de uma
♣ A classe que recebe mais votos ganha a amostra. Em caso de empate, a classe classificação.
com a menor distância acumulada fica com a amostra.
EXEMPLO
♣ O processo é repetido para diferentes valores de K. O número de vizinhos
selecionado no modelo final é escolhido com base no número de erros de Grutzner, J.B.; Dence, J.B.; Smith, R.A.; Robert, J. D., J. Amer. Chem. Soc. 92,
classificação. 7107 (1970).
Este exemplo é usado para classificar compostos norbornanos exo e endo
Validação do modelo: novas amostras (do conjunto usando o deslocamento químico de cada um dos 7 carbonos de norbornanos
teste) podem ser classificadas da mesma maneira. A substituidos, relativo ao deslocamento dos mesmos nos norbornanos não
classe de uma amostra teste é atribuída com base substituidos.
na sua distancia às K amostras mais próximas do
conjunto de treinamento. Ela será alocada na classe
que receber mais votos.
EXO (CLASSE 1) ENDO (CLASSE 2)

Esta matriz é convertida na


matriz de erros, onde para
um dado valor de K, os
erros são somados,
atribuindo-se o valor 1 para
cada amostra classificada
na classe errada.

O que aconteceria se tivéssemos uma amostra anômala?


Ela seria automaticamente atribuída a uma das classes do conjunto de treinamento.
SUGESTÃO: faça uma análise de componentes principais para verificar o SIMCA: Soft Independent Modeling of Class Analogy
comportamento geral das amostras e detectar se há algo diferente em alguma Este método foi introduzido por Svante Wold em 1974.
delas.
⎧ MODELATIVA

É UMA TÉCNICA ⎨ PARAMETRICA
⎪ PROBABILISTICA

Neste método, assume-se que os valores medidos para um grupo de amostras parecidas
tenderão para uma distribuição uniforme e modelável. Se aumentarmos o número de
amostras, a distribuição deverá ficar cada vez mais uniforme.
♣ No método SIMCA, cada classe do conjunto de treinamento é submetida a uma análise
de componentes principais.
ESCORES PESOS ♣ Determina o número de PCs necessário para descrever cada classe.
♣ Constrói-se uma hipercaixa envolvendo as amostras de cada classe, onde os limites das
CONCLUSÕES mesmas são definidos com um dado nível de confiança.
Uma vez obtidas as fronteiras de cada classe, é importante determinar se há superposição
O método é muito interessante, mas às vezes não é suficiente. entre as mesmas.
1- Temos que utilizar alguma técnica paralela para detectar “outliers”, dados ♣ O poder de discriminação dos modelos SIMCA em distinguir as classes é dado pela
errados etc. “distancia entre classes” e pelos “resíduos entre classes”.
2- Não temos como detectar membros de uma nova classe que não aquelas ♣ A atribuição de uma amostra teste a uma dada classe é baseada na projeção da mesma,
estudadas. no espaço dos escores e sua distância das fronteiras da classe em questão. Isto é repetido
3- Não temos como estimar a probabilidade de uma amostra pertencer a uma para todas as classes e no final, se os modelos não tiverem poder de discriminação
determinada classe. Resposta a esta pergunta, nenhum método não suficiente, a amostra pode ser membro de mais de uma classe.
paramétrico pode dar. A resposta, pode ser dada pelo método SIMCA, que Pode acontecer, quando a amostra é anômala em relação ao conjunto de treinamento
veremos a seguir. (suficientemente diferente) e neste caso, ela não pertence a nenhuma das classes.

Na figura acima, uma PC é o suficiente para


descrever a classe 1 e 2 PCs para a classe 2.

Vamos utilizar o mesmo exemplo dos norbornanos


para ilustrar como o método funciona.

EXEMPLO
Grutzner, J.B.; Dence, J.B.; Smith, R.A.; Robert, J. D.,
J. Amer. Chem. Soc. 92, 7107 (1970).
Classificação de compostos norbornanos exo e endo usando deslocamento CLASSE 1 (q)
químico dos 7 carbonos nos norbornanos substituidos, relativo ao X1=X(1:8,:);
deslocamento dos mesmos em norbornanos não substituidos. X1=(X1-ones(8,1)*mean(X1))./(ones(8,1)*std(X1));
%Cada classe sera autoescalada separadamente
[u s v]=svd(X1);
T=u*s;
Valores singulares (s): 5,44 3,47 2,50 0,81 0,66 0,17 0,013
três componentes principais (A = 3).

X1 = X13 + Resíduo (onde o superíndice indica que A = 3)


EXO (CLASSE 1) ENDO (CLASSE 2) Quando o numero de PCs aumenta, os residuos diminuem (menos variância restante!).
Podemos então calcular a matriz de resíduos, que é dada por res1=X1-T(:,1:3)*v(:,1:3)'; Sp1= sqrt(sum(res1'.^2)./4)
Um residuo medio pode ser calculado para cada amostras somando os quadrados dos elementos So1= sqrt(sum(sum(res1'.^2))./16)
de res1, dividindo pelo numero de variaveis e extraindo a raiz quadrada. Sp1= 0,1839 0,1854 0,0322 0,0879 0,2068
0,0077 0,0333 0,1095 0,0967 0,1627 -0,2056 0,2097 0,2786 0,2135 0,2001
0,0035 -0,0285 -0,1376 -0,0789 -0,1665 0,1881 -0,2201 So1= 0,2660
0,0017 0,0130 0,0361 -0,0126 0,0300 0,0070 0,0395
A variância residual da classe So2 = (0,2660)2 é uma medida da compacidade das
res1 = -0,0060 0,0032 0,0592 0,0443 0,0731 -0,1034 0,0968
amostras nesta classe.
-0,2351 -0,2144 0,2348 -0,0098 -0,0757 -0,0937 0,0054
Uma vez calculados estes dois parâmetros, temos uma base estatística para decidir se
0,2707 0,2726 -0,0581 -0,0030 0,3016 -0,0052 0,2618
0,1338 0,1049 -0,2896 0,0205 -0,1132 0,1318 -0,1976 uma amostra está muito distante do modelo ou não. Para isto, vamos utilizar um teste F.
-0,1765 -0,1840 0,0457 -0,0573 -0,2121 0,0809 -0,1956 Se Sp2 ≤ So2 a amostra é típica desta classe. Se Sp2 >> So2, indica que a amostra está
distante do modelo e pode ser considerada como um “outlier” nesta classe. Se isto se
Com estes resíduos, podemos calcular duas quantidades importantes no método SIMCA: repetir para todas as classes, esta amostra deve ser excluída .

1- Variância residual na classe q, So2;


F=
Sqp ( )
2

( )
2- Variância residual de cada amostra nesta classe. Sp2 2
Soq
Variância Residual para cada amostra na classe q Sp2
J
( )q 2
∑ res pj
j =1
J = No de variáveis e A = No de componentes principais desta
classe.
Apenas o valor de Fcalculado de uma das amostras está ao redor de 1,0000
Sp =
(J-Aq )
Estes valores calculados são comparados com o valor crítico (tabelado) de F. Para um
determinado nível de probabilidade, por exemplo, 95% e usando os graus de liberdade
(Iq-Aq-1)(J-Aq) temos
Variância Residual TOTAl na classe q So2 Fcrítico = 3,010
Iq J
( )
q 2
∑ ∑ res pj
p =1 j =1
Iq = número de amostras na classe q e o denominador
Portanto, todas as amostras pertencem a esta classe. Poderíamos calcular F para todas
as 15 amostras usando as 3 PCs e verificar que os valores de F para as outras 7
So =
(I q − Aq − 1)(J-Aq ) corresponde ao número de graus de liberdade.
amostras da CLASSE 2 é bastante alto.

Quantitativamente, os limites da hipercaixa são obtidos utilizando os desvio-padrão dos PODER DE MODELAGEM
escores em cada componente principal. da variável “j” dá uma indicação da habilidade de da variável para modelar a informação
⎧t max + S1 c contida nos dados e é definido como,
Para PC1 : ⎨ onde S1 é o desvio padrão dos escores em PC1 S j ,res
⎩ t min − S1 c MPj = 1 −
o coeficiente c em geral é igual a 1,0 ou pode variar de acordo com o número de amostras S j ,X
na classe. O mesmo procedimento é repetido para as outras duas componentes principais Sj,res é o desvio padrão residual da variável j na classe q e Sj,X é a expressão familiar do
desta classe e assim o tamanho da hipercaixa esta definido. desvio padrão da variável j. Esta equação acima, é a razão sinal/ruído da variável j.
RESULTADOS PARA A CLASSE 2 (r) S j ,res
À medida que a razão Aumenta indica que o conteúdo de informação decresce.
X2 = X(9:15,:); S j ,X
X2 = (X2-ones(7,1)*mean(X2))./(ones(7,1)*std(X2)); O poder de modelagem varia entre zero e um. Um poder de modelagem alto, se
[u s v] = svd(X2); aproximando de 1,0, indica que a variável é relevante.
T = u*s;
Para MP → zero, a utilidade da variável no modelo se aproxima de zero.
Será usada apenas uma componente principal
res2 = X2-T(:,1)*v(:,1)';
sp2 = sqrt(sum(res2'.^2)./6)
sp2 = 0,6921 0,2630 0,6643 0,7397 0,5301 0,3828
so2 = sqrt(sum(sum(res2'.^2))./30)
0,7078 Iq
( ) q 2
∑ res pj
p =1
Iq
(
p =1
q
∑ x pj − x j
2
)
so2 = 0,7022 S j, res = S j, X =
I q − Aq − 1 Iq −1

Duas amostras apresentam valores de F ao redor de 1,0000) Os dados foram autoescalados, portanto este desvio padrão Sj,X = 1,000 para cada
variável (std(X1)).
Fcrítico = 2,42
Conclusão: não temos “outliers” neste conjunto de dados.
Cálculo do desvio padrão residual Sj,res para ambas as classes O PODER DE MODELAGEM TOTAL DE CADA VARIÁVEL É DADO POR
Para a classe q

Sjres = sqrt(sum(res1.^2)./5)
Sjres = 0,1885 0,1829 0,1898
MPj = ones(1,7)-Sjres
0,0656 0,2073 0,1556 0,2233
Iq
( ) q 2
∑ respj
p=1 J
Ir
( )
r 2
∑ respj
p=1 J
Iq

p=1
(q
∑ xpj − x j
2
) Ir

p=1
(r
∑ xpj − x j
2
)
S j,res = × + × S j,X = +
Iq − Aq −1 J − Aq Ir − Ar −1 J − Ar Iq −1 Ir −1
MPj = 0,8115 0,8171 0,8102 0,9344 0,7927 0,8444 0,7767

Sjres = sqrt(((sum(res1.^2)./5)*7/4 + (sum(res2.^2)./5)*7/6)/2)


Para a classe r
O desvio padrão de cada variável em cada classe é 1,000
Sjres=sqrt(sum(res2.^2)./5)
Sjres = 0,5856 0,8974 0,3976 0,7648 0,5948 0,3852 0,7516 SjX = sqrt((1.000).^2.0 +((1.000).^2.0) = 1,4142
ou
MPj = 0,4144 0,1026 0,6024 0,2352 0,4052 0,6148 0,2484 Sjx = sqrt(std(X1).^2 + std(X2).^2

RESULTADOS: MP=ones(1,7) - Sjres./Sjx


MP= 0,6601 0,5005 0,7513 0,5847 0,6507 0,7679 0,5681
Para a classe r, as variáveis DELTA3 e DELTA6, referentes ao deslocamento químico nos
carbonos 3 e 6, são as mais importantes para o modelo, enquanto que o deslocamento no Este é o poder de modelagem global para cada variável.
carbono 2 (DELTA2) é o menos importante.

PODER DISCRIMINATÓRIO DA VARIÁVEL “j”


DISTÂNCIA ENTRE CLASSES
Aqui, usamos o poder de discriminação para testar a habilidade das diferentes variáveis na
separação entre as classes.
( )
Ir 2 Uma quantificação da separação entre as classes pode ser obtida usando as

r,q
Φj =
s q 2
j,r( ) ( )
− s r 2
j,q
−1 onde S q =
J ∑ res qp, j
p =1
variâncias residuais (a compacidade) de cada classe.

( ) ( )
2
s rj,r − s qj,q
2 j,r I r J − Aq( ) A distância entre duas classes q e r, é definida como:
A soma é para Ir (usa-se aqui os resíduos das amostras da classe r na classe q)
D r,q =
(s ) + (s )
q 2
r
r 2
q
−1
res qp , j
é o desvio padrão das amostras p da classe r projetadas na classe q (as amostras
da classe r do conjunto de treinamento são ajustadas ao modelo da classe q).
(s ) + (s )
q 2
o
r 2
o
Temos um desvio padrão para cada variável.
♦ Um valor próximo de zero indica um baixo poder discriminatório. (s )
q 2 é a variância residual dos pontos na classe r se ajustarem ao modelo da classe
( )
r
♦Valores maiores que 1,0 quanto maiores indicam melhor poder discriminatório. r 2
q e vice versa para s q , calculada para todas as variáveis.
Para o exemplo dos norbornanos, usando 3PCs para a classe q e 1PC para classe r,
♦ Um valor próximo de zero indica que as duas classes r e q são praticamente
Disc Power = 1,3956 1,1394 2,2292 4,9474 3,4600 9,5014 5,6097
idênticas.
A variável DELTA6: melhor poder discriminatório,
DELTA2: tem o menor poder de discriminação.
♦ Valores maiores que 1,0 indicam diferenças reais. A separação inter-classe
melhora à medida que a distância entre as classes aumenta.
Pode-se melhorar a classificação eliminando variáveis de acordo com o poder de
discriminação. Isto deve ser feito com cautela pois tende a exagerar a diferença entre as Note que neste exemplo, autoescalamos cada classe separadamente. Pode-se
classes. Uma boa conduta seria: remover apenas as variáveis que tem AMBOS: baixo poder escalar os dados globalmente. Neste caso, é ainda mais simples
de modelagem e de discriminação. computacionalmente.
PREVISÃO EXEMPLO
Até aqui vimos como construir um modelo de classificação usando um conjunto de amostras Voltamos ao exemplo das naftoquinonas para construir um modelo SIMCA para cada uma
onde se conhece a priori a classe de cada uma delas (conjunto de treinamento). O das classes. A figura abaixo mostra os escores em 3 dimensões com os limites das
interessante é utilizar este modelo para estimar a classe de novas amostras. Para isto, hipercaixas para ambas as classes.
primeiro precisa-se calcular os escores das amostras a serem classificadas em cada uma das
classes do conjunto de treinamento.
( ) J restj q
2
tˆt = xt v (:,1 : 3) rest = x t − tˆt v (:,1 : 3) T S t2 = ∑ Escores 3D com os limites das
j =1 ( J − A ) hipercaixas para ambas as classes
2
Se S t é da ordem de Sp, indica que a amostra pertence a esta classe q.
2
No caso de S t ser muito maior, não tem as características desta classe
Quantitativamente pode-se usar um teste F para decidir se a amostra pertence a uma Uma delas é bem compacta que a outra.
determinada classe ou não. Ambas as classes são bem modeladas com 2 componentes principais usando os dados
Quando o escore estimado de uma amostra teste, tˆt , cai fora dos limites da hipercaixa, é
localmente autoescalados (cada classe é pré-processada separadamente). Pelo que
vimos anteriormente no gráfico de escores, é de se esperar que as classes tenham um
necessário calcular a distancia da mesma até à fronteria da caixa bom poder discriminatório.

( ) [
dtq = Stq + tˆta − tlimite
a
]
2
φ
Isto pode ser verificado pela distância inter classes e pelos resíduos interclasses:
significativamente menores quando as amostras são ajustadas na sua própria classe que
a quando à outra classe. COLOCAR A DIST INTERCLASSE E ANALISAR JUNTO!
onde a se refere à aésima componente principal, tlimite é o escore limite nesta componente
principal, que define a fronteira da caixa. Para que os dois termos da equação acima tenham Residuos Interclasse Uma vez definido o número de PCs e as fronteiras de cada
mesma ordem de grandeza e possam ser comparados, o coeficiente φ é usado. A I classe, o modelo pode ser usado para previsões. Um conjunto
(S ) 2 A 0,5702 7,1075 de 16 amostras foi utilizado co o teste. Os resultados para
φ= o 2
( ) Sp I 13,911 0,5618 ambos os modelos KNN e SIMCA estão na tabela.

Residuos entre classes:


Baseado no residuo das amostras de cada classe quando ajustadas ao modelo das
Compound KNN SIMCA outras classes
XXVII A A
XXVIII A 0
XXIX A A As amostras de uma classe que são bem ajustadas a sua propria classe tem um
XXX A A residuo interclasse pequeno.
XXXI I 0
XXXII I I
XXXIII I I Distâncias
XXXIV I 0 (residuos de Amostra)
XXXV I 0
XXXVI I 0
XXXVII I 0
Gráfico PC1 x PC2 para a classe 1: pode-se ver as fronteiras
XXXVIII A A desta classe e os oito compostos previstos como ativos, O residuo RES1 da amostra também ser referido como uma distância. Isto é razoável
XXXIX A A projetados dentro da caixa; dado que a quantidade envolve a raiz quadrada de uma soma de quadrados de
XL A A diferença de dois vetores:
XLI A A
Somente o composto XXVIII que se esperava ser ativo, esta do
XLII A A lado de fora da caixa, perto da borda. Os outros compostos sqrt ( Σ(xorig - xreconstructed)2 ) / sqrt (J)
estão bem distante e não pertencem a esta classe. Assim, um residuo da amostra é uma distância multivariada normalizada pela raiz
quadrada do número das variáveis.
Modelo KNN: as amostras são alocadas em uma das duas classes.
Modelo SIMCA: estima que 10 amostras pertencem a nenhuma das duas classes, mas seis O residuo médio das amostras do conjunto de treinamento para cada categoria é usado para
delas não pertencem a nenhuma das duas (classe prevista = 0). computar o limite para cada classe, usando uma tabela de teste F.
Gráfico das distâncias entre as classes: Amostras no quadrante NW pertencem à classe 1 As novas amostras que têm distâncias maiores do que este limiar não são consideradas como
(ATIVOS). As amostras no quadrante SE pertencem à classe 2 (INATIVOS) enquanto que membros da classe.
as amostras do quadrante NE não pertencem a nenhuma das classes. No quadrante SW
estão as amostras que pertençam a ambas as classes.

Você também pode gostar