Escolar Documentos
Profissional Documentos
Cultura Documentos
Métricas
Algumas métricas são específicas de um
Nesta apresentação são conjunto particular de exemplos (ou seja, são
descritos conceitos adicionais independentes do classificador induzido)
em AM, incluindo métricas Distribuição de classes
Classe minoritária
que são obtidas a partir do Classe majoritária
conjunto de exemplos, do Prevalência de classe
classificador induzido ou de Erro majoritário
regras individuais do Outras métricas dependem tanto do conjunto de
exemplos como do classificador induzido
classificado, caso ele seja
Taxa de erro, precisão, ...
simbólico Há ainda métricas específicas para regras, caso
José Augusto Baranauskas
o classificador induzido seja simbólico
augusto@usp.br
Departamento de Física e Matemática – FFCLRP-USP http://dfm.ffclrp.usp.br/~augusto
2
Conjunto de Exemplo
Exemplos
(Dataset)
X1 X2 ... Xm Y X1 X2 ... Xm Y
... ... ... ... ... ... ... ... ... ... ... ...
1
Formato Padrão Formato Padrão
Classe
Atributo
X1 X2 ... Xm Y X1 X2 ... Xm Y
... ... ... ... ... ... ... ... ... ... ... ...
2
Distribuição de Classes Distribuição de Classes
Em classificação, dado um conjunto T com n exemplos é Dez exemplos (n=10) Cabeça Peso Sorri Classe
possível calcular sua distribuição de classes Três classes (k=3): redonda 10.0 não amigo
Para cada classe Cj em T sua distribuição distr(Cj) é C1=amigo; C2=chato;
calculada como sendo o número de exemplos em T que C3=inimigo
triangular 12.0 sim amigo
possuem classe Cj dividido pelo número total de redonda 5.6 sim amigo
exemplos n, ou seja, a proporção de exemplos em cada Distribuição de classes:
classe, dada por: distr(amigo) = 5/10 = 50% quadrada 11.0 não chato
distr(chato) = 3/10 = 30% quadrada 10.0 sim amigo
1 n
distr (C j ) = ∑ || yi = C j || distr(inimigo) = 2/10 = 20%
triangular 5.5 não inimigo
n i =1 Classe amigo é a classe
majoritária redonda 5.7 sim chato
A classe com a maior distribuição de exemplos é Classe inimigo é a classe quadrada 15.3 sim chato
denominada majoritária ou prevalente minoritária quadrada 10.2 sim amigo
A classe com a menor distribuição de exemplos é
redonda 5.0 não inimigo
denominada minoritária
13 14
3
Exercício:
Indique a distribuição de classes, as classes Prevalência de Classe
majoritária e minoritária e o erro majoritário
Nome Dá luz Põe ovos Voa Vive na água Tem pernas Classe Distribuição de classes
Um ponto muito importante em AM refere-se ao
humano sim não não não sim mamíferos distr(mamíferos) =
7/20 = 35.00%
desbalanceamento de classes em um conjunto de
píton não sim não não não répteis
salmão não sim não sim não peixes distr(répteis) =
4/20 = 20.00%
exemplos
baleia sim não não sim não mamíferos
sapo não sim não eventual/e sim anfíbios
distr(peixes) =
3/20 = 15.00% Por exemplo, suponha um conjunto de exemplos T com a
komodo não sim não não sim répteis distr(anfíbios) =
2/20 = 10.00% seguinte distribuição de classes dist(C1, C2, C3) =
morcego sim não sim não sim mamíferos
pombo não sim sim não sim pássaros
distr(pássaros) =
4/20 = 20.00% (99.00%, 0.25%, 0.75%), com prevalência da classe C1
gato sim não não não sim mamíferos Classe majoritária:
tubarão sim não não sim não peixes mamíferos Um classificador simples que classifique sempre novos
tartaruga não sim não eventual/e sim répteis Classe minoritária:
anfíbios
exemplos como pertencentes à classe majoritária C1 teria
pingüim não sim não eventual/e sim pássaros
porco-espinho sim não não não sim mamíferos Maj-err uma precisão de 99.00% (maj-err(T) = 1.00%)
1 – 0.35 = 65.00%
enguia não sim não sim não peixes
salamandra não sim não eventual/e sim anfíbios Isto pode ser indesejável quando as classes minoritárias
monstro gila não sim não não sim répteis são aquelas que possuem uma informação muito
ornitorrinco não sim não não sim mamíferos
coruja não sim sim não sim pássaros importante, por exemplo, supondo C1: paciente normal,
golfinho sim não não sim não mamíferos C2: paciente com doença A e C3: paciente com doença B
águia não sim sim não sim pássaros
19 20
23 24
4
Erro Verdadeiro Erro e Precisão
25 26
27 28
5
Da luz
Vive na água
mamíferos
Nome Dá luz Põe ovos Voa Vive na água Tem pernas Classe sim não
sim não humano sim não não não sim mamíferos
píton não sim não não não répteis
salmão não sim não sim não peixes pássaros répteis
mamíferos Vive na água baleia sim não não sim não mamíferos
sapo não sim não eventual/e sim anfíbios
komodo não sim não não sim répteis
morcego sim não sim não sim mamíferos 1 n
sim não eventualmente pombo
gato
não
sim
sim
não
sim
não
não
não
sim
sim
pássaros
mamíferos
err ( h) = ∑ yi ≠ h( xi )
n i =1
tubarão sim não não sim não peixes
peixes Voa anfíbios tartaruga não sim não eventual/e sim répteis acc( h) = 1 − err (h)
pingüim não sim não eventual/e sim pássaros
porco-espinho sim não não não sim mamíferos
sim não enguia não sim não sim não peixes
salamandra não sim não eventual/e sim anfíbios
monstro gila não sim não não sim répteis
pássaros répteis ornitorrinco não sim não não sim mamíferos
coruja não sim sim não sim pássaros
golfinho sim não não sim não mamíferos
31 águia não sim sim não sim pássaros 32
4
err (h) = = 20.00%
Solução acc(h) =
20
16
= 80.00%
Erro: Regressão
20
Nome Dá luz Põe ovos Voa Vive na água Tem Pernas Classe Ŷ=h(x)
humano sim não não não sim mamíferos mamíferos mse-err(h) = erro médio rmse-err(h) = raiz do erro médio
píton não sim não não não répteis répteis quadrático (mean squared quadrático (root mean squared
salmão não sim não sim não peixes peixes
error) n
error)
baleia sim não não sim não mamíferos mamíferos 1
sapo
dragão de komodo
não
não
sim
sim
não eventualmente
não não
sim
sim
anfíbios
répteis
anfíbios
répteis
mse - err(h) = ∑ ( yi − h( xi ))2
n i =1
rmse - err(h) =
1 n
∑ ( yi − h( xi ))2
n i =1
morcego sim não sim não sim mamíferos mamíferos
pombo não sim sim não sim pássaros pássaros
gato sim não não não sim mamíferos mamíferos
mad-err(h) = distância/erro
tubarão sim não não sim não peixes mamíferos
tartaruga não sim não eventualmente sim répteis anfíbios absoluta(o) média(o) (mean
pingüim não sim não eventualmente sim pássaros anfíbios absolute distance/error)
porco-espinho sim não não não sim mamíferos mamíferos 1 n
enguia não sim não sim não peixes peixes mad - err(h) = ∑ yi − h( xi )
salamandra não sim não eventualmente sim anfíbios anfíbios n i =1
monstro gila não sim não não sim répteis répteis
ornitorrinco não sim não não sim mamíferos répteis
coruja não sim sim não sim pássaros pássaros
golfinho sim não não sim não mamíferos mamíferos
águia não sim sim não sim pássaros pássaros
33 34
6
Matriz de Confusão Matriz de Confusão
A matriz de confusão de uma hipótese h oferece uma O número de acertos, para cada classe, se localiza na
medida efetiva do modelo de classificação, ao mostrar o diagonal principal M(Ci,Ci) da matriz
número de classificações corretas versus as Os demais elementos M(Ci,Cj), para i ≠ j, representam
classificações preditas para cada classe, sobre um erros na classificação
conjunto de exemplos T A matriz de confusão de um classificador ideal possui
As entradas da matriz são representadas por M(Ci,Cj) todos os elementos fora da diagonal iguais a zero uma
indicando o número de exemplos de T que são da classe vez que ele não comete erros
Ci mas que foram classificados pela hipótese h como Classe predita C1 predita C2 L predita Ck
sendo da classe Cj
verdadeira C1 M (C1 , C1 ) M (C1 , C2 ) L M (C1 , Ck )
∑
verdadeira C2 M (C2 , C1 ) M (C2 , C2 ) L M (C2 , Ck )
M (C i , C j ) = h( x ) = C j M M M O M
{∀ ( x , y )∈T : y =Ci }
verdadeira Ck M (Ck , C1 ) M (Ck , C2 ) L M (Ck , Ck )
37 38
7
Índice Kappa Exemplo
Índice Kappa: medida de concordância κ=0.74 anfíbios peixes répteis pássaros mamíferos M(Ci,*) κ=1.00 anfíbios peixes répteis pássaros mamíferos M(Ci,*)
err=20.00% err=0.00%
Mede a fração de concordância observada entre as classes preditas por anfíbios 2 0 0 0 0 2 anfíbios 2 0 0 0 0 2
h e as classes verdadeiras peixes 0 2 0 0 1 3 peixes 0 3 0 0 0 3
kappa <= 0: indica ausência de concordância répteis 1 0 3 0 0 4 répteis 0 0 4 0 0 4
θo: concordância total observada pássaros 1 0 0 3 0 4 pássaros 0 0 0 4 0 4
θe: concordância esperada pelo simples acaso 0 0 1 0 6 7 0 0 0 0 7 7
θ −θ
mamíferos mamíferos
1 − θe
κ=0.81 κ= −0.22
1 k
anfíbios peixes répteis pássaros mamíferos M(Ci,*) anfíbios peixes répteis pássaros mamíferos M(Ci,*)
∑ M (Ci , Ci )
err=15.00% err=100.00%
θo = κappa
mínimo < 0 anfíbios 2 0 0 0 0 2 anfíbios 0 0 0 0 2 2
n i =1 máximo = 1
peixes 0 3 0 0 0 3 peixes 3 0 0 0 0 3
répteis 0 0 4 0 0 4 répteis 0 0 0 4 0 4
k
1 0 0 0 4 0 4
∑ M (C ,*) × M (*, C )
pássaros pássaros 0 0 4 0 0 4
θe = 2 i i
mamíferos 0 0 3 0 4 7 mamíferos 0 7 0 0 0 7
n i =1
M(*,Ci) 2 3 7 4 4 20 M(*,Ci) 3 7 4 4 2 20
43 44
8
Métricas Derivadas da Matriz de Métricas Derivadas da Matriz de
Confusão para 2 Classes em IR Confusão para 2 Classes
Em Recuperação de Informação (Information Retrieval): Assumindo um conjunto de exemplos sobre pacientes no qual há duas
A confiabilidade positiva é denominada precisão (precision) classes:
Pacientes com gripe (classe positiva)
A sensitividade é denominada recall
Pacientes sem gripe (classe negativa)
F-measure (média harmônica de precision e recall) também é Após induzir um classificador h:
conhecida como F1-measure A confiabilidade positiva é a proporção (probabilidade) que, caso um paciente seja
rotulado por h como tendo gripe, que ele realmente tenha gripe
2 2 × prel (h) × sens( h)
F − measure( h) = = A confiabilidade negativa é a proporção (probabilidade) que, caso um paciente
1 1 prel (h) + sens( h) seja rotulado por h como não tendo gripe, que ele realmente não tenha gripe
+ A porcentagem de pacientes com gripe e rotulados como tendo gripe é o suporte
prel ( h) sens (h) A porcentagem de pacientes rotulados como tendo gripe é a cobertura
A fórmula geral de Fα-measure é Sensitividade indica a proporção de pacientes com gripe que são classificados
como tais
α +1 (α + 1) × prel (h) × sens (h)
Fα − measure(h) = = Sensitividade de 100% significa que todos os pacientes com gripe são classificados como
1 α α × prel ( h) + sens( h) tais
+ Especificidade indica a proporção de pacientes sem gripe que são classificados
prel ( h) sens (h) como tais
Dois valores comuns para α são Especificidade de 100% significa que todos os pacientes sem gripe são classificados
como tais
α=2, que pondera recall duas vezes mais do que precision
α=0.5, que pondera precision duas vezes mais do que recall
50 51
9
Custos de Erros Custos de Erros
O custo cost(Ci,Cj) é um número que representa No cálculo utilizando custos, os erros são convertidos em
custos pela multiplicação do erro pelo custo
uma penalidade aplicada quando o classificador correspondente, calculados utilizando-se
faz um erro ao rotular exemplos, cuja classe 1 n
verdadeira é Ci, como pertencentes à classe Cj, err − cost( h) = ∑ yi ≠ h( xi ) × cost( yi , h( xi ))
n i =1
onde i,j = 1, 2, ..., k e k é o número de classes
É também possível obter os custos através da matriz de
Assim, cost(Ci,Ci) = 0, uma vez que não constitui confusão utilizando-se
um erro e cost(Ci,Cj) > 0, i ≠ j 1 k k
Em geral, os indutores assumem que
err − cost(h) = ∑∑ M (Ci , C j ) × cost(Ci , C j )
n i =1 j =1
cost(Ci,Cj)=1, i≠j, caso esses valores não sejam Assim, ao invés de projetar um algoritmo que minimize a
definidos explicitamente taxa de erro, o objetivo poderia ser minimizar custos de
classificação incorreta
56 57
Exemplos
h2: if X1<10 then classe = + else classe = - são...
++ ¯ + ¯ satisfazendo...
++ ¯ ¯ err-cost(h2) = 4 ¬L Não cobertos pela regra
L Cobertos pela regra
L∧R Cobertos corretamente pela regra
10
L ∧ ¬R Cobertos incorretamente pela regra
58 59
60 61
10
Matriz de Contingência Matriz de Contingência
Nesta tabela, L denota o Por generalidade, denota-
conjunto de exemplos para os se a cardinalidade de um
quais a condição da regra é
verdadeira e seu complemento conjunto A por a, ou seja,
¬L denota o conjunto de a = |A|
exemplos para os quais a Assim, l denota o número
condição da regra é falsa e de exemplos no conjunto
analogamente para R e ¬R
L, ou seja, l = |L|, r denota
LR denota o conjunto de
exemplos L ∩ R no qual ambos o número de exemplos no
L e R são verdadeiros, L¬R conjunto R, ou seja r = |R|,
denota o conjunto de exemplos lr denota o número de
L ∩ ¬R no qual L é verdadeiro e exemplos no conjunto LR
R é falso e assim por diante com lr = |LR| e assim por
diante
62 63
11
Slides baseados no Capítulo 4 do livro:
68
12