Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Introduo
Na aprendizagem de mquina, a pesquisa atual deslocou longe de simplesmente apresentar
resultados de exatido ao executar uma validao emprica de algoritmos novos. Isto
especialmente verdadeiro quando se avaliam algoritmos que produzem probabilidades de
valores de classe. Provost et al. (1998) argumentaram que simplesmente usar resultados de
preciso pode ser enganoso.
Eles recomendaram, ao avaliar problemas de deciso binria, utilizar curvas de caractersticas
do operador receptor (ROC), que mostram como o nmero de exemplos positivos
corretamente classificados varia com o nmero de exemplos negativos classificados
incorretamente. No entanto, as curvas ROC podem apresentar uma viso excessivamente
otimista do desempenho de um algoritmo se houver uma grande inclinao na distribuio da
classe. Drummond e Holte (2000; 2004) recomendaram o uso de curvas de custo para tratar
dessa questo. As curvas de custo so uma excelente alternativa s curvas ROC, mas discuti-
las est alm do escopo deste artigo.
As curvas Precision-Recall (PR), frequentemente usadas em Information Retrieval (Manning
& Schutze, 1999; Raghavan et al., 1989), foram citadas como uma alternativa s curvas ROC
para tarefas com grande desvio na distribuio de classes (Bockhorst & Craven, 2005,
Bunescu et al., 2004, Davis et al., 2005, Goa- rich et al., 2004, Kok & Domingos, 2005,
Singla & Domingos, 2005). Uma diferena importante entre o espao ROC eo espao PR a
representao visual das curvas. Olhando para as curvas PR pode expor as diferenas entre
algoritmos que no so aparentes no espao ROC. As curvas ROC de amostra e as curvas PR
so mostradas nas Figuras 1 (a) e 1 (b), respectivamente. Estas curvas, tiradas dos mesmos
modelos aprendidos em um conjunto de dados de deteco de cncer altamente desigual,
destacam a diferena visual entre esses espaos (Davis et al., 2005). O objetivo no espao
ROC estar no canto superior esquerdo, e quando se olha para as curvas ROC na Figura 1 (a),
eles parecem estar bastantes perto do ideal. No espao PR o objetivo estar no canto superior
direito, e as curvas PR na Figura 1 (b) mostram que ainda h muito espao para melhorias.
Teorema 3.1. Para um dado conjunto de dados de exemplos positivos e negativos, existe uma
correspondncia um-para-um entre uma curva no espao ROC e uma curva no espao PR, de
modo que as curvas contenham exatamente as mesmas matrizes de confuso, se Recall 6 0.
Prova. Observe que um ponto no espao ROC uma matriz de confuso nica quando o
conjunto de dados fixo. Uma vez que no espao PR ignoramos TN, pode-se preocupar que
cada ponto pode corresponder a matrizes de confuso mltiplas. No entanto, com um nmero
fixo de exemplos positivos e negativos, dado as outras trs entradas em uma matriz, TN
determinado de forma nica. Se Recall = 0, no podemos recuperar FP, e assim no podemos
encontrar uma matriz de confuso nica. Consequentemente, temos um mapeamento um-
para-um entre matrizes de confuso e pontos no espao PR. Isto implica que tambm temos
um mapeamento um-para-um entre os pontos (cada um definido por uma matriz de confuso)
no espao ROC e espao PR; Portanto, podemos traduzir uma curva no espao ROC para o
espao PR e vice-versa.
Uma definio importante que precisamos para nosso prximo teorema a noo de que uma
curva domina outra curva, "significando que todas as outras ... curvas esto abaixo ou igual a
ela" (Provost et al., 1998).
Teorema 3.2. Para um nmero xed de exemplos positivos e negativos, uma curva domina uma
segunda curva no espao ROC se e somente se o rst domina o segundo no espao Precision-
Recall.
Prova.
Reivindicao 1 (==>): Se uma curva domina no espao ROC ento domina no espao PR.
Prova por contradio. Suponhamos que temos a curva I e a curva II (como mostra a Figura 3)
de modo que a curva I domina no espao ROC, contudo, uma vez que traduzimos essas
curvas no espao PR, a curva I no mais domina. Como a curva I no domina no espao PR,
existe algum ponto A na curva II tal que o ponto B na curva I com Recall idntico tem menor
Preciso. Em outras palavras, PRECISO (A) > PRECISO (B) ainda RECUPERAR (A) =
RECUPERAR (B). Como RECALL (A) = RECALL (B) e Recall idntico a TPR, temos que
TPR (A) = TPR (B). Como a curva I domina a curva II no espao ROC