Escolar Documentos
Profissional Documentos
Cultura Documentos
Capítulo 3
Roteiro
• MNIST
• Classificadores Binários
• Medições de Desempenho
• Classificação Multiclasse
• Análise de Erro
• Classificação Multilabel
• Classificação Multioutput
Base de Dados:
MNIST
Exemplo de custo 1
$
total do modelo 𝑛
∗ $ 𝑦% − 𝑦!
!"#
%
Gradiente descendente
Sujando as mãos...
Validação Cruzada
Real
Negativo Positivo
TN
FN
Negativo Verdadeiro
Falso Negativo
Negativo
Predito
Precisão=
!" TP
!"#$" FP
Positivo Verdadeiro
Falso Positivo
Positivo
Quantos % dos positivos foram Recall=
!"
previstos? !"#$%
Real
Negativo Positivo
TN
FN
Negativo Verdadeiro
Falso Negativo
Negativo
Predito
Precisão=
!" TP
!"#$" FP
Positivo Verdadeiro
Falso Positivo
Positivo
A pontuação F1 sintetiza através de uma média
harmônica os dois indicadores anteriores
𝟐 𝑷𝒓𝒆𝒄𝒊𝒔ã𝒐 ∗ 𝑹𝒆𝒄𝒂𝒍𝒍 𝑻𝑷
𝑭𝟏 = =𝟐∗ =
𝟏 𝟏 𝑷𝒓𝒆𝒄𝒊𝒔ã𝒐 + 𝑹𝒆𝒄𝒂𝒍𝒍 𝑭𝑵 + 𝑭𝑷
𝑻𝑷 +
𝑷𝒓𝒆𝒄𝒊𝒔ã𝒐 + 𝑹𝒆𝒄𝒂𝒍𝒍 𝟐
Trade-off Precisão X Recall
Avaliação da
Precisão como
função do
Threshold
Avaliação do
Recall como
função do
Threshold
Avaliação
Conjunta
O gráfico conjunto
de Precisão x
Recall mostra que
ter uma precisão
de 99% pode ser
inútil ...
Curva ROC ( Receiver Operating Caracteristic)
Real
B C Negativo Positivo
= 𝑇𝑎𝑥𝑎 𝑑𝑒 𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜
TN
FN
Verdadeir
Negativo Falso
o
Negativo
Negativo
Predito
FP TP
Positivo Falso Verdadeir
Positivo o Positivo
𝐹 𝑠⁄𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜
𝐹 𝑠|𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜
= 𝑝𝑟 𝐸𝑠𝑐𝑜𝑟𝑒 ≤ 𝑠⁄𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜
Real
Negativo Positivo
TN
FN
Verdadeir
Negativo Falso
o
Negativo
Negativo
Predito
FP TP
Positivo Falso Verdadeir
Positivo o Positivo
A D 𝐹 𝑠⁄𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜
𝐹 𝑠|𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜 = Taxa de Falso Positivo = 𝑝𝑟 𝐸𝑠𝑐𝑜𝑟𝑒 ≤ 𝑠⁄𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜
Curva ROC ( Receiver Operating Caracteristic)
B C
= 𝑇𝑎𝑥𝑎 𝑑𝑒 𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜
𝐹 𝑠|𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜
A D
𝐹 𝑠|𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜 = Taxa de Falso Positivo
Curva ROC ( Receiver Operating Caracteristic)
B C
= 𝑇𝑎𝑥𝑎 𝑑𝑒 𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜
𝐹 𝑠|𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜
A D
𝐹 𝑠|𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜 = Taxa de Falso Positivo
Comparação
entre
Métodos
B C
entre
𝐹 𝑠|𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜
Métodos 𝑅!
A D
𝐹 𝑠|𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜 = Taxa de Falso Positivo
AUROC
B C
𝐹 𝑠|𝐵
A D
𝐹 𝑠|𝐺
Gini
B C
𝐹 𝑠|𝐵 GINI
𝐺𝐼𝑁𝐼 = 2 ∗ 𝐴𝑈𝑅𝑂𝐶 − 1
A D
𝐹 𝑠|𝐺
A mais famosa
aplicação do
índice de Gini é
para descrever
desigualdades
de renda...
Classificadores Múltiplos – • Estratégia 1 : Construirmos 1-detector, 2-detector, e assim por diante depois
Agora vamos nos compará-los para determinar qual algarismo possui maior probabilidade.
defrontar a tarefa de
classificar dentre todos os • Estratégia 2: Treinar o classificador para cada par de dígitos 0 e 1, 0 e 2, e
algaritmos, não apenas 5 assim por diante. Teremos neste caso
#× #%!
"
=
!&× !&%!
"
= 45.
e não 5. Escolheríamos qual algarismo vence o maior numero de duelos.