Escolar Documentos
Profissional Documentos
Cultura Documentos
Arvores de Decisão
AULAS 8 e 9
Data Mining
Classificação
Nome Idade Renda Profissão Classe
Daniel ≤ 30 Média Estudante Sim
João 31..50 Média-Alta Professor Sim
Carlos 31..50 Média-Alta Engenheiro Sim
Maria 31..50 Baixa Vendedora Não
Paulo ≤ 30 Baixa Porteiro Não
Otavio > 60 Média-Alta Aposentado Não
Classificador
REGRAS CONFIÁVEIS
Mestrado em Ciencia da Computacao 3
Métodos de Classificação
Classificadores eager (espertos)
A partir da amostragem, constroem um modelo de classificação capaz de classificar novas tuplas.
Uma vez pronto o modelo, as amostras não são mais utilizadas na classificação de novos
objetos (tuplas)
Arvores de Decisão
Redes Neuronais
Redes Bayseanas
Máquinas de Suporte Vetorial
Classificadores lazy (preguiçosos)
Cada nova tupla é comparada com todas as amostras e é classificada segundo a classe
da amostra à qual é mais similar.
Método kNN (k-nearest-neighbor)
Case-Based Reasoning (CBR)
Outros Métodos
Algoritmos Genéticos
Conjuntos Difusos
Mestrado em Ciencia da Computacao 4
Critérios de Comparação dos Métodos
Acurácia – capacidade de classificar corretamente
novas tuplas
Rapidez – tempo gasto na classificacao
Robustez – habilidade de classificar corretamente em
presenca de ruidos e valores desconhecidos
Escalabilidade – eficiencia do classificador em
grandes volumes de dados
Interpretabilidade – facilidade de um usuario
entender as regras produzidas pelo classificador
Mestrado em Ciencia da Computacao 5
Acurácia – Taxa de erros
Acc(M) = porcentagem das tuplas dos dados de
teste que sao corretamente classificadas.
Err(M) = 1 – Acc(M)
Matriz de Confusão
Classes Preditas
C1 C2
Positivos Falsos
Classes Reais
C1
verdadeiros Negativos
Falsos Negativos
C2
Positivos verdadeiros
Mestrado em Ciencia da Computacao 6
Outras medidas mais precisas
Exemplo : acc(M) = 90%
C1 = tem-câncer (4 pacientes)
C2 = não-tem-câncer (500 pacientes)
Classificou corretamente 454 pacientes que não tem câncer
Não acertou nenhum dos que tem câncer
Pode ser classificado como “bom classificador”
mesmo com acurácia alta ?
Sensitividade = true-pos % pacientes classificados corretamente
pos com câncer dentre todos os que
realmente tem câncer
Especificidade = true-neg
neg
Precisão = true-pos % pacientes classificados corretamente
com câncer dentre todos os que foram
true-pos + falso-pos
classificados com câncer
Dados
Dados
de teste
LISTA-ATRIBUTOS = { A, B, C }
Mestrado em Ciencia da Computacao 12
Como criar uma Árvore de Decisão
A
a1 a2
Atributo-Teste =
A BC C CLASSE
a1 b1 c1 X c2 O que mais reduz a entropia
c1
a1 b2 c1 X =C
A
a1 B
b2 Cc2 CLASSE
Y A B C CLASSE
X Y
a1 b1 c1 X a1 b2 c2 Y
a1 b2 c1 X
LISTA-ATRIBUTOS = { B, C }
Mestrado em Ciencia da Computacao 13
Qual é o Atributo-Teste ?
Divide-se o nó segundo cada atributo.
Info(Temperatura) = 0.029
Info(Humidade) = 0.152
Info(Vento) = 0.020
Mestrado em Ciencia da Computacao 19
Algoritmo ID3
Input: Banco de dados de amostras A (com os valores dos
atributos categorizados), lista de atributos Cand-List
Output : Uma árvore de decisão
Begin
Gera-árvore(A, Cand-List)
End
Software Weka
Machine Learning Software in Java
http://www.cs.waikato.ac.nz/ml/weka/
a1 b1 c1 d1 SIM
a1 b1 c2 d1 NAO
a2 b2 c1 d1 SIM
a2 b2 c2 d2 NAO
a1 b2 c2 d1 NAO
a2 b1 c2 d2 SIM
a3 b2 c2 d2 SIM
a1 b3 c1 d1 SIM
a3 b1 c1 d1 NAO
a2 b2 c2 d1 SIM
a1 b1 c2 d2 NÃO
a2 b2 c1 d3 SIM
a2 b2 c2 d1 SIM
a1 b2 c2 d2 NÃO
a2 b1 c2 d1 SIM
a3 b3 c2 d2 SIM
a1 b3 c1 d1 NÃO
a3 b3 c1 d1 NÃO
a2 b2 c2 d1
a1 b1 c2 d2
a2 b2 c1 d3
a2 b2 c2 d1
a1 b2 c2 d2
a2 b1 c2 d1
a3 b3 c2 d2
a1 b3 c1 d1
a3 b3 c1 d1