Escolar Documentos
Profissional Documentos
Cultura Documentos
Aprendizado de Mquina
Valdete M G de Almeida
Minerao de Dados
Histrico
Aprendizado de Mquina
Crescimento drstico da informaes em meios eletrnicos
Volume Valor
Minerao de Dados
Conceito
Paradigmas:
Combinatorio
Probabilstico
Algbrico
Baseados em Grafos
Minerao de Dados
Etapas do Processo
Minerao de Dados
Etapas do Processo
Dados
Especialista de domnio
Nominais (categricos)
Minerao de Dados
Tarefas:
Classificao
Agrupamento
Regras de Associao
Minerao de Dados
Como avaliar o desempenho do Classificador?
1- Usar mesmo conjunto de dados
2- Hold out
Dividir a amostra em dois grupos
3- Validao Cruzada
Divide a base em subconjuntos de treino
Matriz de confuso
A matriz de confuso mostra onde o sistema est errando na
classificao das classes.
Classe Predita
Idade Classe (Pagou?) Classificador (Classificador)
18 No No Sim No
Classe Real
34 Sim No
Sim 2 1
46 Sim Sim
52 No Sim
No 1 1
64 Sim Sim
Classe Predita
Preciso Classificador
Sim No
Recall
Classe Real
Sim VP FN
No FP VN
Minerao de Dados
Mtrica de avaliao do desempenho:
Matriz de confuso
A matriz de confuso mostra onde o sistema est errando na
classificao das classes.
Classe Predita
Idade Classe (Pagou?) Classificador (Classificador)
> 18 No No Sim No
Classe Real
< 18 e > 34 Sim No
Sim 2 1
< 34 e > 46 Sim Sim
< 46 e > 52 No Sim
No 1 1
< 52 e > 64 Sim Sim
Classe Predita
Classificador
Sim No
Classe Real
VP (Verdadeiro Positivo) Sim VP FN
VN (Verdadeiro Negativo)
FP (Falso Positivo)
No FP VN
FN (Falso Negativo)
Minerao de Dados
Matriz de Confuso
Minerao de Dados
Mtrica de avaliao do desempenho:
Matriz de confuso
Mtricas:
Classe Predita
(Classificador) Preciso= VP / VP + FP
Sim No
Classe Real
Sim 2 1
Revocao (Recall) = VP / VP + FN
No 1 1
Classe Predita
Classificador
Sim No
Classe Real
Sim VP FN
No FP VN
Aprendizado Supervisionado
rvore de Deciso
Redes Bayesianas
Conceitos:
So modelos prticos e muito usados na inferncia indutiva.
O modelo construdo a partir das instncias de treinamento usado para classificar novas
instncias.
Caractersticas:
????
Aprendizado Supervisionado
rvore de Deciso
Entropia:
Medida de pureza de um conjunto de instncia
Precisa de um conjunto de instncias positivas e
negativas quando usando classes (SIM ou NO)
2
=1
Aprendizado Supervisionado
rvore de Deciso: ID3
, = . ( )
()
Aprendizado Supervisionado
rvore de Deciso: ID3
Dados:
Ganho de Informao:
S = [9+ , 5- ]
, = . ( )
()
Ganho (S,Aspecto) = ?
Ganho (S,Temperatura) = ?
Ganho (S,Humidade) = ?
Aprendizado Supervisionado
rvore de Deciso: ID3
Ganho de Informao:
, = .
, = .
=
, = .
, = .
, = .
Caractersticas:
No faz backtracking (no volta em nveis atributos anteriores)
Usa o timo local (no h garantias que a rvore gerada a melhor,
ou seja, poderia ter a combinao de outros atributos que gerariam
uma melhor rvore, mas, o ID3 no testa outras possibilidades)
Analise todo conjunto de treinamento para tomar deciso e isso
minimiza erros.
Se houver alguma instncia errada no impacto diretamente no
resultado do algoritmo.
Vis indutivo: utilizada o ganho de informao para definir os
atributos que estaro prximo da raiz e isso tem uma tendncia a
construir rvores mais rasas
Possui altos valores de overfiting (superestimativa), ou seja, a rvore
criada nos dados de treinamento funcionam muito bem para o
conjunto de treinamento, entretanto, uma instncia nova ele no
sabe lidar bem com a classificao.
Aprendizado Supervisionado
rvore de Deciso: ID3
Caractersticas:
Uma nova implementao do algoritmo ID3 foi proposta para minimizar o problema do
overfiting (C4.5)
C4.5 utiliza a poda do ramo mesmo que a entropia so atinja o valor zero. Cria-se
rvores mais rasas.
Utiliza estratgias de poda removendo atributos que no pioram o desempenho dos
resultados.
Trabalho com atributos contnuos (exemplo: faixa de temperado) usando a
discretizao dos valores
Lida com valores diferentes da um determinado atributo (exemplo data)
Aprendizado Supervisionado
rvore de Deciso: ID3
Exerccio de Fixao:
Exemplo Febre Enjoo Manchas Dor Diagnstico
T1 sim sim pequenas sim doente
T2 no no grandes no saudvel
T3 sim sim pequenas no saudvel
T4 sim no grandes sim doente
T5 sim no pequenas sim saudvel
T6 no no grandes sim doente
Entropia (S) = 1
Referncias Bibliogrficas