Você está na página 1de 38

Minerao de Dados e

Aprendizado de Mquina

Valdete M G de Almeida
Minerao de Dados

Histrico
Aprendizado de Mquina
Crescimento drstico da informaes em meios eletrnicos

Volume Valor
Minerao de Dados

Conceito

o processo de extrao automtica de


conhecimento ou padres interessante (til,
relevante, novo, etc) de grande volume de
dados.
Minerao de Dados
Minerao de Dados

Paradigmas:

Combinatorio

Probabilstico

Algbrico

Baseados em Grafos
Minerao de Dados

Etapas do Processo
Minerao de Dados

Etapas do Processo

Todas as etapas so importantes

A otimizao de cada fase melhora o desempenho final

Valorizao do Pr-processamento e Ps-processamento

O aprendizado visto como ncleo


Minerao de Dados

Dados

Disponibilidade dos dados

Relevncia dos atributos (reduo da dimensionalidade)

Quantidade de dados disponveis (amostra ou a populao toda)

Especialista de domnio

Fonte dos dados (banco de dados, arquivos, etc)

Formato dos dados


Numricos (discretizar)

Nominais (categricos)
Minerao de Dados

Tarefas:

Classificao

Agrupamento

Regras de Associao
Minerao de Dados
Como avaliar o desempenho do Classificador?
1- Usar mesmo conjunto de dados

Treina com os dados e constri o modelo


Prev os dados sem olhar a classe
Compara as classes

0.5 0.9 0.6 0.6 Sim Sim


0.4 0.8 0.3 0.4 Sim Sim
0.6 0.6 0.5 0.9 Sim No
0.2 0.4 0.4 0.8 Sim Sim
0.5 0.7 0.4 0.7 Sim Sim
0.3 0.8 0.6 0.6 Sim Sim
0.6 0.4 0.7 0.5 No Sim
0.5 0.3 0.3 0.7 No No
0.6 0.5 0.8 0.7 No No
0.8 0.8 0.6 0.5 No No
Minerao de Dados
Como avaliar o desempenho do Classificador?

2- Hold out
Dividir a amostra em dois grupos

Treino (70%) e Teste (30%)


Minerao de Dados
Como avaliar o desempenho do Classificador?

3- Validao Cruzada
Divide a base em subconjuntos de treino

Compara o desempenho de cada subconjunto com teste

Mdia do valor do desempenho


Minerao de Dados
Mtrica de avaliao do desempenho:

Matriz de confuso
A matriz de confuso mostra onde o sistema est errando na
classificao das classes.
Classe Predita
Idade Classe (Pagou?) Classificador (Classificador)
18 No No Sim No

Classe Real
34 Sim No
Sim 2 1
46 Sim Sim
52 No Sim
No 1 1
64 Sim Sim
Classe Predita
Preciso Classificador
Sim No
Recall
Classe Real
Sim VP FN

No FP VN
Minerao de Dados
Mtrica de avaliao do desempenho:

Matriz de confuso
A matriz de confuso mostra onde o sistema est errando na
classificao das classes.
Classe Predita
Idade Classe (Pagou?) Classificador (Classificador)
> 18 No No Sim No

Classe Real
< 18 e > 34 Sim No
Sim 2 1
< 34 e > 46 Sim Sim
< 46 e > 52 No Sim
No 1 1
< 52 e > 64 Sim Sim
Classe Predita
Classificador
Sim No

Classe Real
VP (Verdadeiro Positivo) Sim VP FN
VN (Verdadeiro Negativo)
FP (Falso Positivo)
No FP VN
FN (Falso Negativo)
Minerao de Dados
Matriz de Confuso
Minerao de Dados
Mtrica de avaliao do desempenho:

Matriz de confuso
Mtricas:
Classe Predita
(Classificador) Preciso= VP / VP + FP
Sim No
Classe Real

Sim 2 1
Revocao (Recall) = VP / VP + FN
No 1 1

Classe Predita
Classificador
Sim No
Classe Real

Sim VP FN

No FP VN
Aprendizado Supervisionado

Tarefa de Classificao: organizar objetos em uma entre


diversas categorias pr-definidas.

Conceito: classificao a tarefa de aprender por meio de


um modelo que mapeie cada conjunto de atributos x para
um dos rtulos de classes y pr-determinados
Aprendizado Supervisionado

Algumas Tcnicas de Classificao

rvore de Deciso

Redes Bayesianas

Vizinhos mais prximos


Aprendizado Supervisionado
rvore de Deciso

Conceitos:
So modelos prticos e muito usados na inferncia indutiva.

O modelo construdo a partir das instncias de treinamento usado para classificar novas
instncias.

Caractersticas:

Fcil implementao dos algoritmos

Baseia-se em um conjunto de expresses lgicas

Muito utilizados na prtica

Facilidade para a compreenso humana

Apropriado para dados ruidosos


Aprendizado Supervisionado
rvore de Deciso

As rvores so treinadas de acordo com um conjunto


de treino (exemplos previamente classificados)

Outros exemplos so classificados de acordo com a


rvore construda

So usados algoritmos como o ID3 e C4.5.


Aprendizado Supervisionado
rvore de Deciso
Aprendizado Supervisionado
rvore de Deciso

Se (Aspecto = sol) e (Humidade =


Elevada) Ento Jogar = No

Se (Aspecto = sol) e (Humidade =


Normal) Ento Jogar = Sim

Se (Aspecto = Nuvens) Ento Jogar =


Sim

Se (Aspecto = Chuva) e (Vento = Fraco)


Ento Jogar = No

Se (Aspecto = Chuva) e (Vento = Forte)


Ento Jogar = Sim
Aprendizado Supervisionado
rvore de Deciso

Como seriam classificadas as


seguintes instncias?

- <Aspecto = sol, Temperatura = quente,


Humidade =Elevada, Vento=Forte> No

- <Aspecto = chuva, Temperatura =


quente, Vento =forte>

????
Aprendizado Supervisionado
rvore de Deciso

ID3(Inductive Decision Tree) dos mais utilizados para a


construo de rvores de deciso.

Cria um ranking dos atributos mais adequado

Insere (com base no ranking) os atributos na rvore

Utiliza o ganho de informao para criar o ranking

Mtodo com base na entropia


Aprendizado Supervisionado
rvore de Deciso: ID3

Entropia:
Medida de pureza de um conjunto de instncia
Precisa de um conjunto de instncias positivas e
negativas quando usando classes (SIM ou NO)

Entropia(S) = -(p+log2 p+) (p-log2p-)

S : conjunto de instancias de treinamento


p+ : proporo de instncias positivas
p- : proporo de instncias negativas
Aprendizado Supervisionado
rvore de Deciso: ID3 Sua calculadora tem
log2?

Entropia: log2(x) = log10(x)/log10(2)

Entropia(S) = -(p+log2 p+) (p-log2p-)


= -(9/14*log2(9/14))-(5/14*log2(5/14))
= -(0.64*log2(0.64))- (0.36*log2(0.36))
= -(0.64*(-0.64)) - (0.36*(-1.47))
= - (-0.41)-(-0.52)
= 0.41+0.53
= 0.94
Considerado duas
casas aps a vrgula
(ponto), sem
arredondamento
Aprendizado Supervisionado
rvore de Deciso: ID3
Calcular a entropia para um conjunto S de dados de pacientes classificados
com usar (sim) ou no usar (no) lentes de contato. Um total de 16 pacientes,
sendo 7 classificados como sim e 9 classificados em no.
Aprendizado Supervisionado
rvore de Deciso: ID3
Calcular a entropia para um conjunto S de dados de pacientes classificados
com usar (sim) ou no usar (no) lentes de contato. Um total de 16 pacientes,
sendo 7 classificados como sim e 9 classificados em no.

Entropia(S) = -(p+log2 p+) (p-log2p-)


= -(9/16*log2(9/16))-(7/16*log2(7/16))
= -((0.56)*(-0.83))- ((0.43)*(-1.21))
= -(-0.46) - (-0.52)
= 0.98
Aprendizado Supervisionado
rvore de Deciso: ID3

O que a Entropia significa?

Entropia(S) = -(p+log2 p+) (p-log2p-)

- Mede a tendncia de uma dada classe


- Grau de pureza dos dados

2
=1
Aprendizado Supervisionado
rvore de Deciso: ID3

Ganho de Informao: Ganho(S,A) define a reduo esperada


na entropia do conjunto S, ordenando pelo atributo A.

O ganho dado pela seguinte equao:


, = . ( )

()
Aprendizado Supervisionado
rvore de Deciso: ID3
Dados:
Ganho de Informao:
S = [9+ , 5- ]

Valores(vento) = Fraco, Forte


SFraco = [6+ , 2- ]
SForte = [3+ , 3- ]


, = . ( )

()

Ganho (S,A) = 0.94 8/14 x 0.81 6/14 x 1


= 0.94 0.57 x 0.81 0.42 x 1
= 0.94 0.46 0.42
= 0.06
Aprendizado Supervisionado
rvore de Deciso: ID3
Ganho de Informao:

, = . ( )

()

Ganho (S,Aspecto) = ?
Ganho (S,Temperatura) = ?
Ganho (S,Humidade) = ?
Aprendizado Supervisionado
rvore de Deciso: ID3
Ganho de Informao:

Qual atributo escolher para ser a


raiz da rvore?

, = .
, = .
=
, = .
, = .

, = .

O algoritmo recursivo para os prximos nveis da rvore


O atributo Aspecto no mais levado em considerao
Aprendizado Supervisionado
rvore de Deciso: ID3

Caractersticas:
No faz backtracking (no volta em nveis atributos anteriores)
Usa o timo local (no h garantias que a rvore gerada a melhor,
ou seja, poderia ter a combinao de outros atributos que gerariam
uma melhor rvore, mas, o ID3 no testa outras possibilidades)
Analise todo conjunto de treinamento para tomar deciso e isso
minimiza erros.
Se houver alguma instncia errada no impacto diretamente no
resultado do algoritmo.
Vis indutivo: utilizada o ganho de informao para definir os
atributos que estaro prximo da raiz e isso tem uma tendncia a
construir rvores mais rasas
Possui altos valores de overfiting (superestimativa), ou seja, a rvore
criada nos dados de treinamento funcionam muito bem para o
conjunto de treinamento, entretanto, uma instncia nova ele no
sabe lidar bem com a classificao.
Aprendizado Supervisionado
rvore de Deciso: ID3

Caractersticas:

Uma nova implementao do algoritmo ID3 foi proposta para minimizar o problema do
overfiting (C4.5)
C4.5 utiliza a poda do ramo mesmo que a entropia so atinja o valor zero. Cria-se
rvores mais rasas.
Utiliza estratgias de poda removendo atributos que no pioram o desempenho dos
resultados.
Trabalho com atributos contnuos (exemplo: faixa de temperado) usando a
discretizao dos valores
Lida com valores diferentes da um determinado atributo (exemplo data)
Aprendizado Supervisionado
rvore de Deciso: ID3

Exerccio de Fixao:
Exemplo Febre Enjoo Manchas Dor Diagnstico
T1 sim sim pequenas sim doente
T2 no no grandes no saudvel
T3 sim sim pequenas no saudvel
T4 sim no grandes sim doente
T5 sim no pequenas sim saudvel
T6 no no grandes sim doente

1) Calcular a entropia do conjunto de dados


2) Calcular o ganho de informao de cada atributo
Aprendizado Supervisionado
rvore de Deciso: ID3

Exerccio de Fixao (Resposta!):


Exemplo Febre Enjoo Manchas Dor Diagnstico
T1 sim sim pequenas sim doente
Ganho(Febre) = 0.01
T2 no no grandes no saudvel Ganho(Enjoo) = 0.01
T3 sim sim pequenas no saudvel
T4 sim no grandes sim doente
Ganho(Manchas) =0.10
T5 sim no pequenas sim saudvel Ganho(Dor) = 0.47
T6 no no grandes sim doente

Classe positiva = doente


Classe negativa = saudvel

Entropia (S) = 1
Referncias Bibliogrficas

[1] ELMASRI, Ramez; NAVATHE, Shamkant B. . Sistemas de banco de


dados. 6. ed. Rio de Janeiro LTC, 2011. 766 p.

[2] Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data


Mining. Addison-Wesley, 2006.

Você também pode gostar