Você está na página 1de 70

Introduo

Aprendizagem de Mquina
Stanley R. M. Oliveira
Aprendizado de Mquina (Machine Learning)

Resumo da Aula



Sistemas Hbridos Inteligentes.


Aprendizado de Mquina:




Classificao de Dados:





Conceitos.
Hierarquiza do aprendizado.
Paradigmas.
Processo de classificao.
Caractersticas de um bom classificador.
Principais mtodos de classificao.
Principais algoritmos existentes.

rvores de Deciso:





Conceitos bsicos.
Algoritmos mais conhecidos.
Mecanismos de poda.
Escolha do atributo split.
2

Introduo
Tcnicas-chave em Inteligncia Artificial (IA)
Aquisio do
Sistemas

Aprendizado de
conhecimento
mquina

Especialistas

Redes
Minerao de

Conhecimento
Neurais

Textos

Minerao
de
Minerao de

Algoritmos

Dados
Dados

Genticos

Lgica Fuzzy

Sistemas Inteligentes Hbridos


3

Introduo
MD + IA
Associao

rvore de Deciso

Redes
Neurais
Clusterizao

Integrao

Lgica Fuzzy

Algoritmos

Classificao
Redes bayesianas

genticos

Aprendizado de Mquina


Conceitos de aprendizado de mquina


Sistemas de IA


Armazenar conhecimento Representao

Aplicar conhecimento para resolver problemas




Raciocnio (mecanismo de inferncia)

Adquirir novos conhecimentos Aprendizagem

Aprendizado de Mquina ...




O que Aprendizado de Mquina?




uma rea de IA cujo objetivo o desenvolvimento de


tcnicas computacionais sobre o aprendizado bem
como a construo de sistemas capazes de adquirir
conhecimento de forma automtica.

Um sistema de aprendizado um programa de


computador que toma decises baseado em
experincias acumuladas por meio de soluo bem
sucedida de problemas anteriores.

uma ferramenta poderosa para aquisio


automtica de conhecimento, entretanto, no existe um
nico algoritmo que apresente melhor desempenho
para todos problemas.
6

Aprendizado de Mquina ...




Induo: a forma de inferncia lgica que


permite obter concluses a partir de um
conjunto de exemplos.

Na induo, um conceito aprendido


efetuando-se inferncia indutiva sobre os
exemplos apresentados (cautela na escolha
de exemplos).

Deduo: Humanos usam raciocnio dedutivo


para deduzir nova informao a partir de
informao relacionada logicamente.
7

Aprendizado de Mquina ...




Hierarquia do aprendizado
Aprendizado
Indutivo
Aprendizado
Supervisionado

Classificao

Aprendizado
No-Supervisionado

Regresso
8

Classificao Versus Clusterizao




Aprendizado supervisionado (classificao)




Superviso: As observaes no conjunto de treinamento so


acompanhadas por labels indicando a classe a que elas
pertencem.

Novas ocorrncias so classificadas com base no conjunto


de treinamento.

Aprendizado no-supervisionado (clusterizao)




No existe classe pr-definida para nenhum dos atributos.

Um conjunto de observaes dado com o propsito de se


estabelecer a existncia das classes ou clusters.
9

Aprendizado de Mquina ...




Hierarquia do aprendizado


Aprendizado Indutivo: efetuado a partir de


exemplos externos ao sistema de aprendizado.
 Aprendizado

Supervisionado: Construir um

classificador (indutor) que possa determinar a classe de


novos exemplos a partir de exemplos treinamento com classe
rotulada.
 Classificao: Rtulos para valores discretos.
 Regresso: Rtulos para valores contnuos.
 Aprendizado

No-Supervisionado: O indutor analisa

os exemplos e tenta determinar se alguns deles podem ser


agrupados de alguma maneira, formando agrupamentos ou
clusters.
10

Aprendizado de Mquina ...




Hierarquia do aprendizado


Processo de Classificao
Especialista

Conhecimento do domnio

Atributos
Especificao
do problema

T1
T2
.
.
.
Tn

X1 x2 ...
x11 x12 ...
x21 x22 ...
.
.
.
.
.
.
xn1 xn2

Conhecimento do domnio

Meta
Xm
x1m
x2m

xnm

Y
y1
y2
.
.
.
yn

Classificador
Aprendizado
de mquina

Dados brutos
Avaliao

11

Aprendizado de Mquina ...




Paradigmas do aprendizado:


Simblico: Buscam aprender construindo representaes


simblicas (expresso lgica, rvores de deciso regras).

Estatstico: Buscam mtodos estatsticos (Aprendizado


bayesiano)

Baseado em Exemplos: Sistemas lazy (RBC, Nearest


Neighboors).

Conexionista: Modelos inspirados no modelo biolgico do


sistema nervoso (Redes Neurais).

Evolutivo: Teoria de Darwin (Algoritmos Genticos).

12

Aprendizado de Mquina: Definies




Algumas Definies em AM


Conjunto de exemplos: um conjunto de exemplos


contendo valores de atributos bem como a classe
associada.
Atributos

T1
T2
.
.
.
Tn

X1 x2 ...
x11 x12 ...
x21 x22 ...
.
.
.
.
.
.
xn1 xn2

Classe

Xm
x1m
x2m

xnm

Y
y1
y2
.
.
.
yn

Classificador
Indutor

Hiptese
Descrio de conceito

13

Aprendizado de Mquina: Definies




Algumas Definies em AM


Indutor: programa de aprendizado ou algoritmo de


induo que visa extrair um bom classificador a partir
de um conjunto de exemplos rotulados.

Exemplo: caso, dado ou registro.

Atributo: descreve uma caracterstica ou aspecto de


um exemplo.

Classe (Atributo-Meta): atributo especial no qual se


pretende aprender a fazer previses a respeito.

14

Aprendizado de Mquina: Definies




Algumas Definies em AM


Bias: qualquer preferncia de uma hiptese sobre a


outra.

Modo de aprendizado:
 todo

conjunto de treinamento presente no


aprendizado (no incremental).

 quando

novos exemplos de treinamento so


adicionados (incremental).

15

Aprendizado de Mquina: Definies


Erro ( err(h) )
Medida de desempenho de um Classificador.
Considerando E = 1 se a expresso for verdadeira
0, caso contrrio

1
err (h) =
n

yi h( xi )

i =1

Acurcia ( acc(h) )
Complemento da Taxa de Erro, representa a Preciso do
Classificador.

acc(h) = 1 err (h)


16

Aprendizado de Mquina: Definies


Distribuio de Classes ( distr(Cj) )
Para cada Classe Cj, sua distribuio distr(Cj) calculada como
sendo o nmero de exemplos em T que possuem classe Cj
dividido pelo nmero total de exemplos ( n ), ou seja, a
proporo de exemplos em cada classe

1
distr (C j ) =
n

yi = C j

i =1

Exemplo: Conjunto com 100 Exemplos: 60 Classe C1


15 Classe C2
25 Classe C3
distr (C1, C2, C3) = (60%, 15%, 25%)
Neste exemplo, Classe Majoritria (ou Prevalente) C1.
Classe Minoritria C2.
17

Aprendizado de Mquina: Definies


Erro Majoritrio ( maj-err(T) )
Limite Mximo abaixo do qual o erro de um Classificador deve ficar

maj err (T ) = 1 max distr (Ci )


i =1,... k

No Exemplo anterior: maj-err(T) = 1 - 0,60 = 0,40

Erro Majoritrio INDEPENDE do algoritmo de aprendizado.

18

Aprendizado de Mquina: Definies


Prevalncia de Classe
Problema com desbalanceamento de classes em conjunto de
exemplos.
Exemplo: distr (C1, C2) = (99,75%, 0,25%)
Neste exemplo, Classe Majoritria (ou Prevalente) C1
Classe Minoritria C2
Classificador que classifique novos exemplos como C1 teria
uma preciso de 99,75%.
Se a Classe C2 fosse, por exemplo, ocorrncia de Geada ...

19

Aprendizado de Mquina: Definies


Overfitting
possvel que o Classificador faa uma induo muito
especfica para o conjunto de treinamento utilizado
(Overfitting).
Como este apenas uma amostra de dados, possvel que a
induo tenha bom desempenho no conjunto de treinamento,
mas um desempenho ruim em exemplos diferentes daqueles
pertencentes ao conjunto de treinamento.
Clculo do Erro em um conjunto de teste independente
evidencia a situao de Overfitting.
Under e overfitting: ajusta-se em muito pouco ou em excesso
ao conjunto de treinamento.
20

O que classificao?


Dado um conjunto de registros (dataset):




Cada registro contm um conjunto de atributos, em que


um dos atributos o atributo-meta (varivel resposta).

O conjunto de dados dividido em dois subconjuntos:


conjunto de treinamento para construir o modelo e
conjunto de teste para validar o modelo.

Passo 1: encontrar um modelo para o atributometa (ou atributo-classe) como uma funo dos
valores dos outros atributos.

Passo 2: registros no conhecidos devem ser


associados classe com a maior preciso possvel.
21

O que classificao? ...


Tid

Atrib1

Atrib2

Atrib3

Yes

Large

125K

No

No

Medium

100K

No

No

Small

70K

No

Yes

Medium

120K

No

No

Large

95K

Yes

No

Medium

60K

No

Yes

Large

220K

No

No

Small

85K

Yes

No

Medium

75K

No

10

No

Small

90K

Yes

algoritmo

Class

usado
Induo
Criao
do Modelo

Modelo

10

Conjunto de treinamento
Tid

Attrib1

Attrib2

Attrib3

11

No

Small

55K

12

Yes

Medium

80K

13

Yes

Large

110K

14

No

Small

95K

15

No

Large

67K

Aplicao
do Modelo

Class

Deduo

10

Conjunto de Teste
22

Observao Importante
Qualidade do Exemplo de Treinamento
Qualidade das Regras.
No possvel descobrir algo que no esteja nos
exemplos.
Seleo dos exemplos e das caractersticas
fundamental neste processo.
Da a importncia do conhecimento e da experincia
do Especialista.

23

Classificao: Aplicaes


Classificar tumores como benigno ou maligno.

Classificar transaes de carto de


crdito como legtima ou fraudulenta.

Classificar estruturas secundrias de


protenas como alpha-helix, beta-sheet
ou random coil.

Avaliar riscos de emprstimos,


previso de tempo, etc.

Sistema de alerta de geada.

Previso de mortalidade de frangos, etc.


24

Caractersticas de um bom classificador




Preciso

Velocidade



Robustez


Eficincia em banco de dados residentes em disco.

Interpretabilidade


Capacidade de lidar com rudos e valores faltantes (missing).

Escalabilidade


Tempo para construir o modelo.


Tempo para usar o modelo.

Clareza fornecida pelo modelo.

Relevncia na seleo de regras





Tamanho da rvore de deciso.


Regras de classificao compactas.
25

rvores de Deciso

rvore de Deciso


rvore de deciso





A gerao de uma rvore consiste de duas fases:





Um fluxograma com a estrutura de uma rvore.


N interno representa um testes sobre um atributo.
Cada ramo representa um resultado do teste.
Folhas representam as classes.

Construo da rvore
 Particionamento de atributos (best fit).
Fase da poda (Tree pruning).
 Identifica e remove ramos que refletem rudos ou outliers.

Uso da rvore: Classificao de amostras desconhecidas




Testa os valores dos atributos da amostra contra a rvore.

27

rvore de Deciso Exemplo


Paciente se
sente bem?
S

Saudvel

Paciente tem
dor?
N

<= 37
Saudvel

Temperatura
do Paciente

S
Doente

> 37
Doente

28

rvore de Deciso Exemplo ...




Gerao de regras
Se paciente se sente bem = sim
ento classe = saudvel
fim se.
Se paciente se sente bem = no
e paciente tem dor = sim
ento classe = doente
fim se.

...
29

rvore de Deciso Exemplo ...




Exemplo: Condies do tempo para Jogar Tnis.

30

rvore de Deciso Exemplo ...

31

rvore de Deciso Exemplo ...

32

rvore de Deciso Exemplo ...

33

rvore de Deciso Exemplo ...

34

rvore de Deciso Exemplo ...

35

Algoritmos para rvores de deciso




Algoritmo Bsico (algoritmo guloso)




A rvore construda recursivamente no sentido top-down


(diviso para conquista).

No incio, todas as amostras esto na raiz.

Os atributos so nominais (se numricos, eles so discretizados).

Amostras so particionadas recursivamente com base nos


atributos selecionados.

Atributos testes so selecionados com base em heursticas ou


medidas estatsticas (ex., ganho de informao) [ID3 / C4.5]

Condies de parada do particionamento






Todas as amostras de um n pertencem a mesma classe.


No existem mais atributos para particionamento.
No existem mais amostras no conjunto de treinamento.
36

Determinando o tamanho da rvore


As seguintes abordagens podem ser usadas:


Diviso do dataset: conjunto de treinamento (2/3) e


conjunto de teste (1/3) Percentage split.

Uso de validao cruzada (10-fold cross validation).

Uso de conjunto de teste extra (Supplied test set).

Uso de todo o dataset para treinamento




Aplicao de um teste estatstico (ex:, qui-quadrado)


para estimar se expandindo ou podado um n pode
melhorar a distribuio total.

37

rvore de Deciso: Poda


PODA
Tcnica para lidar com rudo e Overfitting
Pr-Poda: Durante a gerao da Hiptese.
Alguns exemplos de treinamento so deliberadamente
ignorados.
Ps-Poda: Inicialmente, gerada um Classificador que explique
os exemplos.
Aps isso, elimina-se algumas partes (cortes em ramos da
rvore) generalizando a Hiptese.

38

rvore de Deciso: Poda ...

40
20
400

300
5

39

rvore de Deciso: Poda ...

40

Completude e Consistncia
COMPLETUDE E CONSISTNCIA
COMPLETUDE:
COMPLETUDE Se a Hiptese gerada pelo Classificador
classifica TODOS os exemplos.
CONSISTNCIA:
CONSISTNCIA Se a Hiptese gerada pelo Classificador
classifica CORRETAMENTE os exemplos.
Uma Hiptese gerada pelo Classificador pode ser:
Completa e Consistente.
Incompleta e Consistente.
Completa e Inconsistente.
Incompleta e Inconsistente.
41

Completude e Consistncia ...


COMPLETO e CONSISTENTE

42

Completude e Consistncia ...


INCOMPLETO e CONSISTENTE

43

Completude e Consistncia ...


COMPLETO e INCONSISTENTE

44

Completude e Consistncia ...


INCOMPLETO e INCONSISTENTE

45

Completude e Consistncia: Exemplo


Exemplo
T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
T11
T12
T13
T14
T15

Aparncia Temperatura Umidade Ventando


sol
sol
sol
sol
sol
nublado
nublado
nublado
nublado
nublado
chuva
chuva
chuva
chuva
chuva

25
28
22
23
30
23
29
19
26
20
22
19
23
25
21

72
91
70
95
85
90
78
65
75
87
95
70
80
81
80

sim
sim
no
no
no
sim
no
sim
no
sim
no
sim
sim
no
no

Viajar
VAI
NO_VAI
VAI
NO_VAI
NO_VAI
VAI
VAI
NO_VAI
VAI
VAI
VAI
NO_VAI
NO_VAI
VAI
VAI
46

Completude e Consistncia: Exemplo


Exemplo
T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
T11
T12
T13
T14
T15

Aparncia Temperatura Umidade Ventando


sol
sol
sol
sol
sol
nublado
nublado
nublado
nublado
nublado
chuva
chuva
chuva
chuva
chuva

25
28
22
23
30
23
29
19
26
20
22
19
23
25
21

72
91
70
95
85
90
78
65
75
87
95
70
80
81
80

sim
sim
no
no
no
sim
no
sim
no
sim
no
sim
sim
no
no

Viajar
VAI
NO_VAI
VAI
NO_VAI
NO_VAI
VAI
VAI
NO_VAI
VAI
VAI
VAI
NO_VAI
NO_VAI
VAI
VAI
47

Completude e Consistncia: Exemplo


Aparncia
Sol

Chuva
Nublado

2 VAI
3 NO_VAI

4 VAI
1 NO_VAI

3 VAI
2 NO_VAI

48

Completude e Consistncia: Exemplo


Exemplo
T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
T11
T12
T13
T14
T15

Aparncia Temperatura Umidade Ventando


sol
sol
sol
sol
sol
nublado
nublado
nublado
nublado
nublado
chuva
chuva
chuva
chuva
chuva

25
28
22
23
30
23
29
19
26
20
22
19
23
25
21

72
91
70
95
85
90
78
65
75
87
95
70
80
81
80

sim
sim
no
no
no
sim
no
sim
no
sim
no
sim
sim
no
no

Viajar
VAI
NO_VAI
VAI
NO_VAI
NO_VAI
VAI
VAI
NO_VAI
VAI
VAI
VAI
NO_VAI
NO_VAI
VAI
VAI
49

Completude e Consistncia: Exemplo


Exemplo
T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
T11
T12
T13
T14
T15

Aparncia Temperatura Umidade Ventando


sol
sol
sol
sol
sol
nublado
nublado
nublado
nublado
nublado
chuva
chuva
chuva
chuva
chuva

25
28
22
23
30
23
29
19
26
20
22
19
23
25
21

72
91
70
95
85
90
78
65
75
87
95
70
80
81
80

sim
sim
no
no
no
sim
no
sim
no
sim
no
sim
sim
no
no

Viajar
VAI
NO_VAI
VAI
NO_VAI
NO_VAI
VAI
VAI
NO_VAI
VAI
VAI
VAI
NO_VAI
NO_VAI
VAI
VAI
50

Completude e Consistncia: Exemplo


Aparncia
Sol

Chuva
Nublado
Umidade

< 70

> 70
Vento

Umidade
1 NO_VAI

< 78
2 VAI

> 78
3 NO_VAI

4 VAI

no

sim

3 VAI

2 NO_VAI

51

Completude e Consistncia: Exemplo


Aparncia
Sol

Chuva
Nublado
5 VAI

Poda Atrib.
Umidade

Umidade
< 78
2 VAI

> 78
3 NO_VAI

Vento
no

sim

3 VAI

2 NO_VAI

52

Aspectos Importantes
Natureza eliminatria do processo
Exemplos do conjunto de treinamento vo sendo descartados
medida que so utilizados. Isso causa um efeito importante na
definio dos ns mais profundos da rvore, uma vez que o suporte
estatstico para a tomada de deciso vai sendo progressivamente
diminudo, colocando em dvida a representatividade do conjunto de
elementos remanescentes.
Possibilidade de utilizar recursos para descarte (poda) dos ramos
tecnicamente menos representativos da rvore da deciso.

53

Algoritmos mais conhecidos




ID3 (Iterative Dichotomiser 3) (Quilan,1986):




Um algoritmo usado para gerar rvores de deciso. Os atributos


do conjunto de dados devem ser obrigatoriamente categricos.

C4.5 (J48 no Weka) (Quilan, 1993):




Um algoritmo para gerao de rvores de deciso, sucessor do


algoritmo ID3.

O algoritmo C4.5 considera atributos numricos e categricos.

CART (Classification And Regression Trees)


(Breiman et al., 1984):


Tcnica no-paramtrica que produz rvores de classificao ou


regresso, dependendo se as variveis so categricas ou
numricas, respectivamente.
54

Como escolher o melhor atributo?


Escolha do melhor atributo split
No existe soluo computacionalmente vivel para que se
obtenha sempre a melhor rvore de deciso possvel
(problema NP-completo: custo de proceder buscas exaustivas
da melhor soluo cresce a taxas exponenciais medida que
o tamanho do conjunto de treinamento aumenta).
Utilizao de heursticas: solues baseadas em algum tipo
de conhecimento prvio sobre as propriedades dos dados, na
procura de uma boa soluo (mas no necessariamente a
melhor).

55

Como escolher o melhor atributo?


Exemplo: Conjunto de todas solues possveis (floresta de deciso).
BUSCA EXAUSTIVA:
Correr todo esse conjunto, comparando cada elemento, at que todos tenham sido
avaliados, e selecionar a melhor soluo.
SOLUO TIMA GARANTIDA.

BUSCA HEURSTICA:
Procura tendenciosa na floresta, visitando apenas as solues com mais potencial
de serem boas, com base em algumas premissas previamente conhecidas.
A rapidez do processo aumenta, mas possvel que a melhor soluo entre todas
no tenha sido encontrada, pois eventualmente pode ter ficado fora do trajeto
percorrido.

56

Como escolher o melhor atributo?


Problema: Como definir alguma caracterstica sobre os dados que
permita definir um critrio para identificao do melhor
atributo em cada nvel da rvore ?
Abordagem baseada na Teoria da Informao
Boa subdiviso:
Produz grupos mais homogneos com relao ao atributo categrico.
Idia
Classificao evidencia as linhas gerais que fazem um
elemento pertencer a uma determinada classe, o que
facilitado quando se produz agrupamentos mais
organizados.
Melhor atributo split
Atributo mais informativo sobre a lgica dos dados
num determinado contexto.
57

Como escolher o melhor atributo?


CASCA
aspera
aspera
lisa
aspera
aspera
lisa
lisa
aspera
lisa
aspera
lisa
lisa
aspera
lisa
lisa
aspera

COR
TAMANHO
marrom
grande
verde
grande
vermelho
grande
verde
grande
vermelho
pequena
vermelho
pequena
marrom
pequena
verde
pequena
verde
pequena
vermelho
grande
marrom
grande
verde
pequena
vermelho
pequena
vermelho
grande
vermelho
pequena
verde
pequena

POLPA
dura
dura
macia
macia
dura
dura
dura
macia
dura
dura
macia
macia
macia
dura
dura
dura

RISCO
baixo
baixo
alto
baixo
baixo
baixo
baixo
alto
alto
baixo
baixo
alto
baixo
alto
baixo
alto
58

Como escolher o melhor atributo?


Clculo da Entropia

- log2 p ( ci | aj )

Quantidade de informao que aj tem a oferecer sobre a concluso ci


Entropia =
Quanto menor a Entropia

Menor a dvida

Maior a informao que aj traz sobre C

Melhor atributo split

Subconjuntos mais homogneos (grupos


menos confusos com relao classe).

Conceito de Entropia (Termodinmica):


Inversamente proporcional ao grau de informao (valor entre 0 e 1)
59

Como escolher o melhor atributo?


n

Entropia ( S ) = pi Log 2 ( pi )
i =1

Onde: S a distribuio de probabilidade das n mensagens possveis;


pi a probabilidade de ocorrncia da i-sima mensagem
Para o caso de um classificador construdo para um problema com 2
classes possveis (A e B), um atributo x vai permitir dividir os dados em
tantos subconjuntos S quantos forem os seus possveis valores.
A entropia de cada um desses subconjuntos Sk seria calculada por:

Entropia ( S k ) = p A Log 2 ( p A ) pB Log 2 ( p B )

Quanto mais uniforme a distribuio, maior o grau de entropia.


60

Como escolher o melhor atributo?


Para o caso de um atributo x que possa assumir trs valores
(por exemplo, valores inteiros entre 1 e 3), trs subconjuntos de S
so formados, cada um com seu prprio grau de entropia.
Pode-se avaliar a entropia em S quando considerado o atributo x,
atravs da mdia ponderada dos graus de entropia dos subconjuntos
gerados (S1, S2 e S3, neste exemplo).
n

Entropia ( x, S ) =
i =1

Si
S

Entropia ( Si )

Ganho de Informao (Information Gain) devido a x na predio da


classe determinada pela reduo da entropia original de S.

61

Como escolher o melhor atributo?


Entropia de um Atributo A com relao Classe C

Atributo com MENOR entropia o MELHOR para determinar a Classe

62

CASCA
aspera
aspera
lisa
aspera
aspera
lisa
lisa
aspera
lisa
aspera
lisa
lisa
aspera
lisa
lisa
aspera

COR
TAMANHO
marrom
grande
verde
grande
vermelho
grande
verde
grande
vermelho pequena
vermelho pequena
marrom
pequena
verde
pequena
verde
pequena
vermelho
grande
marrom
grande
verde
pequena
vermelho pequena
vermelho
grande
vermelho pequena
verde
pequena

POLPA
dura
dura
macia
macia
dura
dura
dura
macia
dura
dura
macia
macia
macia
dura
dura
dura

RISCO
baixo
baixo
alto
baixo
baixo
baixo
baixo
alto
alto
baixo
baixo
alto
baixo
alto
baixo
alto

Consideremos o Atributo Casca


p(baixo | aspera) = 6 / 8
p(alto | aspera) = 2 / 8
p(aspera) = 8 / 16
p(baixo | lisa) = 4 / 8
p(alto | lisa) = 4 / 8
p(lisa) = 8 / 16

Entropia para o Atributo Casca

0.90564
63

CASCA
aspera
aspera
lisa
aspera
aspera
lisa
lisa
aspera
lisa
aspera
lisa
lisa
aspera
lisa
lisa
aspera

COR
TAMANHO
marrom
grande
verde
grande
vermelho
grande
verde
grande
vermelho pequena
vermelho pequena
marrom
pequena
verde
pequena
verde
pequena
vermelho
grande
marrom
grande
verde
pequena
vermelho pequena
vermelho
grande
vermelho pequena
verde
pequena

POLPA
dura
dura
macia
macia
dura
dura
dura
macia
dura
dura
macia
macia
macia
dura
dura
dura

RISCO
baixo
baixo
alto
baixo
baixo
baixo
baixo
alto
alto
baixo
baixo
alto
baixo
alto
baixo
alto

Consideremos o Atributo Cor


p(baixo | marrom) = 3 / 3
p(alto | marrom) = 0 / 3
p(marrom) = 3 / 16
p(baixo | verde) = 2 / 6
p(alto | verde) = 4 / 6
p(verde) = 6 / 16
p(baixo | vermelho) = 5 / 7
p(alto | vermelho) = 2 / 7
p(vermelho) = 7 / 16

Entropia para o Atributo Cor

0.721976
64

CASCA
aspera
aspera
lisa
aspera
aspera
lisa
lisa
aspera
lisa
aspera
lisa
lisa
aspera
lisa
lisa
aspera

COR
TAMANHO
marrom
grande
verde
grande
vermelho
grande
verde
grande
vermelho pequena
vermelho pequena
marrom
pequena
verde
pequena
verde
pequena
vermelho
grande
marrom
grande
verde
pequena
vermelho pequena
vermelho
grande
vermelho pequena
verde
pequena

POLPA
dura
dura
macia
macia
dura
dura
dura
macia
dura
dura
macia
macia
macia
dura
dura
dura

RISCO
baixo
baixo
alto
baixo
baixo
baixo
baixo
alto
alto
baixo
baixo
alto
baixo
alto
baixo
alto

Consideremos o Atributo Tamanho


p(baixo | grande) = 5 / 7
p(alto | grande) = 2 / 7
p(grande) = 7 / 16
p(baixo | pequeno) = 5 / 9
p(alto | pequeno) = 4 / 9
p(pequeno) = 9 / 16

Entropia para o Atributo Tamanho

0.9350955
65

CASCA
aspera
aspera
lisa
aspera
aspera
lisa
lisa
aspera
lisa
aspera
lisa
lisa
aspera
lisa
lisa
aspera

COR
TAMANHO
marrom
grande
verde
grande
vermelho
grande
verde
grande
vermelho pequena
vermelho pequena
marrom
pequena
verde
pequena
verde
pequena
vermelho
grande
marrom
grande
verde
pequena
vermelho pequena
vermelho
grande
vermelho pequena
verde
pequena

POLPA
dura
dura
macia
macia
dura
dura
dura
macia
dura
dura
macia
macia
macia
dura
dura
dura

RISCO
baixo
baixo
alto
baixo
baixo
baixo
baixo
alto
alto
baixo
baixo
alto
baixo
alto
baixo
alto

Consideremos o Atributo Polpa


p(baixo | dura) = 7 / 10
p(alto | dura) = 3 / 10
p(dura) = 10 / 16
p(baixo | macia) = 3 / 6
p(alto | macia) = 3 / 6
p(macia) = 6 / 16

Entropia para o Atributo Polpa

0.92581
66

Resultados do clculo da entropia


Atributo

Entropia

Casca

0.90564

Cor

0.721976

Tamanho

0.9350955

Polpa

0.92581

Como Cor tem a menor entropia, pode-se afirmar


que tambm tem o maior ganho de informao. Logo
deve ser usado como atributo split.

67

Anlise dos Resultados


Resultado WEKA
=== Confusion Matrix ===
a b <-- classified as
9 1 | a = baixo
0 6 | b = alto

Cor = marrom: baixo (3.0)


Cor = verde
| Tamanho = grande: baixo (2.0)
| Tamanho = pequena: alto (4.0)
Cor = vermelho
| Tamanho = grande: alto (3.0/1.0)
| Tamanho = pequena: baixo (4.0)

Acurcia: 93.75 %
TP Rate Class
0.9
baixo
1
alto

Cor
verde

marrom

vermelho

baixo

Tamanho

Tamanho

grande

pequena

grande

baixo

alto

alto

pequena

baixo
68

rvores de deciso: prs e contras




Vantagens


Custo computacional baixo.

Muito rpido para classificar amostras desconhecidas.

Fcil de interpretar rvores de tamanho pequeno.


Preciso semelhante a de outros mtodos de
classificao, para muitos datasets simples.

Desvantagens


Overfitting resulta em rvores de deciso que so mais


complexas do que necessrias.

O treinamento do erro nem sempre produz uma boa


estimativa com relao execuo da rvore para
amostras desconhecidas.
Necessita de novas maneiras para estimar erros.

69

Exerccio: Construir rvores de deciso usando J48, PART, JRIP, etc.


Est
Estgio

Deficincia

Astigmatismo

Produ
Produo_L
o_Lgrima

Recomenda_Lente

Inicial

Miopia

No

Baixa

Nenhuma

Inicial

Miopia

No

Normal

Macia

Inicial

Miopia

Sim

Baixa

Nenhuma

Inicial

Miopia

Sim

Normal

Dura

Inicial

Hipermetropia

No

Baixa

Nenhuma

Inicial

Hipermetropia

No

Normal

Macia

Inicial

Hipermetropia

Sim

Baixa

Nenhuma

Inicial

Hipermetropia

Sim

Normal

Dura

Pr-Presbiopia

Miopia

No

Baixa

Nenhuma

Pr-Presbiopia

Miopia

No

Normal

Macia

Pr-Presbiopia

Miopia

Sim

Baixa

Nenhuma

Pr-Presbiopia

Miopia

Sim

Normal

Dura

Pr-Presbiopia

Hipermetropia

No

Baixa

Nenhuma

Pr-Presbiopia

Hipermetropia

No

Normal

Macia

Pr-Presbiopia

Hipermetropia

Sim

Baixa

Nenhuma

Pr-Presbiopia

Hipermetropia

Sim

Normal

Nenhuma

Presbiopia

Miopia

No

Baixa

Nenhuma

Presbiopia

Miopia

No

Normal

Nenhuma

Presbiopia

Miopia

Sim

Baixa

Nenhuma

Presbiopia

Miopia

Sim

Normal

Dura

Presbiopia

Hipermetropia

No

Baixa

Nenhuma

Presbiopia

Hipermetropia

No

Normal

Macia

Presbiopia

Hipermetropia

Sim

Baixa

Nenhuma

Presbiopia

Hipermetropia

Sim

Normal

Nenhuma

70