Você está na página 1de 75

Reconhecimento de Padres

rvores de Deciso Alessandro L. Koerich

2009 Reconhecimento de Padres


Pontifcia Universidade Catlica do Paran (PUCPR)

Plano de Aula
Introduo Representao de rvores de Deciso Algoritmo de Aprendizagem ID3 Entropia e Ganho de Informao Exemplos Aspectos na Aprendizagem de rvores de Deciso Resumo

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

Referncias
Duda R., Hart P., Stork D. Pattern Classification 2ed. Willey Interscience, 2002. Captulo 8. Mitchell T. Machine Learning. WCB McGraw Hill, 1997. Captulo 3.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

rvore

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

Introduo
Aprendizagem de rvores de deciso um dos mtodos de aprendizagem mais prticos e mais utilizados para a aprendizagem indutiva. um mtodo para a aproximao de funes de valor discreto um mtodo robusto a rudos nos dados Utiliza um bias indutivo: preferncia por rvores menores.
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 5

Introduo
um mtodo para aproximar funes alvo de valor discreto, onde a funo aprendida representada por uma rvore de deciso. rvores de deciso tambm podem ser representadas como conjuntos de regras SEENTO (IFTHEN). um dos mtodos de aprendizagem mais conhecidos Aplicaes: do diagnstico de imagens mdicas a anlise de risco de crdito

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

Representao de rvores de Deciso rvores de deciso classificam instncias ordenandoas rvore acima (ou abaixo), a partir da raiz at alguma folha. Cada n da rvore especifica o teste de algum atributo da instncia Cada ramo partindo de um n corresponde a um dos valores possveis dos atributos.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

Exemplo

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

Representao de rvores de Deciso Uma instncia classificada inicialmente pelo n raiz, testando o atributo especificado por este n. Em seguida, movendo-se atravs do ramo correspondendo ao valor do atributo no exemplo dado. Este processo repetido para a sub-rvore originada no novo n (Figura)
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 9

Exemplo

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

10

Exemplo

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

11

rvore de Deciso para PlayTennis Uma rvore de deciso para o conceito PlayTennis. Um exemplo classificado ordenandoo atravs da rvore para o n folha apropriado Ento retorna a classificao associada com esta folha (Yes ou No)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

12

rvore de Deciso para PlayTennis

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

13

rvore de Deciso para PlayTennis

<Outlook=Sunny, Temperature=High, Humidity=High, Wind=Strong>


Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 14

rvore de Deciso para PlayTennis


Em geral, rvores de deciso representam uma disjuno de conjunes de restries sobre valores dos atributos das instncias. Cada caminho entre a raiz da rvore e uma folha corresponde a uma conjuno de testes de atributos e a prpria rvore corresponde a uma disjuno destas conjunes. Exemplo:
Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

(Outlook=Sunny Humidity=Normal) (Outlook=Overcast) (Outlook=Rain, Wind=Weak)


Cincia da Computao Reconhecimento de Padres 15

rvore de Deciso para PlayTennis Representao de rvores de deciso:


Cada n interno testa um atributo Cada ramo corresponde ao valor do atributo Cada folha atribui uma classificao

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

16

Quando Considerar rvores de Deciso Instncias descritas por pares atributovalor. Instncias so descritas por um conjunto fixo de atributos (e.g. Temperature) e seus valores (e.g. Hot) Funo alvo tem valores discretos de sada. Classificao booleana (Yes ou No) para cada exemplo ou mais de duas possibilidades.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

17

Quando Considerar rvores de Deciso Hipteses disjuntivas podem ser necessrias. rvores de deciso representam naturalmente expresses disjuntivas. Dados de treinamento podem conter erros e valores de atributos faltantes.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

18

Quando Considerar rvores de Deciso Exemplos: Diagnstico ou equipamentos mdicos Anlise de risco em crdito Modelagem de preferncias em agendamento

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

19

Algoritmo Bsico para Aprendizagem de rvores de Deciso Base: Algoritmo ID3 e seu sucessor C4.5 O algoritmo ID3 aprende rvores de deciso construindoas de cima para baixo (top down), comeando com a questo: Qual atributo deve ser testado na raiz da rvore? Para responder esta questo, cada atributo da instncia avaliado usando um teste estatstico para determinar quo bem ele sozinho classifica os exemplos de treinamento.
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 20

Exemplo
Melhor Atributo !!!

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

21

Algoritmo Bsico para Aprendizagem de rvores de Deciso

O melhor atributo selecionado e usado como teste na raiz da rvore. Um descendente do n raiz ento criado para cada valor possvel deste atributo e os exemplos de treinamento so ordenados para o n descendente apropriado.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

22

Algoritmo Bsico para Aprendizagem de rvores de Deciso

O processo repetido usando exemplos de treinamento associados com cada n descendente para selecionar o melhor atributo para testar naquele ponto da rvore. Busca gulosa (greedy) por uma rvore de deciso aceitvel, na qual o algoritmo nunca recua para reconsiderar escolhas prvias.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

23

Algoritmo Bsico para Aprendizagem de rvores de Deciso

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

24

Algoritmo Bsico para Aprendizagem de rvores de Deciso


ID3( Exemplos, Atributo_Alvo, Atributos) Exemplos so os exemplos de treinamento. Atributo_Alvo o atributo cujo valor ser predito pela rvore. Atributos uma lista de outros atributos que podem ser testados pela rvore de deciso. Retorna uma rvore de deciso que classifica corretamente os Exemplos dados. Crie um n Raiz para a rvore Se todos Exemplos forem positivos, retorne a rvore de n nico (Raiz), com etiqueta = + Se todos Exemplos forem positivos, retorne a rvore de n nico (Raiz), com etiqueta = Se Atributos estiver vazio, retorne a rvore de n nico Raiz, com etiqueta = valor mais comum do Atributo_Alvo nos Exemplos Caso contrrio, comece: o A o atributo de Atributos que melhor classifica* Exemplos o O atributo de deciso para Raiz A o Para cada valor possvel, vi, de A, Adicione um novo ramo da rvore abaixo da Raiz, correspondendo ao teste A = vi Faa Exemplosvi ser o subconjunto de Exemplos que tem valor vi para A. Se Exemplosvi for vazio Ento embaixo deste novo ramo, adicione uma folha com etiqueta = valor mais comum do Atributo_Alvo nos Exemplos Seno embaixo deste novo ramo adicione a subrvore ID3(Exemplos, Atributo_Alvo, Atributos {A}) Final Retorne Raiz * O melhor atributo aquele com ganho de informao mais elevado.
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 25

Algoritmo Bsico para Aprendizagem de rvores de Deciso


Escolha Central: Selecionar qual atributo testar em cada n da rvore. Devemos selecionar: Atributo que mais til para classificar os exemplos. Medida Quantitativa: Ganho de Informao = mede quo bem um dado atributo separa os exemplos de treinamento de acordo com a classificao alvo.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

26

Induo TopDown de rvores de Deciso


Lao principal do algoritmo ID3
1.

A o melhor atributo de deciso para o prximo n Atribui A como atributo de deciso para n Para cada valor de A criar um novo descendente de n Arranjar os exemplos de treinamento para os ns folhas Se os exemplos de treinamento forem classificados perfeitamente, ento PARE, Seno iterao sobre novos ns folhas

2.

3.

4.

5.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

27

Induo TopDown de rvores de Deciso Qual o melhor atributo ?

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

28

Fronteiras de Deciso Com dados numricos possvel visualizar as fronteiras de deciso.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

29

Entropia
Caracteriza a (im)pureza de uma coleo arbitrria de exemplos.

Dado uma coleo S contendo exemplos + e de algum conceito alvo, a entropia de S relativa a esta classificao booleana :

Entropia ( S ) p + log 2 p + p log 2 p


p+ a proporo de exemplos positivos em S p a proporo de exemplos negativos em S
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 30

Entropia
Exemplo: Sendo S uma coleo de 14 exemplos de algum conceito booleano, incluindo 9 exemplos positivos e 5 negativos [9+, 5]. A entropia de S relativa a classificao booleana :
9 9 5 5 Entropia ([ 9 + ,5 ]) = ( log 2 log 2 ) 14 14 14 14 = 0 .940
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 31

Entropia

A funo entropia relativa a uma classificao booleana, como a proporo, p+ de exemplos positivos varia entre 0 e 1.
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 32

Entropia

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

33

Entropia
Entropia(S) = nmero de bits esperados necessrios para codificar classe (+ ou ) de membros tirados aleatoriamente de S ( sob o cdigo timo, de comprimento mais curto). Por que? Teoria da informao: cdigo de tamanho timo atribui log2p bits para mensagens tendo probabilidade p.
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 34

Entropia

p + ( log 2 p + ) + p ( log 2 p ) Entropia ( S ) p + log 2 p + p log 2 p

Ento, o nmero esperado de bits para codificar + ou de um membro aleatrio de S:

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

35

Entropia
Generalizando para o caso de um atributo alvo aceitar c diferentes valores, a entropia de S relativa a esta classificao cclasses definida como:
Entropia ( S )

p
i =1

log 2 p i

onde pi a proporo de S pertencendo a classe i.


Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 36

Ganho de Informao
Gain (S,A) = reduo esperada na entropia devido a ordenao sobre A, ou seja, a reduo esperada na entropia causada pela partio dos exemplos de acordo com este atributo A.
Gain ( S , A ) Entropia ( S )
v Valores ( A )

Sv S

Entropia ( S v )

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

37

Ganho de Informao
S uma coleo de (dias) exemplos de treinamento descritos por atributos incluindo Wind. Temos 14 exemplos.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

38

Superfcie de Separao

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

39

Exemplo Ilustrativo
Atributo alvo: PlayTennis (yes, no)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

40

Exemplo Ilustrativo
Primeiro passo: criao do n superior da rvore de deciso. Qual atributo deve ser testado primeiro na rvore? Determinar o ganho de informao (Gain) para cada atributo candidato (i.e. Outlook, Temperature, Humidity e Wind) Selecionar aquele cujo ganho de informao o mais alto.
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 41

Exemplo Ilustrativo

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

42

Exemplo Ilustrativo
Exemplo: Gain (S, Outlook) = 0.246 Gain(S, Humidity) = 0.151 Gain (S, Wind) = 0.048 Gain (S, Temperature) = 0.029 Ou seja, o atributo Outlook fornece a melhor predio do atributo alvo, PlayTennis, sobre os exemplos de treinamento (Fig 3.4)
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 43

Exemplo Ilustrativo

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

44

Exemplo Ilustrativo
O processo para selecionar um novo atributo e particionar os exemplos de treinamento repetido para cada n descendente no terminal So utilizados somente os exemplos de treinamento associados com este n. Atributos que foram incorporados anteriormente a rvore so excludos qualquer atributo deve aparecer somente uma vez ao longo de qualquer caminho na rvore.
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 45

Exemplo Ilustrativo
Este processo continua at que uma das seguintes condies seja atendida:
1.

Todos os atributos j estejam includos ao longo deste caminho da rvore; Os exemplos de treinamento associados com este n folha tenham todos o mesmo valor de atributo alvo.

2.

A rvore final ...


Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 46

Exemplo Ilustrativo
rvore de deciso final.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

47

Busca no Espao de Hipteses por ID3


O mtodo de aprendizagem ID3 pode ser caracterizado como um mtodo de busca em um espao de hipteses, por uma hiptese que se ajusta aos exemplos de treinamento. O espao de hipteses buscado pelo ID3 o conjunto de rvores de deciso possveis. O ID3 realiza uma busca simplescomplexa, hill climbing atravs do espao de hipteses comeando com uma rvore vazia e considerando progressivamente hipteses mais elaboradas (Fig 3.5).
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 48

Busca no Espao de Hipteses por ID3

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

49

Busca no Espao de Hipteses por ID3


Espao de hipteses est completo
A funo alvo esta presente com certeza

Fornece um nica hiptese (qual ?)


No pode representar 20 hipteses

Sem backtracking (recuo/voltar atrs)


Mnimo local

Escolhas de busca com base estatstica


Robustez a rudo nos dados

Soluo com bias indutivo (prefere rvores mais curtas)


Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 50

Bias Indutivo no ID3


Dada uma coleo de exemplos de treinamento, existem geralmente vrias rvores de deciso consistentes com os exemplos. Qual rvore deve ser escolhida ????

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

51

Bias Indutivo no ID3


A preferncia por rvores mais curtas e por aquelas com atributos de alto ganho de informao prximos da raiz Bias: uma preferncia por algumas hipteses aos invs de uma restrio do espao de hipteses H Occams razor prefere as hipteses mais curtas (mais simples) que se ajustam aos dados
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 52

Occams Razor
Por que a preferncia por hipteses curtas? Argumentos a favor:
Poucas hipteses curtas VERSUS hipteses longas
Uma hiptese curta que se ajusta aos dados improvvel ser coincidente Uma hiptese longa que se ajusta aos dados pode ser coincidente

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

53

Occams Razor
Por que a preferncia por hipteses curtas? Argumentos contrrios:
Existem muitas maneiras de definir pequenos conjuntos de hipteses E.g. todas as rvores com um nmero primo de ns que usa atributos

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

54

Aspectos na Aprendizagem de rvores de Deciso Aspectos prticos na aprendizagem de rvores de deciso:


Crescimento da profundidade de rvores de deciso Manipulao de atributos contnuos Escolha de uma medida apropriada para a seleo de atributos Manipulao de atributos com diferentes custos Melhoria da eficincia computacional
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 55

Sobreajuste em rvores de Deciso


Considere a adio de rudo no exemplo de treinamento #15. < Sunny, Hot, Normal, Strong, PlayTennis = No> Qual o efeito na rvore anterior?

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

56

Sobreajuste (Overfitting)
Considere o erro da hiptese h sobre
Dados de treinamento: errotrain(h) Distribuio de dados inteira D: erroD(h)

Uma hiptese hH sobreajusta os dados de treinamento se existir uma hiptese alternativa h H tal que: errotrain(h) < errotrain(h ) e erroD(h) > erroD(h)
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 57

Sobreajuste no Treinamento de rvores de Deciso

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

58

Evitando Sobreajuste
Como podemos evitar o sobreajuste?
Parar o crescimento quando a partio de dados no for estatisticamente significante Desenvolver uma rvore completa e ento fazer uma poda.

Como selecionar a melhor rvore


Medida de performance sobre os dados de treinamento Medida de performance sobre um conjunto de dados de validao
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 59

Evitando Sobreajuste
Usar uma medida explcita de complexidade para a codificao de exemplos de treinamento e a rvore de deciso. Minimizar o comprimento da descrio mnima (MDL) size ( tree ) + size ( misclassifications ( tree ) )

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

60

Erro de Poda Reduzido


Podar um n de deciso consiste em remover a sub-rvore enraizada naquele n, tornandoo um n folha. Atribuir a este n, a classificao mais comum dos exemplos de treinamento afiliados com aquele n. Ns so removidos somente se a rvore aparada resultante no apresenta um comportamento pior do que a original sobre o conjunto de validao
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 61

Erro de Poda Reduzido


Particionar os dados em conjuntos de validao e treinamento Faa at que uma reduo (poda) adicional seja prejudicial
1.

Avaliar o impacto sobre o conjunto de validao da poda de cada n possvel, mais aqueles abaixo dele Remover gulosamente aquele que melhora mais a preciso sobre o conjunto de validao
Cincia da Computao Reconhecimento de Padres 62

2.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Erro de Poda Reduzido


Produz a menor verso da sub-rvore mais precisa E se os dados forem limitados?

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

63

Efeito do Erro de Poda Reduzido

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

64

PsReduo (Poda) da Regra


1.

Converter a rvore em um conjunto de regras equivalente Podar cada regra independentemente das outras Ordenar as regras finais em uma seqncia desejvel para o uso Talvez seja o mtodo usando com mais freqncia. (e.g. C4.5)

2.

3.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Cincia da Computao

Reconhecimento de Padres

65

Convertendo uma rvore em Regras

IF (Outlook = Sunny) ^ (Humidity = High) THEN PlayTennis = No IF (Outlook = Sunny) ^ (Humidity = Normal) THEN PlayTennis = Yes
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 66

Convertendo uma rvore em Regras Vantagens de converter uma rvore de deciso em regras antes da poda: Permite distinguir entre os diferentes contextos onde os ns de deciso so utilizados. Remove a distino entre atributos de testes que ocorrem prximos da raiz da rvore e aqueles que ocorrem prximos das folhas. Melhora a leitura. Regras so geralmente mais fceis para pessoas entenderem
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 67

Atributos de Valor Continuo


Na definio da ID3 temos as restries: 1. Atributo alvo deve ter valor discreto 2. Os atributos testados nos ns de deciso devem tambm ser de valor discreto. A segunda restrio pode ser removida. Definir dinamicamente novos atributos de valor discreto que particionam o valor do atributo contnuo em um conjunto discreto de intervalos. A = atributo de valor contnuo criar um novo atributo Ac que verdadeiro se A < c e falso caso contrrio. Como identificar c ???
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 68

Atributos de Valor Continuo


Exemplo: Incluir o atributo de valor contnuo Temperature na descrio dos exemplos de treinamento para a tarefa de aprendizagem anterior. Supondo que os exemplos de treinamento associados a um n particular so

Escolher um limiar c que produza o maior ganho de informaes Identificar exemplos adjacentes que diferem na classificao alvo.
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 69

Atributos de Valor Contnuo

Dois limiares candidatos: c1 = (48+60)/2 = 54 c2 = (80+90)/2 = 85 O ganho de informao pode ser calculado para cada um destes atributos candidatos: Temperature>54 e Temperature>85 e o melhor pode ser selecionado (T>54)
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 70

Atributos com Muitos Valores


Problema: Se o atributo tem muitos valores Gain selecionar Imagine utilizar Date=Jun_3_1996 como atributo Uma soluo: Usar GainRatio (penaliza o atributo Date) ao invs:
GainRatio( S , A) Gain( S , A) SplitInformation( S , A)
c

SplitInformation( S , A)
i =1
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao

Si S

log 2

Si S
71

Reconhecimento de Padres

Atributos com Custos


Considere Diagnstico mdico. BloodTest tem custo $150 Robtica. Width_from_1ft tem custo 23seg. Como aprender um rvore consistente com custo esperado baixo? Uma soluo: Substituir o gain por Tan and Schlimmer (1994) Nunez (1998)
2Gain( S , A ) 1 (Cost( A) + 1)w
Gain 2 ( S , A) Cost( A)

onde w [0,1] determina a importncia do custo


Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 72

Valores de Atributos Desconhecidos


E se para alguns exemplos faltam os valores de A? Use o exemplo de treinamento de qualquer jeito, ordene atravs da rvore
Se o n n testa A, atribua o valor mais comum de A entre outros exemplos ordenados para o n n Atribuir o valor mais comum de A entre outros exemplos com a mesmo valor alvo Atribuir uma probabilidade pi para cada valor possvel vi de A
Atribuir uma frao pi do exemplo para cada descendente na rvore

Classificar novos exemplos da mesma maneira


Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 73

Resumo
Aprendizagem de rvores de deciso fornece um mtodo prtico para a aprendizagem de conceito e para a aprendizagem de outras funes de valor discreto A famlia de algoritmos ID3 infere rvores de deciso expandindoas a partir da raiz e descendo, selecionando o prximo melhor atributo para cada novo ramo de deciso adicionado a rvore. ID3 busca um espao de hipteses completo evitando assim que a funo alvo possa no estar presente no espao de hipteses.
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 74

Resumo
O bias indutivo implcito no ID3 inclui uma preferncia por rvores menores. A busca atravs do espao de hipteses expande a rvore somente o necessrio para classificar os exemplo de treinamento disponveis. Sobreajuste um aspecto importante na aprendizagem de rvores de deciso. Mtodos para poda posterior so importantes para evitar o sobreajuste. Vrias extenses ao algoritmo bsico ID3.
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 75