3 ArvoresDecisao RecPad

Reconhecimento de Padres
rvores de Deciso Alessandro L. Koerich
2009 Reconhecimento de Padres

Pontifcia Universidade Catlica do Paran (PUCPR)
Plano de Aula
Introduo Representao de rvores de Deciso Algoritmo de Aprendizagem ID3 Entropia e Ganho de Informao Exemplos Aspectos na Aprendizagem de rvores de Deciso Resumo
Alessandro L. Koerich (alekoe@ppgia.pucpr.br)
Cincia da Computao
Referncias
Duda R., Hart P., Stork D. Pattern Classification 2ed. Willey Interscience, 2002. Captulo 8. Mitchell T. Machine Learning. WCB McGraw Hill, 1997. Captulo 3.
Cincia da Computao
rvore
Cincia da Computao
Introduo
Aprendizagem de rvores de deciso um dos mtodos de aprendizagem mais prticos e mais utilizados para a aprendizagem indutiva. um mtodo para a aproximao de funes de valor discreto um mtodo robusto a rudos nos dados Utiliza um bias indutivo: preferncia por rvores menores.
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao Reconhecimento de Padres 5
Introduo
um mtodo para aproximar funes alvo de valor discreto, onde a funo aprendida representada por uma rvore de deciso. rvores de deciso tambm podem ser representadas como conjuntos de regras SEENTO (IFTHEN). um dos mtodos de aprendizagem mais conhecidos Aplicaes: do diagnstico de imagens mdicas a anlise de risco de crdito
Cincia da Computao
Representao de rvores de Deciso rvores de deciso classificam instncias ordenandoas rvore acima (ou abaixo), a partir da raiz at alguma folha. Cada n da rvore especifica o teste de algum atributo da instncia Cada ramo partindo de um n corresponde a um dos valores possveis dos atributos.
Cincia da Computao
Exemplo
Cincia da Computao
Representao de rvores de Deciso Uma instncia classificada inicialmente pelo n raiz, testando o atributo especificado por este n. Em seguida, movendo-se atravs do ramo correspondendo ao valor do atributo no exemplo dado. Este processo repetido para a sub-rvore originada no novo n (Figura)
Exemplo
Cincia da Computao
10
Exemplo
Cincia da Computao
11
rvore de Deciso para PlayTennis Uma rvore de deciso para o conceito PlayTennis. Um exemplo classificado ordenandoo atravs da rvore para o n folha apropriado Ento retorna a classificao associada com esta folha (Yes ou No)
Cincia da Computao
12
rvore de Deciso para PlayTennis
Cincia da Computao
13
<Outlook=Sunny, Temperature=High, Humidity=High, Wind=Strong>


Em geral, rvores de deciso representam uma disjuno de conjunes de restries sobre valores dos atributos das instncias. Cada caminho entre a raiz da rvore e uma folha corresponde a uma conjuno de testes de atributos e a prpria rvore corresponde a uma disjuno destas conjunes. Exemplo:
(Outlook=Sunny Humidity=Normal) (Outlook=Overcast) (Outlook=Rain, Wind=Weak)

Cincia da Computao Reconhecimento de Padres 15
rvore de Deciso para PlayTennis Representao de rvores de deciso:

Cada n interno testa um atributo Cada ramo corresponde ao valor do atributo Cada folha atribui uma classificao
Cincia da Computao
16
Quando Considerar rvores de Deciso Instncias descritas por pares atributovalor. Instncias so descritas por um conjunto fixo de atributos (e.g. Temperature) e seus valores (e.g. Hot) Funo alvo tem valores discretos de sada. Classificao booleana (Yes ou No) para cada exemplo ou mais de duas possibilidades.
Cincia da Computao
17
Quando Considerar rvores de Deciso Hipteses disjuntivas podem ser necessrias. rvores de deciso representam naturalmente expresses disjuntivas. Dados de treinamento podem conter erros e valores de atributos faltantes.
Cincia da Computao
18
Quando Considerar rvores de Deciso Exemplos: Diagnstico ou equipamentos mdicos Anlise de risco em crdito Modelagem de preferncias em agendamento
Cincia da Computao
19
Algoritmo Bsico para Aprendizagem de rvores de Deciso Base: Algoritmo ID3 e seu sucessor C4.5 O algoritmo ID3 aprende rvores de deciso construindoas de cima para baixo (top down), comeando com a questo: Qual atributo deve ser testado na raiz da rvore? Para responder esta questo, cada atributo da instncia avaliado usando um teste estatstico para determinar quo bem ele sozinho classifica os exemplos de treinamento.
Exemplo
Melhor Atributo !!!
Cincia da Computao
21
Algoritmo Bsico para Aprendizagem de rvores de Deciso
O melhor atributo selecionado e usado como teste na raiz da rvore. Um descendente do n raiz ento criado para cada valor possvel deste atributo e os exemplos de treinamento so ordenados para o n descendente apropriado.
Cincia da Computao
22
O processo repetido usando exemplos de treinamento associados com cada n descendente para selecionar o melhor atributo para testar naquele ponto da rvore. Busca gulosa (greedy) por uma rvore de deciso aceitvel, na qual o algoritmo nunca recua para reconsiderar escolhas prvias.
Cincia da Computao
23
Cincia da Computao
24

ID3( Exemplos, Atributo_Alvo, Atributos) Exemplos so os exemplos de treinamento. Atributo_Alvo o atributo cujo valor ser predito pela rvore. Atributos uma lista de outros atributos que podem ser testados pela rvore de deciso. Retorna uma rvore de deciso que classifica corretamente os Exemplos dados. Crie um n Raiz para a rvore Se todos Exemplos forem positivos, retorne a rvore de n nico (Raiz), com etiqueta = + Se todos Exemplos forem positivos, retorne a rvore de n nico (Raiz), com etiqueta = Se Atributos estiver vazio, retorne a rvore de n nico Raiz, com etiqueta = valor mais comum do Atributo_Alvo nos Exemplos Caso contrrio, comece: o A o atributo de Atributos que melhor classifica* Exemplos o O atributo de deciso para Raiz A o Para cada valor possvel, vi, de A, Adicione um novo ramo da rvore abaixo da Raiz, correspondendo ao teste A = vi Faa Exemplosvi ser o subconjunto de Exemplos que tem valor vi para A. Se Exemplosvi for vazio Ento embaixo deste novo ramo, adicione uma folha com etiqueta = valor mais comum do Atributo_Alvo nos Exemplos Seno embaixo deste novo ramo adicione a subrvore ID3(Exemplos, Atributo_Alvo, Atributos {A}) Final Retorne Raiz * O melhor atributo aquele com ganho de informao mais elevado.

Escolha Central: Selecionar qual atributo testar em cada n da rvore. Devemos selecionar: Atributo que mais til para classificar os exemplos. Medida Quantitativa: Ganho de Informao = mede quo bem um dado atributo separa os exemplos de treinamento de acordo com a classificao alvo.
Cincia da Computao
26
Induo TopDown de rvores de Deciso

Lao principal do algoritmo ID3
1.
A o melhor atributo de deciso para o prximo n Atribui A como atributo de deciso para n Para cada valor de A criar um novo descendente de n Arranjar os exemplos de treinamento para os ns folhas Se os exemplos de treinamento forem classificados perfeitamente, ento PARE, Seno iterao sobre novos ns folhas
2.
3.
4.
5.
Cincia da Computao
27
Induo TopDown de rvores de Deciso Qual o melhor atributo ?
Cincia da Computao
28
Fronteiras de Deciso Com dados numricos possvel visualizar as fronteiras de deciso.
Cincia da Computao
29
Entropia
Caracteriza a (im)pureza de uma coleo arbitrria de exemplos.
Dado uma coleo S contendo exemplos + e de algum conceito alvo, a entropia de S relativa a esta classificao booleana :
Entropia ( S ) p + log 2 p + p log 2 p

p+ a proporo de exemplos positivos em S p a proporo de exemplos negativos em S
Entropia
Exemplo: Sendo S uma coleo de 14 exemplos de algum conceito booleano, incluindo 9 exemplos positivos e 5 negativos [9+, 5]. A entropia de S relativa a classificao booleana :
9 9 5 5 Entropia ([ 9 + ,5 ]) = ( log 2 log 2 ) 14 14 14 14 = 0 .940
Entropia
A funo entropia relativa a uma classificao booleana, como a proporo, p+ de exemplos positivos varia entre 0 e 1.
Entropia
Cincia da Computao
33
Entropia
Entropia(S) = nmero de bits esperados necessrios para codificar classe (+ ou ) de membros tirados aleatoriamente de S ( sob o cdigo timo, de comprimento mais curto). Por que? Teoria da informao: cdigo de tamanho timo atribui log2p bits para mensagens tendo probabilidade p.
Entropia
p + ( log 2 p + ) + p ( log 2 p ) Entropia ( S ) p + log 2 p + p log 2 p
Ento, o nmero esperado de bits para codificar + ou de um membro aleatrio de S:
Cincia da Computao
35
Entropia
Generalizando para o caso de um atributo alvo aceitar c diferentes valores, a entropia de S relativa a esta classificao cclasses definida como:
Entropia ( S )
p
i =1
log 2 p i
onde pi a proporo de S pertencendo a classe i.

Ganho de Informao
Gain (S,A) = reduo esperada na entropia devido a ordenao sobre A, ou seja, a reduo esperada na entropia causada pela partio dos exemplos de acordo com este atributo A.
Gain ( S , A ) Entropia ( S )
v Valores ( A )
Sv S
Entropia ( S v )
Cincia da Computao
37
Ganho de Informao
S uma coleo de (dias) exemplos de treinamento descritos por atributos incluindo Wind. Temos 14 exemplos.
Cincia da Computao
38
Superfcie de Separao
Cincia da Computao
39
Exemplo Ilustrativo
Atributo alvo: PlayTennis (yes, no)
Cincia da Computao
40
Exemplo Ilustrativo
Primeiro passo: criao do n superior da rvore de deciso. Qual atributo deve ser testado primeiro na rvore? Determinar o ganho de informao (Gain) para cada atributo candidato (i.e. Outlook, Temperature, Humidity e Wind) Selecionar aquele cujo ganho de informao o mais alto.
Exemplo Ilustrativo
Cincia da Computao
42
Exemplo Ilustrativo
Exemplo: Gain (S, Outlook) = 0.246 Gain(S, Humidity) = 0.151 Gain (S, Wind) = 0.048 Gain (S, Temperature) = 0.029 Ou seja, o atributo Outlook fornece a melhor predio do atributo alvo, PlayTennis, sobre os exemplos de treinamento (Fig 3.4)
Exemplo Ilustrativo
Cincia da Computao
44
Exemplo Ilustrativo
O processo para selecionar um novo atributo e particionar os exemplos de treinamento repetido para cada n descendente no terminal So utilizados somente os exemplos de treinamento associados com este n. Atributos que foram incorporados anteriormente a rvore so excludos qualquer atributo deve aparecer somente uma vez ao longo de qualquer caminho na rvore.
Exemplo Ilustrativo
Este processo continua at que uma das seguintes condies seja atendida:
1.
Todos os atributos j estejam includos ao longo deste caminho da rvore; Os exemplos de treinamento associados com este n folha tenham todos o mesmo valor de atributo alvo.
2.
A rvore final ...

Exemplo Ilustrativo
rvore de deciso final.
Cincia da Computao
47
Busca no Espao de Hipteses por ID3

O mtodo de aprendizagem ID3 pode ser caracterizado como um mtodo de busca em um espao de hipteses, por uma hiptese que se ajusta aos exemplos de treinamento. O espao de hipteses buscado pelo ID3 o conjunto de rvores de deciso possveis. O ID3 realiza uma busca simplescomplexa, hill climbing atravs do espao de hipteses comeando com uma rvore vazia e considerando progressivamente hipteses mais elaboradas (Fig 3.5).
Cincia da Computao
49

Espao de hipteses est completo
A funo alvo esta presente com certeza
Fornece um nica hiptese (qual ?)

No pode representar 20 hipteses
Sem backtracking (recuo/voltar atrs)

Mnimo local
Escolhas de busca com base estatstica

Robustez a rudo nos dados
Soluo com bias indutivo (prefere rvores mais curtas)

Bias Indutivo no ID3

Dada uma coleo de exemplos de treinamento, existem geralmente vrias rvores de deciso consistentes com os exemplos. Qual rvore deve ser escolhida ????
Cincia da Computao
51
Bias Indutivo no ID3

A preferncia por rvores mais curtas e por aquelas com atributos de alto ganho de informao prximos da raiz Bias: uma preferncia por algumas hipteses aos invs de uma restrio do espao de hipteses H Occams razor prefere as hipteses mais curtas (mais simples) que se ajustam aos dados
Occams Razor
Por que a preferncia por hipteses curtas? Argumentos a favor:
Poucas hipteses curtas VERSUS hipteses longas
Uma hiptese curta que se ajusta aos dados improvvel ser coincidente Uma hiptese longa que se ajusta aos dados pode ser coincidente
Cincia da Computao
53
Occams Razor
Por que a preferncia por hipteses curtas? Argumentos contrrios:
Existem muitas maneiras de definir pequenos conjuntos de hipteses E.g. todas as rvores com um nmero primo de ns que usa atributos
Cincia da Computao
54
Aspectos na Aprendizagem de rvores de Deciso Aspectos prticos na aprendizagem de rvores de deciso:

Crescimento da profundidade de rvores de deciso Manipulao de atributos contnuos Escolha de uma medida apropriada para a seleo de atributos Manipulao de atributos com diferentes custos Melhoria da eficincia computacional
Sobreajuste em rvores de Deciso

Considere a adio de rudo no exemplo de treinamento #15. < Sunny, Hot, Normal, Strong, PlayTennis = No> Qual o efeito na rvore anterior?
Cincia da Computao
56
Sobreajuste (Overfitting)
Considere o erro da hiptese h sobre
Dados de treinamento: errotrain(h) Distribuio de dados inteira D: erroD(h)
Uma hiptese hH sobreajusta os dados de treinamento se existir uma hiptese alternativa h H tal que: errotrain(h) < errotrain(h ) e erroD(h) > erroD(h)
Sobreajuste no Treinamento de rvores de Deciso
Cincia da Computao
58
Evitando Sobreajuste
Como podemos evitar o sobreajuste?
Parar o crescimento quando a partio de dados no for estatisticamente significante Desenvolver uma rvore completa e ento fazer uma poda.
Como selecionar a melhor rvore

Medida de performance sobre os dados de treinamento Medida de performance sobre um conjunto de dados de validao
Evitando Sobreajuste
Usar uma medida explcita de complexidade para a codificao de exemplos de treinamento e a rvore de deciso. Minimizar o comprimento da descrio mnima (MDL) size ( tree ) + size ( misclassifications ( tree ) )
Cincia da Computao
60
Erro de Poda Reduzido

Podar um n de deciso consiste em remover a sub-rvore enraizada naquele n, tornandoo um n folha. Atribuir a este n, a classificao mais comum dos exemplos de treinamento afiliados com aquele n. Ns so removidos somente se a rvore aparada resultante no apresenta um comportamento pior do que a original sobre o conjunto de validao

Particionar os dados em conjuntos de validao e treinamento Faa at que uma reduo (poda) adicional seja prejudicial
1.
Avaliar o impacto sobre o conjunto de validao da poda de cada n possvel, mais aqueles abaixo dele Remover gulosamente aquele que melhora mais a preciso sobre o conjunto de validao
Cincia da Computao Reconhecimento de Padres 62
2.

Produz a menor verso da sub-rvore mais precisa E se os dados forem limitados?
Cincia da Computao
63
Efeito do Erro de Poda Reduzido
Cincia da Computao
64
PsReduo (Poda) da Regra

1.
Converter a rvore em um conjunto de regras equivalente Podar cada regra independentemente das outras Ordenar as regras finais em uma seqncia desejvel para o uso Talvez seja o mtodo usando com mais freqncia. (e.g. C4.5)
2.
3.
Cincia da Computao
65
Convertendo uma rvore em Regras
IF (Outlook = Sunny) ^ (Humidity = High) THEN PlayTennis = No IF (Outlook = Sunny) ^ (Humidity = Normal) THEN PlayTennis = Yes
Convertendo uma rvore em Regras Vantagens de converter uma rvore de deciso em regras antes da poda: Permite distinguir entre os diferentes contextos onde os ns de deciso so utilizados. Remove a distino entre atributos de testes que ocorrem prximos da raiz da rvore e aqueles que ocorrem prximos das folhas. Melhora a leitura. Regras so geralmente mais fceis para pessoas entenderem
Atributos de Valor Continuo

Na definio da ID3 temos as restries: 1. Atributo alvo deve ter valor discreto 2. Os atributos testados nos ns de deciso devem tambm ser de valor discreto. A segunda restrio pode ser removida. Definir dinamicamente novos atributos de valor discreto que particionam o valor do atributo contnuo em um conjunto discreto de intervalos. A = atributo de valor contnuo criar um novo atributo Ac que verdadeiro se A < c e falso caso contrrio. Como identificar c ???
Atributos de Valor Continuo

Exemplo: Incluir o atributo de valor contnuo Temperature na descrio dos exemplos de treinamento para a tarefa de aprendizagem anterior. Supondo que os exemplos de treinamento associados a um n particular so
Escolher um limiar c que produza o maior ganho de informaes Identificar exemplos adjacentes que diferem na classificao alvo.
Atributos de Valor Contnuo
Dois limiares candidatos: c1 = (48+60)/2 = 54 c2 = (80+90)/2 = 85 O ganho de informao pode ser calculado para cada um destes atributos candidatos: Temperature>54 e Temperature>85 e o melhor pode ser selecionado (T>54)
Atributos com Muitos Valores

Problema: Se o atributo tem muitos valores Gain selecionar Imagine utilizar Date=Jun_3_1996 como atributo Uma soluo: Usar GainRatio (penaliza o atributo Date) ao invs:
GainRatio( S , A) Gain( S , A) SplitInformation( S , A)
c
SplitInformation( S , A)
i =1
Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Cincia da Computao
Si S
log 2
Si S
71
Atributos com Custos

Considere Diagnstico mdico. BloodTest tem custo $150 Robtica. Width_from_1ft tem custo 23seg. Como aprender um rvore consistente com custo esperado baixo? Uma soluo: Substituir o gain por Tan and Schlimmer (1994) Nunez (1998)
2Gain( S , A ) 1 (Cost( A) + 1)w
Gain 2 ( S , A) Cost( A)
onde w [0,1] determina a importncia do custo

Valores de Atributos Desconhecidos

E se para alguns exemplos faltam os valores de A? Use o exemplo de treinamento de qualquer jeito, ordene atravs da rvore
Se o n n testa A, atribua o valor mais comum de A entre outros exemplos ordenados para o n n Atribuir o valor mais comum de A entre outros exemplos com a mesmo valor alvo Atribuir uma probabilidade pi para cada valor possvel vi de A
Atribuir uma frao pi do exemplo para cada descendente na rvore
Classificar novos exemplos da mesma maneira

Resumo
Aprendizagem de rvores de deciso fornece um mtodo prtico para a aprendizagem de conceito e para a aprendizagem de outras funes de valor discreto A famlia de algoritmos ID3 infere rvores de deciso expandindoas a partir da raiz e descendo, selecionando o prximo melhor atributo para cada novo ramo de deciso adicionado a rvore. ID3 busca um espao de hipteses completo evitando assim que a funo alvo possa no estar presente no espao de hipteses.
Resumo
O bias indutivo implcito no ID3 inclui uma preferncia por rvores menores. A busca atravs do espao de hipteses expande a rvore somente o necessrio para classificar os exemplo de treinamento disponveis. Sobreajuste um aspecto importante na aprendizagem de rvores de deciso. Mtodos para poda posterior so importantes para evitar o sobreajuste. Vrias extenses ao algoritmo bsico ID3.

3 ArvoresDecisao RecPad

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

3 ArvoresDecisao RecPad

Enviado por

Direitos autorais:

Formatos disponíveis

Reconhecimento de Padres

rvores de Deciso Alessandro L. Koerich

2009 Reconhecimento de Padres

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

rvore de Deciso para PlayTennis

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

rvore de Deciso para PlayTennis

<Outlook=Sunny, Temperature=High, Humidity=High, Wind=Strong>

rvore de Deciso para PlayTennis

(Outlook=Sunny Humidity=Normal) (Outlook=Overcast) (Outlook=Rain, Wind=Weak)

rvore de Deciso para PlayTennis Representao de rvores de deciso:

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Algoritmo Bsico para Aprendizagem de rvores de Deciso

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Algoritmo Bsico para Aprendizagem de rvores de Deciso

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Algoritmo Bsico para Aprendizagem de rvores de Deciso

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Algoritmo Bsico para Aprendizagem de rvores de Deciso

Algoritmo Bsico para Aprendizagem de rvores de Deciso

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Induo TopDown de rvores de Deciso

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Induo TopDown de rvores de Deciso Qual o melhor atributo ?

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Fronteiras de Deciso Com dados numricos possvel visualizar as fronteiras de deciso.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Entropia ( S ) p + log 2 p + p log 2 p

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

p + ( log 2 p + ) + p ( log 2 p ) Entropia ( S ) p + log 2 p + p log 2 p

Ento, o nmero esperado de bits para codificar + ou de um membro aleatrio de S:

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

onde pi a proporo de S pertencendo a classe i.

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

A rvore final ...

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Busca no Espao de Hipteses por ID3

Busca no Espao de Hipteses por ID3

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Busca no Espao de Hipteses por ID3

Fornece um nica hiptese (qual ?)

Sem backtracking (recuo/voltar atrs)

Escolhas de busca com base estatstica

Soluo com bias indutivo (prefere rvores mais curtas)

Bias Indutivo no ID3

Alessandro L. Koerich (alekoe@ppgia.pucpr.br)