Escolar Documentos
Profissional Documentos
Cultura Documentos
Arvo Rede
Arvo Rede
rvore de Deciso Indutiva um dos mtodos de aprendizado simblico mais amplamente utilizados e prticos para inferncia indutiva.
um mtodo para aproximar funes discretas robustas a dados com rudo e que permite o aprendizado de expresses disjuntas. descrito
um algoritmo extensamente estudado, o ID3, o qual d preferncia s rvores pequenas, evitando rvores grandes. Esta caracterstica faz
uma espcie de generalizao sobre os exemplos de aprendizado.
Este mtodo de aprendizagem est entre os mais populares algoritmos de inferncia indutiva e foi aplicado amplamente nas mais diversas
tarefas, como, por exemplo, diagnosticar casos mdicos e avaliar o risco de crdito de candidatos a emprstimo.
1.
Chuvoso
Nublado
Umidade?
Alta
No
Vento?
Sim
Normal
Forte
Fraco
Sim
No
Sim
Por exemplo, a instncia (Perspectiva = Ensolarado, Temperatura = Quente, Umidade = Alta, Vento = Forte) seguir o caminho mais
esquerda desta rvore de deciso e ser classificada ento como uma instncia negativa (i.e., a rvore prediz que JogarTnis = no).
Em geral, rvores de deciso representam uma disjuno de conjunes dos valores de atributo das instncias. Cada caminho, da raiz da
rvore para uma folha, corresponde a uma conjuno de testes de atributo, e a prpria rvore uma disjuno destas conjunes. Por
exemplo, a rvore de deciso mostrada, corresponde expresso
(Perspectiva = Ensolarado Umidade = Normal)
(Perspectiva = Nublado)
(Perspectiva = Chuvoso Vento = Fraco)
2.
lvaro Guarda
3.
lvaro Guarda
Uma interpretao de entropia na teoria de informao que a entropia especifica o nmero mnimo de bits de informao necessrios
para codificar a classificao de um membro arbitrrio de S (i.e., um membro de S pego ao acaso com probabilidade uniforme), por
exemplo, se p = 1, o receptor sabe que o exemplo tirado ser positivo, assim no h necessidade de enviar mensagem, e a entropia zero.
Por outro lado, se p 0.5, um bit exigido para indicar se o exemplo tirado positivo ou negativo. Se p 0.8, ento uma coleo de
mensagens pode ser codificada usando em mdia menos de 1 bit por mensagem, usando cdigos menores para colees de exemplos
positivos e cdigos mais longos para exemplos negativos, cuja probabilidade de ocorrncia menor.
Ser discutido a seguir entropia no caso especial onde a classificao designada lgica. Mais geralmente, se o atributo designado pode
assumir c valores diferentes, ento a entropia de S relativa a esta classificao definida como
Entropia(S)
- pi log2 pi
i =1
onde pi a proporo de S necessria para classificar i. Note que o logaritmo ainda na base 2 porque entropia uma medida da expectativa
do tamanho da codificao, medida em bits. Tambm note que se o atributo designado pode assumir c possveis valores, a entropia pode ser
to grande quanto log2 c.
Medidas de Ganhos de Informao e a Reduo Esperada na Entropia
Aps a definio de entropia como uma medida da impureza em uma coleo de exemplos de treinamento, pode-se definir agora a
medida da efetividade de um atributo para classificar os dados de treinamento. Ns usaremos uma medida, chamada ganho de informao,
que simplesmente a reduo esperada na entropia causada pelo particionamento dos exemplos por este atributo. Mais precisamente, o
ganho de informao, Ganho(S, A) de um atributo A, relativo a uma coleo de exemplos S, definido como:
v| / |S| Entropia(Sv)
Ganho(S, A) tropia(S) -
v Valores(A)
onde Valores(A) o conjunto de todos possveis valores para atributo A, e Sv o subconjunto de S para qual o atributo A tem valor v (i.e.,
Sv = {s S|A(s) = v}). Note que o primeiro termo na equao a entropia da coleo original S, e o segundo termo o valor esperado da
entropia S dividido pelo atributo A. A entropia esperada descrita por este segundo termo simplesmente a soma das entropias de cada
subconjunto Sv, com peso igual frao de exemplos |Sv| / |S| que pertence a Sv. Ganho(S, A) ento a reduo esperada na entropia
causada pelo conhecimento do valor do atributo A. Isto , Ganho(S, A) a informao dada sobre o valor da funo-objetivo, dado o valor
de algum atributo A. O valor de Ganho(S, A) o nmero de bits economizados quando codifica-se o valor-objetivo de um membro
arbitrrio de S, sabendo-se o valor do atributo A.
Por exemplo, suponha S uma coleo de dias de treinamento descrita por atributos, incluindo Vento, que pode ter os valores Fraco ou
Forte. Como antes, assuma que S uma coleo que contm 14 exemplos, [9+, 5 -]. Destes 14 exemplos, suponha que 6 positivos e 2
negativos tm Vento = Fraco, e o restante tem Vento = Forte. O ganho de informao conseguido classificando-se os 14 exemplos originais
do atributo Vento pode ser calculado como:
Valores(Vento) = Fraco, Forte
S = [9+, 5 -]
SFraco [6+, 2 -]
SForte [3+, 3 -]
Ganho(S, Vento) = Entropia(S)
/ |S| Entropia(Sv)
v (Fraco,Forte)
Dia
D1
D2
D3
D4
D5
D6
D7
Perspectiva
Ensolarado
Ensolarado
Nublado
Chuvoso
Chuvoso
Chuvoso
Nublado
INSTNCIAS
Temperatura
Quente
Quente
Quente
Moderada
Fresca
Fresca
Fresca
Umidade
Alta
Alta
Alta
Alta
Normal
Normal
Normal
lvaro Guarda
Vento
Fraco
Forte
Fraco
Fraco
Fraco
Forte
Forte
CLASSE
JogarTnis
No
No
Sim
Sim
Sim
No
Sim
3
D8
D9
D10
D11
D12
D13
D14
Ensolarado
Ensolarado
Chuvoso
Ensolarado
Nublado
Nublado
Chuvoso
Moderada
Fresca
Moderada
Moderada
Moderada
Quente
Moderada
Alta
Normal
Normal
Normal
Alta
Normal
Alta
Fraco
Fraco
Fraco
Forte
Forte
Fraco
Forte
No
Sim
Sim
Sim
Sim
Sim
No
Considere o primeiro passo do algoritmo no qual o nodo mais alto da rvore de deciso criado. Qual atributo deveria ser testado
primeiro na rvore? O ID3 determina o ganho de informao para cada atributo candidato (i.e., Perspectiva, Temperatura, Umidade, e
Vento), ento seleciona aquele com o ganho de informao maior. Os valores de ganho de informao para os quatro atributos so:
Ganho(S, Perspectiva) = 0.246
Ganho(S, Umidade)
= 0.151
Ganho(S, Vento)
= 0.048
Ganho(S, Temperatura) = 0.029
onde S denota a coleo de exemplos de treinamento da tabela acima.
De acordo com a medida de ganho de informao, o atributo Perspectiva o melhor entre os atributos, para JogarTnis, nos exemplos de
treinamento. Ento, Perspectiva selecionada como o atributo de deciso para o nodo raiz, e so criadas alternativas abaixo da raiz para
cada um de seus possveis valores (i.e., Ensolarado, Nublado, e Chuva). A rvore de deciso parcial resultante ser mostrada abaixo, junto
com os exemplos de treinamento ordenados a cada nodo descendente novo. Note que todo exemplo para o qual Perspectiva = Nublado
tambm um exemplo positivo de JogarTnis. Ento, este nodo da rvore se torna um nodo de folha com a classificao JogarTnis = Sim.
Em contraste, os descendentes que correspondem a Perspectiva = Ensolarado e Perspectiva = Chuvoso ainda tem entropia diferente de zero,
e a rvore de deciso continuar a ser construda abaixo destes nodos.
O processo de selecionar um atributo novo e dividir os exemplos de treinamento repetido agora para cada nodo descendente no
terminal, neste so usados s os exemplos de treinamento associados com aquele nodo. So excludos atributos que estiveram incorporados
mais alto na rvore, de forma que qualquer atributo pode aparecer no mximo uma vez ao longo de qualquer caminho pela rvore. Este
processo continua para cada novo nodo folha at que qualquer uma das duas condies seja satisfeita:
(1) todos os atributos j foram includos ao longo deste caminho pela rvore, ou
(2) os exemplos de treinamento associados com este nodo folha tm todos o mesmo valor de atributo (i.e., a entropia deles zero).
A figura abaixo ilustra as computaes de ganho de informao para o prximo passo de construo da rvore de deciso.
Perspectiva?
Ensolarado
Chuvoso
Nublado
{D1,D2,D8,D9,D11}
[2+, 3-]
?
{D3,D7,D12,D13}
[4+, 0-]
Sim
{D4,D5,D6,D10,D14}
[3+, 2-]
?
Que atributo deve ser testado onde a seta acima est apontando?
SEnsolarado = {D1,D2,D8,D9,D11 }
Ganho (SEnsolarado, Umidade) = 0.970 - (3/5) 0.0 - (2/5) 0.0 = 0.970
Ganho (SEnsolarado, Temperatura) = 0.970 - (2/5)0.0 - (2/5) 1.0 - (1/5)0.0 = 0.570
Ganho (SEnsolarado, Vento) = 0.970 - (2/5) 1.0 - (3/5) 0.918 = 0.019
A rvore de deciso parcialmente aprendida o resultado do primeiro passo de ID3. Os exemplos de treinamento so classificados e
distribudos entre os nodos descendentes correspondentes. O descendente Nublado tem somente exemplos positivos e ento se torna um
nodo de folha com classificao Sim. Os outros dois nodos sero ampliados mais adiante, selecionando o atributo com ganho de informao
maior relativo aos subconjuntos novos de exemplos. Assim, a rvore construda at que todos os atributos sejam testados num
determinado caminho ou todos os exemplos de treinamento associados a um determinado nodo tenham o mesmo valor.
lvaro Guarda