Árvores de Decisão e Random Forest (Inteligência Artificial)

Árvores de decisão vs.
Random Forest
Marisa Ferreira, Ricardo Silva
26 de Janeiro de 2020
1 Árvore de decisão
O machine learning tem vindo a, dia após dia, ocupar uma posição cada vez
mais relevante naquele que é o mundo de hoje. A informação resultante de
dados e informações recolhidas através da interação, de experiências, com
o mundo real, permite que os algoritmos melhorem o seu desempenho e
consigam prever um comportamento, com a ajuda da inteligência artificial.
Uma das abordagens mais utilizadas em machine learning envolve árvores
de decisão.
Uma árvore de decisão é um diagrama - representado em formato de árvore
- que procura mostrar todas as possibilidades, resultantes de uma decisão,
apresentando todas as condições e probabilidades para atingir essas mesmas
possibilidades. Estas árvores têm folhas (nós que não se ”desdobram”, são
terminais), que indicam classes, e nós de decisão (sub-nós que se dividem
em outros sub-nós). O objetivo deste tipo de árvore consiste em diminuir a
entropia (grau de pureza do conjunto).
Figura 1: Árvore de decisão - Exemplo
1
2 Árvores de decisão vs. Random Forest
Uma árvore de decisão considera o melhor resultado em cada decisão, não
considera a melhor decisão a nı́vel geral. Esta estratégia não garante que
o caminho a tomar, até chegar ao resultado pretendido (ao nó-folha), é o
caminho ótimo.
Para além disso, com uma larga quantidade de dados, a árvore de decisão
relativa a esses dados é, normalmente, bastante profunda. A árvore vai ten-
der a gerar resultados demasiado ajustados ao conjunto de treino, perdendo,
assim, a sua capacidade de generalizar. Isto faz com que a árvore aprenda
padrões/comportamentos imprecisos, que não serão capazes de responder
com eficácia perante amostras de dados diferentes das que aprendeu.
As random forests vêm mitigar este problema. São uma maneira de en-
contrar a média de várias árvores de decisão, treinadas em partes diferentes
do mesmo conjunto de treino (várias partes dos dados diferentes são postas
em diferentes árvores).
2.1 Bagging
O algoritmo de treino usado nas random forests aplica a técnica de bagging.
Figura 2: Etapas do bagging.
2
O bagging é um algoritmo feito para melhorar a estabilidade e precisão
de algoritmos de machine learning em classificação estatı́stica, reduzindo,
ainda, a variação e ajudando a evitar o overfitting. O bagging vai selecio-
nar n vezes, do conjunto de treino inicial, várias amostras aleatórias (que
poderão ser repetidas) e gerará várias árvores de decisão que se ajustarão a
essas amostras. Os atributos com impacto tendencialmente mais relevante
para o resultado serão selecionados em mais árvores do que os restantes.
Cada árvore vai passar por um processo de aprendizagem, ou treino, e,

no caso das árvores de decisão que estamos a abordar, o padrão resultante
da random forest tomará em conta o voto da maioria das árvores, ou seja,
o resultado que for mais comum entre todas as árvores será o resultado da
random forest.
Figura 3: No exemplo, a random forest pesquisa sobre todas as árvores que a

compõem e verifica que foram escolhidos 2 resultados do tipo CAR e um do
tipo PLANE. Como o objetivo é escolher o resultado que é mais tendencioso,
o resultado final acaba por ser CAR.
Apesar de os padrões aprendidos por cada uma das árvores, individual-

mente, tenderem a dar um resultado altamente sensı́vel ao ruı́do, a média de
todas as árvores não será, desde que as árvores não estejam correlacionadas.
3
3 A escolha de decisões numa árvore de decisão
Vamos recorrer ao exemplo de decidir se, com base no tempo, se vai jogar
ténis ou não.
Figura 4: Resultados da amostra de 14 dias de verificação do tempo.
Como o objetivo da árvore de decisão é chegar ao mı́nimo valor de entro-

pia possı́vel (entropia nula), o primeiro passo que o algoritmo deverá seguir
será avaliar a entropia de cada um dos atributos, de modo que consiga de-
finir o melhor atributo (aquele com um maior ganho). O ganho compara a
desordem inicial do sistema com a desordem com a aplicação do atributo,
daı́ que, para escolher o melhor atributo, se tenha em conta o maior valor
de ganho.
Para não tornar o documento demasiado extenso, só iremos apresentar os
cálculos correspondentes ao melhor atributo, com os cálculos dos ganhos de
todos os atributos.
Figura 5: Cálculo do ganho do atributo Aspeto. Por comparação com os

restantes, percebe-se que o melhor atributo é o Aspeto, pois retorna um
maior valor de ganho.
4
A entropia calcula-se considerando as probabilidades dos valores de am-
bos os atributos com a seguinte equação:
No próximo passo, não é tido em conta o atributo Aspeto, e volta-se a

repetir o processo para decidir qual é o melhor atributo para cada valor de
Aspeto.
Figura 6: Processo de escolha dos próximos melhores atributos da árvore.
Depois de abertos os nós, considerando sempre as entropias e os ganhos,

a árvore de decisão final é a seguinte:
Figura 7: Árvore final, após todos os cálculos feitos.
5
4 Conclusões
Na presença de um conjunto de treino com um volume de dados demasi-
ado extenso, optar por uma random forest poderá ser a melhor escolha
para obter padrões e comportamentos mais precisos, uma vez que ”foge”à
tendência das árvores de decisão individuais de obter resultados demasiado
ajustados à amostra.
Uma árvore de decisão é um diagrama de fácil interpretação e poderá ser
um bom recurso para expor os diferentes resultados para um teste, uma vez
que expande, nos seus nós, todos os valores possı́veis para uma tomada de
decisão.
Algoritmos que implementem este tipo de diagrama e pretendam aprender
com ele para prever comportamentos com dados diferentes dos inicialmente
utilizados, no treino, vêm se mostrar uma poderosa ferramenta, na Inte-
ligência Artificial, especialmente na componente do machine learning. Por
isso, são tão utilizados e se mostram relevantes, atualmente, nessa área.
5 Fontes
*** Os links são clicáveis ***
Árvores de decisão - Técnico ULisboa

Random Forest - Didática Tech
Árvores de Decisão - WR Prates
Árvores de Decisão - Vooo
Algoritmo da Árvore de decisão - KD Nuggets
Tese: Árvores de decisão - PUC - Rio
Machine Learning: Árvores de decisão - Medium
Árvore de decisão - Wikipedia

Árvores de Decisão e Random Forest (Inteligência Artificial)

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Árvores de Decisão e Random Forest (Inteligência Artificial)

Enviado por

Direitos autorais:

Formatos disponíveis

Árvores de decisão vs.

Figura 1: Árvore de decisão - Exemplo

Figura 2: Etapas do bagging.

Cada árvore vai passar por um processo de aprendizagem, ou treino, e,

Figura 3: No exemplo, a random forest pesquisa sobre todas as árvores que a

Apesar de os padrões aprendidos por cada uma das árvores, individual-

Figura 4: Resultados da amostra de 14 dias de verificação do tempo.

Como o objetivo da árvore de decisão é chegar ao mı́nimo valor de entro-

Figura 5: Cálculo do ganho do atributo Aspeto. Por comparação com os

No próximo passo, não é tido em conta o atributo Aspeto, e volta-se a

Figura 6: Processo de escolha dos próximos melhores atributos da árvore.

Depois de abertos os nós, considerando sempre as entropias e os ganhos,

Figura 7: Árvore final, após todos os cálculos feitos.

Árvores de decisão - Técnico ULisboa

Você também pode gostar