Você está na página 1de 6

Árvores de decisão vs.

Random Forest
Marisa Ferreira, Ricardo Silva

26 de Janeiro de 2020

1 Árvore de decisão
O machine learning tem vindo a, dia após dia, ocupar uma posição cada vez
mais relevante naquele que é o mundo de hoje. A informação resultante de
dados e informações recolhidas através da interação, de experiências, com
o mundo real, permite que os algoritmos melhorem o seu desempenho e
consigam prever um comportamento, com a ajuda da inteligência artificial.
Uma das abordagens mais utilizadas em machine learning envolve árvores
de decisão.
Uma árvore de decisão é um diagrama - representado em formato de árvore
- que procura mostrar todas as possibilidades, resultantes de uma decisão,
apresentando todas as condições e probabilidades para atingir essas mesmas
possibilidades. Estas árvores têm folhas (nós que não se ”desdobram”, são
terminais), que indicam classes, e nós de decisão (sub-nós que se dividem
em outros sub-nós). O objetivo deste tipo de árvore consiste em diminuir a
entropia (grau de pureza do conjunto).

Figura 1: Árvore de decisão - Exemplo

1
2 Árvores de decisão vs. Random Forest
Uma árvore de decisão considera o melhor resultado em cada decisão, não
considera a melhor decisão a nı́vel geral. Esta estratégia não garante que
o caminho a tomar, até chegar ao resultado pretendido (ao nó-folha), é o
caminho ótimo.
Para além disso, com uma larga quantidade de dados, a árvore de decisão
relativa a esses dados é, normalmente, bastante profunda. A árvore vai ten-
der a gerar resultados demasiado ajustados ao conjunto de treino, perdendo,
assim, a sua capacidade de generalizar. Isto faz com que a árvore aprenda
padrões/comportamentos imprecisos, que não serão capazes de responder
com eficácia perante amostras de dados diferentes das que aprendeu.
As random forests vêm mitigar este problema. São uma maneira de en-
contrar a média de várias árvores de decisão, treinadas em partes diferentes
do mesmo conjunto de treino (várias partes dos dados diferentes são postas
em diferentes árvores).

2.1 Bagging
O algoritmo de treino usado nas random forests aplica a técnica de bagging.

Figura 2: Etapas do bagging.

2
O bagging é um algoritmo feito para melhorar a estabilidade e precisão
de algoritmos de machine learning em classificação estatı́stica, reduzindo,
ainda, a variação e ajudando a evitar o overfitting. O bagging vai selecio-
nar n vezes, do conjunto de treino inicial, várias amostras aleatórias (que
poderão ser repetidas) e gerará várias árvores de decisão que se ajustarão a
essas amostras. Os atributos com impacto tendencialmente mais relevante
para o resultado serão selecionados em mais árvores do que os restantes.

Cada árvore vai passar por um processo de aprendizagem, ou treino, e,


no caso das árvores de decisão que estamos a abordar, o padrão resultante
da random forest tomará em conta o voto da maioria das árvores, ou seja,
o resultado que for mais comum entre todas as árvores será o resultado da
random forest.

Figura 3: No exemplo, a random forest pesquisa sobre todas as árvores que a


compõem e verifica que foram escolhidos 2 resultados do tipo CAR e um do
tipo PLANE. Como o objetivo é escolher o resultado que é mais tendencioso,
o resultado final acaba por ser CAR.

Apesar de os padrões aprendidos por cada uma das árvores, individual-


mente, tenderem a dar um resultado altamente sensı́vel ao ruı́do, a média de
todas as árvores não será, desde que as árvores não estejam correlacionadas.

3
3 A escolha de decisões numa árvore de decisão
Vamos recorrer ao exemplo de decidir se, com base no tempo, se vai jogar
ténis ou não.

Figura 4: Resultados da amostra de 14 dias de verificação do tempo.

Como o objetivo da árvore de decisão é chegar ao mı́nimo valor de entro-


pia possı́vel (entropia nula), o primeiro passo que o algoritmo deverá seguir
será avaliar a entropia de cada um dos atributos, de modo que consiga de-
finir o melhor atributo (aquele com um maior ganho). O ganho compara a
desordem inicial do sistema com a desordem com a aplicação do atributo,
daı́ que, para escolher o melhor atributo, se tenha em conta o maior valor
de ganho.
Para não tornar o documento demasiado extenso, só iremos apresentar os
cálculos correspondentes ao melhor atributo, com os cálculos dos ganhos de
todos os atributos.

Figura 5: Cálculo do ganho do atributo Aspeto. Por comparação com os


restantes, percebe-se que o melhor atributo é o Aspeto, pois retorna um
maior valor de ganho.

4
A entropia calcula-se considerando as probabilidades dos valores de am-
bos os atributos com a seguinte equação:

No próximo passo, não é tido em conta o atributo Aspeto, e volta-se a


repetir o processo para decidir qual é o melhor atributo para cada valor de
Aspeto.

Figura 6: Processo de escolha dos próximos melhores atributos da árvore.

Depois de abertos os nós, considerando sempre as entropias e os ganhos,


a árvore de decisão final é a seguinte:

Figura 7: Árvore final, após todos os cálculos feitos.

5
4 Conclusões
Na presença de um conjunto de treino com um volume de dados demasi-
ado extenso, optar por uma random forest poderá ser a melhor escolha
para obter padrões e comportamentos mais precisos, uma vez que ”foge”à
tendência das árvores de decisão individuais de obter resultados demasiado
ajustados à amostra.
Uma árvore de decisão é um diagrama de fácil interpretação e poderá ser
um bom recurso para expor os diferentes resultados para um teste, uma vez
que expande, nos seus nós, todos os valores possı́veis para uma tomada de
decisão.
Algoritmos que implementem este tipo de diagrama e pretendam aprender
com ele para prever comportamentos com dados diferentes dos inicialmente
utilizados, no treino, vêm se mostrar uma poderosa ferramenta, na Inte-
ligência Artificial, especialmente na componente do machine learning. Por
isso, são tão utilizados e se mostram relevantes, atualmente, nessa área.

5 Fontes
*** Os links são clicáveis ***

Árvores de decisão - Técnico ULisboa


Random Forest - Didática Tech
Árvores de Decisão - WR Prates
Árvores de Decisão - Vooo
Algoritmo da Árvore de decisão - KD Nuggets
Tese: Árvores de decisão - PUC - Rio
Machine Learning: Árvores de decisão - Medium
Árvore de decisão - Wikipedia

Você também pode gostar