Escolar Documentos
Profissional Documentos
Cultura Documentos
Random Forest
Marisa Ferreira, Ricardo Silva
26 de Janeiro de 2020
1 Árvore de decisão
O machine learning tem vindo a, dia após dia, ocupar uma posição cada vez
mais relevante naquele que é o mundo de hoje. A informação resultante de
dados e informações recolhidas através da interação, de experiências, com
o mundo real, permite que os algoritmos melhorem o seu desempenho e
consigam prever um comportamento, com a ajuda da inteligência artificial.
Uma das abordagens mais utilizadas em machine learning envolve árvores
de decisão.
Uma árvore de decisão é um diagrama - representado em formato de árvore
- que procura mostrar todas as possibilidades, resultantes de uma decisão,
apresentando todas as condições e probabilidades para atingir essas mesmas
possibilidades. Estas árvores têm folhas (nós que não se ”desdobram”, são
terminais), que indicam classes, e nós de decisão (sub-nós que se dividem
em outros sub-nós). O objetivo deste tipo de árvore consiste em diminuir a
entropia (grau de pureza do conjunto).
1
2 Árvores de decisão vs. Random Forest
Uma árvore de decisão considera o melhor resultado em cada decisão, não
considera a melhor decisão a nı́vel geral. Esta estratégia não garante que
o caminho a tomar, até chegar ao resultado pretendido (ao nó-folha), é o
caminho ótimo.
Para além disso, com uma larga quantidade de dados, a árvore de decisão
relativa a esses dados é, normalmente, bastante profunda. A árvore vai ten-
der a gerar resultados demasiado ajustados ao conjunto de treino, perdendo,
assim, a sua capacidade de generalizar. Isto faz com que a árvore aprenda
padrões/comportamentos imprecisos, que não serão capazes de responder
com eficácia perante amostras de dados diferentes das que aprendeu.
As random forests vêm mitigar este problema. São uma maneira de en-
contrar a média de várias árvores de decisão, treinadas em partes diferentes
do mesmo conjunto de treino (várias partes dos dados diferentes são postas
em diferentes árvores).
2.1 Bagging
O algoritmo de treino usado nas random forests aplica a técnica de bagging.
2
O bagging é um algoritmo feito para melhorar a estabilidade e precisão
de algoritmos de machine learning em classificação estatı́stica, reduzindo,
ainda, a variação e ajudando a evitar o overfitting. O bagging vai selecio-
nar n vezes, do conjunto de treino inicial, várias amostras aleatórias (que
poderão ser repetidas) e gerará várias árvores de decisão que se ajustarão a
essas amostras. Os atributos com impacto tendencialmente mais relevante
para o resultado serão selecionados em mais árvores do que os restantes.
3
3 A escolha de decisões numa árvore de decisão
Vamos recorrer ao exemplo de decidir se, com base no tempo, se vai jogar
ténis ou não.
4
A entropia calcula-se considerando as probabilidades dos valores de am-
bos os atributos com a seguinte equação:
5
4 Conclusões
Na presença de um conjunto de treino com um volume de dados demasi-
ado extenso, optar por uma random forest poderá ser a melhor escolha
para obter padrões e comportamentos mais precisos, uma vez que ”foge”à
tendência das árvores de decisão individuais de obter resultados demasiado
ajustados à amostra.
Uma árvore de decisão é um diagrama de fácil interpretação e poderá ser
um bom recurso para expor os diferentes resultados para um teste, uma vez
que expande, nos seus nós, todos os valores possı́veis para uma tomada de
decisão.
Algoritmos que implementem este tipo de diagrama e pretendam aprender
com ele para prever comportamentos com dados diferentes dos inicialmente
utilizados, no treino, vêm se mostrar uma poderosa ferramenta, na Inte-
ligência Artificial, especialmente na componente do machine learning. Por
isso, são tão utilizados e se mostram relevantes, atualmente, nessa área.
5 Fontes
*** Os links são clicáveis ***