Escolar Documentos
Profissional Documentos
Cultura Documentos
Árvores de decisão são modelos de aprendizado de máquina que utilizam uma estrutura de
árvore para tomar decisões ou fazer previsões. Elas são baseadas em uma série de regras
de decisão que são aprendidas a partir dos dados de treinamento
Além desses dois principais tipos de árvores de decisão, existem também variações
e extensões, tais como:
● Árvores de Decisão Multiclasse: São extensões das árvores de classificação que
lidam com problemas de classificação com mais de duas classes.
● Árvores de Decisão Baseadas em Regras: Essas árvores usam regras condicionais
para representar as decisões em vez de usar apenas os testes dos atributos. Cada
nó representa uma regra e as folhas representam as classes ou os valores de
regressão correspondentes.
● Gradient Boosted Trees: Essa técnica combina várias árvores de decisão em um
ensemble (conjunto) para melhorar o desempenho preditivo. A cada iteração, uma
nova árvore é construída para corrigir os erros cometidos pelas árvores anteriores.
● Random Forest: Também é um ensemble de árvores de decisão, onde várias
árvores são construídas a partir de subconjuntos aleatórios dos dados de
treinamento. As previsões são obtidas através da média das previsões das árvores
individuais.
Esses são apenas alguns exemplos dos diferentes tipos de árvores de decisão. Cada tipo
possui suas próprias características e é mais adequado para certos tipos de problemas de
aprendizado de máquina. A escolha do tipo de árvore de decisão depende do tipo de dado e
da natureza do problema que se deseja resolver.
Regenerate response
>> As árvores de classificação são usadas quando a variável de saída é categórica, ou seja,
quando se deseja classificar os dados em categorias ou classes pré-definidas. Por exemplo,
elas podem ser usadas para classificar e-mails em spam ou não spam, prever se um cliente
irá comprar um produto ou não, entre outros.
>> As árvores de regressão, por outro lado, são usadas quando a variável de saída é
contínua, ou seja, quando se deseja prever um valor numérico. Elas são úteis em
problemas de previsão, como prever o preço de uma casa com base em suas
características, prever a quantidade de vendas de um produto, entre outros.
Essas etapas fornecem uma orientação geral para a construção de árvores de classificação
no R. No entanto, lembre-se de que as etapas específicas e as bibliotecas podem variar
dependendo das suas necessidades e preferências.
Em uma árvore de regressão, o termo "impureza" é usado para se referir à medida de quão
heterogêneos ou dispersos estão os valores de regressão nas folhas da árvore. Em outras
palavras, a impureza mede a variabilidade dos valores de resposta (ou variável de saída
contínua) em uma determinada região da árvore.
MSE - Erro Quadrático Médio (ou Mean Squared Error) (variância do erro): É a medida de
impureza mais comum em árvores de regressão. O MSE é calculado como a média dos
quadrados das diferenças entre os valores de resposta observados e os valores de
regressão previstos em cada folha. Quanto maior o MSE, maior a dispersão dos valores de
resposta e, portanto, maior a impureza.
O SSE (Sum of Squared Errors) e o SST (Total Sum of Squares) são métricas utilizadas
para avaliar o desempenho de modelos de regressão, incluindo árvores de regressão. Eles
estão relacionados à decomposição da variabilidade dos valores de resposta em relação à
média.
● SST (Total Sum of Squares): O SST representa a variabilidade total dos valores de
resposta em relação à média. É calculado como a soma dos quadrados das
diferenças entre cada valor de resposta (yi) e a média de todos os valores de
resposta (-yi). O SST mede a variabilidade máxima dos valores de resposta em
relação à média e pode ser interpretado como a variabilidade que seria explicada
por um modelo que contém apenas a média como preditor.
A relação entre o SST e o SSE é dada pela fórmula: SST = SSE + SSR, onde SSR
representa a soma dos quadrados da regressão. O SSR mede a variabilidade explicada
pelos preditores em relação à média. Em um modelo de regressão perfeito, SSR seria igual
a SST, pois todos os valores de resposta seriam exatamente previstos pelos preditores.
No contexto das árvores de regressão, o SSE e o SST são utilizados para medir o ajuste do
modelo aos dados e avaliar a qualidade das previsões. Uma árvore de regressão é
construída de forma a minimizar o SSE, buscando reduzir a variabilidade não explicada
pelos preditores.
>>>> Supondo que o R² deu 0,80, isso significa que a minha árvore explica 80% da
variância dos dados. O “explicar” nesse caso significa que a variância presente nas
predições correspondem a 80% do que foi observado na variância real?
Cross Validation
A ideia principal por trás da validação cruzada é dividir o conjunto de dados disponível em
partes menores (Treino e Teste) para treinar e testar o modelo várias vezes. Dessa forma, é
possível obter várias medidas de desempenho do modelo e ter uma visão mais geral de
como ele se comporta em diferentes conjuntos de dados.
Existem diferentes abordagens comuns para realizar a validação cruzada.. Uma delas é a
K-Fold Cross-Validation:
Hiperparâmetros:
● Selecionar uma grade de valores: Especificar uma grade de valores possíveis para
cada hiperparâmetro que se deseja ajustar. Por exemplo, pode-se definir uma lista
de diferentes profundidades máximas para uma árvore de decisão ou diferentes
valores para a taxa de aprendizado em um algoritmo de gradient boosting.
● Realizar validação cruzada: Utilizar técnicas de validação cruzada, como K-fold
cross-validation, para avaliar o desempenho do modelo em diferentes combinações
de hiperparâmetros. Para cada conjunto de hiperparâmetros, o modelo é treinado e
avaliado em partições distintas dos dados.
● Avaliar o desempenho: Calcular uma métrica de desempenho (como acurácia,
F1-score, erro médio, etc.) para cada combinação de hiperparâmetros testada. Essa
métrica serve como medida de quão bem o modelo está se saindo em relação aos
dados de validação.
● Selecionar os melhores hiperparâmetros: Identificar a combinação de
hiperparâmetros que apresenta o melhor desempenho de acordo com a métrica
escolhida. Pode-se escolher o conjunto com a maior acurácia, menor erro ou outra
métrica adequada ao problema.
Modelos Ensemble
Existem várias abordagens para criar modelos Ensemble, sendo as mais comuns:
Cada método de agregação tem suas vantagens e pode ser mais adequado para diferentes
problemas e conjuntos de dados. A escolha do método de agregação depende do tipo de
problema (classificação ou regressão) e das características dos dados e das previsões dos
modelos individuais.
Random Forest: O Random Forest é um modelo Ensemble baseado em Bagging que utiliza
árvores de decisão como membros do Ensemble. Nesse método, várias árvores de decisão
são treinadas em conjuntos de dados de treinamento diferentes, e suas previsões são
combinadas por votação.
Stacking: No Stacking, modelos individuais são treinados em um conjunto de dados de
treinamento e suas previsões são usadas como recursos para treinar um modelo de
meta-aprendizado. Esse modelo de meta-aprendizado é então usado para fazer a previsão
final. O Stacking visa capturar relações mais complexas entre as previsões dos modelos
individuais.
Boosting X Bootstrapping