Você está na página 1de 29

Ensemble Learning &

Florestas Aleatórias
Prof. Genaro Dueire Lins
Classificadores de Votação

Roteiro Bagging & Pasting

No Scikit-Learn

Avaliação Out-of-Bag

Florestas Aleatórias

Importância das Características


Classificadores de Votação

Roteiro Bagging & Pasting

No Scikit-Learn

Avaliação Out-of-Bag

Florestas Aleatórias

Importância das Características


Classificadores
de Votação
Previsões do Classificador
Hard Voting
A combinação de
modelos fracos
consegue se tornar
um modelo forte.
Como seria
possível?
Efeito da Lei dos Grandes
Números
Vamos agora
testar vários
modelos
Estimativa de Ensemble Learning usando Hard
Voting
Agora usando soft voting
Classificadores de Votação

Roteiro Bagging & Pasting

No Scikit-Learn

Avaliação Out-of-Bag

Florestas Aleatórias

Importância das Características


Bagging & Pasting

• Bagging – A instância de
treinamento pode ser
amostrada diversas vezes no
mesmo previsor.

• Pasting – Instância de
treinamento só pode ser
amostrada uma vez por
preditor
Classificadores de Votação

Roteiro Bagging & Pasting

No Scikit-Learn

Avaliação Out-of-Bag

Florestas Aleatórias

Importância das Características


Exemplo de
árvore de decisão
única versus um
bagging
ensemble de 500
árvores Assertividade com Bagging

Assertividade árvore
normal
Exemplo de arvore de decisão única versus um
bagging ensemble de 500 árvores
Classificadores de Votação

Roteiro Bagging & Pasting

No Scikit-Learn

Avaliação Out-of-Bag

Florestas Aleatórias

Importância das Características


Bagging possui um viés
ligeiramente mais alto
que o pasting.

Diferença Porém, isso significa que


de os preditos acabam
Predição sendo menos correlatos.

A validação é a prova
dos 9!
Qual a probabilidade em um
grupo de n pessoas ter pelo
menos duas que fazem a fazerem
aniversário no mesmo dia?
Qual a probabilidade de nenhuma delas fazer
aniversário no mesmo dia?

1 1 1
1− ∗ 1− ∗ ⋯∗ 1 −
364 363 365 − 𝑛

Logo, a chance de termos ao menos dois com aniversario no


mesmo dia é:
1 1 1
1− 1− ∗ 1− ∗ ⋯∗ 1 −
364 363 365 − 𝑛
Probabilidade
de
coincidência
na data do
aniversário
Probabilidade de Instância pertencer a amostra

Avaliação Out-of-Bag 1,2

1 A cada rodada ganhamos uma


37% amostra de validação
• BaggingClassifier amostra m instâncias independente da rodada anterior.
de treinamento com substituição sendo 0,8

m o tamanho do conjunto.
• A probabilidade de uma instância não 0,6

sair é:
! "
• 1− ~37% 0,4
"
63% Amostra de treino
0,2
• Logo, a probabilidade da instância não
! "
sair é 1 − 1 − ~ 63%
" 0
0 5 10 15 20 25 30 35 40 45
No Scikit-Learn
Classificadores de Votação

Roteiro Bagging & Pasting

No Scikit-Learn

Avaliação Out-of-Bag

Florestas Aleatórias

Importância das Características


Floresta Aleatórias

• É um ensemble de Árvores de
Decisão, geralmente,
treinados pelo método de
bagging com max_samples
ajustadas ao conjunto de
treinamento.
• Além disso, usa também um
subconjunto aleatório de
características.
No Scikit-Learn
Classificadores de Votação

Roteiro Bagging & Pasting

No Scikit-Learn

Avaliação Out-of-Bag

Florestas Aleatórias

Importância das Características


Importância
da
Característica
Exemplo: Iris
Importância da
Característica
Exemplo:
MNIST
Classificadores de Votação

Roteiro Bagging & Pasting

No Scikit-Learn

Avaliação Out-of-Bag

Florestas Aleatórias

Importância das Características

Você também pode gostar