Oficina Dimensão VC

Introduction Bem-vindo à Terra Incógnita Generalização Dilema Viés-Variância
Getting to the Basics: Dimensão VC e

Generalização em Machine Learning
Peng Yaohao e Mateus Hiro Nagata
LAMFO
Peng Yaohao e Mateus Hiro Nagata LAMFO

Dimensão VC e Generalização em Machine Learning
Outline
1 Introduction
Aprendizagem
2 Bem-vindo à Terra Incógnita

Aprendizagem Estatística
3 Generalização
4 Dilema Viés-Variância

Aprendizagem
Framework da Aprendizagem
Machine Learning: queremos uma resposta

1 Existe função ideal:variáveis explicativas → resposta.
2 Disponibilidade dos dados: temos dados que informam tanto
as variáveis explicativas como sua respectiva resposta.
3 Objetivo: Usar certas hipóteses e escolher um algoritmo que
aproxima àquela função ideal

Aprendizagem
A Prova
1 Função ideal
2 Disponibilidade dos dados
3 Objetivo
Tal como temos várias questões de provas anteriores e suas respos-
tas. Precisamos APRENDER o padrão e GENERALIZÁ-lo para a
prova. Essa nos dá perguntas nunca vistas antes, mas aprendemos
o padrão. O âmago da questão é sabermos responder as perguntas
novas da prova.

Aprendizagem
A Matemática da Aprendizagem
Função ideal f:X → Y

Dados de treinamento D = (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
Função aprendida h:X → Y
Queremos f ≈ h nos dados de treinamento (good fitting) ⇔
Ein (h) ≈ 0
Queremos f ≈ h fora dos dados de treinamento
(generalização) ⇔ Eout (h) ≈ Eout (f )

Aprendizagem
Desafios
Desafios
1 Dados com ruído
2 Amostra não representa a população
3 Algoritmo não generaliza bem

Aprendizagem
Desafios
Desafios
1 Dados com ruído → Temos que lidar
2 Amostra não representa a população → Estatística!
3 Algoritmo não generaliza bem → Overfitting

Outline
1 Introduction
Aprendizagem

3 Generalização

Inferindo sobre o Inexplorado
Dados Ruins: amostra que informa muito pouco sobre a população

Precisamos de uma garantia
Ein (h) = Erro da função h dentro dos dados de treino
Eout (h) = Erro da função h fora
= Tolerância do erro
N = Tamanho amostral

CUIDADO
ATENÇÃO! O PRÓXIMO SLIDE CONTÉM MATEMÁTICA

Desigualdade de Hoeffding

P [|Ein (h) − Eout (h)| > ] ≤ 2 exp −22 N


P [|Ein (h) − Eout (h)| > ] ≤ 2 exp −22 N
r
1 2
Eout (g) ≤ Ein (g) + ln
2N δ


P [|Ein (h) − Eout (h)| > ] ≤ 2 exp −22 N
"Avaliando uma hipótese, quando o tamanho amostral N aumenta,
torna-se exponencialmente improvavél que Ein (h) e Eout (h) se dis-
tem mais que "

Analogia da Prova
Teste
P [|Ein − Eout | > ] ≤ 2 exp −22 N
Ein é o quão bem você foi na prova

Eout o quão bem você entendeu o conteúdo (generalizou)
Quanto mais questões na prova (N), mais próximo

Analogia da Prova
Teste
P [|Ein − Eout | > ] ≤ 2 exp −22 N
Treino
P [|Ein − Eout | > ] ≤ 2 · M · exp −22 N
Ein é o quão bem você foi nos treinos

Eout o quão bem você entendeu o conteúdo
Treino contaminado! Memorizou algumas questões, então
discrepância entre resultado e conteúdo é maior que no teste
Preço pago = O quanto você explorou! Quantidade de
hipóteses que são possíveis M !
Dicotomias 2N

Problemas Binários
Quantidade de possíveis resultados: 2N

Dicotomias:
H (x1 , · · · , xN ) = {(h (x1 ) , · · · , h (xN )) |h ∈ H}

Growth Function:
mH (N ) = max |H (x1 , · · · , xN )|
x1 ,··· ,xN ∈X
Número Máximo de Dicotomias:
mH (N ) ≤ 2N

Dicotomias em Perceptron

Outline
1 Introduction
Aprendizagem

3 Generalização

Dimensão VC
Definição. A Dimensão VC de um conjunto de hipóteses H, escrito

dvc , é o maior valor de N que mH (N ) = 2N .
Quantidade de bolinhas que a gente pode usar sem criar
dicotomias impossíveis

Exemplos

O Teorema Mais Importante da Aprendizagem Estatística
mH (N ) ≤ N dvc + 1
Teorema. Para qualquer tolerância δ > 0,
s
8 4mH (2N )
Eout (g) ≤ Ein (g) + ln
N δ
com probabilidade ≥ 1 − δ.
Então, com dados suficientes, toda e qualquer hipótese no H infinito
com dimensão VC finita vai generalizar.

Dimensão VC
dvc finito ⇒ função aprendida g vai generalizar!!

Independente do algoritmo
Independente da distribuição
Independente da função ideal

Desigualdade de Hoeffding Atualizada
2N
P [|Ein − Eout | > ] ≤ 2M e−2
1 2
P [|Ein (g) − Eout (g)| > ] ≤ 4mH (2N )e− 8 N

Outline
1 Introduction
Aprendizagem

3 Generalização

Dilema Viés-Variância

Dilema Viés-Variância
1 Modelo complexo (↑ dvc ) → Ein (g) ≈ 0

2 Modelo simples (↓ dvc ) → Ein (g) ≈ Eout (g)
3 O bom seria um nível intermediário que resulta em mínimo
erro no dado teste

O Bom Intermediário

O Pavor do Overfitting
Quantidade de Dados ↑ Overfitting ↓

Ruído ↑ Overfitting ↑
Complexidade Alvo ↑ Overfitting ↑
Soluções: Bagging, Boosting, Regularization
Validação
Feature Transform
Começar com modelo simples e ir aumentando a complexidade

Getting to the Basics: Dimensão VC e

Generalização em Machine Learning
Peng Yaohao e Mateus Hiro Nagata
LAMFO


Oficina Dimensão VC

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Oficina Dimensão VC

Enviado por

Direitos autorais:

Formatos disponíveis

Introduction Bem-vindo à Terra Incógnita Generalização Dilema Viés-Variância

Getting to the Basics: Dimensão VC e

Peng Yaohao e Mateus Hiro Nagata

Peng Yaohao e Mateus Hiro Nagata LAMFO

2 Bem-vindo à Terra Incógnita

Peng Yaohao e Mateus Hiro Nagata LAMFO

Machine Learning: queremos uma resposta

Peng Yaohao e Mateus Hiro Nagata LAMFO

Peng Yaohao e Mateus Hiro Nagata LAMFO

Função ideal f:X → Y

Peng Yaohao e Mateus Hiro Nagata LAMFO

Peng Yaohao e Mateus Hiro Nagata LAMFO

Peng Yaohao e Mateus Hiro Nagata LAMFO

2 Bem-vindo à Terra Incógnita

Peng Yaohao e Mateus Hiro Nagata LAMFO

Inferindo sobre o Inexplorado

Dados Ruins: amostra que informa muito pouco sobre a população

Peng Yaohao e Mateus Hiro Nagata LAMFO

ATENÇÃO! O PRÓXIMO SLIDE CONTÉM MATEMÁTICA

Peng Yaohao e Mateus Hiro Nagata LAMFO

Peng Yaohao e Mateus Hiro Nagata LAMFO

Peng Yaohao e Mateus Hiro Nagata LAMFO

Peng Yaohao e Mateus Hiro Nagata LAMFO

Ein é o quão bem você foi na prova

Peng Yaohao e Mateus Hiro Nagata LAMFO

Ein é o quão bem você foi nos treinos

Peng Yaohao e Mateus Hiro Nagata LAMFO

Quantidade de possíveis resultados: 2N

H (x1 , · · · , xN ) = {(h (x1 ) , · · · , h (xN )) |h ∈ H}

Número Máximo de Dicotomias:

Peng Yaohao e Mateus Hiro Nagata LAMFO

Peng Yaohao e Mateus Hiro Nagata LAMFO

2 Bem-vindo à Terra Incógnita

Peng Yaohao e Mateus Hiro Nagata LAMFO

Definição. A Dimensão VC de um conjunto de hipóteses H, escrito

Peng Yaohao e Mateus Hiro Nagata LAMFO

Peng Yaohao e Mateus Hiro Nagata LAMFO

O Teorema Mais Importante da Aprendizagem Estatística

Peng Yaohao e Mateus Hiro Nagata LAMFO

dvc finito ⇒ função aprendida g vai generalizar!!

Peng Yaohao e Mateus Hiro Nagata LAMFO

Desigualdade de Hoeffding Atualizada

Peng Yaohao e Mateus Hiro Nagata LAMFO

2 Bem-vindo à Terra Incógnita

Peng Yaohao e Mateus Hiro Nagata LAMFO

Peng Yaohao e Mateus Hiro Nagata LAMFO

1 Modelo complexo (↑ dvc ) → Ein (g) ≈ 0

Peng Yaohao e Mateus Hiro Nagata LAMFO

Peng Yaohao e Mateus Hiro Nagata LAMFO

Quantidade de Dados ↑ Overfitting ↓

Peng Yaohao e Mateus Hiro Nagata LAMFO

Getting to the Basics: Dimensão VC e

Peng Yaohao e Mateus Hiro Nagata

Peng Yaohao e Mateus Hiro Nagata LAMFO

Você também pode gostar