Teoria Do Aprendizado Estatístico - pt2

Teoria da Aprendizagem
Estatística
Disciplina: Teoria do Aprendizado Estatístico
Professora Mestra Camila Gonçalves Costa

Curso: Ciência de Dados – FATEC Adamantina
4° Semestre
Tipo de dados
• De forma geral, a base de dados é
dividida em basicamente duas
partes: dados de treino e dados de
teste.
• Os dados de treino serão usados pelo
método para fazer a previsão ou
inferência. Os dados de teste serão
usados para avaliar o método.
• Existem outras formas de fazer essa
divisão, dependendo do que se
pretende obter e do método
utilizado.
Fatec de Adamantina - Profa Ma Camila Gonçalves 2

Dados de treino:
usados para treinar o
algoritmo
Dados de validação:
usados para avaliar a
qualidade do
treinamento
Dados de teste: novas
observações que ainda
não temos a resposta
(não é possível avaliar)
Métodos Paramétricos e Não Paramétricos
Nosso objetivo é aplicar um método de aprendizado estatístico aos

dados de treinamento para estimar a função desconhecida f.
Em outras palavras, queremos encontrar uma função 𝑓መ tal que Y ≈ 𝑓(X)

መ
para qualquer observação (X, Y). De um modo geral, a maioria dos

métodos de aprendizagem estatística para esta tarefa pode ser
caracterizada como paramétrica ou não paramétrica.

Métodos Paramétricos
• Reduz o problema de estimar f a um problema de escolher o seu formato mais ideal e
estimar um conjunto de parâmetros (a abordagem mais comum é o método dos
mínimos quadrados – regressão linear, múltipla....);
• Exemplo: Se supomos que o formato de f é linear, o problema consiste em encontrar os
parâmetros β0,β1, . . . ,βp para o modelo
Y ≈ β0 + β1X1 + β2X2 + · · · + βpXp.
• Vantagem: facilidade e uso de poucas observações.
• Desvantagem: o modelo que escolhemos geralmente não corresponde à verdadeira
forma desconhecida de f. Poderíamos escolher modelos mais flexíveis, mas isto
custaria estimar um número maior de parâmetros, o que poderia levar a um super
ajuste dos dados. Fatec de Adamantina - Profa Ma Camila Gonçalves 5
O super ajuste ocorre quando encontramos uma
função que corresponde muito bem aos dados de
treinamento, mas muito mal aos dados de teste.
Exemplo: No reconhecimento de possíveis
inadimplentes, um modelo super ajustado pode
reconhecer uma característica que não tem
relação com inadimplentes (ter barba ou não ter
bicicleta, por exemplo).

Métodos não paramétricos
• Não fazem suposições explícitas sobre a forma funcional de f. Buscam
uma estimativa de f que se aproxime o máximo possível dos pontos
de dados, sem ser muito grosseira ou sinuosa;
• Têm o potencial de ajustar com precisão uma gama mais ampla de
formas possíveis para f;
• É possível fazer um ajuste selecionando um nível de suavidade;
• Desvantagem: Um número muito grande de observações (muito mais
do que normalmente é necessário para uma abordagem paramétrica)
é necessário para obter uma estimativa precisa para f. Também pode
ocorrer super ajuste.
Nível mais baixo de suavidade – ajuste mais grosseiro
Super ajuste
• spline de placa fina – curva de ajuste:

quadrática, cúbica...
Flexibilidade é a capacidade
Interpretabilidade do modelo do modelo de acompanhar o
dados.
• Dos muitos métodos existentes, alguns são menos flexíveis ou mais

restritivos, no sentido de que podem produzir apenas uma faixa
relativamente pequena de formas para estimar f;
• A regressão linear por exemplo é uma abordagem relativamente inflexível;
• Os splines de placas finas, são consideravelmente mais flexíveis porque

podem gerar uma gama muito maior de formas possíveis para estimar f;

Por que escolheríamos usar um método mais
restritivo em vez de um muito flexível?
• Se estivermos interessados principalmente em inferência, então os
modelos restritivos são muito mais interpretáveis (por exemplo o modelo
linear, em que é fácil entender como os preditores (X1, X2, ...) estão
associados à resposta Y);
• Abordagens muito flexíveis, como as splines, podem levar a estimativas
tão complicadas de f que é difícil entender como qualquer preditor
individual está associado à resposta (menos/nada interpretáveis);
• Em algumas configurações, no entanto, estamos interessados apenas na
previsão, e a interpretabilidade do modelo preditivo simplesmente não é
interessante (prever o preço de uma ação, por exemplo).

Regressão
Funções
polinomiais de
grau mais alto
são mais
flexíveis que
funções
polinomiais de
grau menor,
por exemplo.
• Surpreendentemente, com frequência obteremos previsões mais precisas

usando um método menos flexível (tem a ver com o potencial de super
ajuste em métodos altamente flexíveis). 11
Fatec de Adamantina - Profa Ma Camila Gonçalves
Avaliação da precisão do modelo
• Por que é necessário introduzir tantas abordagens diferentes de
aprendizado estatístico, em vez de apenas um único método melhor?
• Nenhum método domina todos os outros sobre todos os conjuntos
de dados possíveis.
• Em um determinado conjunto de dados, um método específico pode
funcionar melhor, mas algum outro método pode funcionar melhor
em um conjunto de dados semelhante, mas diferente.
• É uma tarefa importante decidir, para qualquer conjunto de dados,
qual método produz os melhores resultados.
• Selecionar a melhor abordagem pode ser uma das partes mais
desafiadoras da realização do aprendizado estatístico na prática.
Medindo a qualidade do ajuste
• Para avaliar o desempenho de um método de aprendizado
estatístico em um determinado conjunto de dados, precisamos de
alguma forma medir o quão bem suas previsões realmente
correspondem aos dados observados.
• Até que ponto o valor de resposta previsto para uma determinada
observação está próximo do valor de resposta real para essa
observação?
13
Medindo a qualidade do ajuste
• Na configuração de regressão, por exemplo, a medida mais comumente
usada é o erro quadrático médio (EQM, em inglês MSE), dado por
𝑛
1 2
መ
𝐸𝑄𝑀 = ෍ 𝑦𝑖 − 𝑓(𝑥𝑖 ) ,
𝑛
𝑖=1
መ
onde 𝑓(𝑥𝑖) é a previsão que 𝑓መ fornece para a i-ésima observação.
• O EQM será pequeno se as respostas previstas estiverem muito próximas
das respostas verdadeiras e será grande se, para algumas das observações,
as respostas previstas e verdadeiras diferirem substancialmente.
14
EQM
• O EQM é calculado usando os dados de treinamento que foram
usados para ajustar o modelo e, portanto, deve ser referido com
mais precisão como o EQM de treinamento.
• Estamos interessados na precisão das previsões que obtemos

quando aplicamos nosso método a dados de teste inéditos, e não
nos dados de treinamento.
15
EQM
• Suponha que estejamos interessados em desenvolver um algoritmo para
prever o preço de uma ação com base nos retornos de ações anteriores.
Podemos treinar o método usando retornos de ações dos últimos 6 meses.
Mas realmente não nos importamos com o quão bem nosso método prevê o
preço das ações da semana passada. Em vez disso, nos preocupamos com o
quão bem ele preverá o preço de amanhã ou o preço do próximo mês.
• Queremos escolher o método que fornece o menor EQM de teste, em

oposição ao menor EQM de treinamento.
16
O EQM de treinamento e o
EQM de teste podem ter
relação ou não.

• À medida que a flexibilidade do método de aprendizado estatístico aumenta,
observamos uma diminuição monótona no EQM de treinamento e uma forma
de U no EQM de teste.
• Essa é uma propriedade fundamental do aprendizado estatístico que se mantém

independentemente do conjunto de dados específico disponível e do método
estatístico usado.
• À medida que a flexibilidade do modelo aumenta, o EQM de treinamento

diminui, mas o EQM de teste pode não diminuir.
• Quando um determinado método produz um pequeno EQM de treinamento,

mas um grande EQM de teste, diz-se que estamos super ajustando os dados.
Ex.
• Regressão linear (curva laranja) e dois • EQM de treinamento (curva cinza), EQM de teste
(curva vermelha) e EQM de teste mínimo possível
ajustes de spline de suavização (curvas em todos os métodos (linha tracejada). Os
azul e verde) quadrados representam os EQMs de treinamento e
teste para os três ajustes mostrados no painel
esquerdo. 19
Ex.
• Curva em preto representa a • EQM de treinamento (curva cinza), EQM de teste

(curva vermelha) e EQM de teste mínimo possível
realidade – é uma curva mais em todos os métodos (linha tracejada). Os
quadrados representam os EQMs de treinamento e
simples que a do slide anterior teste para os três ajustes mostrados no painel
esquerdo.
Ex.
• Curva em preto representa a • EQM de treinamento (curva cinza), EQM de teste

realidade – é uma curva mais (curva vermelha) e EQM de teste mínimo possível
em todos os métodos (linha tracejada). Os
complexa que nos casos quadrados representam os EQMs de treinamento e
anteriores teste para os três ajustes mostrados no painel
esquerdo.
• Isso acontece porque o método está trabalhando muito para encontrar
padrões nos dados de treinamento e pode estar captando alguns
padrões que são causados apenas por acaso, e não por propriedades
verdadeiras da função desconhecida f.
• Quando super ajustamos os dados de treinamento, o EQM de teste

será muito grande porque os supostos padrões que o método
encontrou nos dados de treinamento não existem nos dados de teste.
• Independentemente da ocorrência ou não de super ajuste, quase

sempre esperamos que o EQM de treinamento seja menor do que o
EQM de teste, porque a maioria dos métodos de aprendizado
estatístico procura direta ou indiretamente minimizar o EQM de
treinamento.
Questões de estudo
1) Destaque a(s) principal(ais) diferença(s) entre:
a) Métodos paramétricos e não paramétricos
b) EQM de teste e EQM de treinamento.
c) Dados de teste e dados de treinamento.
d) EQM, flexibilidade e super ajuste.
2) Quando é mais interessante um modelo mais interpretável? E um
menos interpretável?

Referências Bibliográficas
• GARETH, J.; WITTEN, D.; HASTIE, T.; TIBSHIRANI, R. An Introduction
to Statistical Learning: with applications in R. New Yoork: Springer,
2013.
• HASTIE, T; TIBSHIRANI, R; FRIEDMAN, J. The Elements of Statistical
Learning. New Yoork: Springer, 2008.

Teoria Do Aprendizado Estatístico - pt2

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Teoria Do Aprendizado Estatístico - pt2

Enviado por

Direitos autorais:

Formatos disponíveis

Teoria da Aprendizagem

Professora Mestra Camila Gonçalves Costa

Fatec de Adamantina - Profa Ma Camila Gonçalves 2

Nosso objetivo é aplicar um método de aprendizado estatístico aos

Em outras palavras, queremos encontrar uma função 𝑓መ tal que Y ≈ 𝑓(X)

para qualquer observação (X, Y). De um modo geral, a maioria dos

Fatec de Adamantina - Profa Ma Camila Gonçalves 4

Fatec de Adamantina - Profa Ma Camila Gonçalves 6

• spline de placa fina – curva de ajuste:

• Dos muitos métodos existentes, alguns são menos flexíveis ou mais

• A regressão linear por exemplo é uma abordagem relativamente inflexível;

• Os splines de placas finas, são consideravelmente mais flexíveis porque

Fatec de Adamantina - Profa Ma Camila Gonçalves 9

Fatec de Adamantina - Profa Ma Camila Gonçalves 10

• Surpreendentemente, com frequência obteremos previsões mais precisas

• Estamos interessados na precisão das previsões que obtemos

• Queremos escolher o método que fornece o menor EQM de teste, em

Fatec de Adamantina - Profa Ma Camila Gonçalves 17

• Essa é uma propriedade fundamental do aprendizado estatístico que se mantém

• À medida que a flexibilidade do modelo aumenta, o EQM de treinamento

• Quando um determinado método produz um pequeno EQM de treinamento,

• Curva em preto representa a • EQM de treinamento (curva cinza), EQM de teste

• Curva em preto representa a • EQM de treinamento (curva cinza), EQM de teste

• Quando super ajustamos os dados de treinamento, o EQM de teste

• Independentemente da ocorrência ou não de super ajuste, quase

Fatec de Adamantina - Profa Ma Camila Gonçalves 23

• GARETH, J.; WITTEN, D.; HASTIE, T.; TIBSHIRANI, R. An Introduction

to Statistical Learning: with applications in R. New Yoork: Springer,

• HASTIE, T; TIBSHIRANI, R; FRIEDMAN, J. The Elements of Statistical

Learning. New Yoork: Springer, 2008.

Fatec de Adamantina - Profa Ma Camila Gonçalves 24

Você também pode gostar