Você está na página 1de 24

Teoria da Aprendizagem

Estatística
Disciplina: Teoria do Aprendizado Estatístico

Professora Mestra Camila Gonçalves Costa


Curso: Ciência de Dados – FATEC Adamantina
4° Semestre
Tipo de dados
• De forma geral, a base de dados é
dividida em basicamente duas
partes: dados de treino e dados de
teste.
• Os dados de treino serão usados pelo
método para fazer a previsão ou
inferência. Os dados de teste serão
usados para avaliar o método.
• Existem outras formas de fazer essa
divisão, dependendo do que se
pretende obter e do método
utilizado.

Fatec de Adamantina - Profa Ma Camila Gonçalves 2


Dados de treino:
usados para treinar o
algoritmo
Dados de validação:
usados para avaliar a
qualidade do
treinamento
Dados de teste: novas
observações que ainda
não temos a resposta
(não é possível avaliar)
Fatec de Adamantina - Profa Ma Camila Gonçalves 3
Métodos Paramétricos e Não Paramétricos

Nosso objetivo é aplicar um método de aprendizado estatístico aos


dados de treinamento para estimar a função desconhecida f.

Em outras palavras, queremos encontrar uma função 𝑓መ tal que Y ≈ 𝑓(X)


para qualquer observação (X, Y). De um modo geral, a maioria dos


métodos de aprendizagem estatística para esta tarefa pode ser
caracterizada como paramétrica ou não paramétrica.

Fatec de Adamantina - Profa Ma Camila Gonçalves 4


Métodos Paramétricos
• Reduz o problema de estimar f a um problema de escolher o seu formato mais ideal e
estimar um conjunto de parâmetros (a abordagem mais comum é o método dos
mínimos quadrados – regressão linear, múltipla....);
• Exemplo: Se supomos que o formato de f é linear, o problema consiste em encontrar os
parâmetros β0,β1, . . . ,βp para o modelo
Y ≈ β0 + β1X1 + β2X2 + · · · + βpXp.
• Vantagem: facilidade e uso de poucas observações.
• Desvantagem: o modelo que escolhemos geralmente não corresponde à verdadeira
forma desconhecida de f. Poderíamos escolher modelos mais flexíveis, mas isto
custaria estimar um número maior de parâmetros, o que poderia levar a um super
ajuste dos dados. Fatec de Adamantina - Profa Ma Camila Gonçalves 5
O super ajuste ocorre quando encontramos uma
função que corresponde muito bem aos dados de
treinamento, mas muito mal aos dados de teste.
Exemplo: No reconhecimento de possíveis
inadimplentes, um modelo super ajustado pode
reconhecer uma característica que não tem
relação com inadimplentes (ter barba ou não ter
bicicleta, por exemplo).

Fatec de Adamantina - Profa Ma Camila Gonçalves 6


Métodos não paramétricos
• Não fazem suposições explícitas sobre a forma funcional de f. Buscam
uma estimativa de f que se aproxime o máximo possível dos pontos
de dados, sem ser muito grosseira ou sinuosa;
• Têm o potencial de ajustar com precisão uma gama mais ampla de
formas possíveis para f;
• É possível fazer um ajuste selecionando um nível de suavidade;
• Desvantagem: Um número muito grande de observações (muito mais
do que normalmente é necessário para uma abordagem paramétrica)
é necessário para obter uma estimativa precisa para f. Também pode
ocorrer super ajuste.
Fatec de Adamantina - Profa Ma Camila Gonçalves 7
Nível mais baixo de suavidade – ajuste mais grosseiro
Super ajuste

• spline de placa fina – curva de ajuste:


quadrática, cúbica...
Fatec de Adamantina - Profa Ma Camila Gonçalves 8
Flexibilidade é a capacidade
Interpretabilidade do modelo do modelo de acompanhar o
dados.

• Dos muitos métodos existentes, alguns são menos flexíveis ou mais


restritivos, no sentido de que podem produzir apenas uma faixa
relativamente pequena de formas para estimar f;

• A regressão linear por exemplo é uma abordagem relativamente inflexível;

• Os splines de placas finas, são consideravelmente mais flexíveis porque


podem gerar uma gama muito maior de formas possíveis para estimar f;

Fatec de Adamantina - Profa Ma Camila Gonçalves 9


Por que escolheríamos usar um método mais
restritivo em vez de um muito flexível?
• Se estivermos interessados principalmente em inferência, então os
modelos restritivos são muito mais interpretáveis (por exemplo o modelo
linear, em que é fácil entender como os preditores (X1, X2, ...) estão
associados à resposta Y);
• Abordagens muito flexíveis, como as splines, podem levar a estimativas
tão complicadas de f que é difícil entender como qualquer preditor
individual está associado à resposta (menos/nada interpretáveis);
• Em algumas configurações, no entanto, estamos interessados apenas na
previsão, e a interpretabilidade do modelo preditivo simplesmente não é
interessante (prever o preço de uma ação, por exemplo).

Fatec de Adamantina - Profa Ma Camila Gonçalves 10


Regressão

Funções
polinomiais de
grau mais alto
são mais
flexíveis que
funções
polinomiais de
grau menor,
por exemplo.

• Surpreendentemente, com frequência obteremos previsões mais precisas


usando um método menos flexível (tem a ver com o potencial de super
ajuste em métodos altamente flexíveis). 11
Fatec de Adamantina - Profa Ma Camila Gonçalves
Avaliação da precisão do modelo
• Por que é necessário introduzir tantas abordagens diferentes de
aprendizado estatístico, em vez de apenas um único método melhor?
• Nenhum método domina todos os outros sobre todos os conjuntos
de dados possíveis.
• Em um determinado conjunto de dados, um método específico pode
funcionar melhor, mas algum outro método pode funcionar melhor
em um conjunto de dados semelhante, mas diferente.
• É uma tarefa importante decidir, para qualquer conjunto de dados,
qual método produz os melhores resultados.
• Selecionar a melhor abordagem pode ser uma das partes mais
desafiadoras da realização do aprendizado estatístico na prática.
Fatec de Adamantina - Profa Ma Camila Gonçalves 12
Medindo a qualidade do ajuste
• Para avaliar o desempenho de um método de aprendizado
estatístico em um determinado conjunto de dados, precisamos de
alguma forma medir o quão bem suas previsões realmente
correspondem aos dados observados.
• Até que ponto o valor de resposta previsto para uma determinada
observação está próximo do valor de resposta real para essa
observação?

13
Fatec de Adamantina - Profa Ma Camila Gonçalves
Medindo a qualidade do ajuste
• Na configuração de regressão, por exemplo, a medida mais comumente
usada é o erro quadrático médio (EQM, em inglês MSE), dado por

𝑛
1 2

𝐸𝑄𝑀 = ෍ 𝑦𝑖 − 𝑓(𝑥𝑖 ) ,
𝑛
𝑖=1


onde 𝑓(𝑥𝑖) é a previsão que 𝑓መ fornece para a i-ésima observação.
• O EQM será pequeno se as respostas previstas estiverem muito próximas
das respostas verdadeiras e será grande se, para algumas das observações,
as respostas previstas e verdadeiras diferirem substancialmente.

14
Fatec de Adamantina - Profa Ma Camila Gonçalves
EQM
• O EQM é calculado usando os dados de treinamento que foram
usados para ajustar o modelo e, portanto, deve ser referido com
mais precisão como o EQM de treinamento.

• Estamos interessados na precisão das previsões que obtemos


quando aplicamos nosso método a dados de teste inéditos, e não
nos dados de treinamento.

15
Fatec de Adamantina - Profa Ma Camila Gonçalves
EQM
• Suponha que estejamos interessados em desenvolver um algoritmo para
prever o preço de uma ação com base nos retornos de ações anteriores.
Podemos treinar o método usando retornos de ações dos últimos 6 meses.
Mas realmente não nos importamos com o quão bem nosso método prevê o
preço das ações da semana passada. Em vez disso, nos preocupamos com o
quão bem ele preverá o preço de amanhã ou o preço do próximo mês.

• Queremos escolher o método que fornece o menor EQM de teste, em


oposição ao menor EQM de treinamento.
16
Fatec de Adamantina - Profa Ma Camila Gonçalves
O EQM de treinamento e o
EQM de teste podem ter
relação ou não.

Fatec de Adamantina - Profa Ma Camila Gonçalves 17


• À medida que a flexibilidade do método de aprendizado estatístico aumenta,
observamos uma diminuição monótona no EQM de treinamento e uma forma
de U no EQM de teste.

• Essa é uma propriedade fundamental do aprendizado estatístico que se mantém


independentemente do conjunto de dados específico disponível e do método
estatístico usado.

• À medida que a flexibilidade do modelo aumenta, o EQM de treinamento


diminui, mas o EQM de teste pode não diminuir.

• Quando um determinado método produz um pequeno EQM de treinamento,


mas um grande EQM de teste, diz-se que estamos super ajustando os dados.
Fatec de Adamantina - Profa Ma Camila Gonçalves 18
Ex.

• Regressão linear (curva laranja) e dois • EQM de treinamento (curva cinza), EQM de teste
(curva vermelha) e EQM de teste mínimo possível
ajustes de spline de suavização (curvas em todos os métodos (linha tracejada). Os
azul e verde) quadrados representam os EQMs de treinamento e
teste para os três ajustes mostrados no painel
esquerdo. 19
Fatec de Adamantina - Profa Ma Camila Gonçalves
Ex.

• Curva em preto representa a • EQM de treinamento (curva cinza), EQM de teste


(curva vermelha) e EQM de teste mínimo possível
realidade – é uma curva mais em todos os métodos (linha tracejada). Os
quadrados representam os EQMs de treinamento e
simples que a do slide anterior teste para os três ajustes mostrados no painel
esquerdo.
Fatec de Adamantina - Profa Ma Camila Gonçalves 20
Ex.

• Curva em preto representa a • EQM de treinamento (curva cinza), EQM de teste


realidade – é uma curva mais (curva vermelha) e EQM de teste mínimo possível
em todos os métodos (linha tracejada). Os
complexa que nos casos quadrados representam os EQMs de treinamento e
anteriores teste para os três ajustes mostrados no painel
esquerdo.
Fatec de Adamantina - Profa Ma Camila Gonçalves 21
• Isso acontece porque o método está trabalhando muito para encontrar
padrões nos dados de treinamento e pode estar captando alguns
padrões que são causados apenas por acaso, e não por propriedades
verdadeiras da função desconhecida f.

• Quando super ajustamos os dados de treinamento, o EQM de teste


será muito grande porque os supostos padrões que o método
encontrou nos dados de treinamento não existem nos dados de teste.

• Independentemente da ocorrência ou não de super ajuste, quase


sempre esperamos que o EQM de treinamento seja menor do que o
EQM de teste, porque a maioria dos métodos de aprendizado
estatístico procura direta ou indiretamente minimizar o EQM de
treinamento.
Fatec de Adamantina - Profa Ma Camila Gonçalves 22
Questões de estudo
1) Destaque a(s) principal(ais) diferença(s) entre:
a) Métodos paramétricos e não paramétricos
b) EQM de teste e EQM de treinamento.
c) Dados de teste e dados de treinamento.
d) EQM, flexibilidade e super ajuste.
2) Quando é mais interessante um modelo mais interpretável? E um
menos interpretável?

Fatec de Adamantina - Profa Ma Camila Gonçalves 23


Referências Bibliográficas

• GARETH, J.; WITTEN, D.; HASTIE, T.; TIBSHIRANI, R. An Introduction

to Statistical Learning: with applications in R. New Yoork: Springer,

2013.

• HASTIE, T; TIBSHIRANI, R; FRIEDMAN, J. The Elements of Statistical

Learning. New Yoork: Springer, 2008.

Fatec de Adamantina - Profa Ma Camila Gonçalves 24

Você também pode gostar