Videoaula 13 M4 Modelos de Regressao Revisto

Modelos de regressão
Modelos de regressão buscam encontrar um modelo

matemático, isto é, uma função que se comporte
aproximadamente como os dados.
Para que o modelo possa ser encontrado, faz-se necessário
conhecer uma amostra dos dados que o modelo deve
aproximar. Esse fato torna os modelos de regressão
supervisionados.
Uma vez definido o modelo, o valor da função em qualquer
ponto pode ser calculado substituindo-se o valor dos atributos
no modelo.
Métodos de
regressão fazem
uma hipótese
sobre o tipo do
?
modelo
y
matemático.
Por exemplo,
hipótese linear:
x
y=a*x+b
Dado um valor x qualquer, qual é o
valor de y correspondente?
atributos
Modelos lineares podem envolver diversas
variáveis, podendo modelar problemas em
que os dados contêm vários atributos.
coeficientes
𝑦 = 𝑎1 𝑥1 + 𝑎2 𝑥2 + 𝑎3 𝑥3 + ⋯ + 𝑎𝑛 𝑥𝑛 + 𝑏
atributos
dado de treinamento
Definido o tipo do modelo e o dado de treinamento, os
coeficientes são calculados de modo a minimizar o erro entre o
modelo e os dados.
número de amostras no dado de treinamento
𝑘
Erro total = ෍(𝑦 − 𝑎1 𝑥1 + 𝑎2 𝑥2 + 𝑎3 𝑥3 + ⋯ + 𝑎𝑛 𝑥𝑛 + 𝑏)2
Erro
Existem diversas alternativas matemáticas

para calcular os coeficientes:
 métodos de otimização e
 álgebra linear: mínimos quadrados.
Cuidados que devem ser tomados no cálculo de regressão:
 atributos devem estar normalizados a fim de evitar que um
atributo seja privilegiado por causa da sua escala;
 outliers afetam significativamente o cálculo dos coeficientes,
devendo ser evitados nos dados de treinamento;
 se a diferença entre o menor e o maior valor de um atributo
(ou da variável de predição) é muito grande, deve-se aplicar
uma transformação nos valores antes de utilizar a regressão e
 atributos altamente correlacionados não devem ser utilizados
simultaneamente no modelo de regressão, pois dificultam a
análise do modelo e o cálculo dos coeficientes.
Uma das vantagens da regressão linear é a interpretabilidade do modelo gerado.
Se todos os atributos são igualmente importantes para predizer a variável y,
então os coeficientes associados a todos os atributos devem possuir magnitudes
semelhantes.
Coeficientes de maior magnitude (mais distantes de zero) apontam uma maior
importância do atributo na predição da variável y.
𝑦 = 𝑎1 𝑥1 + 𝑎2 𝑥2 + 𝑎3 𝑥3 + 𝑏
calculando os coeficientes a partir dos dados
𝑎1 = 5.04 Atributos x1 e x2 são

𝑎2 = 3.03 mais importantes para
𝑎3 = 0.02 a predição.
Existem alguns métodos matemáticos para o cálculo dos
coeficientes que ”forçam” coeficientes menos relevantes a terem
valores próximos de zero:
 regressão Ridge e
 regressão Lasso.
Tais métodos utilizam os chamados termos de regularização. A
vantagem é óbvia, pois obter coeficientes próximos de zero é
ótimo para identificar atributos pouco relevantes.
Tais métodos, contudo, empregam um parâmetro que ajusta o
peso do termo de regularização no cálculo dos coeficientes, e o
ajuste desse parâmetro pode não ser tarefa fácil.
Eficácia do método de predição
 A validação do modelo de predição é feita dividindo-se os dados
de treinamento em duas partes: treinamento e teste.
 A regressão é feita (cálculo dos coeficientes) utilizando-se os
dados de treinamento, e o modelo gerado é avaliado nos dados
de teste.
 Como o modelo muda dependendo do dado de treinamento, o
que se faz é utilizar um mecanismo chamado validação cruzada.
 Validação cruzada: várias amostras de treinamento e teste são
geradas aleatoriamente a partir dos dados conhecidos. A eficácia
e a predição são obtidas calculando-se o erro médio e o valor
médio predito a partir de todos os modelos produzidos.
Técnicas de regressão geram modelos fáceis de se
interpretarem. Devem, contudo, ser utilizadas com cautela,
normalizando e transformando atributos quando necessário.
Validação cruzada é uma estratégia importante e muito

utilizada no contexto de modelos de regressão.
TODOS OS DIREITOS RESERVADOS.

Videoaula 13 M4 Modelos de Regressao Revisto

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Videoaula 13 M4 Modelos de Regressao Revisto

Enviado por

Direitos autorais:

Formatos disponíveis

Modelos de regressão

Modelos de regressão buscam encontrar um modelo

Erro total = ෍(𝑦 − 𝑎1 𝑥1 + 𝑎2 𝑥2 + 𝑎3 𝑥3 + ⋯ + 𝑎𝑛 𝑥𝑛 + 𝑏)2

Existem diversas alternativas matemáticas

calculando os coeficientes a partir dos dados

𝑎1 = 5.04 Atributos x1 e x2 são

Validação cruzada é uma estratégia importante e muito

Você também pode gostar