Você está na página 1de 10

Modelos de regressão

Modelos de regressão buscam encontrar um modelo


matemático, isto é, uma função que se comporte
aproximadamente como os dados.
Para que o modelo possa ser encontrado, faz-se necessário
conhecer uma amostra dos dados que o modelo deve
aproximar. Esse fato torna os modelos de regressão
supervisionados.
Uma vez definido o modelo, o valor da função em qualquer
ponto pode ser calculado substituindo-se o valor dos atributos
no modelo.
Modelos de regressão
Métodos de
regressão fazem
uma hipótese
sobre o tipo do
?
modelo
y
matemático.
Por exemplo,
hipótese linear:
x
y=a*x+b
Dado um valor x qualquer, qual é o
valor de y correspondente?
Modelos de regressão
atributos
Modelos lineares podem envolver diversas
variáveis, podendo modelar problemas em
que os dados contêm vários atributos.
coeficientes

𝑦 = 𝑎1 𝑥1 + 𝑎2 𝑥2 + 𝑎3 𝑥3 + ⋯ + 𝑎𝑛 𝑥𝑛 + 𝑏

atributos

dado de treinamento
Modelos de regressão
Definido o tipo do modelo e o dado de treinamento, os
coeficientes são calculados de modo a minimizar o erro entre o
modelo e os dados.
número de amostras no dado de treinamento
𝑘

Erro total = ෍(𝑦 − 𝑎1 𝑥1 + 𝑎2 𝑥2 + 𝑎3 𝑥3 + ⋯ + 𝑎𝑛 𝑥𝑛 + 𝑏)2

Erro

Existem diversas alternativas matemáticas


para calcular os coeficientes:
 métodos de otimização e
 álgebra linear: mínimos quadrados.
Modelos de regressão
Cuidados que devem ser tomados no cálculo de regressão:
 atributos devem estar normalizados a fim de evitar que um
atributo seja privilegiado por causa da sua escala;
 outliers afetam significativamente o cálculo dos coeficientes,
devendo ser evitados nos dados de treinamento;
 se a diferença entre o menor e o maior valor de um atributo
(ou da variável de predição) é muito grande, deve-se aplicar
uma transformação nos valores antes de utilizar a regressão e
 atributos altamente correlacionados não devem ser utilizados
simultaneamente no modelo de regressão, pois dificultam a
análise do modelo e o cálculo dos coeficientes.
Modelos de regressão
Uma das vantagens da regressão linear é a interpretabilidade do modelo gerado.
Se todos os atributos são igualmente importantes para predizer a variável y,
então os coeficientes associados a todos os atributos devem possuir magnitudes
semelhantes.
Coeficientes de maior magnitude (mais distantes de zero) apontam uma maior
importância do atributo na predição da variável y.

𝑦 = 𝑎1 𝑥1 + 𝑎2 𝑥2 + 𝑎3 𝑥3 + 𝑏

calculando os coeficientes a partir dos dados

𝑎1 = 5.04 Atributos x1 e x2 são


𝑎2 = 3.03 mais importantes para
𝑎3 = 0.02 a predição.
Modelos de regressão
Existem alguns métodos matemáticos para o cálculo dos
coeficientes que ”forçam” coeficientes menos relevantes a terem
valores próximos de zero:
 regressão Ridge e
 regressão Lasso.
Tais métodos utilizam os chamados termos de regularização. A
vantagem é óbvia, pois obter coeficientes próximos de zero é
ótimo para identificar atributos pouco relevantes.
Tais métodos, contudo, empregam um parâmetro que ajusta o
peso do termo de regularização no cálculo dos coeficientes, e o
ajuste desse parâmetro pode não ser tarefa fácil.
Eficácia do método de predição
 A validação do modelo de predição é feita dividindo-se os dados
de treinamento em duas partes: treinamento e teste.
 A regressão é feita (cálculo dos coeficientes) utilizando-se os
dados de treinamento, e o modelo gerado é avaliado nos dados
de teste.
 Como o modelo muda dependendo do dado de treinamento, o
que se faz é utilizar um mecanismo chamado validação cruzada.
 Validação cruzada: várias amostras de treinamento e teste são
geradas aleatoriamente a partir dos dados conhecidos. A eficácia
e a predição são obtidas calculando-se o erro médio e o valor
médio predito a partir de todos os modelos produzidos.
Técnicas de regressão geram modelos fáceis de se
interpretarem. Devem, contudo, ser utilizadas com cautela,
normalizando e transformando atributos quando necessário.

Validação cruzada é uma estratégia importante e muito


utilizada no contexto de modelos de regressão.
TODOS OS DIREITOS RESERVADOS.

Você também pode gostar