Regressão: Jones Granatyr

Regressão
Jones Granatyr
Regressão linear
• Modelagem da relação entre variáveis numéricas (variável dependente y
e variáveis explanatórias x)
• Temperatura, umidade e pressão do ar (x) → velocidade do vento (y)
• Gastos no cartão de crédito, histórico (x) → limite do cartão (y)
• Idade (x) → custo plano de saúde (y)
• Tamanho da casa (x) → preço da casa (y)
Regressão linear Relação linear entre os atributos: quanto maior a idade, maior o custo
b0 e b1 definem a localização da linha (treinamento)
Custo
b1 Declive da linha
4500
3200
Constante Coeficiente
R$ 1750
y = b0 + b1 * x1
1600
R$ 1100 b0 Previsão
custo
Idade
800
18 30 42 54 66 Idade
Regressão linear
Custo
4500 Erro
Erro
Erro
3200
Erro
Erro
Erro
1600
Erro
800
18 30 42 54 66 Idade
Mean square error (MSE)
Preço real Preço calculado Erro
150 180 (150 – 180)2 = 900
60 55 (60 - 55)2 = 25
220 230 (220 - 230)2 = 100
45 67 (45 - 67)2 = 484
Soma = 1.509
MSE = 1.509 / 4 = 377,25
y = b0 + b1 * x1 Objetivo: ajustar os parâmetros b0 e b1 para ter o menor erro!

Regressão linear – ajuste dos parâmetros
• Design matrix (Álgebra Linear)
• Bases de dados com poucos atributos
• Inversão de matrizes que tem um custo computacional alto
• Gradient descent (descida do gradiente)
• Desempenho melhor com muitos atributos
Descida do gradiente
min C(B1, B2 ... Bn)
Taxa de aprendizagem
erro
Calcula o declive da curva
com derivadas parciais
Mínimo local
Mínimo global
w
B
Correlação
• Força e direção da relação entre variáveis (valores entre -1 e 1)
Fonte: Curso Formação Cientista de Dados com R e Python

Regressão linear múltipla
y = b0 + b1 * x1
y = b0 + b1 * x1 + b2 * x2 + ... + bn * xn
Regressão linear polinomial
y = b0 + b1 * x1
y = b0 + b1 * x1 + b2 * x2 + ... + bn * xn
y = b0 + b1 * x1 + b2 * x12 + ... + bn * x1n

Regressão linear simples
Custo
y = b0 + b1 * x1
Idade
Regressão linear simples
Custo
y = b0 + b1 * x1
Idade
Regressão linear polinomial
Custo
y = b0 + b1 * x1 + b2 * x12
Idade
Árvores com regressão
Baseado na idade e nos anos de estudo, prever o salário
Idade Split 2
Idade
38 < 35 >= 35
49
Anos Anos
35 Split 1
Split 3
< 10 >= 10 <8 >= 8
29 58 29 58 38 49
8 10 Anos estudo
Random Forest (floresta randômica)
Random Forest
• Ensemble learning (aprendizagem em conjunto)
• “Consultar diversos profissionais para tomar uma decisão”
• Vários algoritmos juntos para construir um algoritmo mais “forte”
• Usa a média (regressão) ou votos da maioria (classificação) para dar a
resposta final
R$ 1.500 R$ 1.300 R$ 1.700

Média = R$ 1.500
SVR (Support vector regression)
• Mantém as mesmas características das máquinas de vetores de
suporte para classificação
• Mais difícil para fazer as previsões por se tratar de números (muitas
possibilidades)
• Parâmetro epsilon
• Penalidade do treinamento (distância para o valor real)
Qual o melhor hiperplano?
Margem máxima
Erros e custo
y
1
# 2 + % & ()
2
'
c= punição por classificação

incorreta
x2 ai
ai
c alto = tenta 100% de separação
c baixo = permite mais erros
x
x1
SVMs não lineares (Kernel Trick)
SVMs não lineares (Kernel Trick)
Conclusão

Regressão: Jones Granatyr

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regressão: Jones Granatyr

Enviado por

Direitos autorais:

Formatos disponíveis

Regressão

Preço real Preço calculado Erro

150 180 (150 – 180)2 = 900

220 230 (220 - 230)2 = 100

45 67 (45 - 67)2 = 484

y = b0 + b1 * x1 Objetivo: ajustar os parâmetros b0 e b1 para ter o menor erro!

Fonte: Curso Formação Cientista de Dados com R e Python

y = b0 + b1 * x1 + b2 * x12 + ... + bn * x1n

R$ 1.500 R$ 1.300 R$ 1.700

c= punição por classificação

Você também pode gostar