Você está na página 1de 49

Análise de Regressão Linear Simples I

Aula 22

Gujarati e Porter, 2011 – Parte I (Capítulos 1 a 6) – tradução da 5ª ed.

Wooldridge, 2011 – Capítulo 2 – tradução da 4ª ed.


Exemplo
O departamento de RH de uma empresa deseja
avaliar a eficácia dos testes aplicados para a seleção
dos funcionários. Para tanto, foi sorteada uma
amostra aleatória de 50 funcionários e observou-se,
para cada um, a nota média nos testes de
Criatividade, Raciocínio Mecânico, Raciocínio
Abstrato e Habilidade Matemática e um Escore que
indica o seu Desempenho Profissional.

Como você avaliaria a eficiência do teste?


Associação
Entre Duas Variáveis Quantitativas
• Coeficiente de correlação linear: mede a
intensidade da associação linear existente
entre as variáveis.

• Diagrama de dispersão: recurso gráfico que


nos permite visualizar o comportamento
conjunto das duas variáveis.
Coeficiente de Correlação Linear
Definição: Medida de associação linear entre duas
variáveis quantitativas (varia entre –1 e +1).

• Valores próximos a +1: indicam forte relação linear


positiva;

• Valores próximos a -1: indicam forte relação linear


negativa;

• Valores próximos a zero: indicam ausência de relação


linear.
Interpretação
Coeficiente de Correlação Linear
Relação perfeita Relação perfeita
20
30

18
25
16

14 20
12
15

y
y

10

8 10
6
5
4

2 0
0 0 2 4 6 8 10
0 2 4 6 8 10
30
x
18
x
16
25
14

r = +1
12

10
20

r = -1
Ausência

y
15
y

8
10
6

4
5
2

0
0 2 4 6 8 10
de relação 0
0 2 4

x
6 8 10

x
60

50

r  0,80
40

30
r  -0,80
y

20

10

0
0 2 4 6 8 10
x

r0
Voltando ao Exemplo
O departamento de RH de uma empresa deseja avaliar a
eficácia dos testes aplicados para a seleção de
funcionários. Para tanto, foi sorteada uma amostra de 50
funcionários e observou-se, para cada um, a nota média
nos testes de criatividade, raciocínio mecânico, raciocínio
abstrato e habilidade matemática (notas de 0 a 26). Após
3 meses da contratação, foi calculado um escore que
indica o seu desempenho profissional (0 a 120).

Existe alguma relação entre a nota do teste e o


desempenho dos funcionários?
Desempenho vs Nota Média

rXY  0,76

Como estimar essa reta?


Desempenho vs Nota Média

Não esperamos uma relação perfeita entre as


duas variáveis, já que a nota média no teste de
aptidão não deve ser a única variável responsável
pela explicação da variável desempenho; outros
fatores não controlados como, por exemplo,
tempo de experiência na função e escolaridade
também podem influenciar na explicação da
variável desempenho.
Desempenho vs Nota Média

Desse modo, duas amostras obtidas do mesmo


teste de aptidão (X) não teriam obrigatoriamente
que apresentar o mesmo resultado no que diz
respeito ao desempenho (Y), mas valores em
torno de um valor esperado 1 +  2x (reta).
Análise de Regressão

Regressão – Técnica Estatística utilizada para


investigar e modelar a relação entre variáveis.

A análise de regressão consiste em estudar como


alterações nas variáveis explicativas influenciam a
variável resposta.
Análise de Regressão

Objetivo

Na situação em que muitas variáveis quantitativas


estão envolvidas, estudar o efeito que algumas
variáveis exercem nas outras.
Este estudo consistiria na construção e análise de
uma relação matemática entre as variáveis (no geral,
uma variável em função das outras).
Análise de Regressão

• O tipo mais simples de análise de regressão,


envolvendo uma variável explicativa (ou
independente) e uma variável resposta (ou
dependente), é chamado de regressão linear
simples.

• A análise de regressão envolvendo duas ou mais


variáveis explicativas é chamada de análise de
regressão linear múltipla.
Análise de Regressão

Variável resposta: variável aleatória de interesse,


cujo comportamento se deseja explicar.

Variáveis explicativas: variáveis supostamente não


aleatórias que são utilizadas para explicar a
variável dependente.
Análise de Regressão

Representaremos por X a variável explicativa, e por Y


a resposta. Ainda, vale lembrar que X, no geral, será
uma variável fixa, no sentido de que não é uma v.a.,
ou seja, seus valores devem ser fixados (controlados).
Já a variável Y será aleatória, possuindo uma
distribuição de probabilidades.
Análise de Regressão

A relação matemática existente entre X e Y pode ser


qualquer. No entanto, neste primeiro momento
abordaremos um importante modelo de regressão, o
modelo de regressão linear simples, no qual E(Y|X=x)
é linear nos parâmetros e o termo simples indica que
estamos trabalhando com apenas uma variável
explicativa (independente).
Análise de Regressão
Para cada possível valor xi da variável independente
X, teremos a distribuição condicional da variável
aleatória Y.

Definição – A função E(Y|X) é chamada regressão


de Y em X.

Dado X = x,
Y = E(Y | X = x) + ,
em que
 - é uma v.a.
E(Y|x) como uma função linear de x,
onde para todo x a distribuição de Y é centrada sobre E(Y|x)

y
fY|x(y)

.
E(Y|x) = 1 +  2x
.

x1 x2
Regressão Linear Simples
Em outras palavras, estamos supondo que, para um
dado valor da variável explicativa X, os valores da
variável resposta Y seguem uma certa distribuição de
probabilidades

fY|x(y),

centrada em

1 + 2x.
Regressão Linear Simples
Isso equivale a afirmar que, para cada X, o desvio (ou
erro)

i = yi – (1 +  2xi),

segue uma distribuição centrada no zero (por


exemplo, a distribuição normal).
Análise de Regressão

A relação matemática existente entre X e Y pode ser


qualquer. No entanto, neste primeiro momento
abordaremos um importante modelo de regressão, o
modelo de regressão linear simples, no qual E(Y|x) é
uma função linear nos parâmetros e o termo simples
indica que estamos trabalhando com apenas uma
variável explicativa (independente).
Regressão Linear Simples
yi 1   2 x
i
Modelo
y i  E Y | x i    i  1   2 x i   i

Característica
individual
Característica
populacional (erro)

Parâmetro: é uma medida usada para descrever uma


característica da população.
Regressão Linear Simples
Observação: É comum supor que os
i, i = 1, 2, ..., n,
tenham a mesma distribuição, para todo
valor de x da variável X, que, inclusive,
pode ser aleatória.

Vale salientar que o termo regressão linear significa


regressão linear nos parâmetros, ou seja, um modelo
da forma
yi = 1 + 2 xi2 + i
também seria linear.
Estimação dos parâmetros do modelo
O parâmetro
E(Y|X=x) = 1 + 2x,
média da distribuição condicional de Y dado x,
será estimado por
Abuso de
notação

yˆ  E(Y | X  x)  β̂1  β̂2 x  b1  b2 x


em que

β̂1  b1 e β̂2  b2 são estimativa s para β1 e β2 .


Estimação dos parâmetros do modelo

Chamaremos de resíduo ao valor

ˆi  yi - ŷi  yi - (ˆ1  ˆ2 x i ), i  1, 2, ..., n.

O valor ˆi pode ser encarado como o erro


cometido por prever yi (i = 1, 2, ..., n) a partir de ŷ i .
Estimação dos parâmetros do modelo

y4 ˆ {
. ŷ  ˆ1  ˆ2 x
4

y3 } ˆ3
.
y2 ˆ {
. Abuso
de
2 notação

y1 .} ˆ1

x1 x2 x3 x4 x
Estimação dos parâmetros do modelo

Como determinar os estimadores dos


parâmetros?
Qual método de estimação utilizar?

Um dos procedimentos mais usados para


obter estimadores é aquele que se baseia no
princípio dos mínimos quadrados,
introduzido por Gauss em 1794.
Método dos Mínimos Quadrados

Idéia!
Quanto menor for o erro quadrático total (i2),
melhor será a estimativa. Isso nos sugere
procurar a estimativa que torne mínima essa
soma de quadrados. Matematicamente, o
problema passa a ser o de encontrar os valores
de 1 e 2 que minimizem a função

n n
S 1 ,  2        yi  1   2 xi 
2 2
i
i 1 i 1
Método dos Mínimos Quadrados

O mínimo da função é obtido derivando-a


em relação a 1 e 2 , e igualando o
resultado a zero, o que resulta

 
S ( 1 ;  2 )  0 e S ( 1 ;  2 )  0
1  2
Método dos Mínimos Quadrados

A equação da reta, estimada por mínimos


quadrados, fica dada por

yˆ  ˆ1  ˆ 2 x,
em que ˆ1 e ˆ2 minimizam S e é aquela que,
dentre todas as possíveis retas, minimiza a
soma dos quadrados das distâncias
verticais dos pontos (xi, yi) à reta, também
chamada de “melhor” reta.
Método dos Mínimos Quadrados
n n
S 1 ,  2        yi  1   2 xi 
2 2
i
i 1 i 1

Derivando...

 n
S 1 ,  2   2  yi  1   2 xi 
1 i 1

 n
S 1 ,  2   2  yi  1   2 xi xi 
 2 i 1
Método dos Mínimos Quadrados
Igualando a zero a derivada em relação ao
parâmetro 1, vem que:

S 1 ,  2   0
1

  
n
 2 yi  ˆ1  ˆ2 xi  0
i 1

n n n n n

 i  1  2 i  i 1 2  xi
y 
i 1
ˆ  ˆ x 
i 1
y  nˆ  ˆ
i 1 i 1 i 1
Método dos Mínimos Quadrados

Dividindo ambos os lados da igualdade


anterior pelo tamanho da amostra, vem que:

y  ˆ1  ˆ2 x

Assim,

ˆ1  y  ˆ2 x
Método dos Mínimos Quadrados
Igualando a zero a derivada em relação ao
parâmetro 2, vem que:

S 1 ,  2   0
 2

   
n
 2 yi  ˆ1  ˆ2 xi xi  0
i 1

n n n

 xi yi  1  xi   2  xi  0
i 1
ˆ ˆ
i 1
2

i 1
Método dos Mínimos Quadrados
Substituindo, na igualdade anterior, o
resultado encontrado para o estimador do
parâmetro 1, obtemos, para 2, o seguinte
estimador:

ˆ2   (x  x)(y  y)  n  x y   x  y
i i i i i i SXY
 2  rXY
SY
 (x  x) n  x   x 
2 2
i
2
i i
SX SX
Método dos Mínimos Quadrados

Exercício

Encontre a matriz hessiana e verifique sob quais


condições a mesma será definida como positiva.
Ainda, discuta se os estimadores encontrados
geram o mínimo da função de interesse.
Voltando ao Exemplo
O departamento de RH de uma empresa deseja avaliar a
eficácia dos testes aplicados para a seleção de
funcionários. Para tanto, foi sorteada uma amostra de 50
funcionários e observou-se, para cada um, a nota média
nos testes de criatividade, raciocínio mecânico, raciocínio
abstrato e habilidade matemática (notas de 0 a 26). Após
3 meses da contratação, foi calculado um escore que
indica o seu desempenho profissional (0 a 120). Estime os
parâmetros do seguinte modelo de regressão linear
simples:

desempenho  1   2 nota  
Voltando ao Exemplo
Resolução

ˆ1  68,51 e βˆ2  1,81


assim,
^
desempenho  68,51  1,81 nota
140
120
Desempenho

100
80
60
40
20
00
0,00 5,00 10,00 15,00 20,00 25,00 30,00
Nota média
Interpretação das Estimativas dos Parâmetros

Parâmetros

1 – é o intercepto;

2 – Inclinação da reta de regressão (coeficiente


angular)

E(Y|x)
 β2
x
Interpretação das Estimativas dos Parâmetros

No exemplo: yˆ  68,51  1,81x

• 68,51: valor médio estimado do desempenho de


funcionários que tiveram média igual a zero nos
testes de admissão.
• 1,81: variação média estimada no desempenho
dos funcionários quando aumenta-se a nota média
obtida nos testes de admissão em 1 unidade.
Interpretação das Estimativas dos Parâmetros

Observação

Na prática, nem sempre 1 (intercepto)


apresenta interpretação.
Medida de qualidade do ajuste do modelo

Perguntas

O modelo de regressão está bem ajustado?


Como medir a qualidade de ajuste do modelo?
Medida de qualidade do ajuste do modelo

Objetivo

Construir uma medida que indique,

mesmo que de modo imperfeito,

a qualidade do ajuste do modelo de regressão.

Coeficiente de determinação
(ou de explicação) – R2
Medida de qualidade do ajuste do modelo
y - y : erro ao se prever
y pela média geral
ˆ1  ˆ2 x
y y - ŷ : erro ao se prever
y pelo valor estimado
ŷ para E(Y|X)
y
ŷ - y : “ganho” ao se
prever y pelo valor
estimado para E(Y|X)
em comparação ao se
prever y pela média
geral
Medida de qualidade do ajuste do modelo
n 2

ˆ1  ˆ2 x
SQT   y
i 1
i - y
y
2

SQR   yi - y
ˆi
n

i 1
y
2

SQE   y
ˆ i - y
n

i 1

SQT: soma de quadrados total


SQR: soma de quadrados devido aos resíduos
SQE: soma de quadrados devido à explicação (modelo de regressão)
Coeficiente de determinação: R2

Resultado: SQT = SQE + SQR

Parcela da variabilidade Parcela da variabilidade de


de y que é explicada pelos y que não é explicada pelos
regressores do modelo regressores do modelo

SQE SQR Proporção da variabilidade


R 
2
 1 total de y que é explicada
SQT SQT
pelos regressores do
modelo adotado.
Voltando ao Exemplo
140
120
Desempenho

100
SQE
80 R  2
 0,5808
60 SQT
40
20
00
0,00 5,00 10,00 15,00 20,00 25,00 30,00
Nota média

2 2

 y ˆ i   1925,3
n n
SQT   y i - y   4.593,1 SQR  i -y
i 1 i 1

n 2

SQE   ŷ i - y   2.667,7  SQT - SQR


i 1
Coeficiente de determinação: R2

R2 = 0,58

Interpretação: 58% da variabilidade total do


desempenho dos funcionários após 3 meses de
trabalho pode ser explicada pela nota média
obtida nos testes de admissão.
Coeficiente de determinação: R2

Conclusão
Parece que a nota média obtida nos testes de
admissão é relevante para a explicação do
desempenho dos funcionários, uma vez que tal
regressor explica mais da metade das
variações da variável resposta.
Coeficiente de determinação: R2

Exercício

Prove que, no caso do modelo de regressão linear simples


com intercepto, o coeficiente de correlação linear de Pearson
elevado ao quadrado é igual ao coeficiente de explicação ou
determinação (R2). Ou seja,

SQE S 2
 S XY 
R 
2
 XY
 ̂ 2  
SQT S xx SYY  SYY 

Você também pode gostar