Você está na página 1de 10

Centro de Cincias e Tecnologia Agroalimentar - Campus Pombal

Disciplina: Estatstica Bsica - 2013 Aula 12


Professor: Carlos Srgio
UNIDADE 8 - CORRELAO E REGRESSO LINEAR SIMPLES (NOTAS DE AULA)
1 Correlao Linear Simples
1.1 Relao entre variveis
Se desejarmos vericar a existncia e o grau de relao entre variveis ento devemos
realizar o estudo da correlao entre essas variveis.
Exemplos:
O peso pode estar relacionado com a idade;
O consumo das famlias pode estar relacionado com a renda;
A demanda de um determinado produto estar relacionado com seu preo.
1.2 Medida de Correlao
O estudo da correlao tem por objetivo medir e avaliar o grau de relao entre as
variveis X e Y atravs da disposio dos pontos (X, Y ) em torno de uma reta.
O instrumento de medida da correlao linear dado pelo coeciente de correlao
linear de Pearson, ou, simplesmente, coeciente de correlao.
r =
cov(x, y)
S
x
S
y
em que S
x
e S
y
so os desvios padres das variveis X e Y na amostra.
Como
S
x
=

n
i=1
(x
i
x)
2
n 1
e S
y
=

n
i=1
(y
i
y)
2
n 1
1
e a covarincia cov(x, y) dada por
cov(x, y) =

n
i=1
(x
i
x)(y
i
y)
S
x
S
y
Para Calculo direto do coeciente de correlao linear de Pearson, tem-se a seguinte
frmula:
r =
n

x
i
y
i

x
i

y
i

[n

x
2
i
(

x
i
)
2
] [n

y
2
i
(

y
i
)
2
]
O campo de variao do coeciente r situa-se entre 1 e +1.
1 r 1
Sua interpretao depender do valor numrico e do sinal.
Figura 1: Diagramas de Disperso.
2
Figura 2: Diagramas de Disperso.
Figura 3: Diagramas de Disperso.
2 Regresso Linear
A anlise de regresso linear apresenta como resultado uma equao matemtica
que descreve um determinado relacionamento.
A equao pode ser usada para estimar ou predizer valores de uma varivel quando
se conhecem ou se supem conhecidos valores de outra varivel.
Denio: Constitui em tentativa de estabelecer uma equao matemtica linear que
melhor descreva o relacionamento entre duas variveis (uma dependente e outra indepen-
dente).
A equao de regresso tem por nalidade estimar valores de uma varivel, com base
em valores conhecidos da outra.
Modelo de regresso linear
Y
i
= + x
i
+
i
(1)
3
em que Y
i
o valor estimado (varivel dependente), x
i
a varivel independente,
o coeciente de regresso (coeciente angular), o coeciente linear e
i
o resduo
Observao: Chamamos (1) de modelo linear, pois este representa uma reta. Todavia,
em casos mais gerais, o termo linear refere-se ao modo como os parmetros entram no
modelo, ou seja, de forma linear.
2.1 Pressuposies
A relao entre X e Y linear (os acrescimos em X produzem acrescimos propor-
cionais em Y e a razo de acrescimo constante).
Os valores de X so xados arbitrariamente (X no varivel aleatria)

i
o erro aleatrio, portanto uma varivel aleatria com distribuio normal, com
mdia zero e varincia constante
2
. [
i
N(0,
2
)].
i
representa a variao de Y
que no explicada pela varivel independente X. Implica que y
i
N( +x
i
,
2
).
Se i = j, cov(
i
,
j
) = 0, isto , para duas observaes distintas, os erros so
no-correlacionados (os erros so considerados independentes).
Exemplo
Vendas (1000) X Lucro (100)
obs 1 2 3 4 5 6 7 8
Vendas 201 225 305 380 560 600 685 735
Lucro 17 20 21 23 25 24 27 27
2.2 Mtodo de estimao dos parmetros e
As estimativas dos parmetros e dados por e

, sero dados a partir de uma
amostra de n pares de valores (x
i
, y
i
) que correspondem a n pontos no diagrama de
disperso.
O mtodo mais usado para ajustar uma linha reta para um conjunto de pontos (x
i
, y
i
),
i = 1, 2, . . . , n o Mtodo dos Mnimos Quadrados.
O mtodo dos mnimos quadrados consiste em adotar como estimativa dos parmet-
ros os valores que minimizam a soma dos quadrados dos desvios.
Caracteristicas:
4
Figura 4: Diagrama de Disperso.
A soma dos desvios verticais dos pontos em relao a reta zero;
A soma dos quadrados desses desvios mnima.
Os valores e

da reta de regresso y = +

x sero estimados de tal forma que
minimizam a soma dos erros, dados por

i
= y
i
( + x
i
), i = 1, 2, . . . , n
Obtemos, ento, a quantidade de informao perdida pelo modelo ou soma dos quadra-
dos dos erros (ou desvios)
SQ(, ) =
n

i=1

2
i
=
n

i=1
{y
i
( + x
i
)}
2
.
Derivando em relao a e e igualando a zero, observa-se que as solues e

devem satisfazer.
n +

i=1
x
i
=
n

i=1
y
i

n

i=1
x
i
+

i=1
x
2
i
=
n

i=1
x
i
y
i
as quais produzem as solues
= y

x (2)

n
i=1
x
i
y
i
n x y

n
i=1
x
2
i
n x
2
(3)
5
Para cada par de valores (x
i
, y
i
) pode-se estabelecer o desvio
i
= y
i
y
i
= y
i
( +

x
i
)
Exemplo
Para facilitar os clculos da reta de regresso, acrescenta-se trs novas colunas na
tabela de dados.
obs Vendas (x
i
) Lucro (y
i
) x
2
i
y
2
i
x
i
y
i
1 201 17 40.401 289 3.417
2 225 20 50.625 400 4.500
3 305 21 93.025 441 6.405
4 380 23 144.400 529 8.740
5 560 25 313.600 625 14.000
6 600 24 360.000 576 14.400
7 685 27 469.225 729 18.495
8 735 27 540.225 729 19.845

3.691 184 2.011.501 4.318 89.802


y =
184
8
= 23 e x =
3691
8
= 461, 38

x
i
y
i
n x y

x
2
i
n x
2
=
89.802 8 (461, 38)(23)
2.011.501 8(461, 38)
2
= 0, 0159
= y

x = 23 (0, 0159)(461, 38) = 15, 66
Logo,
y = 0, 0159x + 15, 66
Partindo da reta de regresso pode-se armar que para uma venda de 400 mil pode-se
obter um lucro de y = (0, 0159)(400.000) + 15, 66 = 22 mil.
3 Decomposio da varincia total
A disperso da variao aleatria "y"pode ser medida atravs da soma dos quadrados
dos desvios em relao a sua mdia y. Essa soma de quadrados ser denominada Soma
de Quadrados Total (SQTotal)
SQTotal =
n

i=1
(y
i
y)
2
A SQTotal pode ser decomposta da seguinte forma:
6
Figura 5: Diagrama de Disperso com a reta ajustada.
n

i=1
(y
i
y)
2
=
n

i=1
( y
i
y)
2
+
n

i=1
(y
i
y
i
)
2
Assim,
SQTotal = SQRegresso + SQResduo
Frmulas para clculo:
SQTotal =
n

i=1
(y
i
y)
2
= n
n

i=1
y
2
i

i=1
y
i

2
,
com (n 1) graus de liberdade.
SQRegresso =
n

i=1
(y
i
y
i
)
2
= beta

n
n

i=1
x
i
y
i

n

i=1
x
i
n

i=1
y
i

,
com 1 grau de liberdade.
4 Anlise de Varincia da Regresso
A Soma de Quadrados da Regresso (SQRegresso), segue uma distribuio
2
com
um grau de liberdade, enquanto que a Soma de Quadrados do Resduo (SQResduo)
segue a mesma distribuio, porm com (n 2) graus de liberdade. Portanto, o quociente
SQRegresso/1
SQResduo/n 2
=
QMRegresso
QMResduo
,
segue uma distribuio F de Snedecor com 1 e (n 2) graus de liberdade.
7
Esse fato nos permite empregar a distribuio F de Snedecor para testar a signicncia
da regresso, atravs da chamada Anlise de Varincia, sintetizada no quadro a seguir.
Tabela 1: Tabela ANOVA para modelo de regresso
C. V. g.l. SQ QM F
Regresso 1 SQReg QMReg =
SQReg
1
QMReg
QMRes
= F
calc
Resduo n 2 SQRes QMRes =
SQRes
n2
Total n 1 SQTotal -
Para testar a signicncia da regresso, formula-se as seguintes hipteses:
H
0
: = 0 contra H
1
: = 0, em que representa o coeciente de regresso
paramtrico.
Se o valor de F, calculado a partir do quadro anterior, superar o valor terico de F com
1 e (n 2) graus de liberdade, para o nvel de signicncia , rejeita-se H
0
e conclui-se
que a regresso signicativa.
Se F
cal
> F
,[1,(n2)]
, rejeita-se H
0
.
Para o exemplo anterior,
y
i
= 0, 0159x
i
+ 15, 66
SQRegresso =

n
n

i=1
x
i
y
i

n

i=1
x
i
n

i=1
y
i

=
SQRegresso = 0, 0159[8(89.802) (3.691)(184)] = 624, 42
SQTotal = n
n

i=1
y
2
i

i=1
y
i

2
= 8(4.318) (184)
2
= 688
Comparando o F
cal
= 58, 93 com o F
tab
= F
0,05;(1,6)
= 5, 99
Conclui-se que a regresso de y sobre x segundo o modelo y
i
= 0, 0159x
i
+ 15, 66
siginicativa ao nvel de 5%.
Uma vez estabelecida e testada a equao de regresso, a mesma pode ser usada
para explicar o relacionamento entre as variveis e tambm fazer predies dos valores de
y para os valores xados x.
8
Tabela 2: Tabela ANOVA para modelo de regresso
C. V. g.l. SQ QM F
Regresso 1 624,42 624,42 58,93
Resduo 6 63,58 10,60
Total 7 688,00
5 Coeciente de determinao
Este coeciente uma medida da proporo da variao da varivel resposta Y que
explicada pela equao de regresso quando est envolvida a varivel independente X.
O coeciente de determinao dado por
r
2
=

n
i=1
x
i
y
i

n
i=1
x
i

n
i=1
y
i

2
[n

n
i=1
x
2
i
(

n
i=1
x
i
)
2
] [n

n
i=1
y
2
i
(

n
i=1
y
i
)
2
]
=
cov(x, y)
S
xx
S
yy
O valor de r
2
varia de 0 a 1.
No exemplo,
r
2
=
[8(89.802) (3.691)(184)]
2
[8(2.011.501) (3.691)
2
] [8(4.318) (184)
2
]
= 0, 908
indica que aproximadamente 91% da variao dos lucros esto relacionados com a
variao das vendas.
Exerccios
1. Suponha que uma cadeia de supermercados tenha nanciado umestudos dos gastos
com mercadorias para famlias de 4 pessoas. O estudo se limitou a famlias com
renda lquida entre 8 e 20 salrios mnimos. Obteve-se a seguinte equao:
y = 1, 20 + 0, 40x
em que y despesa mensal estimada com mercadorias e x renda lquida mensal.
Estimar a despesa de uma famlia com renda mensal lquida de 15 s.m.
9
2. Complete o esquema de clculo do coeciente de correlao para os valores das
variveis x
i
e y
i
. Obtenha os parmetros e da reta ajustada.
x
i
4 6 8 10 12
y
i
12 10 8 12 14
3. Os dados abaixo forma colhidos de cinco fbricas diferentes de uma determinada
indstria:
Produo x
i
12 4 6 11 8
Custo total y
i
80 44 51 70 61
a) Estime uma funo linear para o custo total dessa indstria.
b) Determine o valor do coeciente de determinao r
2
.
c) Construa a tabela ANOVA e realize o teste de hiptese.
4. As notas de uma sala com nove estudantes em um relatrio de meio de curso (x) e
em um exame nal (y) so as seguintes
x
i
77 50 71 72 81 94 96 99 67
y
i
82 66 78 34 47 85 99 99 68
a) Estime a reta de regresso linear
b) Estime a nota do exame nal de um aluno que teve uma nota 85 no relatrio de
meio de curso.
c) Determine o valor de r
2
e interprete o resultado.
d) Construa a tabela ANOVA e realize o teste de hiptese.
10