Escolar Documentos
Profissional Documentos
Cultura Documentos
n
i=1
(x
i
x)
2
n 1
e S
y
=
n
i=1
(y
i
y)
2
n 1
1
e a covarincia cov(x, y) dada por
cov(x, y) =
n
i=1
(x
i
x)(y
i
y)
S
x
S
y
Para Calculo direto do coeciente de correlao linear de Pearson, tem-se a seguinte
frmula:
r =
n
x
i
y
i
x
i
y
i
[n
x
2
i
(
x
i
)
2
] [n
y
2
i
(
y
i
)
2
]
O campo de variao do coeciente r situa-se entre 1 e +1.
1 r 1
Sua interpretao depender do valor numrico e do sinal.
Figura 1: Diagramas de Disperso.
2
Figura 2: Diagramas de Disperso.
Figura 3: Diagramas de Disperso.
2 Regresso Linear
A anlise de regresso linear apresenta como resultado uma equao matemtica
que descreve um determinado relacionamento.
A equao pode ser usada para estimar ou predizer valores de uma varivel quando
se conhecem ou se supem conhecidos valores de outra varivel.
Denio: Constitui em tentativa de estabelecer uma equao matemtica linear que
melhor descreva o relacionamento entre duas variveis (uma dependente e outra indepen-
dente).
A equao de regresso tem por nalidade estimar valores de uma varivel, com base
em valores conhecidos da outra.
Modelo de regresso linear
Y
i
= + x
i
+
i
(1)
3
em que Y
i
o valor estimado (varivel dependente), x
i
a varivel independente,
o coeciente de regresso (coeciente angular), o coeciente linear e
i
o resduo
Observao: Chamamos (1) de modelo linear, pois este representa uma reta. Todavia,
em casos mais gerais, o termo linear refere-se ao modo como os parmetros entram no
modelo, ou seja, de forma linear.
2.1 Pressuposies
A relao entre X e Y linear (os acrescimos em X produzem acrescimos propor-
cionais em Y e a razo de acrescimo constante).
Os valores de X so xados arbitrariamente (X no varivel aleatria)
i
o erro aleatrio, portanto uma varivel aleatria com distribuio normal, com
mdia zero e varincia constante
2
. [
i
N(0,
2
)].
i
representa a variao de Y
que no explicada pela varivel independente X. Implica que y
i
N( +x
i
,
2
).
Se i = j, cov(
i
,
j
) = 0, isto , para duas observaes distintas, os erros so
no-correlacionados (os erros so considerados independentes).
Exemplo
Vendas (1000) X Lucro (100)
obs 1 2 3 4 5 6 7 8
Vendas 201 225 305 380 560 600 685 735
Lucro 17 20 21 23 25 24 27 27
2.2 Mtodo de estimao dos parmetros e
As estimativas dos parmetros e dados por e
, sero dados a partir de uma
amostra de n pares de valores (x
i
, y
i
) que correspondem a n pontos no diagrama de
disperso.
O mtodo mais usado para ajustar uma linha reta para um conjunto de pontos (x
i
, y
i
),
i = 1, 2, . . . , n o Mtodo dos Mnimos Quadrados.
O mtodo dos mnimos quadrados consiste em adotar como estimativa dos parmet-
ros os valores que minimizam a soma dos quadrados dos desvios.
Caracteristicas:
4
Figura 4: Diagrama de Disperso.
A soma dos desvios verticais dos pontos em relao a reta zero;
A soma dos quadrados desses desvios mnima.
Os valores e
da reta de regresso y = +
x sero estimados de tal forma que
minimizam a soma dos erros, dados por
i
= y
i
( + x
i
), i = 1, 2, . . . , n
Obtemos, ento, a quantidade de informao perdida pelo modelo ou soma dos quadra-
dos dos erros (ou desvios)
SQ(, ) =
n
i=1
2
i
=
n
i=1
{y
i
( + x
i
)}
2
.
Derivando em relao a e e igualando a zero, observa-se que as solues e
devem satisfazer.
n +
i=1
x
i
=
n
i=1
y
i
n
i=1
x
i
+
i=1
x
2
i
=
n
i=1
x
i
y
i
as quais produzem as solues
= y
x (2)
n
i=1
x
i
y
i
n x y
n
i=1
x
2
i
n x
2
(3)
5
Para cada par de valores (x
i
, y
i
) pode-se estabelecer o desvio
i
= y
i
y
i
= y
i
( +
x
i
)
Exemplo
Para facilitar os clculos da reta de regresso, acrescenta-se trs novas colunas na
tabela de dados.
obs Vendas (x
i
) Lucro (y
i
) x
2
i
y
2
i
x
i
y
i
1 201 17 40.401 289 3.417
2 225 20 50.625 400 4.500
3 305 21 93.025 441 6.405
4 380 23 144.400 529 8.740
5 560 25 313.600 625 14.000
6 600 24 360.000 576 14.400
7 685 27 469.225 729 18.495
8 735 27 540.225 729 19.845
x
i
y
i
n x y
x
2
i
n x
2
=
89.802 8 (461, 38)(23)
2.011.501 8(461, 38)
2
= 0, 0159
= y
x = 23 (0, 0159)(461, 38) = 15, 66
Logo,
y = 0, 0159x + 15, 66
Partindo da reta de regresso pode-se armar que para uma venda de 400 mil pode-se
obter um lucro de y = (0, 0159)(400.000) + 15, 66 = 22 mil.
3 Decomposio da varincia total
A disperso da variao aleatria "y"pode ser medida atravs da soma dos quadrados
dos desvios em relao a sua mdia y. Essa soma de quadrados ser denominada Soma
de Quadrados Total (SQTotal)
SQTotal =
n
i=1
(y
i
y)
2
A SQTotal pode ser decomposta da seguinte forma:
6
Figura 5: Diagrama de Disperso com a reta ajustada.
n
i=1
(y
i
y)
2
=
n
i=1
( y
i
y)
2
+
n
i=1
(y
i
y
i
)
2
Assim,
SQTotal = SQRegresso + SQResduo
Frmulas para clculo:
SQTotal =
n
i=1
(y
i
y)
2
= n
n
i=1
y
2
i
i=1
y
i
2
,
com (n 1) graus de liberdade.
SQRegresso =
n
i=1
(y
i
y
i
)
2
= beta
n
n
i=1
x
i
y
i
n
i=1
x
i
n
i=1
y
i
,
com 1 grau de liberdade.
4 Anlise de Varincia da Regresso
A Soma de Quadrados da Regresso (SQRegresso), segue uma distribuio
2
com
um grau de liberdade, enquanto que a Soma de Quadrados do Resduo (SQResduo)
segue a mesma distribuio, porm com (n 2) graus de liberdade. Portanto, o quociente
SQRegresso/1
SQResduo/n 2
=
QMRegresso
QMResduo
,
segue uma distribuio F de Snedecor com 1 e (n 2) graus de liberdade.
7
Esse fato nos permite empregar a distribuio F de Snedecor para testar a signicncia
da regresso, atravs da chamada Anlise de Varincia, sintetizada no quadro a seguir.
Tabela 1: Tabela ANOVA para modelo de regresso
C. V. g.l. SQ QM F
Regresso 1 SQReg QMReg =
SQReg
1
QMReg
QMRes
= F
calc
Resduo n 2 SQRes QMRes =
SQRes
n2
Total n 1 SQTotal -
Para testar a signicncia da regresso, formula-se as seguintes hipteses:
H
0
: = 0 contra H
1
: = 0, em que representa o coeciente de regresso
paramtrico.
Se o valor de F, calculado a partir do quadro anterior, superar o valor terico de F com
1 e (n 2) graus de liberdade, para o nvel de signicncia , rejeita-se H
0
e conclui-se
que a regresso signicativa.
Se F
cal
> F
,[1,(n2)]
, rejeita-se H
0
.
Para o exemplo anterior,
y
i
= 0, 0159x
i
+ 15, 66
SQRegresso =
n
n
i=1
x
i
y
i
n
i=1
x
i
n
i=1
y
i
=
SQRegresso = 0, 0159[8(89.802) (3.691)(184)] = 624, 42
SQTotal = n
n
i=1
y
2
i
i=1
y
i
2
= 8(4.318) (184)
2
= 688
Comparando o F
cal
= 58, 93 com o F
tab
= F
0,05;(1,6)
= 5, 99
Conclui-se que a regresso de y sobre x segundo o modelo y
i
= 0, 0159x
i
+ 15, 66
siginicativa ao nvel de 5%.
Uma vez estabelecida e testada a equao de regresso, a mesma pode ser usada
para explicar o relacionamento entre as variveis e tambm fazer predies dos valores de
y para os valores xados x.
8
Tabela 2: Tabela ANOVA para modelo de regresso
C. V. g.l. SQ QM F
Regresso 1 624,42 624,42 58,93
Resduo 6 63,58 10,60
Total 7 688,00
5 Coeciente de determinao
Este coeciente uma medida da proporo da variao da varivel resposta Y que
explicada pela equao de regresso quando est envolvida a varivel independente X.
O coeciente de determinao dado por
r
2
=
n
i=1
x
i
y
i
n
i=1
x
i
n
i=1
y
i
2
[n
n
i=1
x
2
i
(
n
i=1
x
i
)
2
] [n
n
i=1
y
2
i
(
n
i=1
y
i
)
2
]
=
cov(x, y)
S
xx
S
yy
O valor de r
2
varia de 0 a 1.
No exemplo,
r
2
=
[8(89.802) (3.691)(184)]
2
[8(2.011.501) (3.691)
2
] [8(4.318) (184)
2
]
= 0, 908
indica que aproximadamente 91% da variao dos lucros esto relacionados com a
variao das vendas.
Exerccios
1. Suponha que uma cadeia de supermercados tenha nanciado umestudos dos gastos
com mercadorias para famlias de 4 pessoas. O estudo se limitou a famlias com
renda lquida entre 8 e 20 salrios mnimos. Obteve-se a seguinte equao:
y = 1, 20 + 0, 40x
em que y despesa mensal estimada com mercadorias e x renda lquida mensal.
Estimar a despesa de uma famlia com renda mensal lquida de 15 s.m.
9
2. Complete o esquema de clculo do coeciente de correlao para os valores das
variveis x
i
e y
i
. Obtenha os parmetros e da reta ajustada.
x
i
4 6 8 10 12
y
i
12 10 8 12 14
3. Os dados abaixo forma colhidos de cinco fbricas diferentes de uma determinada
indstria:
Produo x
i
12 4 6 11 8
Custo total y
i
80 44 51 70 61
a) Estime uma funo linear para o custo total dessa indstria.
b) Determine o valor do coeciente de determinao r
2
.
c) Construa a tabela ANOVA e realize o teste de hiptese.
4. As notas de uma sala com nove estudantes em um relatrio de meio de curso (x) e
em um exame nal (y) so as seguintes
x
i
77 50 71 72 81 94 96 99 67
y
i
82 66 78 34 47 85 99 99 68
a) Estime a reta de regresso linear
b) Estime a nota do exame nal de um aluno que teve uma nota 85 no relatrio de
meio de curso.
c) Determine o valor de r
2
e interprete o resultado.
d) Construa a tabela ANOVA e realize o teste de hiptese.
10