Escolar Documentos
Profissional Documentos
Cultura Documentos
CAPITULO9
CAPITULO9
Correlao Amostral
Serve para estudar o comportamento conjunto de duas variveis quantitativas
distintas. Ou, em outras palavras, mede o grau de associao entre duas variveis
aleatrias X e Y.
OBS.: no h, nesse caso, preocupao em apresentar alguma forma funcional entre as
variveis, se houver.
Exemplos: (apresentados em aula)
Para o estudo do comportamento conjunto de duas variveis poderiam ser
usados:
a) O Diagrama de disperso
Representao grfica do conjunto de dados. Nada mais do que a representao
dos pares de valores num sistema cartesiano. Veja exemplo a seguir.
Em sntese trs situaes marcantes poderiam acontecer:
Se, quando uma das variveis cresce, a outra, em mdia, tambm cresce,
dizemos que entre as duas variveis existe correlao positiva, tanto mais
forte quanto mais perto de uma reta imaginria os pontos estiverem;
b) O coeficiente de correlao
um valor numrico, uma medida, para o grau de associao entre duas
variveis.
Se for observada uma associao entre as variveis quantitativas (a partir de um
diagrama de disperso, por exemplo), muito til quantificar essa associabilidade.
INF 162
X1
X2
Yi
Y1
Y2
!
!
Xn
Yn
rXY
SPD XY
n 1
=
SQD X SQDY
.
n 1 n 1
SPD XY
SQD X .SQDY
, - 1 rXY 1
em que:
SPD XY
n
n
X
i Yi
n
i =1
i =1
= X i Yi
n
i =1
i
n
i =1
2
SQD X = X i
n
i =1
n
Yi
n
2
SQDY = Yi i =1
n
i =1
Para o exemplo:
Amostra A
Amostra B
14
11
SPD AB
n
n
Bi
i
n
=1
i =1 = 252 (36)(36 ) = 36
= Ai Bi i
n
6
i =1
2
Ai
n
(36)2 = 28
SQD A = Ai2 i =1 = 244
n
6
i =1
2
Bi
n
(36)2 = 140
SQDB = Bi2 i =1 = 356
n
6
i =1
INF 162
rAB =
SQD A . SQD B
36
(28) (140)
= 0,5750
Regresso linear
A anlise de regresso consiste na realizao de uma anlise estatstica com o
objetivo de verificar a existncia de uma relao funcional entre uma varivel
dependente com uma ou mais variveis independentes. Em outras palavras consiste na
obteno de uma equao que tenta explicar a variao da varivel dependente pela
variao do(s) nvel(is) da(s) varivel(is) independente(s).
Para tentar estabelecer uma equao que representa o fenmeno em estudo podese fazer um grfico, chamado de diagrama de disperso, para verificar como se
comportam os valores da varivel dependente (Y) em funo da variao da varivel
independente (X).
O comportamento de Y em relao a X pode se apresentar de diversas maneiras:
linear, quadrtico, cbico, exponencial, logartmico, etc... . Para se estabelecer o
modelo para explicar o fenmeno, deve-se verificar qual tipo de curva e equao de
um modelo matemtico que mais se aproxime dos pontos representados no diagrama
de disperso.
Contudo, pode-se verificar que os pontos do diagrama de disperso, no vo se
ajustar perfeitamente curva do modelo matemtico proposto. Haver na maior parte
dos pontos, uma distncia entre os pontos do diagrama e a curva do modelo
matemtico. Isto acontece, devido ao fato do fenmeno que est em estudo, no ser
um fenmeno matemtico e sim um fenmeno que est sujeito a influncias que
acontecem ao acaso. Assim, o objetivo da regresso obter um modelo matemtico
que melhor se ajuste aos valores observados de Y em funo da variao dos nveis da
varivel X.
No entanto o modelo escolhido deve ser coerente com o que acontece na prtica.
Para isto, deve-se levar em conta as seguintes consideraes no momento de se
escolher o modelo:
-o modelo selecionado deve ser condizente tanto no grau como no aspecto da
curva, para representar em termos prticos, o fenmeno em estudo;
-o modelo deve conter apenas as variveis que so relevantes para explicar o
fenmeno;
Como foi dito anteriormente, os pontos do diagrama de disperso ficam um
pouco distantes da curva do modelo matemtico escolhido. Um dos mtodos que se
pode utilizar para obter a relao funcional, se baseia na obteno de uma equao
estimada de tal forma que as distncias entre os pontos do diagrama e os pontos da
curva do modelo matemtico, no todo, sejam as menores possveis. Este mtodo
denominado de Mtodo dos Mnimos Quadrados (MMQ). Em resumo por este
mtodo a soma de quadrados das distncias entre os pontos do diagrama e os
respectivos pontos na curva da equao estimada minimizada, obtendo-se, desta
forma, uma relao funcional entre X e Y, para o modelo escolhido, com um mnimo
de erro possvel.
INF 162
aplicando o somatrio,
n
e = [Y
i =1
2
i
i =1
1 X i ]
(1)
1 =
x y
i
2
i
x y
i
n
( xi )2
SPD xy
SQDx
e 0 = Y 1 X
INF 162
1) Para verificar se existe relao linear de primeiro grau entre umidade relativa
(UR) do ar de secagem de sementes e a germinao das mesmas, um pesquisador
realizou um experimento com 4 valores diferentes para a %UR do ar, obtendo-se
os seguintes dados (dados hipotticos)
% UR
20
30
40
50
% germinao
94
96
95
97
= 12,75;
2
i
= 8,86;
= 1478;
2
i
=143215,8; e
x y
i
X
Y
15,0
46,85
17,0
51,17
19,0
58,00
21,0
63,21
22,0
64,03
20,0
62,63
Y = capacidade
X
18,0
16,0
14,0
12,0
10,5
13,0
Y
52,90
48,84
42,74
36,63
32,05
39,68
X
15,0
17,0
19,0
21,0
23,0
24,0
Y
45,79
51,17
56,65
62,61
65,31
63,89
INF 162
= 0;
i =1
n
Y = Y ;
i
i =1
i =1
COEFICIENTE DE DETERMINAO
O coeficiente de determinao, tambm conhecido como R2, ou simplesmente r2
para o caso de regresso linear simples, fornece uma informao auxiliar ao resultado
da anlise de varincia da regresso (apresentado a seguir), como uma maneira de se
verificar se o modelo proposto adequado ou no para descrever o fenmeno.
O R2 obtido por:
R2 =
SQ Re g
SQTotal
INF 162
a) tcalc =
1 1*
2
, onde V ( 1 ) =
SQDx
V ( 1 )
b) tcalc =
1
0 0*
X2
, onde V ( 0 ) = 2 +
n SQD x
V ( 0 )
SQD y 1 SPD xy
SQ Re s
=
n2
n2
(Y
Y ) 2 = (Yi Y ) 2 + (Yi Y ) 2 ,
GL
1
SQ
SQReg
Resduo, ou
Independente da
Regresso
Total
n2
SQRes
QM
QMReg = SQReg
QMRes =
n2
SQ Re s
n2
QM Re g
QM Re s
-
SQTotal
INF 162
GL
P
SQ
SQReg
Independente da
Regresso
n1p
SQInd
Total
n1
SQTotal
QM
SQ Re g
p
SQInd
n 1 p
QM Re gr
QMInd
-
em que:
- p = no de coeficientes de regresso (no inclui o 0 )
- n = no de observaes.
As frmulas para a obteno das somas de quadrados total e da soma de
quadrados do independente da regresso so as mesmas, tanto para o modelo linear de
1o grau quanto para o de 2o grau, as quais so dadas a seguir:
n
Yi
n
2
SQTotal = Yi i =1
n
i =1
SQ Re gresso = 0 Yi + 1 Yi X i i=1
n
i =1
i =1
INF 162
i
n
n
n
i =1
2
"
"
"
SQ Re gresso = 0 Yi + 1 Yi X i + 2 Yi X i
n
i =1
i =1
i =1
Exerccios Propostos:
1) (questo de prova do II/2000) Para estudar a relao entre Y (nmero total de horas
necessrias montagem da parte de uma estrutura) e X (nmero total de operaes
de furar e rebitar), registraram-se os dados da tabela abaixo.
estudo
A
B
C
D
E
F
G
H
X
236
80
127
445
180
343
305
488
Y
5,1
1,7
3,3
6,0
2,9
5,9
7,0
9,4
Para facilitar seus clculos considere as seguintes informaes:
xi = 2374; yi = 46,1; xi2 = 786368; yi2 = 279,41; xi yi = 14512,6
i
I
170
4,8
INF 162
F.V.
g.l.
SQ
QM
F
Regresso
1
34,59
34,59
Resduo
7
8,68
1,24
Total
8
43,27
Uma maneira de verificar a significncia da regresso ajustada por meio da
ANOVA apresentada acima. Apresente a hiptese a ser testada pela ANOVA e
realize o teste apropriado (use = 5%) para testar essa hiptese.
e) Se fosse concludo que podemos considerar 1 = 0, como deveria ser reescrito o
modelo ajustado? Justifique.
0 = constante de regresso.
1 = coeficiente de regresso.
2 = coeficiente de regresso.
X i = i-simo nvel da varivel independente X (i = 1,2,!,n )
X i2 = i-simo nvel da varivel independente X, elevado ao quadrado
10
INF 162
Y
n
=
0
1
2
i
i
i
i =1
i =1
i =1
n
n
n
n
2
3
Y
X
X
X
=
+
+
i i
0
1
2 Xi
i
i
i =1
i =1
i =1
i =1
n
n
n
n
2
2
3
4
Y
X
X
X
=
+
+
i i
0
1
2 Xi
i
i
i =1
i =1
i =1
i =1
11