Escolar Documentos
Profissional Documentos
Cultura Documentos
INTRODUO......................................................................................................................3
1.OBJECTIVOS......................................................................................................................4
1.1. Objectivo geral.............................................................................................................4
1.2. Objectivos especficos..................................................................................................4
2. Metodologia........................................................................................................................4
3. Contextualizao.................................................................................................................5
3.1. Anlise de Correlao vs Regresso............................................................................5
3.1.1. Regresso linear simples.......................................................................................6
3.1.2. Regresso linear: estimao de parmetros..........................................................7
3.1.3. Observaes:.........................................................................................................9
3.1.4. Exemplo de regresso linear em planta.................................................................9
3.2. Anlise de Correlao................................................................................................10
3.2.1. Rectas de regresso e o coeficiente de correlao linear....................................12
3.3. Mtodo dos Mnimos Quadrados...............................................................................13
4. Coeficiente de Determinao R2.......................................................................................15
4.1. Significado dos parmetros estimados.......................................................................17
5. Coeficiente de correlao de pearson................................................................................18
5.1. Propriedades da Co-varincia e do Coeficiente de correlao...................................18
Concluso..............................................................................................................................21
Bibliografia...........................................................................................................................22
INTRODUO
O presente trabalho de pesquisa, visa proporcionar umgrande entendimento na rea da
estatstica. Dai que, estatstica oramo do conhecimento humano que aplica a Matemtica
objectivando dar-lhe contedo emprico.
Na verdade, ela surgiu da seguinte forma: no incio, a Teoria estatstica no tinha muitas
preocupaes com a parte emprica, mas sim, com a construo de um arcabouoterico, ou
seja; a partir das hipteses que ela estabelecia, procurava tirar proposies que deveriam
explicar o comportamento dos agentes econmicos, sem preocupaes com a parte
emprica.
Mas, duas coisas as tericas no sabiam:
a) Quantificar numericamente os parmetros dos modelos gerados pelas proposies da
Teoria estatstica;
b) No podiam colocar prova essas proposies, isto , no podiam confrontar a sua teoria
com a realidade. Foi justamente para cobrir esses dois aspectos, que surgiu a estatstica.
1.OBJECTIVOS
1.1. Objectivo geral
ambos;
Mensurar empiricamente os fenmenos estatsticos por meio de regresses;
Estimar relaes entre variveis prevista pela teoria estatstica atravs de regresses
2. Metodologia
Para elaborao deste trabalho, optei por fazer uma reviso bibliogrfica. Onde foi usei o
mtodo indutivo, que um mtodo responsvel pela generalizao, isto , parti de algo
particular para uma questo mais ampla, para geral.
Para Lakatos e Marconi (2007:86), Induo um processo mental por intermdio do qual,
partindo de dados particulares, suficientemente constatados, infere-se uma verdade geral ou
universal, no contida nas partes examinadas. Portanto, o objectivo dos argumentos
indutivos levar a concluses cujo contedo muito mais amplo do que o das premissas
nas quais me baseio.
3. Contextualizao
3.1. Anlise de Correlaovs Regresso
Pode se dizer que, em experimentos que procuram determinar a relao existente entre duas
variveis, por exemplo, a dose de uma droga e a reaco, concentrao e densidade ptica,
peso e altura, idade da vaca e a produo de leite, etc., dois tipos de situaes podem
ocorrer:
Uma varivel (X) pode ser medida apuradamente e seu valor escolhido pelo
experimentador.
Por exemplo, a dose de uma droga a ser ministrada no animal. Esta varivel a varivel
independente. A outra varivel (Y), dita varivel dependente ou resposta, est sujeita a erro
experimental, e seu valor depende do valor escolhido para a varivel independente. Assim,
a resposta (reaco, Y) uma varivel dependente da varivel independente dose (X). Este
o caso da Regresso.
As duas variveis quando medidas esto sujeitas a erros experimentais, isto , erros
de natureza aleatria inerentes ao experimento.
Por exemplo, produo de leite e produo de gordura medida em vacas em lactao, peso
do pai e peso do filho, comprimento e a largura do crnio de animais, etc. Este tipo de
associao entre duas variveis constitui o problema da Correlao.
Actualmente, se d tcnica de correlao uma importncia menor do que a da regresso.
Se duas variveis esto correlacionadas, muito mais til estudar as posies de uma ou de
ambas por meio de curvas de regresso, as quais permitem, por exemplo, a predio de uma
varivel em funo de outra, do que estud-las por meio de um simples coeficiente de
correlao.
O termo regresso usado para designar a expresso de uma varivel dependente (Y) em
funo de outra (X), considerada independente. Diz-se regresso de Y em (sobre) X. Se a
relao funcional entre elas expressa por uma equao do 1 grau, cuja representao
geomtrica uma linha recta, a regresso dita linear.
Para introduzir a ideia de regresso linear simples, consideremos o seguinte exemplo:
Tabela 1. Tempo, em minutos, e quantidade de procainahidrolizada, em 10 -5 moles/litro, no
plasma canino.
Quantidade
hidrolizada (Y)
3,5
5,7
9,9
16,3
19,3
25,7
28,2
32,6
141,2
Tempo (X)
2
3
5
8
10
12
14
15
Total
69
1
anestsico local
X .Y
7,0
17,1
49,5
130,4
193,0
308,4
394,8
489,0
1589,2
X2
4,0
9,0
25,0
64,0
100,0
144,0
196,0
225,0
767,0
Y2
12,3
32,5
98,0
265,7
372,5
660,5
795,2
1062,8
3299,5
Y
0
10
15
20
fcil ver observando essa figura acima, que os pontos relativos aos dados de tempo e
quantidade de procainahidrolizada esto praticamente sobre uma recta. Parece ento
6
(x i , y i )
conjunto de pontos
yx
que expressa o valor de Y como funo do valor de X, onde , conhecido como erro ou
resduo, a distncia que um resultado y em particular se encontra da linha de regresso da
populao, representada pela equao:
E( y / x ) x
,
em queindica o intercepto da linha com o eixo do Y e o coeficiente angular ou
inclinao da reta.Se [y E(y/x)] positivo, y maior do que E(y/x); se negativo, y
nula, isto ,
E ( i ) 0
i' s
igual a zero (
i 0
(x i , y i )
estimados a partir da amostra aleatria de observaes
conhecido. Isto feito por meio da esperana condicionada de y dado x, simbolizada por
E(y/x), que depende em geral de x. E(y/x) tambm chamada de funo de regresso de y
em x.
Estimadores.Dado um conjunto de n pares de observaes (x1, y1), (x2, y2), (xn, yn), pode-se
mostrar, usando mtodos de clculo infinitesimal no utilizado aqui, que os estimadores de
quadrados mnimos so:
(x x)( y y )
y bx
a
(x x)
i
Cov( X, Y )
s 2X
[ ( x i x )( y i y )] / n 1
[ ( x i x ) 2 ] / n 1
b
denominado coeficiente de regresso de Y em X; simboliza-se por bY.X
Frmulas de clculo:
(x i
x )( y i y) x i y i
(x i
x)
2
x i2
( x i )( y i )
n
( x i ) 2
Note-se que, alm da suposio da normalidade do y, outras hipteses usadas pelo mtodo
de mnimos quadrados so:
y/ x
3.1.3. Observaes:
A regresso de y em x,
E ( y / x ) 0,98 2,16.x i
, representa, no caso do
( y i y)
2
[ ( x i x )( ( y i y)]2
2
(x i x )
n2
Cuja
estimativa,
no
exemplo, 0,82. O que est se supondo que esse valor constante para cada x fixado
(propriedade homoscedstica)
H situaes nas quais X tambm aparece como uma varivel aleatria. Nesses
casos, pode ser que estejamos tambm interessados na regresso de X em Y. Tmse:
b X .Y
x i x b X.Y ( y i y)
, onde
(x x )( y y)
( y y) 2
X
Y
0,08
0,15
0,08
0,05
0,08
0,11
0,08
0,10
0,06
0,05
0,07
0,12
0,06
0,04
0,06
0,09
0,06
0,08
0,05
0,04
X
Y
0,06
0,03
0,16
0,09
0,05
0,08
0,11
0,14
0,09
0,05
0,03
0,13
0,07
0,03
0,06
0,09
0,11
0,08
0,14
0,12
0,1
0,08
0,8054 0,0002
y
r 2 0,9849
0,06
0,04
0,02
0
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
Figura. rea foliar (Y) em funo do comprimento x largura (X) da folha debromlia.
Fonte: Adaptada pelo autor (Atravs Software Grficos).
definida comoa quantificao do grau em que duas variveis aleatrias esto relacionadas,
desde que a relao seja linear.
No que segue, os dados so supostos normalmente distribudos.
Definio: Sejam x1, x2,xn; y1, y2,yn os valores observados de X e Y, respectivamente.
Chama-se coeficiente de correlao (amostral) entre X e Y, o nmero dado por:
Cov( X, Y )
Var ( X ).Var ( Y )
(y
(x
y )( x i x ) / n 1
x) (y i y )
.
n1
n1
2
( y y )( x x)
(x x) (y y )
i
x i y i ( x i y i ) / n
[ x i2 ( x i ) 2 / n ][ y i2 ( y i ) 2 / n ]
x i y i nx y
( x i2 nx 2 )( y i2 ny 2 )
11
r2
igual
y i a bx i
ao
coeficiente
de
determinao
da
regresso
linear
simples
r2
s 2Y s 2Y / X
s 2Y
12
b Y.X r
sY
sX
b X.Y r
sX
sY
a 1 b1 X
Y
Y b 1 (X X ) ou Y
Y b 1 (X X )
Y
b 1 b Y .X r
sY
sX
Como
Y r s Y ( X X ) ou y r s Y x (1)
Y
sX
sX
a 2 b2Y
X
De modo semelhante, a recta de regresso de X em Y,
como:
x
1, a equao (2) pode ser obtida da de (1) ou seja,
y
sY
sX
ou x
sX
y]
sY
. Quando r
fatos esto ilustrados na Figura. Dessa forma, o coeficiente de correlao linear mede o
afastamento angular entre as duas rectas de regresso.
b1 b 2 r
sY sX
r
r2
sX sY
, onde: r2 = coeficiente de determinao.
Note que:
e
i 1
2
i
= [y i - ax i - b]2
i 1
S = f(a, b)
Essa soma, funo de a e de b, ter mnimo quando suas derivadas parciais em relao
a a e b forem nulas.
n
z
a
2 y
2 y
y
y
i
i
ax i b 1 0
ax i b x i 0
ax i b 0
ax i b x i 0
y a x nb 0
x y a x b x
i
i 1
14
x y
i
a xi
n
b x i a x i 0
2
n x i yi
n x
2
i
x y
x
i
b y ax
e a partir da 1 equao
No exemplo:
(X)
(Y)
5
6
8
9
7
8
10
10
6
5
7
7
9
8
3
4
8
6
2
2
65
65
X.Y
30
72
56
100
30
49
72
12
48
4
473
X2
25
64
49
100
36
49
81
9
64
4
481
Y2
36
81
64
100
25
49
64
16
36
4
475
15
12
10
8
Y
6
4
2
0
0
9 10
Varive l X
4. Coeficiente de DeterminaoR2
O coeficiente de determinao mede o grau de ajustamento da recta de regresso aos dados
observados. Indica a proporo da variao total da varivel dependente que explicada pela
variao da varivel independente.
15
b . Sx y
R 2
. 100
Sy
onde : S
y
( y) 2
y
n
2
Sy
(1685) 2
289025
5102,5
10
16
2,67 . 1604
. 100 83,93%
5102,5
R2
O resultado indica que as variaes nos nmeros de visitas explicam as unidades vendidas
em 83,93%, sendo que os 16,07% so causas aleatrias do modelo linear adoptado. Cabe
esclarecer que o coeficiente de determinao pode ser obtido a partir do coeficiente de
correlao; basta elevar esse valor ao quadrado e multiplicar por 100.
No exemplo em questo:
R2 = [(0,9164)2] . 100 = 83,98%
Pequenas diferenas entre os valores obtidos segundo os dois mtodos se devem a problemas de
arredondamento.Deve-se observar, contudo, que o coeficiente R 2 no define o tipo de relao
(positiva ou negativa). Para isso, deve-se recorrer ao diagrama ou ao coeficiente de correlao.
4.1. Significado dos parmetros estimados
Uma vez estimados, os parmetros a e b do modelo podem ser interpretados em funo do
valor e do sinal que assumem no modelo. Por exemplo, se um modelo de renda (x) e consumo
y
2000 1900
3000 2700
4000 3500
em
800
800
17
Observe que a cada acrscimo de 1000,00 na renda, o consumo aumenta 800,00. Portanto, o
parmetro 0,8 pode ser definido como consumo marginal, ou seja, variao no consumo para
cada unidade de variao na renda.
Para o modelo de unidades vendidas e nmero de visitas cuja equao ajustada :
y 60,1 2,67x
, os parmetros poderiam interpretados da seguinte forma:
O parmetro a representado pelo valor 60,1, indica que independente do nmero de visitas,
um vendedor qualquer comercializaria no ms aproximadamente 60 unidades. Ou seja, os
clientes solicitariam essa quantidade de produto sem a actuao do vendedor. O parmetro b
representado pelo valor 2,67, indica a variao nas unidades vendidas para cada unidade
variao no nmero de visitas, ou seja, para cada visita adicional seriam comercializadas a mais
aproximadamente 2,67 unidades.
S X SY ; S X SY
. Assim,
torna-se mais fcil medir a associao linear entre as variveis estatsticas dividindo a covarincia pelo produto dos desvios padro. Desta forma, esta nova medida que se chama
coeficiente de correlao de Pearson, tem domnio de variao [-1; 1].
S X ,Y
S X SY
x
N
S x,a
i 1
X a a
N
b) Se multiplicarmos uma varivel estatstica por uma constante, a co-varincia vem multiplicada
por essa constante. No entanto, o coeficiente de correlao vem inalterado
ax
N
aX by i bY
S ax,by
rax,by
abS X , Y
rx , x
aS X bS Y
c) SX, Y =
i 1
ab xi X y Y
N
i 1
abS x , y
( x. y ) / N X Y
Uma das alternativas mais comuns aplicadas em estatstica para se determinar a associao entre
duas variveis o clculo do coeficiente de correlao de Pearson. Muitas vezes esse coeficiente
inclusivo aplicado e interpretado com pouco rigor cientfico/estatstico. Usualmente, o termo
genrico coeficiente de correlao refere-se ao coeficiente linear de correlao de Pearson,
obtido entre duas variveis x e y. O coeficiente de correlao de Pearson pode ser visto como a
razo entre a co-varincia de duas variveis pelo produto dos desvios-padro de cada uma delas.
Ou seja,
rx, y
cov( x, y )
SxS y
= (3.1)
1 /( n 1)in1 ( xi x )( yi y )
1/( n 1)
x x 2 1 /( n 1) in1 yi y 2
i 1 i
n
1/ 2
x y
x y
1/ 2
i 1
i 1
1/ 2
i 1
1/ 2
Fig. Srie temporal da temperatura mdia (linha contnua azul) e mxima (linha contnua em
rosa) na estao automtica do IAG.
Fonte: Adaptado por Magalhes (2002. P.12)
No numerador de rx,y est a co-varincia entre x e y. A co-varincia nada mais do que a soma do
produto das diferenas entre a varivel x no tempo i e a mdia de x (x), pela diferena entre a
varivel y no mesmo tempo i e a mdia de y (y). Por exemplo, considere Tmed igual a x e
o produto (
x1 x
)(
y1 y
x1 x
negativa e
y1 y
variabilidade conjunta. No caso do exemplo da Fig. 3.3, na maior parte dos casos, quando x i
maior (menor) que
y
, yi tambm maior (menor) que . Dessa forma, a somatria do
Fig. Srie temporal da TSM no Pacfico Equatorial nas longitudes 150W (linha contnua azul) e
180W (linha contnua cor de rosa).
Um outro jeito de se olhar para o coeficiente de correlao de Pearson mover as constantes de
escala do denominador da Eq. 3.1 (isto , os desvios-padro). Esta operao leva a:
rx, y
1 n xi x yi y
1 n
Z xi Z y i
n 1 S x
S y
n 1
1
i 1
21
Assim, quando consideramos variveis como peso e estatura de um grupo de pessoas, uso do
cigarro e incidncia do cncer, procuramos verificar se existe alguma relao entre as variveis
de cada um dos pares e qual dessa relao.
Uma vez caracterizada a relao, procuramos descrev-la atravs de uma funo matemtica. A
regresso o instrumento adequado para determinao dos parmetros dessa funo. Se todos os
valores das variveis satisfazem exactamente uma equao, diz-se que elas esto perfeitamente
correlacionadas ou que h correlao perfeita entre elas. Quando esto em jogo somente duas
variveis, fala-se em correlao e regresso simples. Quando se trata de mais de duas variveis,
fala-se em correlao e regresso mltipla.
Bibliografia
BARBETTA, P. A. Estatstica aplicada s cincias sociais. 5.ed. rev. Florianpolis: Ed. da UFSC,
2002;
BUSSAB, W. O., MORETTIN, P. A. Estatstica Bsica. 5. ed. rev. So Paulo: Saraiva, 2003;
22
23