Você está na página 1de 36

CAPTULO 9 CORRELAO e REGRESSO

FLAVIA CONDE KNEIP Mestranda do PGOB Orientanda do Prof. KINAS

Estrutura das aulas Sero 2 aulas: 1. Terica conceitos da tcnica. 2. Prtica exerccios no caderno e no Excel.

CORRELAO e REGRESSO
No Captulo anterior (Inferncia com base em 2 Amostras) foram estudados casos que envolviam 1 VARIVEL e 2 POPULAES. Ex. Alturas (1 VARIVEL) de Homens e Mulheres (2 POPULAES).

Alturas x Homens (cm) 170 182 179 y Mulheres (cm) 165 168 151

168 155

CORRELAO e REGRESSO
Agora vamos estudar casos que envolvem 2 VARIVEIS e 1 POPULAO. 2 VARIVEIS correspondem a uma amostra de Dados Emparelhados. Ex. Pesos e Comprimentos (2 VARIVEIS ) de Ursos (1 POPULAO).
Comprimento (in.) 53,0 67,5 72,0 72,0 73,5 68,5 73,0 37,0 80 344 416 348 262 360 332 34 y Peso (lb )
x

Tab. 9.1 Ursos


Comprimento (in.) 53,0 67,5 72,0 72,0 73,5 68,5 73,0 37,0 80 344 416 348 262 360 332 34 y Peso (lb )
x

Procurar determinar se h relao entre as 2 VARIVEIS e, caso haja, identificar a relao. CORRELAO usada para determinar SE h RELACIONAMENTO entre 2 VARIVEIS.

RELACIONAMENTO

CORRELAO

Importncia a presena de uma correlao pode conduzir-nos a um mtodo para estimar uma varivel a partir da outra. Ex: Estimar o PESO de ursos medindo seu COMPRIMENTO PESAR MEDIR

SUPOSIES: 1. A amostra de Dados Emparelhados (x,y) aleatria; 2. Os pares de dados (x,y) tm Distribuio Normal Bivariada (significa que para qquer valor fixo de x os valores correspondentes de y tm distribuio em forma de sino e que para qquer valor fixo de y os valores correspondentes de x tm distribuio em forma de sino). A segunda Suposio difcil de se verificar. Comumente se faz a verificao parcial onde se observa se x e y tm distribuio em forma de sino.

A RELAO entre as variveis evidenciada pela formao de um PADRO no Diagrama de Disperso.

Ursos
450 400 350 300 250 200 150 100 50 0 30 40 50 60 Comprimento 70 80

Peso

As concluses tiradas do grficos so subjetivas. Precisamos de mtodos mais precisos e objetivos. Utilizaremos o COEFICIENTE DE CORRELAO LINEAR para detectar padres lineares (somente os lineares).
COEFICIENTE DE CORRELAO LINEAR COEFICIENTE r DE PEARSON

Mede o grau de relacionamento linear entre os valores emparelhados x e y em uma amostra.

r=

n. x ( x ) . n. y ( y )
2 2 2

. n xy ( x )( y )

EXEMPLO p.237 Com os dados ta tabela 9-1, calcule o coeficiente de correlao linear r. n=8 (8 pares de dados) Construir tabela de Clculo:

Aplicar os valores na frmula:

r/
r - Estatstica Amostral

x/

(r) Parmetro Populacional que se obteria se tivssemos todos os pares x e y da populao. ARREDONDANDO r 3 casas decimais para poder comparar com os valores da Tabela A6 (p.364). Arredondar somente no final para evitar erros de clculo.

INTERPRETANDO O COEFICIENTE DE CORRELAO LINEAR

Estar sempre entre 1 e 1; Quanto mais proximo de 0, MENOR a CORRELAO LINEAR; Quanto mais proximo de 1, MAIOR a CORRELAO LINEAR.

CRITERIO DE DECISO Se o mdulo do valor calculado, | r |, excede o valor da Tabela A6,conclumos que h correlao linear SIGNIFICATIVA. Caso contrario NO H EVIDENCIA SUFICIENTE para apoiar a existncia de uma correlao linear significativa.

ERROS COMUNS NA INTERPRETAO


1.

Concluir que a Correlao implica em CAUSALIDADE pode haver uma varivel oculta que afeta as variveis em estudo que no esta sendo levada em considerao.

Ex: Desidratao e consumo de sorvete 2. Usar como dados TAXAS e MDIAS suprimimos a variao entre indivduos o que inflaciona o coeficiente Ex: Renda e Nvel de Educao r=0,4 r=0,7 3. Concluir que no h correlao entre as variveis porque no h correlao linear significativa as variveis podem ter outro tipo de relao no linear.

IMPORTANCIA Iniciar a anlide com o diagrama de disperso.

SOLUES Transformaes Relaes no lineares (No so vistos neste captulo)

TESTES DE HIPTESES H0: =0 (no h correlao linear significativa) H1: 0 (correlao linear significativa) MTODO 1 Segue o formato apresentado anteriormente. Usa a distribuio t de Student

t=

r 1 r 2 n2

gl=n-2

MTODO 2 Exige menos clculo. Ao invs de calcular a estatstica de teste, usamos r como estimativa de teste. Usar a Tabela A6.

t=

r 1 r n2
2

=0,05 n=8 gl=6

2,447 = r = 0,707

r 1 (r ) 2 82

Notar a diferena do r em n.

EXEMPLO p.245 Com os dados da tabela 9-1, teste a afirmao de que h correlao linear entre comprimentos e pesos de ursos. H0: =0 (no h correlao linear significativa) H1: 0 (correlao linear significativa) =0,05 Mtodo 1: 0,897 r t= = = 4,971 n=8 2 2 1 r 1 (0,897 ) r=0,897 82 n2 tcTabela A3

EXEMPLO p.2 Com os dados da tabela 9-1, teste a afirmao de que h correlao linear entre comprimentos e pesos de ursos. H0: =0 (no h correlao linear significativa) H0: 0 (correlao linear significativa) =0,05 Mtodo 2: Mtodo 1: 0,897 r t= = = 4,971 r=0,897 n=8 2 2 1 r 1 (0,897 ) r=0,897 rcTabela A6 82 n2 tcTabela A3 2,447

EXEMPLO p.2 Com os dados da tabela 9-1, teste a afirmao de que h correlao linear entre comprimentos e pesos de ursos. H0: =0 (no h correlao linear significativa) H0: 0 (correlao linear significativa) =0,05 Mtodo 1: Mtodo 2: 0,897 r t= = = 4,971 r=0,897 n=8 2 2 1 r 1 (0,897 ) r=0,897 rc Tabela A6 82 n2 tcTabela A3 2,447

0,707

A estatstica de teste esta na regio critica, rejeitamos H0. H evidencia amostral suficiente para apoiar a afirmao de que existe correlao linear entre comprimentos e pesos de ursos.

REGRESSO LINEAR
Correlao Determinar SE havia correlao linear significativa entre 2 variaveis. REGRESSO DESCREVER a relao traando um grfico e determinando a Equao da reta que representa a relao. EQUAO DE REGRESSO Expressa a relao entre a VARIAVEL PREDITORA ( x ) e a VARIAVEL RESPOSTA ( y )

y = b0 + b1 x
ARREDONDAMENTO 3 casas decimais

EXEMPLO p.245 Determine a equao de regresso usando as frmulas.

x 2 = 34525,75

x = 516,5 y = 2176 y = 78520 xy = 151879


2

b1 =

n( xy ) ( x )( y ) n( x ) ( x )
2 2

8.(151879) (516,5)(2176) = = 2 8.(34525,75) (516,5) 91128 = = 9,65979 9,66 9433,75


Ursos
450

b0 = y b1 x = 2176 516,5 = (9,65979 ). 352 8 8 y = 352 + 9,66 x


^
Peso

400 350 300 250 200 150 100 50 0 30,0 40,0 50,0 60,0 Com prim ento 70,0 80,0

VARIAO MARGINAL o quanto uma das variveis varia quando a outra varia 1 unidade. REPRESENTADA POR b1 OUTLIERS pontos muito afastados dos demais

PONTOS DE INFLUNCIA pontos que influenciam fortemente a reta. PREDIO As equaes de regresso podem ser teis para PREDIZER o valor de uma varivel, dado um valor determinado da outra varivel. Usar a equao de regresso somente quando r indicar correlao linear significativa. E, usa-la somente dentro dos limites de valores disponveis. Quando no h correlao linear significativa, a melhor estimativa de uma varivel sua mdia.

EXEMPLO p.247

Se um urso tem comprimento de 71,0 in., prediga seu peso. J sabemos o valor de r e que ele significativo. Tambm j conhecemos a equao de regresso. Podemos agora aplica-la.

y = 352 + 9,66 x y = 352 + 9,66.(71,0) y = 334


^ ^

O peso previsto para um urso de 71,0 in. de comprimento 334 lb. Se no houvesse correlao linear significativa, nossa melhor predio seria o peso mdio, 272 lb.

b0= -352 Intersepto de y b1=9,66 Inclinao da reta = Variao Marginal (qto ganha em Peso qdo o Comprimento varia em 1 unidade)

RESDUOS e a PROPRIEDADE DE MNIMOS QUADRADOS O critrio para determinar a reta que melhor se ajusta aos dados se baseia na distncia vertical entre os pontos originais e os estimados. RESDUOS so essas distncias. Quando a soma dos quadrados dos resduos a menor possvel, se verifica a PROPRIEDADE DE MNIMOS QUADRADOS EXEMPLO

x y
y
^

y-

y = 5 + 4x
(-5)2+112+(-13)2+72=364

1 4 9 -5

2 4 24 8 13 21 11 -13

5 32 25 7

Ursos
450 400 350 300 Peso 250 200 150 100 50 0 30,0 40,0 50,0 60,0 Com prim ento 70,0 80,0

Mdia Tentativas Resduos

INTERVALOS DE VARIAO
O valor de r tambm pode nos dar informaes sobre a variao do pontos amostrais em torno da reta de regresso. DESVIO TOTAL(em relao media) do pto (x,y) a distncia vertical entre o pto (x,y) e a reta horizontal que passa pela mdia amostral.

y y
DESVIO EXPLICADO distncia vertical entre o valor predito e a reta horizontal que passa pela mdia amostral.

y y
DESVIO NO EXPLICADO distncia vertical entre o pto (x,y) e a reta de regresso. Tambm chamada de RESDUO.

y y

COEFICIENTE DE DETERMINAO o valor da varivel y que explicado pela reta de regresso:

VarTot = VarExplic + VarExplic

VariaoExplicada = r = VariaoTotal
2 2

( y y ) = ( y y ) + ( y y )
2 2

r2 =

( y y)2

( y y)

Pode ser calculado pela frmula ou elevando r ao quadrado EXEMPLO p.251 Usando a tabela 9-1, determine a percentagem da variao no no Peso que pode ser explicada pela reta de regresso.

r = 0,897 r 2 = (0,897) 2 = 0,805(80,5%)


Podemos afirmar que 80,5% da variao total dos pesos dos ursos podem ser explicados pela variao em seus comprimentos; os 19,5% restantes so atribuidos a outros fatores.

INTERVALOS DE PREDIO uma estimativa pontual de y. Porm, no sabemos quo precisa ela .
y
^

INTERVALO DE PREDIO estimativa intervalar de confiana de um valor predito. se ERRO PADRO DA ESTIMATIVA medida das distncias entre os valores amostrais e os preditos.

se =

( y y)2 n2

y 2 b0 y b1 xy n2

EXEMPLO p.252 Encontre o Erro-Padro da estimativa das medidas dos ursos da tabela 9-1.
n=8 y 2 = 728520
se = =

y = 2176 xy = 151879
b0 = 351,660 b1 = 9,65979

y 2 b 0 y b1 xy n2

728520 ( 351 , 660 ).( 2176 ) ( 9 , 65979 ).( 151879 ) = 82 = 66 ,5994 66 , 6

Podemos avaliar a disperso dos ptos amostrais em torno da reta de regresso com:

s e 66 , 6

Qdo ursos foram anestesiados, foram medidos o permetro de seus traxes e obtidos seus pesos. Parece haver relao entre per. do trax e peso? Os resultados so modificados se converter-mos os comprimentos para x y x.y x^2 y^2 ps(dividir por 12)?
x 26 45 54 49 41 49 44 19 y 90 344 416 348 262 360 332 34

r=

b0 = y b1 x
b1 n( xy ) ( x )( y ) = n( x ) ( x )
2 2

n. x 2 ( x ) . n. y 2 ( y )
2

. n xy ( x )( y )

y = b 0 + b1 x

x 26 45 54 49 41 49 44 19

y 90 344 416 348 262 360 332 34

x.y 2340 15480 22464 17052 10742 17640 14608 646

x^2 676 2025 2916 2401 1681 2401 1936 361

y^2 8100 118336 173056 121104 68644 129600 110224 1156

327

2186

100972

14397

730220

r=0,993

polegadas
450 400 350 300 250 200 150 100 50 0 0 10 20 30 toxax 40 50 60

peso

x 2 = 14397

x = 327
2

b1 = =

n( xy ) ( x )( y ) n x ( x )
2

y = 2186 y = 730220 xy = 100972


b0 = y b1 x =
peso

8.(100972) (327)(2186) = 2 8.(14397) (327) 11,3

polegadas
450 400 350 300 250 200 150 100 50 0 0 10 20 30 toxax 40 50 60

=
^

2186 327 (9,65979 ). 187,5 8 8

y = 187,5 + 11,3 x

x 26 45 54 49 41 49 44 19

y 90 344 416 348 262 360 332 34

x.y 2340 15480 22464 17052 10742 17640 14608 646

x^2 676 2025 2916 2401 1681 2401 1936 361

y^2 8100 118336 173056 121104 68644 129600 110224 1156

x 2,2 3,8 4,5 4,1 3,4 4,1 3,7 1,6

y 90 344 416 348 262 360 332 34

x.y 195 1290 1872 1421 895 1470 1217 54

x^2 5 14 20 17 12 17 13 3

y^2 8100 118336 173056 121104 68644 129600 110224 1156

327

2186

100972

14397

730220

27,25

2186

8414,3

100,0

730220

r=0,993

r=0,993

polegadas
450 400 350 300 250 200 150 100 50 0 0 10 20 30 toxax 40

y = 11,3x - 187,5 R2 = 0,9855


450 400 350 300 250 200 150 100 50 0 0 1

ps

y = 135,3x - 187,5 R2 = 0,9855

peso

50

60

peso

2 toxax

Você também pode gostar