Você está na página 1de 55

9

Correlao e Regresso
9-1 Aspectos Gerais 9-2 Correlao 9-3 Regresso 9-4 Intervalos de Variao e Predio 9-5 Regresso Mltipla

9-1

Aspectos Gerais
Dados Emparelhados

h uma relao? se h, qual a equao? usar a equao para predio

9-2

Correlao

Definio
Correlao existe entre duas variveis quando uma delas est, de alguma forma, relacionada com a outra.

Suposies
1. A amostra de dados emparelhados (x,y) uma amostra aleatria. 2. Os pares de dados (x,y) tem uma distribuio normal bivariada.

Definio
Diagrama de Disperso um grfico de dados amostrais emparelhados (x,y) com o eixo x horizontal e o eixo y vertical. Cada par individual (x,y) plotado como um ponto.
6

Diagrama de Disperso

Correlao Linear Positiva


y y y

x
(a) Positiva (b) Positiva Forte

(c) Positiva Perfeita

Figura 9-1

Diagramas de Disperso
8

Correlao Linear Negativa


y y y

x
(d) Negativa (e) Negativa Forte

x
(f) Negativa Perfeita

Figura 9-1

Diagramas de Disperso
9

Sem Correlao Linear


y y

(g) No h Correlao

(h) Correlao no-linear

Figura 9-1

Diagramas de Disperso
10

Notao
- 2 = (x2) n( x )2 Sxx = (x x) - 2 = (y2) n( y )2 Syy = (y y) - Sxy = (x x)(y y) = (xy) n ( x )( y )

11

Coeficiente de Correlao Linear r


mede o grau de relacionamento linear entre os valores emparelhados x e y em uma amostra

Definio

r=
Frmula 9-1

Sxy (Sxx) (Syy )

Calculadoras podem fornecer r

(r) o coeficiente de correlao linear de todos os


dados emparelhados da populao.
12

Notao para o Coeficiente de Correlao Linear


n x x 2
nmero de pares de dados presentes denota a adio dos itens indicados. denota a soma de todos os valores de x. indica que devemos ao quadrado cada valor de x e somar os resultados.

(x)2 indica que devemos somar os valores de x e elevar o total ao quadrado.

xy r

indica que devemos multiplicar cada valor de x pelo valor correspondente de y e somar ento todos estes produtos. representa o coeficiente de correlao linear para uma amostra. representa o coeficiente de correlao linear para uma populao
13

Interpretando o Coeficiente de Correlao Linear


Se o valor absoluto de r excede o valor na Tabela A - 6, conclumos que h correlao linear significativa. Caso contrrio, no h evidncia suficiente para apoiar a existncia de uma correlao linear significativa.

14

TABELA A-6 Valores Crticos do Coeficiente de Correlao de Pearson r


n
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100

= .05
,950 ,878 ,811 ,754 ,707 ,666 ,632 ,602 ,576 ,553 ,532 ,514 ,497 ,482 ,468 ,456 ,444 ,396 ,361 ,335 ,312 ,294 ,279 ,254 ,236 ,220 ,207 ,196

= .01
,999 ,959 ,917 ,875 ,834 ,798 ,765 ,735 ,708 ,684 ,661 ,641 ,623 ,606 ,590 ,575 ,561 ,505 ,463 ,430 ,402 ,378 ,361 ,330 ,305 ,286 ,269 ,256 15

Propriedades do Coeficiente de Correlao Linear r


1. -1 r 1 2. O valor de r no varia se todos os valores de qualquer uma das variveis so convertidos para uma escala diferentes. 3. O valor de r no afetado pela escolha de x ou y. Permutando todos os valores de x e y, o valor de r permanecer inalterado. 4. r mede a intensidade, ou grau, de um relacionamento linear.
16

Erros Comuns Envolvendo Correlao


1. Causalidade: errado concluir que correlao implica causalidade. 2. Mdias ou Taxas: Taxas ou mdias suprimem a variao individual e podem inflacionar o coeficiente de correlao. 3. Linearidade: Pode haver alguma relao entre x e y mesmo quando no h correlao linear significativa.
17

Erros Comuns Envolvendo Correlao


FIGURA 9-2

250 200

Distncia (ps)

150 100 50

Tempo (segundos)

Diagrama de disperso da distncia acima do solo e do tempo para um objeto lanado para cima
18

Teste de Hiptese Formal


Para determinar se existe uma correlao linear significativa entre duas variveis Dois mtodos Ambos mtodos utilizam: H0: = 0 H1: 0

(no h correlao linear significativa)

(correlao linear significativa)


19

Mtodo 1: Estatstica de Teste t


(segue formato apresentado anteriormente)

Estatstica de Teste:

t=

r
1-r2 n-2

Valores Crticos:

utilizar a Tabela A-3 com graus de liberdade = n - 2


20

Mtodo 1: Estatstica de Teste t


(segue formato apresentado anteriormente)

Figura 9-4
21

Mtodo 2: Estatstica de Teste r


(exige menos clculos)

Estatstica de teste: r Valores crticos: Consulte a Tabela A-6


(no h graus de liberdade)
Rejeitar =0 No rejeitar =0 Rejeitar =0

-1

r = - 0,811

r = 0,811 Valor amostral: r = 0,828

Figura 9-5

22

FIGURA 9-3

Incio Seja: H0: = 0 H1: 0

Teste para a Correlao Linear

Escolha um nvel de significncia l Calcule r com a Frmula 9-1

MTODO 1

MTODO 2

A estatstica de teste

1-r2 n -2 Os valores crticos de t esto na Tabela A-3, ( n -2 graus de liberdade)

t=

A estatstica de teste r Os valores crticos de r encontram-se na Tabela A-6

Se o valor absoluto da estatstica de teste excede os valores crticos, rejeitar H0: = 0 Caso contrrio, no rejeitar H0

Se H0 rejeitada, concluir que h Correlao linear significativa. Se H0 no rejeitada, ento no h evidncia suficiente para concluir pela existncia de uma correlao linear.

23

H correlao linear significativa?


Dados do Projeto do Lixo: Anlise de plstico descartado
x Plstico (kg) 0,122 0,640 0,993 1,284 0,993 0,821 0,386 1,383 y Tamanho da residncia

n=8

= 0,05

H 1 : 0

H0: = 0

Estatstica de teste r = 0,842

24

H correlao linear significativa?


n=8

= 0,05

H0: H1

=0 : 0

n
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100

= ,05
,950 ,878 ,811 ,754 ,707 ,666 ,632 ,602 ,576 ,553 ,532 ,514 ,497 ,482 ,468 ,456 ,444 ,396 ,361 ,335 ,312 ,294 ,279 ,254 ,236 ,220 ,207 ,196

= ,01
,999 ,959 ,917 ,875 ,834 ,798 ,765 ,735 ,708 ,684 ,661 ,641 ,623 ,606 ,590 ,575 ,561 ,505 ,463 ,430 ,402 ,378 ,361 ,330 ,305 ,286 ,269 ,256

Estatstica de teste r = 0,842

Valores crticos so r = - 0,707 e 0,707 (Tabela A-6 com n = 8 e = 0,05)

TABELA A-6 Valores Crticos do Coeficiente de Correlao de Pearson r

25

H correlao linear significativa?


0,842 > 0,707, ou seja, a estatstica de teste est na regio crtica. REJEITAMOS, pois, H0: = 0 (ausncia de correlao) e conclumos que h correlao linear significativa entre o Peso de plstico descartado e o tamanho das residncias.
Rejeitar =0 No Rejeitar =0 Rejeitar =0

-1

r = - 0,707

r = 0,707
Dados amostrais: r = 0,842

26

Justificao para a Frmula de r


Frmula 9-1 desenvolvida de

r=

(x -x) (y -y)
(n -1) sx sy
y
24 20
II Quadrante

(x, y)
x=3

centride dos pontos da amostra

x - x = 7- 3 = 4

I Quadrante

(7, 23)

y - y = 23 - 11 = 12

16 12 8 4 0 0

(x, y)
IV Quadrante

y = 11

III Quadrante

FIGURA 9-6
x
2 3 4 5 6 7
27

9-3 Regresso Definio


Equao de Regresso
Dada uma coleo de dados amostrais emparelhados, a equao de regresso

^ y = b0 + b1x
descreve a relao entre as duas variveis

(reta de melhor ajuste ou reta de mnimos quadrados)

Reta de Regresso

o grfico da equao de regresso


28

Reta de Regresso em Diagrama de Disperso

29

A Equao de Regresso
x a varivel independente
(varivel preditora)

^y a varivel dependente
(varivel resposta)

^ y = b0 +b1x y = mx +b

b0 = y - intercepto b1 = inclinao
30

Notao para a Equao de Regresso


Parmetro Populacional Estatstica Amostral

y-intercepto da equao de regresso


Inclinao da equao de regresso Equao da reta de regresso

0 1
y = 0 + 1 x

b0 b1
^ y = b0 + b1 x

31

Suposies
1. Estamos investigando apenas relaes lineares. 2. Para um dado valor de x, y uma varivel aleatria com distribuio normal (em forma de sino). Todas essas distribuies de y tem a mesma varincia. E ainda, para um dado valor de x, a mdia da distribuio dos valores de y est sobre a reta de regresso. (Os resultados no so afetados seriamente se os desvios da normalidade e da igualdade da varincia no so grandes.)
32

Frmula para b0 e b1
Frmula 9-2

b0 = b1 =

--b x y 1
(Sxy) (Sxx)

(intercepto y)

Frmula 9-3

(coeficiente angular

Calculadoras ou computadores podem determinar estes valores Frmula 9-4


33

A reta de regresso a que melhor se ajusta aos pontos amostrais.

34

Predies
Ao predizer um valor de y com base em determinado valor de x ...
1. Se no h uma correlao linear significativa, o melhor valor predito de y y.

2. Se h uma correlao linear significativa, obtm-se o melhor valor predito de y substituindo-se o valor de x na equao de regresso.

35

FIGURA 9-7

Predizendo o Valor de uma Varivel


Iniciar

Calcular r e testar a hiptese que = 0 H correlao linear significativa ? No Dado um valor arbitrrio de uma varivel, o melhor valor Predito da outra varivel sua mdia amostral. Utilizar a equao de regresso para fazer predies. Levar o valor Dado na equao de regresso.

Sim

36

Diretrizes para o Uso da Equao de Regresso


1. Se no h correlao linear significativa, no use a equao de regresso para fazer predies. 2. Ao aplicar a equao de regresso para predies, mantenha-se dentro do mbito dos dados amostrais. 3. Uma equao de regresso baseada em dados passados no necessariamente vlida hoje. 4. No devemos fazer predies sobre uma populao diferente daquela de onde provm os dados amostrais.
37

Qual a melhor predio do tamanho de uma residncia que descarta 0,227 kg de plstico?
Dados do Projeto Lixo: Anlise de plstico descartado
x Plstico (kg) 0,122 0,640 0,993 1,284 0,993 0,821 0,386 1,383 y Tamanho da residncia

Usando uma calculadora:

b0 = 0,549 b1 = 3,263
y = 0,549 + 3,263 (0,227) y = 1,29
Uma residncia que que descarta 0,227 kg de plstico tem aproximadamente uma pessoa.
38

Definies
Variao Marginal
a quantia que uma varivel varia quando a outra varivel sofre uma variao de exatamente 1 unidade

Outlier
um ponto que est muito afastado dos demais pontos.

Pontos de Influncia
pontos que afetam fortemente o grfico da reta de regresso.
39

Resduos e Propriedade de Mnimos Quadrados


Definies
Resduos
dado um par de dados amostrais (x,y), um resduo a ^ diferena (y - y) entre um valor amostral observado y e ^ o valor y predito com base na equao de regresso.

Propriedade dos Mnimos Quadrados


Uma reta verifica a propriedade dos mnimos quadrados se a soma dos quadrados dos resduos a menor possvel.

40

Resduos e a Propriedade dos Mnimos Quadrados


x y
1 2 4 24 4 5 8 32 y
32 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0

^ = 5 + 4x y
Resduo = 7 Resduo = 11

Resduo = -5
2 3 4

Resduo = -13
5

FIGURA 9-8

41

9-4

Intervalo de Variao e de Predio


42

Desvio Total (de um particular ponto (x, y) em relao mdia)


a distncia vertical y - y, que a distncia entre o ponto (x, y) e a reta horizontal que passa pela mdia amostral y.

Definies

Desvio Explicado

^ a distncia vertical y - y, que a distncia entre o valor predito y e a reta horizontal que passa pela mdia amostral y. ^ a distncia vertical y - y, que a distncia vertical entre o ponto (x, y) e a reta de regresso. (A distncia y - ^ y tambm chamada resduo, definido na Seo 9-3.)

Desvio no-explicado

43

Figura 9-9 Desvios: No-explicado, Explicado e Total


y
20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 0

(5, 19)

Desvio total (y - y ) (5, 13)

Desvio no-explicado ^ (y - y ) Desvio explicado (^ - y) y

(5, 9) ^ y = 3 + 2x

y=9

x
1 2 3 4 5 6 7 8 9

44

(desvio total)

(y - y) =

(desvio explicado) + (desvio no-explicado) ^ ^

(y - y)

(y - y)

(variao total)

= (variao explicada) + (variao no-explicada)

(y - y) =

(y^-

y)

+ (y - y)

^ 2

Frmula 9-5

45

Definio
Coeficiente de determinao
o valor da variao de y que explicado pela reta de regresso

variao explicada. variao total

ou simplesmente o quadrado de r (determinado pela Frmula 9-1, seo 9-2)

46

Intervalos de Predio
Definio
Erro-padro da estimativa
uma medida das diferenas (ou distncias) entre os valores amostrais y observados e os ^ valores preditos y obtidos atravs da reta de regresso.

47

Erro-padro da Estimativa

(y

^ 2 - y)

n-2

ou

y - b0 y - b1 xy
2

n-2

Frmula 9-6
48

Intervalo de Predio para um determinado y

y-E< y < y+E


onde E = t/2 se
(x0 x ) 1+ n + Sxx
1
2

t/2 tem n - 2 graus de liberdade

x0 representa o valor dado de x


49

9-5

Regresso Mltipla
Definio

Equao de Regresso Mltipla


Um relacionamento linear entre uma varivel dependente y e duas ou mais variveis independentes (x1, x2, x3 . . . , xk)

^=b +b x +b x +...+b x y 0 1 1 2 2 k k
50

Notao
(Forma geral da equao de regresso mltipla estimada)

y = b0 + b1 x1+ b2 x2+ b3 x3 +. . .+ bk xk

n = tamanho da amostra k = nmero de variveis independentes


^ y = valor predito da varivel dependente y

x1, x2, x3 . . . , xk so as variveis independentes

51

Notao
0 = intercepto y, ou valor de y quando todas as
variveis preditoras so 0.

b0 = estimativa de 0 baseada nos dados amostrais 1, 2, 3 . . . , k so os coeficientes das variveis


independentes x1, x2, x3 . . . , xk

b1, b2, b3 . . . , bk so as estimativas amostrais dos coeficientes 1, 2, 3 . . . , k


52

R Ajustado Definies
Coeficiente de determinao mltipla
uma medida do grau de ajustamento da equao de regresso mltipla aos dados amostrais

Coeficiente de determinao ajustado


o coeficiente mltiplo de determinao R modificado de modo a levar em conta o nmero de variveis e o tamanho da amostra.
2

53

R Ajustado
2

R Ajustado = 1 Frmula 9-7 onde

(n - 1)

[n - (k + 1)]

(1 - R )

n = tamanho da amostra k = nmero de variveis independentes (x)


54

Determinao da Melhor Equao de Regresso Mltipla


1. Use o bom senso e consideraes de ordem prtica para incluir ou excluir variveis. 2. Em vez de incluir todas as variveis disponveis, inclua um nmero relativamente pequeno de variveis independentes (x), eliminando as variveis independentes que no tenham influncia na varivel dependente. 3. Escolha uma equao que tenha um valor de R ajustado com esta propriedade: Se se inclui uma varivel 2 independente adicional, o valor de R ajustado no aumentado substancialmente. 4. Para um dado nmero de variveis independentes (x), 2 escolha a equao com o maior valor ajustado R . 5. Escolha uma equao que tenha significncia global, tal como determinada pelo valor P na tela do computador.
55

Você também pode gostar