Você está na página 1de 55

9

Correlação e Regressão
9-1 Aspectos Gerais
9-2 Correlação
9-3 Regressão
9-4 Intervalos de Variação e Predição
9-5 Regressão Múltipla

1
9-1 Aspectos Gerais

Dados Emparelhados
™ há uma relação?
™ se há, qual é a equação?
™ usar a equação para predição

2
9-2
Correlação

3
Definição
™Correlação
existe entre duas variáveis
quando uma delas está, de
alguma forma, relacionada com a
outra.

4
Suposições
1. A amostra de dados emparelhados
(x,y) é uma amostra aleatória.
2. Os pares de dados (x,y) tem uma
distribuição normal bivariada.

5
Definição
™Diagrama de Dispersão
é um gráfico de dados amostrais
emparelhados (x,y) com o eixo x
horizontal e o eixo y vertical.
Cada par individual (x,y) é
plotado como um ponto.

6
Diagrama de Dispersão

7
Correlação Linear Positiva

y y y

x x x
(b) Positiva (c) Positiva
(a) Positiva Perfeita
Forte

Figura 9-1 Diagramas de Dispersão


8
Correlação Linear Negativa

y y y

x x x
(d) Negativa (e) Negativa (f) Negativa
Forte Perfeita

Figura 9-1 Diagramas de Dispersão


9
Sem Correlação Linear

y y

x x
(g) Não há (h) Correlação
Correlação não-linear

Figura 9-1 Diagramas de Dispersão


10
Notação

- -
Sxx = Σ(x – x) = (Σx ) – n( x )2
2 2

- -
Syy = Σ(y – y) = (Σy ) – n( y )2
2 2

- – y)
Sxy = Σ (x – x)(y - = (Σxy) – n ( x- )( y- )

11
Definição
™ Coeficiente de Correlação Linear r
mede o grau de relacionamento linear entre os
valores emparelhados x e y em uma amostra
Sxy
r=
(Sxx) (Syy )

Fórmula 9-1

Calculadoras podem fornecer r

ρ (rô) é o coeficiente de correlação linear de todos os


dados emparelhados da população.
12
Notação para o Coeficiente de Correlação Linear
n número de pares de dados presentes

Σ denota a adição dos itens indicados.

Σx denota a soma de todos os valores de x.

Σx 2 indica que devemos ao quadrado cada valor de x e somar


os resultados.

(Σx)2 indica que devemos somar os valores de x e elevar o total


ao quadrado.

Σxy indica que devemos multiplicar cada valor de x pelo valor


correspondente de y e somar então todos estes produtos.

r representa o coeficiente de correlação linear para uma


amostra.
ρ representa o coeficiente de correlação linear para uma
população 13
Interpretando o Coeficiente de
Correlação Linear
™Se o valor absoluto de r excede o valor
na Tabela A - 6, concluímos que há
correlação linear significativa.

™Caso contrário, não há evidência


suficiente para apoiar a existência de
uma correlação linear significativa.

14
TABELA A-6 Valores Críticos do
Coeficiente de Correlação de Pearson r
n α = .05 α = .01
4 ,950 ,999
5 ,878 ,959
6 ,811 ,917
7 ,754 ,875
8 ,707 ,834
9 ,666 ,798
10 ,632 ,765
11 ,602 ,735
12 ,576 ,708
13 ,553 ,684
14 ,532 ,661
15 ,514 ,641
16 ,497 ,623
17 ,482 ,606
18 ,468 ,590
19 ,456 ,575
20 ,444 ,561
25 ,396 ,505
30 ,361 ,463
35 ,335 ,430
40 ,312 ,402
45 ,294 ,378
50 ,279 ,361
60 ,254 ,330
70 ,236 ,305
80 ,220 ,286
90 ,207 ,269
100 ,196 ,256

15
Propriedades do
Coeficiente de Correlação Linear r
1. -1 ≤ r ≤ 1
2. O valor de r não varia se todos os valores de
qualquer uma das variáveis são convertidos
para uma escala diferentes.
3. O valor de r não é afetado pela escolha de x ou
y. Permutando todos os valores de x e y, o valor
de r permanecerá inalterado.
4. r mede a intensidade, ou grau, de um
relacionamento linear.
16
Erros Comuns Envolvendo Correlação

1. Causalidade: É errado concluir que correlação


implica causalidade.

2. Médias ou Taxas: Taxas ou médias suprimem


a variação individual e podem inflacionar o
coeficiente de correlação.

3. Linearidade: Pode haver alguma relação entre


x e y mesmo quando não há correlação linear
significativa.
17
Erros Comuns Envolvendo Correlação

FIGURA 9-2
250

200
Distância

150
(pés)

100

50

0
0 1 2 3 4 5 6 7 8

Tempo (segundos)

Diagrama de dispersão da distância acima do solo e do tempo


para um objeto lançado para cima
18
Teste de Hipótese Formal
™ Para determinar se existe uma
correlação linear significativa entre
duas variáveis
™ Dois métodos
™ Ambos métodos utilizam:
H0: ρ = 0
(não há correlação linear significativa)
H1: ρ ≠ 0
(correlação linear significativa)
19
Método 1: Estatística de Teste é t
(segue formato apresentado anteriormente)
Estatística de Teste:
r
t=
1-r2
n-2

Valores Críticos:

utilizar a Tabela A-3 com


graus de liberdade = n - 2
20
Método 1: Estatística de Teste é t
(segue formato apresentado anteriormente)

Figura 9-4

21
Método 2: Estatística de Teste é r
(exige menos cálculos)

™Estatística de teste: r
™Valores críticos: Consulte a Tabela A-6
(não há graus de liberdade)

Rejeitar Não rejeitar Rejeitar


ρ =0 ρ=0 ρ =0

-1 r = - 0,811 0 r = 0,811 1

Figura 9-5 Valor amostral:


r = 0,828

22
FIGURA 9-3 Início

Teste para a Seja: H0: ρ = 0


H1: ρ ≠ 0

Correlação Linear
Escolha um
nível de
significância l α

Calcule r com a
Fórmula 9-1
MÉTODO 1 MÉTODO 2

A estatística de teste é A estatística de teste é r


r
t= Os valores críticos de r encontram-se
1-r2 na Tabela A-6
n -2
Os valores críticos de t estão na
Tabela A-3, ( n -2 graus de liberdade)

Se o valor absoluto da
estatística de teste excede os
valores críticos, rejeitar H0: ρ = 0
Caso contrário, não rejeitar H0

Se H0 é rejeitada, concluir que há


Correlação linear significativa.
Se H0 não é rejeitada, então não há
evidência suficiente para concluir
pela existência de uma correlação linear.
23
Há correlação linear significativa?
Dados do Projeto do Lixo: Análise de plástico descartado
x Plástico (kg) 0,122 0,640 0,993 1,284 0,993 0,821 0,386 1,383

y Tamanho da 2 3 3 6 4 2 1 5
residência

n=8 α = 0,05 H0: ρ = 0


H 1 :ρ ≠ 0

Estatística de teste é r = 0,842

24
Há correlação linear significativa?
n α = ,05 α = ,01
n=8 α = 0,05 H0: ρ=0 4
5
,950
,878
,999
,959
:ρ ≠ 0
6 ,811 ,917
H1 7 ,754 ,875
8 ,707 ,834
9 ,666 ,798
10 ,632 ,765
11 ,602 ,735

Estatística de teste é r = 0,842


12 ,576 ,708
13 ,553 ,684
14 ,532 ,661
15 ,514 ,641
16 ,497 ,623
17 ,482 ,606
18 ,468 ,590
19 ,456 ,575

Valores críticos são r = - 0,707 e 0,707


20 ,444 ,561
25 ,396 ,505
30 ,361 ,463
(Tabela A-6 com n = 8 e α = 0,05) 35
40
,335
,312
,430
,402
45 ,294 ,378
50 ,279 ,361
60 ,254 ,330
70 ,236 ,305
80 ,220 ,286
90 ,207 ,269
100 ,196 ,256
TABELA A-6 Valores Críticos do Coeficiente de
Correlação de Pearson r

25
Há correlação linear significativa?
0,842 > 0,707, ou seja, a estatística de teste está na região
crítica.
REJEITAMOS, pois, H0: ρ = 0 (ausência de correlação) e
concluímos que há correlação linear significativa entre o
Peso de plástico descartado e o tamanho das residências.

Rejeitar Não Rejeitar Rejeitar


ρ =0 ρ=0 ρ =0

-1 r = - 0,707 0 1
r = 0,707

Dados amostrais:
r = 0,842

26
Justificação para a Fórmula de r
Fórmula 9-1 é desenvolvida de

Σ (x -x) (y -y)
r= (n -1) sx sy
(x, y) centróide dos pontos
da amostra
x=3
y x - x = 7- 3 = 4
(7, 23)
24

20
y - y = 23 - 11 = 12

II Quadrante I Quadrante
16

12
y = 11
(x, y)
8

III Quadrante IV Quadrante

4
••
FIGURA 9-6
0 x
0 1 2 3 4 5 6 7
27
9-3 Regressão
Definição
™ Equação de Regressão
Dada uma coleção de dados amostrais
emparelhados, a equação de regressão

y^ = b0 + b1x
descreve a relação entre as duas variáveis

™ Reta de Regressão
(reta de melhor ajuste ou reta de mínimos quadrados)

o gráfico da equação de regressão

28
Reta de Regressão em Diagrama de
Dispersão

29
A Equação de Regressão
x é a variável independente
(variável preditora)
^y é a variável dependente
(variável resposta)

y^ = b0 +b1x b0 = y - intercepto

y = mx +b b1 = inclinação

30
Notação para a Equação de
Regressão
Parâmetro Estatística
Populacional Amostral

y-intercepto da equação de regressão β0 b0

Inclinação da equação de regressão β1 b1

Equação da reta de regressão y = β0 + β1 x y^ = b0 + b1 x

31
Suposições
1. Estamos investigando apenas relações lineares.

2. Para um dado valor de x, y é uma variável


aleatória com distribuição normal (em forma de
sino). Todas essas distribuições de y tem a
mesma variância. E ainda, para um dado valor
de x, a média da distribuição dos valores de y
está sobre a reta de regressão.
(Os resultados não são afetados seriamente se
os desvios da normalidade e da igualdade da
variância não são grandes.)

32
Fórmula para b0 e b1

Fórmula 9-2 b0 = -y - b x- (intercepto y)


1

(Sxy)
Fórmula 9-3 b1 = (coeficiente angular
(Sxx)

Calculadoras ou computadores podem


determinar estes valores
Fórmula 9-4
33
A reta de regressão
é a que melhor se
ajusta aos pontos
amostrais.

34
Predições
Ao predizer um valor de y com base em
determinado valor de x ...
1. Se não há uma correlação linear significativa,
o melhor valor predito de y é y.
2. Se há uma correlação linear significativa,
obtém-se o melhor valor predito de y
substituindo-se o valor de x na equação de
regressão.

35
FIGURA 9-7 Predizendo o Valor de uma Variável

Iniciar

Calcular r e
testar a hipótese
que ρ = 0

Há Utilizar a equação
correlação Sim de regressão para fazer
linear predições. Levar o valor
significativa Dado na equação de
? regressão.
Não
Dado um valor arbitrário de
uma variável, o melhor valor
Predito da outra variável é
sua média amostral.

36
Diretrizes para o Uso da
Equação de Regressão
1. Se não há correlação linear significativa, não
use a equação de regressão para fazer
predições.
2. Ao aplicar a equação de regressão para
predições, mantenha-se dentro do âmbito dos
dados amostrais.
3. Uma equação de regressão baseada em dados
passados não é necessariamente válida hoje.
4. Não devemos fazer predições sobre uma
população diferente daquela de onde provêm
os dados amostrais.
37
Qual é a melhor predição do tamanho de uma
residência que descarta 0,227 kg de plástico?
Dados do Projeto Lixo: Análise de plástico descartado
x Plástico (kg) 0,122 0,640 0,993 1,284 0,993 0,821 0,386 1,383

y Tamanho da 2 3 3 6 4 2 1 5
residência
Usando uma calculadora:
b0 = 0,549
b1 = 3,263
y = 0,549 + 3,263 (0,227)
y = 1,29
Uma residência que que descarta 0,227 kg de
plástico tem aproximadamente uma pessoa.
38
Definições
™ Variação Marginal
a quantia que uma variável varia quando a
outra variável sofre uma variação de
exatamente 1 unidade
™ Outlier
um ponto que está muito afastado dos
demais pontos.
™ Pontos de Influência
pontos que afetam fortemente o gráfico da
reta de regressão.

39
Resíduos e Propriedade de
Mínimos Quadrados
Definições
™ Resíduos
dado um par de dados amostrais (x,y), um resíduo é a
^) entre um valor amostral observado y e
diferença (y - y
o valor y^ predito com base na equação de regressão.

™Propriedade dos Mínimos Quadrados


Uma reta verifica a propriedade dos mínimos quadrados
se a soma dos quadrados dos resíduos é a menor
possível.

40
Resíduos e a Propriedade dos
Mínimos Quadrados
x 1 2 4 5 ^
y = 5 + 4x
y 4 24 8 32

y
32 • Resíduo = 7
30
28
26
24
22
• Resíduo = 11
20
18
16
14
12
10
8 •
6 Resíduo = -13
4
2
• Resíduo = -5
0 x
FIGURA 9-8 1 2 3 4 5

41
9-4
Intervalo de
Variação e de
Predição
42
Definições
Desvio Total (de um particular ponto (x, y) em relação à média)
é a distância vertical y - y, que é a distância entre o ponto
(x, y) e a reta horizontal que passa pela média amostral y.
Desvio Explicado
^
é a distância vertical y - y, que é a distância entre o valor
predito y e a reta horizontal que passa pela média
amostral y.
Desvio não-explicado
^, que é a distância vertical entre
é a distância vertical y - y
o ponto (x, y) e a reta de regressão. (A distância y - ^ y
também é chamada resíduo, definido na Seção 9-3.)

43
Figura 9-9 Desvios: Não-explicado, Explicado e Total

y
20
(5, 19)
19
18

17 Desvio
16 não-explicado
15 Desvio (5, 13) ^)
14 (y - y
total
13
(y - y )
• Desvio
12
11 explicado
(^
10
y - y)
9
8

7 (5, 9) y=9
6
5
4 y^ = 3 + 2x
3
2
1
0 x
0 1 2 3 4 5 6 7 8 9

44
(desvio total) = (desvio explicado) + (desvio não-explicado)

(y - y) = ^
(y - y) + ^
(y - y)

(variação total) = (variação explicada) + (variação não-explicada)

2 2 ^ 2
Σ (y - y) = Σ (y^- y) + Σ (y - y)
Fórmula 9-5

45
Definição
Coeficiente de determinação
é o valor da variação de y que é
explicado pela reta de regressão
variação explicada.
R 2
=
variação total

ou
simplesmente o quadrado de r
(determinado pela Fórmula 9-1, seção 9-2)

46
Intervalos de Predição
Definição
Erro-padrão da estimativa
é uma medida das diferenças (ou distâncias)
entre os valores amostrais y observados e os
valores preditos y^ obtidos através da reta de
regressão.

47
Erro-padrão da Estimativa

Σ (y ^
- y)2
s e =
n-2

ou

Σ y - b0 Σ y - b1 Σ xy
2
se =
n-2 Fórmula 9-6
48
Intervalo de Predição para um
determinado y
^ ^
y-E< y < y+E

onde
2
1 (x0 – x )
E = tα/2 se 1+ n +
Sxx

x0 representa o valor dado de x


tα/2 tem n - 2 graus de liberdade
49
9-5 Regressão Múltipla
Definição
Equação de Regressão Múltipla
Um relacionamento linear entre uma
variável dependente y e duas ou mais
variáveis independentes (x1, x2, x3 . . . , xk)

^
y = b0 + b1x1 + b2x2 + . . . + bkxk

50
Notação
^
y = b0 + b1 x1+ b2 x2+ b3 x3 +. . .+ bk xk
(Forma geral da equação de regressão múltipla estimada)

n = tamanho da amostra
k = número de variáveis independentes
y^ = valor predito da variável dependente y
x1, x2, x3 . . . , xk são as variáveis independentes

51
Notação
ß0 = intercepto y, ou valor de y quando todas as
variáveis preditoras são 0.
b0 = estimativa de ß0 baseada nos dados amostrais
ß1, ß2, ß3 . . . , ßk são os coeficientes das variáveis
independentes x1, x2, x3 . . . , xk
b1, b2, b3 . . . , bk são as estimativas amostrais dos
coeficientes ß1, ß2, ß3 . . . , ßk

52
2
R Ajustado
Definições
™ Coeficiente de determinação múltipla
uma medida do grau de ajustamento da
equação de regressão múltipla aos dados
amostrais
™ Coeficiente de determinação ajustado
o coeficiente múltiplo de determinação R2
modificado de modo a levar em conta o
número de variáveis e o tamanho da
amostra.
53
R Ajustado
2

2 (n - 1) 2
R Ajustado = 1 - (1 - R )
[n - (k + 1)]
Fórmula 9-7

onde n = tamanho da amostra


k = número de variáveis independentes (x)
54
Determinação da Melhor Equação de Regressão Múltipla
1. Use o bom senso e considerações de ordem prática para
incluir ou excluir variáveis.
2. Em vez de incluir todas as variáveis disponíveis, inclua
um número relativamente pequeno de variáveis
independentes (x), eliminando as variáveis
independentes que não tenham influência na variável
dependente.
2
3. Escolha uma equação que tenha um valor de R ajustado
com esta propriedade: Se se inclui uma variável
2
independente adicional, o valor de R ajustado não é
aumentado substancialmente.
4. Para um dado número de variáveis independentes (x),
2
escolha a equação com o maior valor ajustado R .
5. Escolha uma equação que tenha significância global, tal
como determinada pelo valor P na tela do computador.
55