Você está na página 1de 46

Correlação Entre duas

Variáveis
Noções sobre Correlação

Foram testados três marcas de pneus em


um carro conforme a quilometragem
aumenta e foram analisados o desgaste
das três marcas.
Km Marca 1 Marca 2 Marca 3

1 1 14 3

2 4 9 9

3 7 7 6

4 10 3 9

5 12 2 3

Considerando Km(x) e Marcas(y) pode-se analisar as relações


Diagrama de Dispersão no R:
Marca 1: Km contra desgaste
12
10
8
y

6
4
2

1 2 3 4 5

x
x
5
4
3
2
1 Marca 1: desgaste contra Km

2 4 6 8 10 12

y
14
12
10
8 Marca 2: Km contra desgaste
y
6
4
2

1 2 3 4 5

x
5
4
3 Marca 2: desgaste contra Km
x

2
1

2 4 6 8 10 12 14

y
9
8
7
6
Marca 3: Km contra desgaste
y

5
4
3

1 2 3 4 5

x
5
4
3 Marca 3: desgaste contra Km
x

2
1

3 4 5 6 7 8 9

y
Comportamento de Duas
Variáveis:
Se as variáveis crescem no mesmo
sentido, isto é, se quando X cresce Y em
média também cresce, diz-se que as duas
variáveis têm correlação positiva.
Se as variáveis X e Y variam em
sentidos contrários, isto é, se quando X
cresce, Y em média decresce, diz-se que as
duas variáveis têm correlação negativa.
Relação de Causa e Efeito:

É importante deixar claro, aqui, que uma


correlação positiva entre duas variáveis mostra
apenas que essas variáveis crescem no
mesmo sentido. Não indicando que aumentos
sucessivos em uma das variáveis causam
aumentos sucessivos na outra variável.
Coeficiente de Correlação:
 x y
 xy 
n
r

 x2   x 2
 
 y 2   
y 2

 n   n 
  
O valor de r varia entre -1 e +1, ou seja:

 1  r  1
Km(X) Marca 1(Y) X² Y² X.Y

1 1 1 1 1

2 4 4 16 8

3 7 9 49 21

4 10 16 100 40

5 12 25 144 60

15 34 55 310 130

ΣX ΣY ΣX² ΣY² ΣX.Y


 x y
 xy 
n
r

 x2   x  2
 y 2   y 
 2


 n   n 
  

15  34
130 
5 28
r    0,9975

 55  15 2

 310  34 2
 28,07

 5  5 

Regressão Linear
Método dos Mínimos Quadrados:
- Este método é utilizado nas estimativas de
coeficientes de regressão linear simples e
múltipla. E o objetivo é minimizar os erros
quadrados buscando o melhor ajuste dos
dados
Dado a regressão linear simples :
yi   0  1xi   i , i  1,2,....n
 y  x
i i 0 1 i

Chamando de
n n

 (y   0  1xi )2
2
L i
 i
i 1 i 1 i

Derivando com relação  0 e posteriormente


igualando a zero :

'

L    ( yi   0  1xi )2   2 ( yi   0  1xi )  0


n n
'

 i 1 i  i 1 i

n n n n n

 y  
i 1
i
i 1
0
  xi 1
1 i
 0  n 0   1  x i 
i 1
y
i 1
i

 x 
n n

 y  i ^

    y  1 x
i  

0  i 1
 1  i 1

n  n  0
 
Derivando com relação 1 e posteriormente
igualando a zero :
'

L   (yi  0  1xi )  2 (yi   0  1xi )xi  0


n n
'

 i 1  i 1

n n n n

 (yi  0  1xi )xi  0   yixi    x   x  0


2

0 i 1 i
i 1 i 1 i 1 i 1
n n n n n n

 x   x yx x yx    x


2 2

0 i 1 i
 i i
 1 i
 i i 0 i
i 1 i 1 i 1 i 1 i 1 i 1

n n n substituindo 0

 x  yx   0  xi 
2

1 i i i
i 1 i 1 i 1

 n 
n

n n   yi   x i  n

1  x i   y i x i    1     xi
2 i 1 i 1

i 1 i 1  n  n   i1
 
  
 n 
2
n n

 yi  xi    xi  
  1   i 1  
n n

 1  x i   y i x i  i 1 i 1
2

i 1 i 1 n  n 
 
 
 n 
2

   xi   n
n n

n
   yi  xi
1  x i  1    y x  i 1 i 1
 
2 i  1

i 1  n i 1
i i
n
 
 
 
2
 
n n n

 n   xi   yx
 1   x i   i 1 
n

i i

yx
2
 i 1 i 1

 i 1 n  i 1
i i
n
 
 
 yi  xi 
n n

 n 
  y i x i  i  1 i 1 
 i1 n 
1   
^

  
2

n

 n  i  x
 x 2   i 1  
 i 1
i
n 
 
 
Assim a linha de regressão ajustada ou estimada é, consequentemente
^ ^ ^

y   0  1 x
^ ^

y   0  1 x   i : o mod elo estimado.


Idéia Básica:Regressão
Linear
Tal como a análise de correlação, a
regressão linear simples é uma técnica
usada para explorar a natureza da relação
entre duas variáveis aleatórias contínuas.
A regressão nos possibilita investigar
a mudança em uma variável, chamada
resposta(Y), correspondente à mudança
na outra, conhecida como variável
explicativa(X).
Regressão Linear:Equação do 1º
Observe que os pontos estão
praticamente sobre uma reta no exemplo,
logo a variação do desgaste dos pneus(Y)
em função da variação da quilometragem
rodada(X) pode ser descrita através de
uma reta que, em estatística, recebe o
nome de reta de regressão. Qual a
equação de uma reta?
y  bx  a   i
Nomeando os parâmetros a e b:

Precisamos determinar o valor de b


(coeficiente angular) e o valor de a
(coeficiente linear). O valor de b da à
inclinação da reta, enquanto, a fornece o
ponto onde a reta corta o eixo das
ordenada, ou seja, corta o eixo Y.
Cálculo de b e a:

 x y
 xy 
n
b
 x 2

x 2

n

a  y  bx
No exemplo anterior:

 xy   x y
130 
15 * 34
b n  5  2,8
 x
2
15 
2

x  n
2 55 
5

x
 X

15
3
n 5

y
y
34
 6,8
n 5
a  y  bx

a  6,8  (2,8)  3  1,6

yˆ  2,8.x  1,6   i
Outra Forma:Matricialmente
- Um modelo estatístico de uma regressão linear
com k variáveis explanatórias é dado como:

Y j     1 X 1 j   2 X 2 j  ...   k X kj  u j , j 1 ,...n

ou Notação Matricial : Y  X  u
onde
 Y1     u1   1 X11 X 21 ... X k1 
 ...   0   u2   
       1 X12 X 22 ... X k 2 
Y   ...  ,    ...  ,u   ...  X 
 ...   ... ... ... ... ... 
 ...   ...   
       1 X1n X 2n ... X kn 
Y
 n 
  n u
  n 
Desta forma a estimação dos β’s matricialmente
se dá da seguinte maneira:
^
  ( X t .X )1 .X t .Y  ( X ' .X )1 .X ' .Y
Em que
 n X 1 j X 2 j ... X kj 
 
 X 1 j X12j X1 j X 2 j ... X1 j X kj 
( X t .X )1  ( X ' .X )1  X 2 j X 1 j X 2 j X 22 j ... X 2 j X kj 
 
 ... ... ... ... ... 
 X X1 j X kj X 2 j X kj ... X kj2 
 kj
e
 Y j 
 
X
 1j j Y
X t .Y  X ' .Y  X 2 jY j 
 
 ... 
 X Y 
 kj j 
- A partir dos dados anteriores, tem-se que:
 n X 1 j   5 15 
(X' X)   2    
 X
 1j  X 1j  15 55 
 Y1 j   34 
X .Y  
'
  
 X Y
 1j   130 
Vamos inverter ( X '. X ) achando ( X '. X )1
Matriz adjunta :
1
( X '. X )1  .(adj ( X '. X ))
X '. X
adj ( X '. X )  Cof ( X '. X )
t

M ij  ( 1)i  j ( X '. X )ij


Estimando os coeficientes:
^
  ( X t . X )1. X t .Y  ( X ' . X )1. X ' .Y 
 1,1  0,3  34 
 0,3 0,1 .130  
  
 1,1  0,3 .  1,6 a 
     
 0,3 0,1  .  2,8  b 
 34 
130 
 

yˆ  2,8 x  1,6   i
Cálculo do R²:
• R²=(r)².100=(0,9975)².100=99,50%, seria o
equivalente ao quanto a variação dos
quilometragem rodada explica a variação do
desgaste do pneu de marca 1.
Inferência no Modelo de
Regressão:

Yi   0  1 X i   i i  1,.., n
Estimação da variância (2)
A variância, 2, dos erros, i, no modelo de regressão precisa ser estimada para obter
uma indicação da variabilidade da distribuição de probabilidade de Y. Necessário para
inferências.
Lembrete: a variância de cada observação Yi para o nosso modelo de regressão é 2, a
mesma de cada i.
Precisamos calcular a soma de quadrados de desvios, considerando que cada Yi veêm
de diferentes distribuições de probabilidade com diferentes médias que dependem do
nível de Xi; as médias são estimadas por Yi(chapéu). Assim os desvios são os resíduos:
εi =Yi Yˆi
A soma de quadrados do erro (resíduo), SQE, é dada por:
n n
SQE = (Yi  Yˆi )2 = εi2
i =1 i =1

Dois graus de liberdade são perdidos para estimar os parâmetros 0 e 1. O quadrado
médio do erro é dado por (QME): SQE
QME =
n2
Temos que o QME é um estimador não tendencioso de 2 (prova adiante) pois
E(QME)= σ2
Testes de Hipóteses para 1:
• Primeiramente devemos estimar a variância da
distribuição amostral de b1 substituindo 2 pelo
quadrado médio residual (QME). O estimador
s2(b1) é um estimador não tendencioso de 2
(b1). QME
2
s (b1 ) =

 x2   x 2


 n 
 
• Funcionamento das Hipóteses comparadas
H0 : β1 = 0 Não há associação
entre X e Y.

Ha : β1  0
Distribuição amostral de (b1-1)/s(b1)
• Como b1 tem distribuição normal, sabemos que
a estatística padronizada (b1-1)/(b1) é uma
variável aleatória com distribuição normal
padrão. Para estimar (b1) usamos s(b1) e,
assim precisamos conhecer a distribuição da
estatística (b1-1)/s(b1) [estatística studentizada].
• Teorema:

b1  1
s ( b1 ) ~ t(n - 2)
Teste Estatístico Formal:
b1  β1
tc =
s(b1 )

Critério do teste: estamos controlando a


probabilidade de erro tipo I ().

Se | tc | t(α / 2; n  2 ), não rejeita- se H0


Se | tc | t(α / 2; n  2 ), rejeita- se H0
Testes de Hipóteses para 0 :
• Primeiramente devemos estimar a variância da
distribuição amostral de b0 substituindo 2 pelo
quadrado médio residual (QME). O estimador
s2(b0) é um estimador não tendencioso de 2
(b0).
 
 _
2

1 (X ) 
s (b0 ) = QME.  
2
2 

n 
 x 
2 ( x ) 

  n 
 
• Funcionamento das Hipóteses comparadas

H0 : β0 = 0 Não há efeito fixo de


Y.

Ha : β0  0

• Distribuição amostral de (b0-0)/s(b0)

b0  β 0
~ t(n  2 )
s(b 0 )
Teste Estatístico Formal:
b0  β0
tc =
s(b0 )

Critério do teste: estamos controlando a


probabilidade de erro tipo I ().

Se | tc | t(α / 2; n  2 ), não rejeita- se H0


Se | tc | t(α / 2; n  2 ), rejeita- se H0
Intervalo de Confiança para 0 e 1

b0 ± t(α , n  2 )s(b0 )

b1 ± t(α , n  2 )s(b1 )
Análise de Variância:
• Teste F correlato ao Teste t para 1 ;
• Mais utilizado em modelos de regressão múltipla;
• Funcionamento do teste:

H0 : β1 = 0 Não há associação
entre X e Y.

Ha : β1  0
Partição da Soma de Quadrados
Yi  Y  ( Yˆi  Y )  ( Yi  Yˆi )
Desvio Desvio da Desvio em
total equação torno da
ajustada em equação
torno da média ajustada

Yi

E
T
R
Y

X Xi
 (Y  Y )    
n n
2
Demonstração:
2 ˆ ˆ
(Yi  Y )  (Yi  Yi )
i 1 i 1

 (Yˆ  Y ) 
n

i
2
 (Yi  Yˆi ) 2  2(Yˆi  Y )(Yi  Yˆi )
i 1
n n n

 (Yˆi  Y ) 2   (Yi  Yˆi ) 2  2 (Yˆi  Y )(Yi  Yˆi )


i 1 i 1 i 1
n n n
2 (Yˆi  Y )(Yi  Yˆi )  2 Yˆi (Yi  Yˆi )  2Y  (Yi  Yˆi )  0
i 1 i 1 i 1
n n n
  (Y  Y )   (Yˆ  Y )   (Y  Yˆ )
i 1
2

i 1
i
2

i 1
i i
2

2
n
 ___  n
SQT = (Yi  Y)  Yi  n.Y 
2 2
Soma de quadrados total:
i =1 i 1  
n n n n
SQE = (Yi  Yˆi )2  Yi  a.Yi  b X i .Yi
2
Soma de quadrados do erro (ou resíduo):
i =1 i 1 i 1 i 1
n
Soma de quadrados da regressão: SQR = (Yˆi  Y )2  SQT  SQE
i =1
Graus de liberdade
A SQT tem n-1 graus de liberdade; um grau de liberdade é perdido devido a restrição de
que a soma dos desvios em torno da média é zero. De outra forma: um grau de liberdade é
perdido porque a média da amostra é usada para estimar a média populacional.

A SQE tem n-2 graus de liberdade. Dois graus de liberdade são perdidos pois dois
parâmetros são estimados para obter Y(chapéu)i.

A SQR tem 1 grau de liberdade. Dois g.l. estão associados com a regressão (2
parâmetros); um deles é perdido devido a restrição:  (Yˆi Y) = 0.
Os graus de liberdade são aditivos: (n-1)=1+(n-2)

Quadrados médios
A soma de quadrados dividida pelos graus de liberdade é chamada de quadrado
médio.

SQR SQE SQT


QMR = QME = QMT =
1 (n  2 ) (n  1)
Quadro de Análise de Variância para Regressão Linear:
CAUSAS DA SOMA DE GRAUS DE QUADRADOS FCALCULADO p-valor
VARIAÇÃO QUADRADOS LIBERDADE MÉDIOS (QM)
(CV) (SQ) (GL)
REGRESSÃO SQREGRESSÃO 1 QMREGRESSÃO

ERRO SQERROS n-2 QMERROS

TOTAL SQTOTAL n-1

Regra de decisão do teste de hipóteses:

Fc  F(α , n  2 )  não rejeita  se H0


Fc  F(α , n  2 )  rejeita  se H0

Você também pode gostar