Escolar Documentos
Profissional Documentos
Cultura Documentos
Variáveis
Noções sobre Correlação
1 1 14 3
2 4 9 9
3 7 7 6
4 10 3 9
5 12 2 3
6
4
2
1 2 3 4 5
x
x
5
4
3
2
1 Marca 1: desgaste contra Km
2 4 6 8 10 12
y
14
12
10
8 Marca 2: Km contra desgaste
y
6
4
2
1 2 3 4 5
x
5
4
3 Marca 2: desgaste contra Km
x
2
1
2 4 6 8 10 12 14
y
9
8
7
6
Marca 3: Km contra desgaste
y
5
4
3
1 2 3 4 5
x
5
4
3 Marca 3: desgaste contra Km
x
2
1
3 4 5 6 7 8 9
y
Comportamento de Duas
Variáveis:
Se as variáveis crescem no mesmo
sentido, isto é, se quando X cresce Y em
média também cresce, diz-se que as duas
variáveis têm correlação positiva.
Se as variáveis X e Y variam em
sentidos contrários, isto é, se quando X
cresce, Y em média decresce, diz-se que as
duas variáveis têm correlação negativa.
Relação de Causa e Efeito:
1 r 1
Km(X) Marca 1(Y) X² Y² X.Y
1 1 1 1 1
2 4 4 16 8
3 7 9 49 21
4 10 16 100 40
5 12 25 144 60
15 34 55 310 130
15 34
130
5 28
r 0,9975
55 15 2
310 34 2
28,07
5 5
Regressão Linear
Método dos Mínimos Quadrados:
- Este método é utilizado nas estimativas de
coeficientes de regressão linear simples e
múltipla. E o objetivo é minimizar os erros
quadrados buscando o melhor ajuste dos
dados
Dado a regressão linear simples :
yi 0 1xi i , i 1,2,....n
y x
i i 0 1 i
Chamando de
n n
(y 0 1xi )2
2
L i
i
i 1 i 1 i
'
i 1 i i 1 i
n n n n n
y
i 1
i
i 1
0
xi 1
1 i
0 n 0 1 x i
i 1
y
i 1
i
x
n n
y i ^
y 1 x
i
0 i 1
1 i 1
n n 0
Derivando com relação 1 e posteriormente
igualando a zero :
'
i 1 i 1
n n n n
0 i 1 i
i 1 i 1 i 1 i 1
n n n n n n
0 i 1 i
i i
1 i
i i 0 i
i 1 i 1 i 1 i 1 i 1 i 1
n n n substituindo 0
x yx 0 xi
2
1 i i i
i 1 i 1 i 1
n
n
n n yi x i n
1 x i y i x i 1 xi
2 i 1 i 1
i 1 i 1 n n i1
n
2
n n
yi xi xi
1 i 1
n n
1 x i y i x i i 1 i 1
2
i 1 i 1 n n
n
2
xi n
n n
n
yi xi
1 x i 1 y x i 1 i 1
2 i 1
i 1 n i 1
i i
n
2
n n n
n xi yx
1 x i i 1
n
i i
yx
2
i 1 i 1
i 1 n i 1
i i
n
yi xi
n n
n
y i x i i 1 i 1
i1 n
1
^
2
n
n i x
x 2 i 1
i 1
i
n
Assim a linha de regressão ajustada ou estimada é, consequentemente
^ ^ ^
y 0 1 x
^ ^
x y
xy
n
b
x 2
x 2
n
a y bx
No exemplo anterior:
xy x y
130
15 * 34
b n 5 2,8
x
2
15
2
x n
2 55
5
x
X
15
3
n 5
y
y
34
6,8
n 5
a y bx
yˆ 2,8.x 1,6 i
Outra Forma:Matricialmente
- Um modelo estatístico de uma regressão linear
com k variáveis explanatórias é dado como:
Y j 1 X 1 j 2 X 2 j ... k X kj u j , j 1 ,...n
ou Notação Matricial : Y X u
onde
Y1 u1 1 X11 X 21 ... X k1
... 0 u2
1 X12 X 22 ... X k 2
Y ... , ... ,u ... X
... ... ... ... ... ...
... ...
1 X1n X 2n ... X kn
Y
n
n u
n
Desta forma a estimação dos β’s matricialmente
se dá da seguinte maneira:
^
( X t .X )1 .X t .Y ( X ' .X )1 .X ' .Y
Em que
n X 1 j X 2 j ... X kj
X 1 j X12j X1 j X 2 j ... X1 j X kj
( X t .X )1 ( X ' .X )1 X 2 j X 1 j X 2 j X 22 j ... X 2 j X kj
... ... ... ... ...
X X1 j X kj X 2 j X kj ... X kj2
kj
e
Y j
X
1j j Y
X t .Y X ' .Y X 2 jY j
...
X Y
kj j
- A partir dos dados anteriores, tem-se que:
n X 1 j 5 15
(X' X) 2
X
1j X 1j 15 55
Y1 j 34
X .Y
'
X Y
1j 130
Vamos inverter ( X '. X ) achando ( X '. X )1
Matriz adjunta :
1
( X '. X )1 .(adj ( X '. X ))
X '. X
adj ( X '. X ) Cof ( X '. X )
t
yˆ 2,8 x 1,6 i
Cálculo do R²:
• R²=(r)².100=(0,9975)².100=99,50%, seria o
equivalente ao quanto a variação dos
quilometragem rodada explica a variação do
desgaste do pneu de marca 1.
Inferência no Modelo de
Regressão:
Yi 0 1 X i i i 1,.., n
Estimação da variância (2)
A variância, 2, dos erros, i, no modelo de regressão precisa ser estimada para obter
uma indicação da variabilidade da distribuição de probabilidade de Y. Necessário para
inferências.
Lembrete: a variância de cada observação Yi para o nosso modelo de regressão é 2, a
mesma de cada i.
Precisamos calcular a soma de quadrados de desvios, considerando que cada Yi veêm
de diferentes distribuições de probabilidade com diferentes médias que dependem do
nível de Xi; as médias são estimadas por Yi(chapéu). Assim os desvios são os resíduos:
εi =Yi Yˆi
A soma de quadrados do erro (resíduo), SQE, é dada por:
n n
SQE = (Yi Yˆi )2 = εi2
i =1 i =1
Dois graus de liberdade são perdidos para estimar os parâmetros 0 e 1. O quadrado
médio do erro é dado por (QME): SQE
QME =
n2
Temos que o QME é um estimador não tendencioso de 2 (prova adiante) pois
E(QME)= σ2
Testes de Hipóteses para 1:
• Primeiramente devemos estimar a variância da
distribuição amostral de b1 substituindo 2 pelo
quadrado médio residual (QME). O estimador
s2(b1) é um estimador não tendencioso de 2
(b1). QME
2
s (b1 ) =
x2 x 2
n
• Funcionamento das Hipóteses comparadas
H0 : β1 = 0 Não há associação
entre X e Y.
Ha : β1 0
Distribuição amostral de (b1-1)/s(b1)
• Como b1 tem distribuição normal, sabemos que
a estatística padronizada (b1-1)/(b1) é uma
variável aleatória com distribuição normal
padrão. Para estimar (b1) usamos s(b1) e,
assim precisamos conhecer a distribuição da
estatística (b1-1)/s(b1) [estatística studentizada].
• Teorema:
b1 1
s ( b1 ) ~ t(n - 2)
Teste Estatístico Formal:
b1 β1
tc =
s(b1 )
Ha : β0 0
b0 β 0
~ t(n 2 )
s(b 0 )
Teste Estatístico Formal:
b0 β0
tc =
s(b0 )
b0 ± t(α , n 2 )s(b0 )
b1 ± t(α , n 2 )s(b1 )
Análise de Variância:
• Teste F correlato ao Teste t para 1 ;
• Mais utilizado em modelos de regressão múltipla;
• Funcionamento do teste:
H0 : β1 = 0 Não há associação
entre X e Y.
Ha : β1 0
Partição da Soma de Quadrados
Yi Y ( Yˆi Y ) ( Yi Yˆi )
Desvio Desvio da Desvio em
total equação torno da
ajustada em equação
torno da média ajustada
Yi
•
E
T
R
Y
X Xi
(Y Y )
n n
2
Demonstração:
2 ˆ ˆ
(Yi Y ) (Yi Yi )
i 1 i 1
(Yˆ Y )
n
i
2
(Yi Yˆi ) 2 2(Yˆi Y )(Yi Yˆi )
i 1
n n n
i 1
i
2
i 1
i i
2
2
n
___ n
SQT = (Yi Y) Yi n.Y
2 2
Soma de quadrados total:
i =1 i 1
n n n n
SQE = (Yi Yˆi )2 Yi a.Yi b X i .Yi
2
Soma de quadrados do erro (ou resíduo):
i =1 i 1 i 1 i 1
n
Soma de quadrados da regressão: SQR = (Yˆi Y )2 SQT SQE
i =1
Graus de liberdade
A SQT tem n-1 graus de liberdade; um grau de liberdade é perdido devido a restrição de
que a soma dos desvios em torno da média é zero. De outra forma: um grau de liberdade é
perdido porque a média da amostra é usada para estimar a média populacional.
A SQE tem n-2 graus de liberdade. Dois graus de liberdade são perdidos pois dois
parâmetros são estimados para obter Y(chapéu)i.
A SQR tem 1 grau de liberdade. Dois g.l. estão associados com a regressão (2
parâmetros); um deles é perdido devido a restrição: (Yˆi Y) = 0.
Os graus de liberdade são aditivos: (n-1)=1+(n-2)
Quadrados médios
A soma de quadrados dividida pelos graus de liberdade é chamada de quadrado
médio.