Escolar Documentos
Profissional Documentos
Cultura Documentos
Só vamos falar de correlação e regressão linear simples, i.e., no caso de uma variável dependente
(Y) e uma variável independente (X).
Exemplos:
1. Relação entre o peso e a altura de um homem adulto. A variável dependente é o peso e a
variável independente a altura.
2. A relação entre o preço do vinho e o montante da colheita em cada ano. Aqui a variável
dependente é o preço do vinho e a variável independente o montante da colheita.
Para estudar estas relações recorre-se a uma amostra e utiliza-se a análise de correlação e
regressão simples.
Note, que para os exemplos anteriores pode suceder que dois homens adultos tenham a mesma
altura e pesos diferentes e vice-versa, no entanto em média quanto maior for a altura maior será o
peso; do mesmo modo a colheitas iguais podem corresponder preços diferentes e vice-versa, no
entanto em média quanto maior for a colheita menor será o preço do vinho.
É essa variação em média que vai ser estudada. A correlação (entre X e Y) é positiva quando os
fenómenos variam no mesmo sentido (primeiro caso apresentado no exemplo 1), a correlação (entre
X e Y) é negativa quando os fenómenos variam em sentido inverso (segundo caso apresentado no
exemplo 1).
Diagramas de dispersão
variáv el X
A regressão linear simples constitui uma tentativa de estabelecer uma equação matemática linear
(linha recta) que descreva o relacionamento entre duas variáveis.
Note-se que nem todas as situações são bem aproximadas por uma equação linear. Através dos
diagramas de dispersão pode-se ver se uma relação linear parece razoável ou não. Recorrendo à
análise do diagrama de dispersão pode-se também concluir se o grau de correlação é forte ou fraca,
conforme o modo com se situem os pontos em redor de uma linha recta imaginária que passa
através de um “enxame” pontos. A correlação é tanto maior quanto mais os pontos se concentram,
com pequenos desvios, em relação a essa recta.
A diferença entre yi e
yˆ i , d i yi é a distância vertical do ponto à linha recta. Se
i.e., yˆ i
consideramos a soma dos quadrados dos desvios anteriores, i.e.,
n
D
2
i
i1
d
obtemos uma medida do desvio total dos pontos observados à recta estimada.
A medida anterior depende da recta considerada, ou seja depende de 0 e 1. Assim, podemos
escrever
n n
D( 0 , ) di (
2
i yˆi )
2
1 y
i1 i1
ou ainda,
n n
D( 0 , ) d (
2
( 1x)) .
2
1 y i i 0
i1 i1
Pretendemos então os valores de 0 e 1 que minimizem D(0, 1), i.e., pretendemos o valor
mínimo de D(0, 1).
Um modo de estimar os coeficientes 0 e 1 é determinar o mínimo da função D(0,1) em
relação a 0 e 1 e resolver as equações normais.
Temos então que:
D( 0 , 1 ) d (
n n
0 x) 2
y 2 i 1
i
i1 i1
donde
n , )
D( 2( y x )
0 1
i 0 11
0 i1
D( 0 , 1 ) n 2 xi ( yi
0 1 x1 )
1 i1
Os valores de b0 e b1 para os quais a função D(0,1) apresenta um valor mínimo são obtidos
igualando as equações anteriores a zero, i.e., resolvendo as equações normais. Assim,
⎧
2n ( y x ) 0 y nb b n x 0
⎧ n
⎪ i
i1
0 11
⎪ i 0 1 (5.1)
⎨ n
⎨n
i1
i i1
n
⎪ 2 ( y x x 2) 0 ⎪
y b xb x 0
2
x x
⎩ ii
i1
0i 1 1
⎪ i1 i i 0
i~ 1 i
1
i1
1
⎩
⎧ n n
⎪ y bi 1 xi
⎪ b0 i 2 i1
⎪ n
⎨ n n n n
⎪ n
⎪ i i 1i
x y b x i i
x
⎪ b1 xi i1 i1
n
xi yi
2 1 i1
n
⎩ i1 i1
⎧
⎪ n 2⎞
⎨ ⎛ n 2 1⎛ n⎞ 1 n n
⎪b1 xi ⎜ xi ⎟ xi yi
⎜ ⎟ i i
x y
⎟
⎜ n n i1 i1
⎝ i1 ⎠ ⎠ i1
⎩ ⎝ i1
⎧
⎪ n n n
⎪ n xi yi xi yi
⎨ 1 i1 i1 i1
⎪b n ⎛n ⎞2
⎪ n x ⎜ x ⎟
2
i i
⎪
⎩ i1 ⎝ i1 ⎠
yi b1 xi n xi yi xi yi
i1 i1 i1 i1 i1
b
0
n e b1 n
2
⎛n ⎞
n x ⎜ x ⎟
2
i i
i1
⎝ i1 ⎠
ou
n xi yi n 2xy
n
b0 y b1 x
e b1 i1
n ,
n xi n x
2 2 2
i1
são as soluções dos sistema inicial sendo além disso os valores de 0 e 1 que minimizam
D(0,1).
Este método é conhecido pelo método dos mínimos quadrados, uma vez que estamos a
minimizar uma função quadrática.
A melhor recta, no sentido dos mínimos quadrados, que melhor se ajusta aos dados do diagrama
de dispersão é dada por: y=b0 + b1x.
Qualidade do ajustamento
Uma medida útil associada à recta de regressão, é o grau com que as predições baseadas na
equação de regressão, superam as predições baseadas em y . Isto é, se as predições baseadas na
recta não são melhores que as baseadas no valor médio de Y ( y ), então não adianta dispormos de
uma equação de regressão.
Para a observação yi a diferença em relação ao valor médio y é conhecida por desvio total e pode
decompor-se numa soma de parcelas:
y y 2 yˆ y 2 y yˆ 2
14i 243 14i 14i
Desvio Total 243 24i3
Desvio exp Desvio não exp licado
licado ou resíduo
pelo modelo
y i yˆ i 2
1i1 4243 1 42
i1
1i1 442443
Variação Total
43 Variação não exp licado
Variação exp
licado
pelo modelo
i1 yi
Na prática,
a ii 2
n y b n x y ny
i
i1 i1
R2 n
y
2 2
i ny
i1
Tem-se que
0R21 a proporção da variação de Y explicada pelo modelo é no máximo 1 e no mínimo 0.
Se R21 significa que grande parte da variação de Y é explicada linearmente por X (modelo
adequado).