Você está na página 1de 33

Material para os estudantes do 2.

º ano

ANÁLISE DE REGRESSÃO

Por: E. Seno 1
FE-UAN - 2006
Correlação

Definição:

‰ Em muitas situações estaremos interessados em analisar


diferentes características dos elementos de uma
população: por exemplo, pesos, alturas, sexo, na
população humana; rendimentos disponíveis e gastos
com certo tipo de bens, num universo de famílias;
produto nacional, investimento global, taxa de juro,
num contexto macroeconómico nacional ao longo de um
certo período de tempo, etc. Cada uma dessas
características constitui uma variável aleatória e
uma das questões interessantes que se impõe
nestes casos é a de saber se, nesses universos, existirá
algum tipo de relação/associação entre essas variáveis
ou não, e em que grau. Falamos assim da correlação.
Aqui, trataremos da relação entre duas variáveis.

Por: E. Seno 2
FE-UAN - 2006
Correlação

Diagrama de dispersão:

‰ Como ponto de partida para o estudo da existência (ou


não) de uma relação estatística (correlação) entre duas
variáveis ou características, podemos representá-las
graficamente através de um Diagrama de dispersão ou
Nuvem de pontos. Esta representação gráfica para os
dados bivariados consiste em marcarmos os valores das
observações realizadas xi e yi, num sistema de eixos
cartesianos e obtermos a representação dos pontos
correspondentes aos pares ordenados (xi,yi).

‰ Este diagrama, de forma intuitiva, permite-nos concluir se


existe ou não correlação entre as duas variáveis em
estudo, e se esta é linear ou não, portanto uma relação
que se pode traduzir matematicamente através de uma
curva (pode ser uma recta no caso de uma relação linear).

Por: E. Seno 3
FE-UAN - 2006
Correlação

Diagrama de Dispersão:

Ex.: Considerando uma N° de Matem. Estatíst.


amostra de dez Ordem (xi) (yi)
estudantes da faculdade 1 5 6
A e pelas notas obtidas
2 8 9
por eles em Matemática
e Estatística (com 3 7 8
pontuação máxima de 4 10 10
dez valores), podemos 5 6 5
representar estes pares 6 7 7
de notas num diagrama
7 9 8
com segue:
8 3 4
9 8 6
10 2 2

Por: E. Seno 4
FE-UAN - 2006
Correlação

Diagrama de Dispersão:

A maneira de se verificar a
existência de uma
10
correlação entre duas
variáveis através de um
8 diagrama é tentar visualizar
se os pontos dos pares de
6 variáveis estão próximos a
curva de alguma função. Ou
Y

4
seja se os pontos formam a
imagem desta curva. Então
poderia dizer-se que a
2
relação entre as duas
variáveis em questão seria
0 explicada pela equação
0 2 4 X 6 8 10
matemática daquela função.

Por: E. Seno 5
FE-UAN - 2006
Correlação

Diagrama de Dispersão:

Então, uma correlação pode ser linear, quando os


pontos se aproximam de uma recta (fig 1a, 1b e 1c) ou
não linear quando os pontos não se aproximam de uma
recta ou quando não se aproximam de nenhuma curva
(fig. 1d e 1e)

Por: E. Seno 6
FE-UAN - 2006
Correlação

Diagrama de dispersão:

Figura 1a - Correlação linear positiva – recta ascendente;


a) r > 0
Y

Por: E. Seno 7
FE-UAN - 2006
Correlação

Diagrama de dispersão:

Figura 1b – relação perfeita (funcional)


b) r=1
32

28

24

20
Y

16

12

4
0 2 4 6 8 10 12 14 16
X

Por: E. Seno 8
FE-UAN - 2006
Correlação

Diagrama de dispersão:

Figura 1c – correlação linear negativa – recta descendente


c) r < 0
Y

Por: E. Seno 9
FE-UAN - 2006
Correlação

Diagrama de dispersão:

Figura 1d – correlação não linear – imagem de curva

Por: E. Seno 10
FE-UAN - 2006
Correlação

Diagrama de dispersão:

Figura 1e – Dados não correlacionados – sem imagem


e) r ≅0
Y

Por: E. Seno 11
FE-UAN - 2006
Correlação

Coeficiente de correlação linear:

† O coeficiente de correlação é a maneira quantitativa de


se verificar a existência de correlação linear entre duas
variáveis. Este coeficiente indica o grau de intensidade
que duas variáveis se correlacionam, bem como em que
sentido estas se relacionam (positivo ou negativo).

† O coeficiente de correlação de Pearson é um método,


entre vários existentes, simples que avalia a existência
de correlação linear entre duas variáveis X e Y, e é dado
por:

Por: E. Seno 12
FE-UAN - 2006
Correlação

Coeficiente de correlação linear:

r=
∑ ( X − X )(Y − Y ) / n
[∑ ( X − X ) / n]× [∑ (Y − Y )
2 2
/n ]
Expandindo-se os termos entre parênteses, a fórmula do
coeficiente de correlação pode ser reescrita em uma
forma mais fácil para o cálculo, que é a seguinte (tente
obtê-la como tarefa):
n∑ XY −∑ X ∑ Y
r=
[n∑ X 2 2
][
− (∑ X ) × n∑ Y − (∑ Y )
2 2
]
Por: E. Seno 13
FE-UAN - 2006
Correlação

Coeficiente de correlação linear:

Os limites de r são –1 e +1, ou seja –1 ≤ r ≤ 1, isto é r


pertence ao intervalo [-1, +1].
† Se:
r>0 A correlação linear entre X e Y é positiva
r< 0 A correlação linear entre X e Y é negativa.
r=0 Não existe correlação linear entre X e Y. (figura 1d e 1e)

† Quanto a intensidade da correlação linear, ou seja o


quão bem os dados se ajustam a recta, temos:
0,6 ≤ ⎜r ⎜ < 1 Dados fortemente correlacionados.
0,3 ≤ ⎜r ⎜ < 0,6 Correlação relativamente fraca entre as variáveis.
0 < ⎜r ⎜ < 0,3 Correlação muito fraca, pouco se pode concluir sobre
esta relação.
Por: E. Seno 14
FE-UAN - 2006
Correlação

Coeficiente de correlação linear:

Ex.: Para o exemplo N° / O. Mat. (xi) Estat. (yi) xi . yi xi² yi²

aplicado acima das 1 5,0 6,0 30 25 36


notas dos alunos 2 8,0 9,0 72 64 81
temos: 3 7,0 8,0 56 49 64
4 10,0 10,0 100 100 100
r = (10×473–65×65) /
5 6,0 5,0 30 36 25
/ [(10×481–65²) ×
6 7,0 7,0 49 49 49
× (10 × 475 – 65²)]½ =
7 9,0 8,0 72 81 64
r = 0,91 Îcorrelação
8 3,0 4,0 12 9 16
altamente significativa
9 8,0 6,0 48 64 36
entre X e Y.
10 2,0 2,0 4 4 4
Σ= 65 65 473 481 475
Por: E. Seno 15
FE-UAN - 2006
Regressão

Definição:

† Encontrada uma relação entre duas variáveis (as


variáveis estão correlacionadas), o próximo passo é
definir uma função, de modo que uma variável
independente explique uma variável dependente. Ou
seja, se duas variáveis X e Y, estão a ser estudadas, e
deseja-se definir uma função para explicar (estimar,
calcular) Y de acordo com X, Y = f(X), faz-se uma
regressão de Y para X. Da mesma forma para explicar X
em função de Y, faz-se uma regressão de X para Y.
† Numa regressão de Y para X, dizemos que X é a variável
independente e Y a variável dependente.
† A análise de regressão simples descreve, através de um
modelo matemático (função) a relação entre duas
variáveis, utilizando para isso n pares de observações
das mesmas.

Por: E. Seno 16
FE-UAN - 2006
Regressão

Regressão linear:

† Quando falamos de regressão linear, o que estamos a


fazer é tentar adequar a equação de uma recta aos pares
de valores observados, ou ajustar uma recta sobre os
pontos do diagrama de dispersão, de modo que a partir
de então esta recta represente a variação dos valores de
Y em relação a X.

† Um dos métodos mais conhecidos de ajustar uma recta a


um conjunto de dados, é o Método dos Mínimos
Quadrados (MMQ), que consiste em determinar a recta
que minimiza a soma dos quadrados dos desvios (ou
erros) entre os verdadeiros valores das ordenadas (y) e
os obtidos a partir da recta que se pretende ajustar (ŷ):

Por: E. Seno 17
FE-UAN - 2006
Regressão

Regressão linear:

Ŷ = a + b.X

yi
ei
ŷi

xi

O modelo matemático que expressa a relação linear é a


recta de regressão
ŷ i = a + b xi

Por: E. Seno 18
FE-UAN - 2006
Regressão

Regressão linear:

obtida de tal modo que os desvios ou resíduos

ei = yi – ŷi

quadráticos das observações em relação à recta sejam


mínimos,
n n n
min ∑ e = min ∑ ( yi − yˆ i ) = min ∑ [ yi − (a + bxi )]2
2
i
2

i =1 i =1 i =1

Como tal, é necessário que as primeiras derivadas em


ordem a a e a b, sejam nulas e as segundas derivadas
sejam maiores ou iguais a zero, isto é,

Por: E. Seno 19
FE-UAN - 2006
Regressão

Regressão linear:

⎧∂ n ⎧ n
⎪ ∂a ∑ ( y i − a − bx i ) = 0
2
⎪ −2∑ ( y i − a − bx i ) = 0

⎨ i =1 ⇔ ⎨ i =1
⎪ ∂ ∑n ( y i − a − bx i ) 2 = 0 ⎪ − 2 ∑n ( y i − a − bx i ) x i = 0
⎩ ∂ b i =1 ⎩ i =1

⎪ n
⎧ n ⎪ ∑ y i ∑ xi
n
n

⎪∑ y i − na − b ∑ x i = 0 ⎪ a = i =1n − b i =1n
⎨ i =1 i =1
⇔⎨
⎪ ∑n x i y i − a ∑n x i − b ∑n x i2 = 0 ⎪ ⎛ n

∑ y ∑
n
x


⎩ i =1 ⎪ ∑ x i y i − ⎜⎜ i =1 − b i =1 ⎟⎟ ∑n x i − b ∑n x i2 = 0
n i i
i =1 i =1

⎪ i =1 ⎜ n

n ⎟ i =1

i =1

⎩ ⎝ ⎠

Por: E. Seno 20
FE-UAN - 2006
Regressão

Regressão linear:


⎪⎪
a = y − bx
⎨ ⇔
⎪ n n x y − n x n y + b ⎛⎜ n x ⎞⎟ 2 − nb n x 2
⎪⎩ ∑i =1
i i ∑ i∑ i
i =1 i =1
⎜∑ i ⎟
⎝ i =1 ⎠
∑ i
i =1
= 0



⎪ a = y − bx
⎨ ⇔
⎪ b ⎡⎢ n n x 2 − ⎛⎜ n x ⎞⎟ 2 ⎤⎥ = n n x y − n x n y = 0
⎪⎩ ⎢⎣ ∑ i =1
i ⎜∑ i ⎟ ⎥
⎝ i =1 ⎠ ⎦
∑ i i ∑ i∑ i
i =1 i =1 i =1

Por: E. Seno 21
FE-UAN - 2006
Regressão

Regressão linear:

⎧ ⎧
⎪ ⎪
⎪ ⎪ ⎧
⎪⎪a = y − bx ⎪a = y − bx ⎪a = y − bx
⎨ ⇔⎨ ⇔⎨
⎪ n∑n xi yi −∑n xi ∑n yi ⎪ ∑n ( xi −x)(yi − y) ⎪b = Sxy2
⎪b = i=1 i=1 i=1 2 ⎪b = i=1 n ⎩ Sx
⎪ n n x2 − ⎛⎜ n x ⎞⎟ ⎪ ∑( xi −x)2
⎪⎩ ∑ i=1
i ⎜∑ i ⎟
⎝ i=1 ⎠ ⎩ i=1
Por: E. Seno 22
FE-UAN - 2006
Regressão

Regressão linear:

Assim facilmente se pode concluir o seguinte:


n
⎛ n

2
⎛ n
⎞ n⎡ n 2
⎛ n
⎞ ⎤
2

r × n∑ xi − ⎜ ∑ xi ⎟ × n∑ yi − ⎜ ∑ yi ⎟ = b × ⎢n∑ xi − ⎜ ∑ xi ⎟ ⎥
2 2 2

i =1 ⎝ i =1 ⎠ i =1 ⎝ i =1 ⎠ ⎢⎣ i =1 ⎝ i =1 ⎠ ⎥⎦
2 2
n
⎛ n
⎞ ⎛n
⎞ n
r × n∑ yi2 − ⎜ ∑ yi ⎟ = b × n∑ xi2 − ⎜ ∑ xi ⎟
i =1 ⎝ i =1 ⎠ i =1 ⎝ i =1 ⎠
2
n
⎛ ⎞n
n ∑ y − ⎜ ∑ yi ⎟
2
i

b=r× i =1 ⎝ i =1 ⎠ sy
⇒b=r× .
2
n
⎛ n
⎞ sx
n∑ xi − ⎜ ∑ xi ⎟
2

i =1 ⎝ i =1 ⎠
Por: E. Seno 23
FE-UAN - 2006
Regressão

Regressão linear:

Com base nas segundas derivadas garante-se que os


valores de a (ordenada na origem ou intercepto) e b
(declive) obtidos conduzem a desvios quadráticos
mínimos.
Uma das utilizações mais frequentes da recta de
regressão linear consiste na realizações de previsões.

No exemplo das notas dos alunos, temos:


. b = (10×473–65×65) / (10×481–65²)½ = 0,863248.
. a = (65 / 10) – (0,863248×65/10) = 0,888889.
e, a equação da recta fica:
Ŷ = 0,888889 + 0,863248X

Por: E. Seno 24
FE-UAN - 2006
Regressão

Regressão linear:

Quando estimamos o valor de Y através de um valor de


X que não pertence ao intervalo de dados que foi
utilizado para o cálculo da função, dizemos que estamos
a fazer uma extrapolação do valor. Quando o valor de
X pertence ao intervalo embora não exista nas
observações feitas, estamos a interpolar o valor.

„ P/ X = 5 Î Ŷ = 5,19
„ P/ X = 4 Î Ŷ = 4,33 ⇒ foi feita interpolação.
„ P/ X = 1 Î Ŷ = 1,75 ⇒ foi feita extrapolação.

Por: E. Seno 25
FE-UAN - 2006
Regressão

Coeficiente de Determinação:

† A variação total da variável dependente é dada por:


n

∑ i .
(y −
i =1
y ) 2

Pode demonstrar-se que esta variação total das


observações da variável dependente pode ser
decomposta da seguinte maneira:
n n n

∑ i
( y
i =1
− y ) 2
= ∑ i
( ˆ
y − y )
i =1
2
+ ∑i
e 2

i =1

Por: E. Seno 26
FE-UAN - 2006
Regressão

Coeficiente de Determinação:

em que:
n
SQT = ∑ (yi − y)2 é a soma total dos quadrados;
i =1

n
SQR = ∑ (yˆ i − y)2 é a soma dos quadrados
i =1 explicados pela regressão;
n n
SQE = ∑ e = ∑ (yi − yˆ i )2 é a soma dos quadrados dos
2
i
i =1 i =1 resíduos

Tem-se, assim:
SQT = SQR + SQE

Por: E. Seno 27
FE-UAN - 2006
Regressão

Coeficiente de Determinação:
ou
SQR SQE
+ = 1,
SQT SQT
em que o quociente SQR/SQT, denominado coeficiente
de determinação, tem um significado especial: é a
proporção da variabilidade total da variável dependente
que é explicada pelo modelo de regressão.
Este coeficiente varia entre 0 e 1. O caso do valor 1
corresponde à situação em que a recta de regressão
explica totalmente a variabilidade da variável
dependente. O valor 0 corresponde à situação em que a
recta de regressão não explica nada da variabilidade da
variável dependente.

Por: E. Seno 28
FE-UAN - 2006
Regressão

Coeficiente de Determinação:

Podem ser utilizadas as seguintes fórmulas para calcular


SQT, SQR e SQE: 2
⎛ n ⎞
⎜ ∑ yi ⎟
SQT = ∑ ( yi − y ) 2 = ∑ yi2 − ⎝ i =1 ⎠ ,
n n

i =1 i =1 n
⎡ ⎛ n
⎞ ⎤
2

⎢ n ⎜ ∑ xi ⎟ ⎥
SQR = ∑ ( yˆ i − y ) 2 = b 2 ∑ ( xi − x ) 2 = b 2 ⎢∑ xi2 − ⎝ i =1 ⎠ ⎥,
n n

i =1 i =1
⎢ i =1 n ⎥
⎢ ⎥
⎢⎣ ⎥⎦
n n
SQE = ∑ e = ∑ ( yi − yˆ i ) 2 = SQT − SQR.
2
i
i =1 i =1

Por: E. Seno 29
FE-UAN - 2006
Regressão

Coeficiente de Determinação:

† Assim o coeficiente de determinação é:


2
⎛ n
⎞ n
n∑ x − ⎜ ∑ xi ⎟ 2
i

r =
2 SQR
= b 2 i =1 ⎝ i =1 ⎠
2
SQT n
⎛ n

n ∑ yi − ⎜ ∑ yi ⎟
2

i =1 ⎝ i =1 ⎠
2 2
⎡ n n n
⎤ n
⎛ n

⎢ ∑ i i ∑ i∑ i⎥
− ∑ − ⎜ ∑ i⎟
2
n x y x y n xi x
r 2 = ⎣ i =1 i =1 i =1
2
⎦ × i =1 ⎝ i =1 ⎠
2
⎡ n 2 ⎛ n ⎞ ⎤ 2 n
⎛ n

⎢n∑ xi − ⎜ ∑ xi ⎟ ⎥ n ∑ yi − ⎜ ∑ yi ⎟
2

⎢⎣ i =1 ⎝ i =1 ⎠ ⎥⎦ i =1 ⎝ i =1 ⎠
Por: E. Seno 30
FE-UAN - 2006
Regressão
Coeficiente de determinação:

2
⎡ n n

n

⎢n∑xi yi − ∑xi ∑yi ⎥


r2 = ⎣ i=1 i=1 i=1 ⎦
= r2

⎡ n 2 ⎛n ⎞⎤ ⎡ n 2 ⎛n ⎞⎤
2 2 xy

⎢n∑xi −⎜∑xi ⎟ ⎥ × ⎢n∑yi −⎜∑yi ⎟ ⎥


⎢⎣ i=1 ⎝ i=1 ⎠ ⎥⎦ ⎢⎣ i=1 ⎝ i=1 ⎠ ⎥⎦
O coeficiente de determinação é igual ao quadrado do
coeficiente de correlação e varia entre 0 e 1.
Em relação ao exercício anterior, podemos calcular as
somas de quadrados e determinar o coeficiente de
determinação.

Por: E. Seno 31
FE-UAN - 2006
Regressão

Coeficiente de determinação:

2 2
N° / O. xi yi ŷi (yi - ŷi) (yi - y )
1 5 6 5,205128 0,631821 0,25
2 8 9 7,794872 1,452334 6,25
3 7 8 6,931624 1,141427 2,25
4 10 10 9,521368 0,229089 12,25
5 6 5 6,068376 1,141427 2,25
6 7 7 6,931624 0,004675 0,25
7 9 8 8,658120 0,433121 2,25
8 3 4 3,478632 0,271824 6,25
9 8 6 7,794872 3,221565 0,25
10 2 2 2,615385 0,378698 20,25
Σ= 65 65 65 8,905983 52,5
Por: E. Seno 32
FE-UAN - 2006
Regressão

Coeficiente de determinação:
SQT = 52,5; SQE = 8,905983
SQR = SQT – SQE = 52,5 – 8,905983 = 43,594017.
⇒ r2 = SQR / SQT = 43,594017 / 52,5 = 0,8303622

A equação de regressão Ŷ = 0,888889 + 0,863248X é


eficaz, ou seja explica em 83% as variações das notas
de Estatística, resultantes da variação das notas de
Matemática.

Por: E. Seno 33
FE-UAN - 2006