Você está na página 1de 29

É o grau de associação entre

duas ou mais variáveis. Pode ser:


correlacional
ou
Prof. Lorí Viali, Dr. experimental.
experimental
viali@mat.ufrgs.br
http://www.mat.ufrgs.br/~viali/ Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Numa relação experimental os


valores de uma das variáveis são
controlados.
No relacionamento correlacional,
por outro lado, não se tem nenhum
controle sobre as variáveis sendo
estudadas.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Ano Y = M1 X = IPC
O Estoque de Moeda (M1) 1960 140,7 29,6
está relacionado com a variação dos 1961 145,2 29,9
1962 147,8 30,2
preços. Verifique se existe correlação 1963 153,3 30,6
1964 160,3 31,5
entre o IPC americano com a oferta 1965 167,8 32,4
... ... ...
monetária, considerando dados do 2000 1172,9 177,1
2002 1210,4 179,9
período de 1960 a 2003. 2003 1287,1 184,0
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

1
O primeiro passo para
IPC

1 80

determinar se existe relacionamento 1 40

entre as duas variáveis é obter o 1 00

diagrama de dispersão (scatter 60

diagram). M1

20
10 0 30 0 50 0 70 0 9 00 11 00 13 00

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

O diagrama de dispersão Quando o relacionamento


fornece uma idéia do tipo de
entre duas variáveis
relacionamento entre as duas
quantitativas for do tipo linear,
linear
variáveis. Neste caso, percebe-se que
ele pode ser medido através do:
existe um relacionamento linear.
linear

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Observado um relacionamento
linear entre as duas variáveis é possível
determinar a intensidade deste
relacionamento. O coeficiente que mede
este relacionamento é denominado de
Coeficiente de Correlação (linear).
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

2
Quando se está trabalhando com
amostras o coeficiente de correlação é
indicado pela letra “rr” e é uma
estimativa do coeficiente de correlação
populacional que é representado por
ρ” (rho).
“ρ
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Para determinar o coeficiente de A covariância entre duas


correlação (grau de relacionamento variáveis X e Y, é representada
linear entre duas variáveis) vamos por “Cov
Cov(X;
Cov(X; Y)”
Y) e calculada por:
determinar inicialmente a variação
∑ ( X i − X )( Y i − Y )
conjunta entre elas, isto é, a Cov ( X ,Y ) =
n −1
covariância.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Mas Então:
∑ ( X i − X )( Y i − Y ) =
= ∑ [ X i Y i − X Y i − X i Y + XY ] = ∑ ( X i − X )( Y i − Y )
Cov ( X ,Y ) = =
= ∑ X i Y i − ∑ X Y i − ∑ X i Y + ∑ XY =
n −1

= ∑ X i Y i − X ∑ Y i − Y ∑ X i + ∑ XY = ∑ X i Y i − nXY
=
n −1
= ∑ X i Y i − nXY −nXY + nXY =
= ∑ X i Y i − nXY
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

3
A covariância poderia ser utilizada
O coeficiente de correlação
para medir o grau e o sinal do
relacionamento entre as duas variáveis, linear (de Pearson) é definido por:
mas ela é difícil de interpretar por variar
Cov ( X , Y )
de -∞ a +∞. Assim é mais conveniente r =
utilizar o coeficiente de correlação linear S X SY
de Pearson (momento produto).
produto)
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Onde:
∑ X i Y i − nXY Esta expressão não é muito
Cov ( X ,Y ) =
n −1 prática para calcular o coeficiente de
∑ X 2i − n X 2 correlação. Pode-se obter uma
SX =
n −1 expressão mais conveniente para o
∑ Y 2i − n Y 2 cálculo manual e o cálculo de outras
SY =
n −1 medidas necessárias mais tarde.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Tem-se: F
Cov ( X , Y ) a S XY
= ∑ X i Y i − nXY
r = =
S X SY z 2
Fazendo:
e S XX = ∑ X i − n X
2
∑ X i Y i − nXY
= n −1 =
n
∑ X 2− n X 2
∑Y −nY
2 2 d S YY = ∑ Y 2 − n Y 2
i i i
n −1 n −1 o
S XY
=
∑ X iY i − nX Y
Tem − se : r =
(∑ X 2i − n X )(∑ Y 2 2
i −nY 2 ) S XX . S YY
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

4
A vantagem do coeficiente de Assim se r = -1, temos uma
relacionamento linear negativo
correlação (de Pearson) é ser
adimensional e variar de – 1 a + 1, perfeito, isto é, os pontos estão todos
alinhados e quando X aumenta Y
que o torna de fácil interpretação.
decresce e vice-versa.

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

50 Se r = +1, temos uma


r = −1
40
relacionamento linear positivo
30

20
perfeito, isto é, os pontos estão todos
10 alinhados e quando X aumenta Y
0
10 15 20 25 30
também aumenta.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

50 Assim se r = 0, temos uma


r = +1
40
ausência de relacionamento linear,
30
isto é, os pontos não mostram
20

10 “alinhamento”.
0
10 15 20 25 30

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

5
50 Assim se –1 < r < 0, temos uma
r =0
40
relacionamento linear negativo, isto é,
30
os pontos estão mais ou menos
20

10
alinhados e quando X aumenta Y
0
10 15 20 25 30
decresce e vice-versa.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

50 Assim se 0 < r < 1, temos uma


−1 < r < 0
40 relacionamento linear positivo, isto é,
30
os pontos estão mais ou menos
20

10
alinhados e quando X aumenta Y
0
também aumenta.
10 15 20 25 30

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Uma correlação amostral não


0 <r <1
50

40 significa necessariamente uma correlação


30
populacional e vice-versa. É necessário
20
testar o coeficiente de correlação para
10
verificar se a correlação amostral é
0
10 15 20 25 30 também populacional.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

6
r ≅1
50
Observada uma amostra de seis
40
pares, pode-se perceber que a correlação é
quase um, isto é, r ≅ 1. No entanto,
30

observe o que ocorre quando mais pontos 20

são acrescentados, isto é, quando se


ρ ≅0
10

observa a população! 0
10 15 20 25 30

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Determinar o “grau de
relacionamento linear” entre as
variáveis X = Índice de Preços ao
Consumidor versus Y = Estoque de
Moeda, para os valores da Economia
Americana de 1960 a 2003.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Ano X Y XY X2 Y2
1960 140,7 29,6 Vamos calcular “r”
1961 145,2 29,9
1962 147,8 30,2 utilizando a expressão em
1963 153,3 30,6
1964 160,3 31,5 destaque vista anteriormente,
1965 167,8 32,4
...
2000
...
1172,9
...
177,1
isto é, através das quantidades,
2002 1210,4 179,9
2003 1287,1 184,0
SxY, SXX e SYY.
Total 25894,5 4102,9 3295760,69 21856837,21 503187,97

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

7
Tem-se:
n = 44 ∑ X = 25894,50 ∑Y = 4102,90 2
S XX = ∑ X 2i − n X =
X = 588,5114 Y = 93,2477 ∑ XY = 13295760,69
= 6617629 ,7043
∑ X 2 = 21856837,21 ∑Y 2 = 503187,97
Então:
S YY = ∑Y 2i − n Y 2 =
S XY = ∑ X i Y i − nXY =
= 120601 ,8698
= 881157 ,4161
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Apesar de “rr” ser um


S XY
r = = valor adimensional, ele não é
S XX S YY
.
881157 ,4161 uma taxa.
taxa Assim o resultado
= =
6617629 ,7043.120601 ,8698 não deve ser expresso em
= 0 ,9863 percentagem.

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

O valor de “rr” é obtido


com base em uma amostra. Ele é
portanto, uma estimativa do
verdadeiro valor da correlação
populacional (ρ).
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

8
A teoria dos testes de H0: ρ = 0

hipóteses pode ser utilizada para H1: ρ > 0


(teste unilateral/unicaudal à direita)
verificar se com base na estimativa
ρ<0
“r” é possível concluir se existe ou
(teste unilateral/unicaudal à esquerda)
não correlação populacional, isto é, ρ≠0
desejamos testar : (teste bilateral/bicaudal) .
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

O teste para a existência de


correlação linear entre duas variáveis é
realizado por: tn-2 > tc
r − µr r −0 (teste unilateral/unicaudal à direita)
t n −2 = = =
ˆσr 1 −r 2 tn-2 < tc
n −2 (teste unilateral/unicaudal à esquerda)

n −2 |tn- 2| > tc
=r
1 −r 2 (teste bilateral/bicaudal) .
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Onde tc é tal que:


P(t < tc ) = 1− α
(teste unilateral/unicaudal à direita)
P(t < tc ) = α
(teste unilateral/unicaudal à esquerda)
P(t < tc ) = α/2 ou P(
P(t > tc ) = α/2
(teste bilateral/bicaudal) .
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

9
Suponha que uma amostra de n = 12, 12 Dados:
alunos forneceu um coeficiente de correlação Hipóteses: n = 12
amostral de r = 0,66,
0,66 entre X = “nota em H0: ρ = 0 r = 0 ,66
cálculo” e Y = “nota em Econometria”. H1: ρ > 0 α = 1%
Verifique se é possível afirmar que uma nota
boa em Cálculo está relacionada com uma nota Trata-se de um teste unilateral à
boa em Econometria a 1% de significância. direita para o coeficiente de correlação.

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

A variável teste é:
n −2
t n −2 = r
1 −r 2
Então: 2 ,778

n −2 12 − 2 α = 1%
t10 = r = 0 ,66 = 2 ,778
1 −r 2 1 −0662 Regi ão de Não Rejeição RC = [ 2 ,764; +∞)
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

A significância do resultado
obtido (2,778), isto é, o valor-p é dada
por P(T10 > 2,778). Utilizando o
Como a significância do resultado
Excel, tem-se: (0,98%) é menor que a significância do teste
(1%) é possível rejeitar a hipótese nula.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

10
O procedimento realizado para testar
o coeficiente de correlação só é válido
para testar a hipótese nula de que não
existe correlação, isto é, ρ = 0. Outros
tipos de testes só podem ser realizados
através da transformada “zeta” de
Fisher.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

A vantagem desta transformação é que


A transformada “ζ” é dada por:
os valores de “ζ” estão distribuídos
1 +r  aproximadamente de acordo com uma
ζ = ln 
1
 normal de média: 1 1 +ρ 
2  1 −r  µζ = ln  
2 1 −ρ 
O que equivale a considerar “rr”
1
ζ”
como a tangente hiperbólica de “ζ E desvio:
σζ =
n −3
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Esta transformação permite, H 0: ρ = ρ0

realizar, testes de hipóteses e H 1: ρ > ρ0


(teste unilateral/unicaudal à direita)
construir intervalos de confiança
ρ < ρ0
para o coeficiente de correlação,
(teste unilateral/unicaudal à esquerda)
através de ζ e da distribuição ρ ≠ ρ0
normal.
normal (teste bilateral/bicaudal) .
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

11
O teste para a existência de
correlação linear populacional entre z > zc
duas variáveis X e Y é realizado por: (teste unilateral/unicaudal à direita)
1 1 +ρ z < zc
ζ − ln  
ζ − µζ 2  1 − ρ  (teste unilateral/unicaudal à esquerda)
z= =
σζ 1 |z| > zc
n −3 (teste bilateral/bicaudal) .
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Onde zc é tal que:


Φ(z
Φ(zc ) = 1− α
(teste unilateral/unicaudal à direita)
Φ(z
Φ(zc ) = α
(teste unilateral/unicaudal à esquerda)
Φ(z
Φ(zc ) = α/2 ou Φ(z
Φ(zc ) = 1− α/2
(teste bilateral/bicaudal) .
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Suponha que uma amostra de n = 35, 35 Dados:


alunos forneceu um coeficiente de correlação Hipóteses: n = 35
amostral de r = 0,75,
0,75 entre X = “número de H0: ρ = 0,5 r = 0 ,75
horas de estudo” e Y = “nota em Econometria”.
Verifique se é possível afirmar que o “o número
H1: ρ > 0,5 α = 1%
de horas de estudo” apresenta uma correlação
Trata-se de um teste unilateral à
de pelo menos 0,5 na população com a
“Econometria”, a 1% de significância.
direita para o coeficiente de correlação.

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

12
A variá
variável teste é: A mé
média vale:
1 1 +ρ
ζ − ln   1  1 + ρ  1  1 + 0 ,5 
ζ − µζ 2  1 − ρ  µζ = ln   = ln   = 0 ,5493
z= = 2  1 − ρ  2  1 − 0 ,5 
σζ 1
Entã
Então: n −3 E o desvio padrã
padrão vale:

1  1 + 0 ,75  1 1 1
ζ = ln   = 0 ,9730 σζ = = = = 0 ,1768
2  1 − 0 ,75  n −3 35 − 3 32

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Padronizando, tem-
tem-se:
1 1 +ρ O valor crítico zc é tal que:
ζ − ln  
ζ − µζ 2  1 − ρ  P(Z > zc) = α = 1%.
z= = =
σζ 1 Ou Φ(zc) = 99%.
n −3 Então zc = 2,33.
0 ,9730 − 0 ,5493 Assim RC = [2,33; ∞)
= = 2 ,40
0 ,1768
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

A significância do resultado obtido


(2,40), isto é, o valor-p. Para isto, deve-
2 ,40 se calcular P(Z > 2,40), isto é, Φ(-2,40)
= 0,82%.
α = 1%
Como p = 0,82% < α = 1%. Rejeito H0.
Regi ão de Não Rejeição RC = [ 2 ,33;+∞)
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

13
Em muitas situações duas ou mais
variáveis estão relacionadas e surge
então a necessidade de determinar a
natureza deste relacionamento.

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

A análise de regressão é uma De fato a regressão pode ser


técnica estatística para modelar e dividida em dois problemas:
investigar o relacionamento entre (i) o da especificação e
duas ou mais variáveis.
(ii)
ii) o da determinação.

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

O problema da especificação é O problema da determinação é


descobrir dentre os possíveis modelos uma vez definido o modelo (linear,
(linear, quadrático, exponencial, etc.) quadrático, exponencial, etc.) estimar
qual o mais adequado. os parâmetros da equação.

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

14
A variável resposta Y é aleatória,
Normalmente é suposto que exista enquanto que as variáveis regressoras
uma variável Y (dependente ou Xi são normalmente controladas.
controladas O
resposta), que está relacionada a “k” relacionamento entre elas é
variáveis (independentes ou caracterizado por uma equação
regressoras) Xi (i = 1, 2, ..., k). denominada de “equação
equação de regressão”
regressão
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Quando existir apenas uma


Vamos supor que a regressão é do
variável regressora (X) tem-se a tipo simples e que o o modelo seja
regressão simples,
simples se Y depender de linear,
linear isto é, vamos supor que a
duas ou mais variáveis regressoras, equação de regressão seja do tipo:
então tem-se a “regressão
regressão múltipla”.
múltipla Y = α + βX + U

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

y
O termo “U” é o termo erro, isto é,
“U” representa outras influências
sobre a variável Y, além da exercida
pela variável “X”. A variação residual
Y = α + β X + U; (termo U) é suposto de média zero e
x
desvio constante e igual a σ.
x1 x2 xn
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

15
Ou ainda pode-se admitir que Y = α + β X + U;
o modelo fornece o valor médio E(Y/x) = α + β X, isto é, E(U) = 0
de Y, para um dado “x”, isto é, V(Y/x) = σ2;
Cov(Ui, Uj) = 0, para i ≠ j;
E(Y/x) = α + βX A variável X permanece fixa em observações
sucessivas e os erros U são normalmente
distribuídos.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

O modelo suposto E(Y/x) = α + βX A reta estimada será representada por:


é populacional.
Vamos supor que se tenha n pares de
Ŷ = a + bX ou Y = a + bX + E
observações, digamos: (x1, y1), (x2, y2), ..., Onde “aa” é um estimador de α e
(xn, yn) e que através deles queremos “bb” é um estimador de β, sendo Ŷ um
estimar o modelo acima. estimador de E(Y/x).
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Existem diversos métodos para a Tem-se:


determinação da reta desejada. Um deles,
Yi = a + bxi + Ei,
denominado de MMQ (M Métodos dos
Então:
Mínimos Q uadrados), consiste em
minimizar a “soma
soma dos quadrados das
Ei = Yi - (a + bxi)
distâncias da reta aos pontos”.
pontos”
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

16
Deve-se minimizar:
n n Y i = a + b X i + Ei
2
φ = ∑ E 2i = ∑( Y i −Ŷ i ) = yi
i =1 i =1 Ei
ŷ i
n
= ∑( Y i −a −b X i ) 2
i =1
xi
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Derivando parcialmente tem-se: Igualando as derivadas


parciais a zero vem:
∂φ n
= −2 ∑ ( Y i − a − b X i ) n
∂a i =1 ∑( Y i − a −b X i ) = 0
i =1
∂φ n
= −2 ∑ x i ( Y i − a − b X i ) n
∂b i =1 ∑ x i( Y i − a −b X i ) = 0
i =1
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Isolando as incógnitas, tem-se: Resolvendo para “a” e “b”, segue:

∑Y i = na + b ∑ X i ∑Xi y i − nXY S XY
b = =
∑ X iY = n∑ X i +b∑ X 2 ∑X 2
i −n X 2 S XX
i i
a = Y − bX

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

17
Lembrando que:
Fazendo:
S XY = ∑ X i Y i − nX Y

S XX = ∑ X 2i − n X 2

S YY = ∑ Y 2i − n Y 2
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Ano Y = IPC X = M1
Considerando os valores das 1960 29,6 140,7
1961 29,9 145,2
variáveis “Oferta Monetária” e “Índice de 1962 30,2 147,8
Preços ao Consumidor”, consideradas 1963 30,6 153,3
anteriormente, determinar uma equação de 1964 31,5 160,3
1965 32,4 167,8
regressão linear para prever o IPC dado um ... ... ...
determinado nível de Oferta Monetária. 2000 177,1 1172,9
2002 179,9 1210,4
2003 184,0 1287,1
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Ano X Y XY X2 Y2
Da mesma forma que para 1960 140,7 29,6
1961 145,2 29,9
calcular o coeficiente de correlação é 1962
1963
147,8
153,3
30,2
30,6
1964 160,3 31,5
necessário a construção de três novas 1965 167,8 32,4
... ... ...
colunas. Uma para X2, uma para Y2 e 2000 1172,9 177,1
2002 1210,4 179,9
outra para XY. 2003 1287,1 184,0
Total 25894,5 4102,9 3295760,69 21856837,21 503187,97
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

18
Tem-se:
n = 44 ∑ X = 25894,50 ∑Y = 4102,90 2
S XX = ∑ X 2i − n X =
X = 588,5114 Y = 93,2477 ∑ XY = 13295760,69
= 6617629 ,7043
∑ X 2 = 21856837,21 ∑Y 2 = 503187,97
Então:
S YY = ∑Y 2i − n Y 2 =
S XY = ∑ X i Y i − nXY =
= 120601 ,8698
= 881157 ,4161
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

A equação de regressão, será, então:

S XY 881157 ,4161 A pergunta que cabe agora é:


b = = = 0 ,1332 ≅ 0 ,13
S XX 6617629 ,7043 este modelo representa bem os pontos
a = Y − b X = 93 ,2477 − 0 ,1332 . 588 ,5114 =
= 14,8857 ≅ 14 ,89 dados? A resposta é dada através do
erro padrão da regressão.
Yˆ = 14 ,89 + 0 ,13 x
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

O objetivo do MMQ é minimizar a


variação residual em torno da reta de
regressão. Uma avaliação desta variação é
dada por:

2
∑ E 2 ∑ ( Y −a −bX )
S2 = =
n −2 n −2

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

19
O cálculo da variância residual, por Desenvolvendo o numerador da
esta expressão, é muito trabalhoso, pois é expressão, vem:
necessário primeiro determinar os valores 2
∑( Y −a −bX ) 2 = ∑[ Y −( Y −bX ) −bX ] =
previstos. Entretanto é possível obter
2
uma expressão que não requeira o cálculo = ∑[ Y −Y +bX −bX ] 2 = ∑[ Y −Y −b( X −X )] =
dos valores previstos, isto é, de 2
= ∑( Y −Y ) −2b ∑( X − X )( Y − Y ) + b2 ∑( X −X ) 2 =

Ŷ = a + bX = SYY − 2b S XY +b2 S XX

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Uma vez que: Deste modo, tem-se:


∑ ( Y −a −bX ) 2 = S YY − 2b S XY + b2 S XX
∑( X − X )( Y − Y ) =
Mas: S XY
b = ⇒ S XY = b S XX
= ∑ X i Y i − nXY =S XY S XX
2 2
Então:
∑( X − X ) = ∑ X 2i − n X = S XX
∑( Y −a −bX ) 2 = SYY − 2b S XY +b 2 S XX =
2
∑( Y −Y ) = ∑ Y 2i − n Y 2 = S YY
= S YY −2 b2 S XX +b 2 S XX = SYY −b2 S XX
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Assim:
E 2  ( Y -a -bX ) 2
s= =
n -2 n -2
Será, finalmente:

S YY - b 2 S XX S YY - b S XY
s= =
n -2 n -2
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

20
Considerando os valores do exemplo Então:
anterior, determinar o erro padrão da
regressão. S YY - b S XY
s= =
Tem-se:
Tem- S YY = 120601 ,8698 n -2
120601 ,8698 - 0 ,1332 .881157 ,4161
S XX = 6617629 ,7043 = =
44 - 2
S XY 881157 ,4161 = 8 ,8278 ≅ 8 ,83
b= = = 0 ,1332
S XX 6617629 ,7043
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

A pergunta, agora, é: este erro é A variável envolvida aqui é a Y,


razoável?, quer dizer, ele não é muito
isto é, a base monetária, então, o erro
grande?
relativo, será:
A resposta envolve o cálculo do erro
s 8 ,8278
relativo, isto é, devemos comparar este gs = = = 9 ,47%
resultado com a variável de interesse. Y 93 ,2477

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Os valores de “aa ” e “bb ” são


estimadores de “α α” β ”. As
e “β
propriedades estatísticas destes
estimadores são úteis para testar a
adequação do modelo. Eles são variáveis
aleatórias uma vez que são combinações
lineares dos Yi que são, por sua vez,
variáveis aleatórias.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

21
Comportamento de “a”
As principais propriedades de
(i) Expectância
( )
interesse são a média (expectância), a
E ( a ) = E Y − b X = ... = α
variabilidade (erro padrão) e a
distribuição de probabilidade de cada um (ii) Variância
 2 
dos estimadores. V ( a ) = V Y −bX ( ) = ... = σ2 
1 X
n + S 

 XX 
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Portanto a distribuição da Comportamento de “b”


estatística “a”, será: (i) Expectância
2
1 S 
a ~ N ( α, σ + X ) E ( b ) = E  XY  = ... = β
n S XX
 S XX 
Como o valor “σ” não é conhecido (ii) Variância
e precisa ser estimado por “s”, então, S  2
de fato, utiliza-se a distribuição tn-2. V ( b ) = V  XY  = ... = σ

 S XX  S XX
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Portanto a distribuição da Covariância entre “a” e “b”


estatística “b”, será: Por definição:
σ Cov(a, b) = E(ab) - E(a).E(b) = E(ab) - αβ.
b ~ N ( β, ) Cov(a,
S XX
Mas
Como o valor “σ” não é conhecido E ( ab ) = E [( Y − b X ).b ] = E ( Y b ) − E ( X b 2 ) =
e precisa ser estimado por “s”, então, = Y E ( b ) − X E ( b 2 ) = β Y − X ( β − σ 2b ) =
2

de fato, utiliza-se a distribuição tn-2. = β ( Y − β X ) − X σ 2b = αβ − X σ b2


Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

22
Então:
Cov ( a ,b ) = E ( ab ) − αβ =
= αβ − X σ b2 − αβ = − X σ b2

Assim: S 
Cov ( a ,b ) = − XV ( b ) = − X V  XY =

 S XX 
2
= − Xσ
S XX
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Da mesma forma que foram " α"


obtidos IC para a média, a proporção O IC de “1 – α” de confiança para
e a variância de uma população, o coeficiente linear “α” é dado por:
pode-se determinar intervalos para os 1 X2 1 2
P ( a −tn −2 S + ≤ α ≤ a +tn −2 S + X ) =
parâmetros “α” e “β” da regressão. n S XX n S XX
=1 − α
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

" β"

O IC de “1 – α” de confiança para o
coeficiente da regressão “β” é dado por:
S S
P( b −tn−2 ≤ β ≤b +tn−2 ) =1 −α
S XX S XX

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

23
Determinar intervalos de confiança
de 95% para os parâmetros da equação S YY = 120601 ,8698 a = 14 ,8857
de regressão, utilizando os dados do S XX = 6617629 ,7043 b = 0 ,1332
exercício anterior. S XY = 881157 ,4161 s = 8 ,8278
n = 44
X = 588 ,5114
Ŷ = 14 ,89 + 0 ,13 x 1 − α = 95%
Y = 93 ,2477

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

O IC de “1- α” para o Coef. Linear O IC de “1- α” para o Coef. Angular


“α” é dado por: 1 X2 “β ” é dado por: b ± tn −2
S
a ± tn −2 S +
n S XX S XX
Então: Então: 8 ,8278
0 ,1332 ± 2 ,0181.
1 588 ,5114 2 6617629 ,7043
14,8857 ± 2,0181.8,8 278 +
44 6617629 ,7043 0 ,1332 ± 0,0069
14,8857 ± 4,9161 [0,1262; 0,1401]
[9,97; 19,80]
[0,13; 0,14]
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Da mesma forma que foram obtidos IC para os


parâmetros da regressão, pode-se obter IC para os
valores estimados de Y para um dado x. Vamos
considerar dois casos:
(a) Considerando somente a incerteza da linha de
regressão;
(b) Considerando a incerteza da linha mais a
variação da variável Y.

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

24
Então IC de “1 – α” de confiança
Para construir o IC de “1 – α” para o
para o um valor médio de Y, dado x , é:
valor médio de Y, dado x, é necessário
conhecer sua distribuição. Tem-se: 1 ( X −X )
2
Ŷ ± tn −2 S +
n S XX
2
1 ( X −X )
Ŷ ~ N ( α +βx ; σ + )
n S XX
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Então IC de “1 – α” de confiança para


Uma estimativa do valor individual o um valor individual de Y, dado x , será:
de Y é dado por “a + bx” e a distribuição
2
desta estimativa será dada por: 1 ( X −X )
Ŷ ± t n −2 S 1 + +
2 n S XX
1 ( X −X )
Ŷ ~ N ( 0 ; σ 1 + + )
n S XX
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Determinar intervalos de
confiança de 95% para os valores
médio e individual de Y, na hipótese
de x = 200.

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

25
O IC de “1- α” para o valor médio de Y,
dado “x” é: 1 ( X −X )
2
S YY = 1932 ,10 a = − 2 ,7394 Ŷ ± t n −2 S +
n S XX
S XX = 8250 b = 0 ,4830 Então:
ŷ = − 2 ,7394 + 0 ,4830 .200 = 93 ,8606
S XY = 3985 s = 0 ,9503
1 ( 200 −145 ) 2
X = 145 n = 10 93,8606 ± 2 ,306.0,9503 +
10 8250
Y = 67 ,30 1 − α = 95 %
93,8606 ± 1 ,4970
x = 200
[92,36; 95,36]
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

O IC de “1- α” para o valor individual de


Y , dado “x” é: 2
1 ( X −X )
Ŷ ± t n −2 S 1 + +
Então: n S XX

1 ( 200 −145 ) 2
93,8606 ± 2 ,306.0,9503 1 + +
10 8250
93,8606 ± 2,6539
[91,21; 96,51]
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Da mesma forma que foram " α"

testados todos os parâmetros até A variável teste para testar o


então pode-se testar os coeficiente linear é dado por:
parâmetros “α” e “β” da a −α
regressão. t n −2 =
1 X2
S +
n S XX
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

26
" β"
A variável teste para testar o
coeficiente da regressão “β” é dada por:
b −β
t n −2 = S
S XX
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

(a) Testar, a 1% de significância, se é


possível afirmar que a linha de regressão, do a = − 2 ,7394 S YY = 1932 ,10
exemplo dado, não passa pela origem. b = 0 ,4830 S XX = 8250
(b) Testar se é possível, a 1% de s = 0 ,9503 S XY = 3985
significância, afirmar que existe regressão n = 10
positiva entre as duas variáveis. 1 − α = 1%

Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Dados: A variá
variável teste é:
Hipóteses: a −α
n = 10 t n −2 =
H0: α = 0 a = -2,739 1 X2
S +
n S XX
H1: α ≠0 α = 1% Entã
Então:
Trata-se de um teste bilateral para −2 ,739 − 0
t8 = = −1 ,771
o coeficiente linear da regressão. 1 145 2
0 ,9503 +
10 8250
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

27
crítico tc é tal que: P(|T| > tc) = α
O valor crí
Dados:
Então tc = -3,355. Assim RC = [-3,355; ∞) Hipóteses: n = 10
DECISÃ
DECISÃO e CONCLUSÃ
CONCLUSÃO: H0: β = 0 b = 0,4830
Como t8 = -1,771 ∈ RC ou H1: β > 0 α = 1%
-1,771 > -3,355. Aceito H0, isto é, a 1%
de significâ
significância, não se pode afirmar que Trata-se de um teste unilateral
a linha de regressã
regressão nã
não passe pela para o coeficiente angular da regressão.
origem.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

A variá
variável teste é: crítico tc é tal que: P(T > tc) = α
O valor crí
b −β Então tc = 2,896. Assim RC = [2,896; ∞)
t n −2 =
S
S XX DECISÃ
DECISÃO e CONCLUSÃ
CONCLUSÃO:
Entã
Então: Como t8 = 46,165 ∈ RC ou
46,165 > 2,896. Rejeito H0, isto é, a 1%
0 ,4830 − 0
t8 = = 46 ,165 de significâ
significância, pode-
pode-se afirmar que
0 ,9503 / 8250
existe regressã
regressão entre as duas variá
variáveis.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Y
Y − Ŷ
Ŷ Y −Y
Ŷ − Y
Y

Y − Y = Y − Ŷ + Ŷ − Y
2 2 2
∑ ( Y −Y ) = ∑ ( Y −Ŷ ) + ∑ ( Ŷ −Y )
VT = VR + VE
xi
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

28
(aa) Variação Total: VT Uma maneira de medir o
VT = ∑ Y −Y ( ) 2
= S YY
grau de aderência (adequação) de
(bb) Variação Residual: VR
um modelo é verificar o quanto
VR = ∑ Y −Ŷ ( )2
= S YY − b 2 S XX = VT − VE
da variação total de Y é
(cc ) Variação Explicada: VE
explicada pela reta de regressão.
VE = ∑ Yˆ − Y
2
(
= b 2 S XX )
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Para isto, toma-se o quociente


VE b 2 S XX b S XY S 2XY
entre a variação explicada, VE, pela R2 = = = =
VT S YY S YY S XX S YY
variação total ,VT:
Este resultado mede o quanto as
R2 = VE / VT variações de uma das variáveis são
Este resultado é denominado de explicadas pelas variações da outra
“Coeficiente
Coeficiente de Determinação”.
Determinação variável.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

Ou ainda, ele mede a parcela da


variação total que é explicada pela reta de
regressão, isto é:
2
VE = b 2 S XX = R S YY
A variação residual corresponde a:
VR =( 1 − R 2 ) S YY
Assim 1 – R2 é o Coeficiente de
Indeterminação.
Prof. Lorí Viali, Dr. – UFRGS – Instituto de Matemática - Departamento de Estatística

29

Você também pode gostar