Você está na página 1de 33

Regresso Linear Simples

ndice
1. Viso geral ................................................................................................................ 4
2. Correlaes e associaes ....................................................................................... 5
1. Introduo .............................................................................................................. 5
2. Definio ................................................................................................................ 5
3. Estudo de caso parte I ........................................................................................ 5
4. Diagrama de disperso .......................................................................................... 6
5. Estudo de caso parte II ....................................................................................... 7
6. Observaes sobre diagramas de disperso......................................................... 8
7. Coeficiente de Correlao de Pearson (r).............................................................. 9
8. Estudo de caso parte III .................................................................................... 12
3. Modelo de Regresso Linear Simples ..................................................................... 14
1. introduo ............................................................................................................ 14
2. Mtodo dos Mnimos Quadrados conceitos gerais ........................................... 14
3. Mtodo dos Mnimos Quadrados formalizando um pouco ................................ 15
4. O Modelo de Regresso Linear ........................................................................... 16
5. Estudo de caso parte IV.................................................................................... 17
6. Coeficiente de determinao (r2) ......................................................................... 18
7. Estudo de caso parte V..................................................................................... 18
8. Exemplo ............................................................................................................... 19
9. Estudo de caso parte VI e concluses gerais ................................................... 22
Concluses gerais sobre nosso estudo e observaes gerais importantes a
respeito da Regresso Linear .............................................................................. 22
10. Exerccios .......................................................................................................... 22
4. Teste t para o coeficiente de correlao ................................................................. 27
1. Introduo ............................................................................................................ 27
2. Teste de hiptese para a correlao populacional .............................................. 27
2.1. As hipteses do teste .................................................................................... 27
2.2. Graus de liberdade ........................................................................................ 28
2.3. A estatstica do teste ..................................................................................... 28
2.4. Concluso do teste........................................................................................ 28
3. Exemplo ............................................................................................................... 28
4.Correlao e casualidade ..................................................................................... 29

Regresso Linear Simples

5. Exerccios ............................................................................................................ 30
Tabela t ....................................................................................................................... 32
Formulrio ................................................................................................................... 33

Regresso Linear Simples

1. Viso geral
At o momento, a descrio e a inferncia estatstica foram tratadas em termos de
uma varivel somente. Assim, quando tnhamos uma amostra de empresas,
considervamos uma varivel por vez, como, por exemplo, o faturamento. Entretanto,
quando temos uma amostra de empresas, h vrias variveis que podem ser
observadas em cada unidade amostrada: nmero de empregados, salrios, rea etc.
No primeiro caso, cada unidade observada est associada com a medida de uma
varivel X; no segundo, cada unidade associada com as medidas de vrias
variveis, X, Y, W etc. No momento, vamos considerar o caso de duas variveis
(anlise bivariada). Prioritariamente, a anlise de regresso usada com o propsito
de previso. Nosso objetivo o de desenvolver um modelo estatstico que pode ser
usado para prever valores de uma varivel dependente (Y) em funo de valores
de uma varivel (X), ou mais variveis independentes.
Suponhamos dispor de uma amostra de n unidades, e, ainda, que, para cada
unidade, temos um par de valores das variveis X e Y (por exemplo, idade da casa e
aluguel). O grupo pode ser descrito, separadamente, quanto varivel X ou quanto
varivel Y, atravs das medidas j discutidas, tais como, mdias e desvios padres.
No entanto, agora temos interesse em estabelecer uma possvel relao funcional
(matemtica) entre as duas variveis e, se a relao for boa, us-la para fazer
previses. No caso do exemplo, nosso interesse ser estabelecer uma relao
matemtica (linear) entre as idades das casas (X) e os valores de aluguis (Y), e
dessa maneira prever valores de aluguis em funo das idades das casas.

Regresso Linear Simples

2. Correlaes e associaes
1. Introduo
Suponha que o chefe de uma empresa queira determinar se existe uma relao entre
o nmero de horas de treinamento dado a um funcionrio e o nmero de acidentes
envolvendo o mesmo funcionrio. Ou ainda, que um psiclogo queira determinar se o
nmero de horas que uma pessoa dorme a noite tem relao com o tempo de reao
dessa mesma pessoa.
Frequentemente estamos expostos a dados originrios de pesquisas que informar
existir relaes entre duas coisas. Por exemplo:
- as atividades sedentrias (como assistir TV) esto associadas ao aumento de
obesidade e dos riscos de diabetes em mulheres;
- beber moderadamente reduz os riscos de doenas cardacas em homens;
- o tratamento imediato ajuda a retardar o progresso do glaucoma.
(Fonte: National Institutes of Health)

Estudaremos, a seguir, que tipo de relao, ou correlao, existe entre duas variveis
quantitativas e como determinar se a correlao significante.

2. Definio
Uma correlao uma relao entre duas variveis. Os dados podem ser
representados por pares ordenados (x,y), onde x a varivel independente e y a
varivel dependente ou resposta.

3. Estudo de caso parte I


Um artigo publicado em uma revista chamada Garden Gate, havia uma notcia com o
ttulo: Conte o cricrilar dos grilos e descubra a temperatura. Segundo o artigo,
voc poderia contar quantas vezes um grilo cricrila em 15 segundos, somar 40 ao
resultado e obteria a temperatura em graus Fahrenheit. Existem diversas pesquisas
cientficas que dizem existir, de fato, uma relao entre a frequncia do cricrilar dos
grilos e a temperatura ambiente.
Para exemplificar, observemos a tabela a seguir, que nos mostra parte dos dados da
pesquisa das duas variveis dependentes em questo:

Regresso Linear Simples


Nmero de
vezes que o
grilo cricrila
em 15
segundos

Temperatura (F)

18
20
21
23
27
30
34
39

57
60
64
65
68
71
74
77

Geralmente, esses dados, que so observados aos pares, so chamados de dados


bivariados.
Observao: a converso entre a escala Fahrenheit e Celsius dada pela frmula
C=

5F-32
9

. Assim, por exemplo, 57F correspondem a 13,9C.

Se olharmos para um conjunto de dados bivariados, muitas vezes enormes,


possivelmente teremos problemas para deduzir uma relao entre as variveis
envolvidas. Para os dados representados na tabela anterior, mesmo que consigamos
enxergar um padro de comportamento nos dados como, por exemplo, que a
frequncia do cricrilar aumenta conforme a temperatura aumenta, muito difcil
detectarmos a relao exata existente.
Para chegarmos a algum tipo de concluso, precisamos organizar os dados em
tabelas ou grficos. Quando os dados forem bivariados, uma alternativa inicial
bastante eficaz a construo de grficos com duas dimenses, de modo que cada
par de valor possa ser representado simultaneamente. Em outras palavras, o primeiro
passo a construo de um grfico ou diagrama de disperso.

4. Diagrama de disperso
O grfico dos pares ordenados (x,y) chamado de diagrama de disperso. No
diagrama de disperso, os pares ordenados (x,y) so marcados no grfico como
pontos do plano cartesiano. A varivel independente x deve ser marcada no eixo das
abscissas (horizontal), enquanto que a varivel explicativa (ou dependente) y
marcada no eixo das ordenadas (vertical).
Um diagrama de disperso pode ser usado para determinar se existe uma correlao
linear (linha reta) entre duas variveis. A seguir, vemos alguns diagramas de
disperso que nos mostram vrios tipos de correlao.

Regresso Linear Simples

5. Estudo de caso parte II


Voltando ao caso do cricrilar dos grilos, para a tabela apresentada anteriormente,
obteramos o seguinte grfico de disperso:

Regresso Linear Simples

6. Observaes sobre diagramas de disperso


Pelo grfico anterior, podemos perceber que a escala adotada no eixo horizontal no
necessariamente a mesma escala que a adotada no eixo vertical.
Antes de iniciar a marcao dos pontos, a partir da tabela, no grfico, construa
sempre as escalas nos dois eixos. Escalas incorretas (mal elaboradas) podem gerar
concluses falsas a respeito dos dados analisados!
A interpretao inicial consiste em examinarmos a tendncia dos dados, sempre
olhando da esquerda para a direita:
- se os dados se aproximam de uma reta crescente, dizemos que existe uma relao
linear positiva. Neste caso, conforme o valor de x aumenta, o valor de y tambm
aumenta;
- se os dados se aproximam de uma reta decrescente, dizemos que existe uma
relao linear negativa. Neste caso, conforme o valor de x aumenta, o valor de y
diminui;
- caso os dados no se aproximem de uma reta, isso indica que no existe uma
relao linear entre as duas variveis.
Para anlise de regresso linear simples, desejvel a construo de um grfico
bidimensional denominado diagrama de disperso. Cada valor marcado em
funo das coordenadas de X e Y.
Os recursos visuais utilizados para exibir os dados mostram as possveis associaes
ou relaes entre duas variveis. No entanto, apenas por que o grfico est
mostrando que algo est possivelmente acontecendo, isso no significa que exista
uma relao de causa e efeito. Por exemplo, se olharmos o diagrama dispersivo do
consumo de sorvete e das taxas de homicdio, veremos que essas duas variveis
tambm possuem uma relao linear positiva. No entanto, ningum ir alegar que o
consumo de sorvete causa homicdios ou que as taxas de homicdios afetam o
consumo de sorvete.
Se algum estiver tentando mostrar uma relao de causa e efeito por meio de um
grfico ou tabela, procure saber como o estudo foi projetado e como os dados foram
coletados e, s ento, avalie se o estudo pode ser considerado como vlido.
Embora muitas relaes sejam lineares positivas ou negativas, existem variveis
podem se relacionar atravs de, por exemplo, parbolas ou exponenciais, que no
sero estudadas aqui.
Exemplo: a tabela a seguir representa o nmero de anos de servio e o
correspondente nmero de clientes de 5 agentes de uma companhia de seguros em

Regresso Linear Simples

um determinado ms. Construa o grfico de disperso e determine se parece existir


uma correlao linear positiva, negativa ou se no existe correlao.
Agente
A
B
C
D
E
Total

Anos de Servio
2
4
5
6
8
25

Nmero de clientes
48
56
64
60
72
300

razovel dizermos que o nmero de clientes depende da quantidade de anos


trabalhadas, ou seja, a varivel independente X: anos de servio e a varivel
dependente Y: nmero de clientes. O grfico de disperso :

nmero de clientes

80

60

40

20

0
0

10

Anos de Servio

Observando o grfico, parece haver uma correlao linear positiva entre as variveis.

7. Coeficiente de Correlao de Pearson (r)


Aps os dados bivariados terem sido organizados em uma tabela e ter construdo um
grfico de disperso, o prximo passo obter alguma estatstica que possa
quantificar a dimenso e natureza da relao.
Um indicador da fora de uma relao linear entre duas variveis intervalares o
Coeficiente de Correlao do Produto de Momentos de Pearson, ou
simplesmente Coeficiente de Pearson. Trata-se de uma medida de associao que
independe das unidades de medidas das variveis. Varia entre 1 ou +1 ou,
expresso em porcentagens, entre 100% e +100%. Quanto maior a qualidade do
ajuste (ou associao linear), mais prximo de +1 ou 1 estar o valor do
coeficiente r.

Regresso Linear Simples

A interpretao do Coeficiente de Correlao como medida da intensidade da relao


linear entre duas variveis puramente matemtica e est completamente isenta de
qualquer implicao de causa e efeito. O fato de duas variveis aumentarem ou
diminurem juntas no implica que uma delas tenha algum efeito direto, ou indireto,
sobre a outra. Ambas podem ser influenciadas por outras variveis de maneira que d
origem a uma forte correlao entre elas.
Na prtica, se r > 70% ou r < 70%, diremos que h forte correlao linear entre as
variveis.
Para ilustrar, vamos analisar alguns diagramas de disperso com a respectiva reta de
regresso ajustada:

10

Regresso Linear Simples

r<0

O clculo do coeficiente de Pearson dado pela frmula:

r=

n x i y i ( x i )( y i )

[n x

2
i

][

( x i ) n y i2 ( y i )
2

onde n o nmero de observaes.


Vejamos a figura a seguir que nos mostra os valores reais da correlao em um
grfico de disperso:

11

Regresso Linear Simples

8. Estudo de caso parte III


Vamos calcular, para o caso dos grilos, o coeficiente de correlao de Pearson. Para
isso, trabalharemos com a tabela a seguir, onde X a varivel independente
nmero de vezes que o grilo cricrila em 15 segundos e Y a varivel explicativa
temperatura em F.

xi

yi

xi. yi

xi2

yi2

18
20
21
23
27
30
34
39

57
60
64
65
68
71
74
77

1026
1200
1344
1495
1836
2130
2516
3003

324
400
441
529
729
900
1156
1521

3249
3600
4096
4225
4624
5041
5476
5929

xi = 212

yi = 536 xi. yi = 14550 xi2 = 6000 yi2 = 36240

Substituindo os valores calculados na frmula, sendo n=8 observaes, temos:

12

Regresso Linear Simples

r=
=

n x i y i ( x i )( y i )

[n x

2
i

][

( x i ) n y

2768
3056..2624

2
i

8.14550 212.536

[8.6000 (212) ][8.36240 (536) ]


( y ) ]
2

= 0,977

Ou seja, o coeficiente de correlao , aproximadamente, 0,98, indicando uma forte


correlao linear positiva entre o cricrilar e a temperatura.

13

Regresso Linear Simples

3. Modelo de Regresso Linear Simples


1. introduo
Observando o diagrama de disperso, podemos ter uma idia do tipo de relao entre
as duas variveis. A natureza da relao pode tomar vrias formas, desde uma
simples relao linear at uma complicada funo matemtica.
O modelo de regresso linear simples pode ser representado como:

Yi = X i + + i
onde:
a inclinao da reta;
o intercepto da reta no eixo das ordenadas;
i o erro aleatrio de Y para a observao i.
Assim, a inclinao representa a mudana esperada de Y por unidade de X; isto ,
representa a mudana de Y (tanto positiva quanto negativa) para uma particular
unidade de X. Por outro lado, representa o valor de Y quando X = 0, enquanto i
representa uma varivel aleatria que descreve o erro de Y para cada observao i.

2. Mtodo dos Mnimos Quadrados conceitos gerais


A partir de um diagrama de disperso, devemos ajustar uma reta que melhor modele
o conjunto de dados. Essa reta chama de reta de regresso e sua equao pode
ser usada para prever os valores de y para um dado valor de x (mas no o
contrrio!). Embora muitas retas possam ser desenhadas a partir de um conjunto de
pontos, existe a melhor reta. Tal reta obtida a partir de critrios especficos,
chamado de Mtodo dos Mnimos Quadrados.
Consideremos o diagrama a seguir. Para cada ponto do grfico, di representa a
diferena entre o valor y observado e o valor y previsto pelo modelo para um
determinado valor de x. Essas diferenas so chamadas de resduos e podem ser
positivas, negativas ou zero (quando um ponto do grfico est sobre a reta ajustada).
Dentre todas as retas que podem ser traadas para certo conjunto de dados, a
melhor aquela que minimiza a soma de todos resduos ao quadrado, ou seja, a
que minimiza di2.

14

Regresso Linear Simples

3. Mtodo dos Mnimos Quadrados formalizando um pouco


Como j mencionamos, precisamos determinar, com base em uma amostra, a
equao de regresso linear simples que melhor se ajuste aos dados amostrais. Isto
, encontrarmos os coeficientes da reta:

y i = ax i + b
onde:
y i o valor da previso de y para uma observao xi;
xi o valor de x para a observao i;
a o estimador de ;
b o estimador de .
O problema determinar os valores dos parmetros a e b, de modo que a reta se
ajuste ao conjunto de pontos, isto : estimar a e b de algum modo eficiente. H vrios
mtodos para encontrar as estimativas de tais parmetros, sendo mais eficaz o
Mtodo dos Mnimos Quadrados.
Como a reta desejada vai ser usada para fins de previso, razovel exigir que ela
seja tal que torne pequenos os erros dessa previso. Um erro de previso significa
a diferena entre um valor observado de y e o valor correspondente de y da reta. Isto
: tornar pequeno o erro: (y y ). Veja a ilustrao, para melhor compreender o que
se busca:

15

Regresso Linear Simples

Desvio entre uma observao e a reta dos mnimos quadrados.

Os pontos acima da reta do erros positivos, os situados abaixo da reta do erros


n

negativos. Como a soma dos erros zero, isto ,

(y
i=1

y i ) = 0 , o mtodo utiliza a
n

soma dos quadrados dos erros, da o nome Mnimos Quadrados. Assim,

(y
i=1

dever ser minimizada. Como y i = ax i + b , devemos minimizar

[y
i=1

y i ) 2

(ax i + b)] para


2

obter os parmetros a e b. Resolvendose essa expresso, teremos os parmetros


dados pelas frmulas, conforme veremos a seguir.

4. O Modelo de Regresso Linear


Nosso modelo :

y i = a.x + b
onde:

a=

n x i y i x i y i
n x i2 ( x i )

com

16

b = y a.x

Regresso Linear Simples

x=

y=

(mdia de X) e

(mdia de Y)

y
n

em que n o nmero de observaes.

Cuidado!
x2

(x)2

5. Estudo de caso parte IV


Voltando aos nossos grilos, vamos determinar uma reta de regresso para o conjunto
de dados. Lembrando que n=8, vamos inicialmente calcular as mdias:
x=

y=

212
= 26,5
8

536
= 67
8

y
n

Agora, calcularemos o valor do coeficiente angular:


a=

n x i y i x i y i
n x ( x i )
2
i

8.14550 212.536.
8.6000 (212)

2768
= 0,906
3056

Finalmente, calcularemos o coeficiente linear:


b = y a.x = 67 0,906 .26,5 = 42,991

Arredondando os resultados obtidos, temos: a=0,91 e b=43,0.


O modelo de regresso :
 = 0,91x + 43,0
y

17

Regresso Linear Simples

6. Coeficiente de determinao (r2)


O coeficiente de determinao (r2) corresponde ao quadrado do valor do coeficiente
de correlao (r). O coeficiente de determinao uma medida que nos indica qual a
porcentagem da variao explicada pelo modelo em relao variao total.
A variao explicada aquela que pode ser explicada pela relao entre x e y, ou
seja, pelo modelo de regresso. A variao no explicada aquela que no pode ser
explicada pelo modelo, ou seja, por uma relao entre x e y e isto ocorre devido ao
acaso ou existncia de outras variveis no consideradas no modelo.
Exemplo: suponhamos que o coeficiente de correlao entre duas variveis seja
r=0,90. Ento, o coeficiente de determinao
r2 = 0,902 = 0,81.
Isso significa que 81% da variao de y pode ser explicada pelo modelo de
regresso; os restante (19%) da variao no explicada e ocorre em razo de
outros fatores ou a erro na amostragem.

7. Estudo de caso parte V


Para concluir nosso estudo sobre o cricrilar dos grilos, vamos responder s seguintes
questes:
a) Se durante 15 segundos contarmos 25 cricrilares, qual deve ser a temperatura
ambiente aproximada em graus Celsius?
b) Durante 15 segundos, foram contados 39 cricrilares. Qual deve ser a temperatura
ambiente? Compare o resultado com os dados coletados na amostragem do
experimento.
c) Qual o coeficiente de determinao? Interprete o seu valor.
Resoluo
a) Utilizando o modelo obtido na parte IV, basta substituirmos x por 25:
= 0,91x + 43,0 = 0,91 . 25 + 43,0 = 65,75F
y
Utilizando a frmula apresentada anteriormente, fazemos a converso de F para C:
C=

5F-32
9

5(65,75-32)
9

=18,75C

18

Regresso Linear Simples

Logo, se 25 cricrilos foram ouvidos, espera-se que a temperatura ambiente seja de


aproximadamente 19C.
b) Novamente, a partir do modelo de regresso, temos:
= 0,91x + 43,0 = 0,91 . 39 + 43,0 = 78,49F ~ 78F.
y
A temperatura que foi obtida na coleta dos dados (apresentados na tabela da parte I)
correspondente a 39 cricrilos foi de 77F, enquanto que atravs da equao da reta
de regresso, obtivemos 78F, o que nos mostra que a aproximao obtida para o
modelo muito boa.
Observao importante: se tivssemos calculado o valor esperado pelo modelo para
34 cricrilos, obteramos 74F, que exatamente o mesmo valor obtido na
amostragem. Porm, importante ressaltar que isso uma coincidncia e que nem
sempre os valos esperados e calculados atravs do modelo de regresso coincidiro
com os valores apresentados na tabela de dados brutos. Porm, espera-se que o
valor obtido pelo modelo seja relativamente prximo do valor obtido na amostragem
(desde que a correlao entre as variveis seja forte).
c) Vimos que o coeficiente de correlao r = 0,977. Logo, o coeficiente de
determinao ser:
r2 = 0,9772 = 0,954529 0,955.
Logo, o modelo de regresso capaz de explicar 95,5% da variabilidade da
temperatura. Em outras palavras, 95,5% da variao da temperatura explicada pela
relao entre a frequncia de cricrilos e a temperatura.

8. Exemplo
A tabela abaixo apresenta valores que mostram como o comprimento de uma barra
de ao varia conforme a temperatura:
Temperatura (C)
Comprimento (mm)

10
1.003

15
1.005

20
1.010

25
1.011

30
1.014

Determine:
a) o coeficiente de correlao e a interpretao do valor obtido;
b) a reta ajustada atravs do Mtodo dos Mnimos Quadrados;
c) o grfico de disperso e da reta ajustada em um nico par de eixos;
d) o valor estimado do comprimento da barra para a temperatura de 18C;
e) o valor estimado do comprimento da barra para a temperatura de 35C;
f) o coeficiente de determinao e sua interpretao.

19

Regresso Linear Simples

Resoluo
Inicialmente, verificamos que a varivel controlada a temperatura, e que o
comprimento varia em funo da temperatura medida. Neste caso, a varivel
independente X a temperatura; a varivel dependente Y o comprimento.
Vamos refazer a tabela dada verticalmente e calcularemos as medidas necessrias
para utilizarmos as frmulas:
Temperatura Comprimento
xi
yi
10
15
20
25
30

1003
1005
1010
1011
1014

= 100

= 5043

xi.yi

(xi)2

(yi)2

10030
15075
20200
25275
30420

100
225
400
625
900

1006009
1010025
1020100
1022121
1028196

x y
i

= 101000

2
i

= 2250

2
i

= 5086451

Observe a ltima linha da tabela: nela, j temos todos os elementos necessrios para
utilizarmos as frmulas anteriormente apresentadas.

n x i y i ( x i )( y i )

a) r =

[n x

2
i

( x ) ][n y ( y ) ]
2

2
i

5.101000 (100).(5043)

[5.2250 (100) ][5.5086451 (5043) ]


2

700
1250.406

700
507500

0,9826 .

Interpretao: a temperatura explica aproximadamente 98% da variabilidade do


comprimento da barra de ao.
b) Vamos calcular os coeficientes da reta:
a=

x=

y=

n x i y i x i y i
n x ( x i )
2
i

100
= 20
5

5043
= 1008,6
5

5.101000 100.5043 700


=
= 0,56 .
1250
5.2250 (100) 2

b = y a.x = 1008,6 0,56.20 = 997,4 .

20

Regresso Linear Simples

Logo, o nosso modelo : y = 0,56.x + 997,4 .


c) O grfico de disperso com o ajuste da reta :
Plotagem de ajuste de linha
1016
1014

comprimento

1012
1010

comprimento

1008

Previsto(a)
comprimento

1006
1004
1002
0

10

20

30

40

temperatura

d) A partir do modelo y = 0,56.x + 997,4 , queremos estimar o valor do comprimento da


barra de ao para x=18C. Logo:

y = 0,56.x + 997,4 = 0,56.18 + 997,4 = 1007,48 mm.


e) Analogamente ao item anterior, agora temos x=35C:

y = 0,56.x + 997,4 = 0,56.35 + 997,4 = 1017 mm.


f) Como r = 0,9826 ento o coeficiente de determinao r2 = 0,98262 0,97.
Interpretao: o modelo de regresso explica aproximadamente 97% da variabilidade
do comprimento. Outo modo de interpretar: 97% da variao do comprimento pode
ser explicada pela relao entre comprimento e temperatura. Os outros 3% devem-se
a outros fatores no considerados ou erros na amostra.

21

Regresso Linear Simples

9. Estudo de caso parte VI e concluses gerais


Concluses gerais sobre nosso estudo e observaes gerais importantes a
respeito da Regresso Linear
1) o fato de termos um modelo no necessariamente significa que possamos atribuir
qualquer valor at obter uma boa previso para y. Pox exemplo, no faz sentido
atribuirmos valores maiores do que 39 ou menores do que 18 para esse caso, visto
que todos os nossos dados esto contidos dentro dessa variao.

No podemos garantir que a linha de regresso funcionar fora da rea em que os


dados foram coletados. Ser que, realmente, conforme a temperatura aumenta, os
grilos iro cricrilar cada vez mais rpido, sem nunca parar? claro que no! Os grilos
no sobreviveriam exposio excessiva de calor ou de frio. Por isso, no podemos
atribuir valores extremamente baixos ou extremamente altos para x ainda esperar que
o modelo funcione...
2) Fazer previses usando valores x que fiquem fora da variao dos dados errado.
Os estatsticos chamam essa prtica de extrapolao; fique atento com
pesquisadores que tentam fazer alegaes alm da variao de seus resultados.
3) Uma vez que a linha de regresso um modelo que descreve a relao geral entre
x e y, ns no estamos realmente prevendo y, mas, sim, prevendo o valor esperado
(ou a mdia) de y para um dado valor x.

10. Exerccios
1) Um grupo de pessoas fez uma avaliao do peso aparente de alguns objetos. Com
o peso real e a mdia dos pesos aparentes, dados pelo grupo, obteve-se a tabela:
Peso real (kg)
Peso aparente (kg)

18
10

30
23

42
33

62
60

73
91

97
98

120
159

Calcule o coeficiente de correlao de Pearson.


2) Considere os resultados de dois testes, X e Y, obtidos por um grupo de alunos da
escola A:
xi
yi

11
13

14
14

19
18

19
15

22
22

28
17

30
24

31
22

34
24

37
25

Calcule o coeficiente de correlao linear. Se houver correlao, indique se ela


positiva ou negativa; forte ou fraca.

22

Regresso Linear Simples

3) Os oramentos (em milhes de dlares) e os ganhos brutos mundiais (em milhes


de dlares) para os oito filmes longa metragem j produzidos so apresentados na
tabela a seguir:
Oramento (x)
Ganhos brutos (y)

207
553

204
391

200
1835

200
784

180
749

175
218

175
255

170
433

a) Construa um diagrama de disperso para os dados.


b) Calcule o coeficiente de correlao r.
c) Diga como o tipo de correlao.
4) Na tabela, so mostrados os ganhos por cota de mercado e os dividendos por cota
de mercado para 10 empresas de servios de telecomunicaes em um determinado
ano:
Ganhos por cota (x)
Dividendos por cota (y)

2,34
1,33

1,96
1,07

1,39
1,15

3,07
0,25

0,65
1,00

5,21
1,00

0,88
1,59

3,23
1,20

2,54
1,62

1,03
0,20

a) Construa um diagrama de disperso para os dados.


b) Calcule o coeficiente de correlao r.
c) Diga como o tipo de correlao.
5) A tabela abaixo apresenta a produo de uma indstria:
Anos
Quantidades

1980
34

1981
36

1982
36

1983
38

1984
41

1985
42

1986
43

1987
44

1988
46

Calcule:
a) o coeficiente de correlao;
Sugesto: para simplificar os clculos, substitua os anos pela varivel auxiliar, por exemplo:
xi = xi 1984 ou ainda xi = xi 1980.

b) a reta ajustada;
c) a produo estimada para 1989;
d) o coeficiente de determinao e uma interpretao.
6) A variao do valor da UPC, relativamente a alguns meses de 1995, deu origem
tabela:
Meses
Valores (R$)

mai.
10,32

jun.
10,32

jul.
11,34

ago.
set.
out.
11,34 11,34 12,22

a) Calcule o grau de correlao.


b) Estabelea a equao de regresso de Y em funo de X.
c) Estime o valor da UPC para o ms de dezembro.
Dica: Substitua os meses, respectivamente, por 1, 2, ...., 7.

23

nov.
12,22

Regresso Linear Simples

7) Certa empresa, estudando a variao da demanda de seu produto em relao


variao de preo de venda, obteve a tabela:
Preo (R$)
Demanda

38
350

42
325

50
297

56
270

59
256

63
246

70
238

80
223

95
215

110
208

a) Determine o coeficiente de correlao.


b) Estabelea a equao da reta ajustada.
c) Estime o valor da demanda para um preo de R$ 60 e R$ 120.
d) Determine o coeficiente de determinao e interprete.

8) Pretendendo-se estudar a relao entre as variveis consumo de energia eltrica


(xi) e volume de produo nas empresas industriais (yi), fez-se uma amostragem que
inclui vinte empresas, computando-se os seguintes valores:

= 11,34 ,

= 20,72 ,

x .y
i

= 22,13 ,

2
i

= 12,16 e

2
i

= 84,96 .

Determine:
a) o clculo do coeficiente de correlao.
b) a equao de regresso de Y em funo de X.
c) a equao de regresso de X em funo de Y.
9) Um gerente de marketing conduziu um estudo para determinar se h uma relao
entre o dinheiro gasto com a propaganda e as vendas da empresa (ambos em
milhares de dlares). Os dados so mostrados na tabela a seguir:
Gastos com a propaganda
Vendas da empresa

2,4
225

1,6
184

2,0
220

2,6
240

1,4
180

1,6
184

2,0
186

2,2
215

a) qual a varivel dependente e independente?


b) calcule o coeficiente de correlao e interprete.
c) ajuste um modelo de regresso linear para os dados.
d) estime as vendas para um gasto de $ 1800.
e) estime as vendas para um gasto de $ 2500.
f) construa um diagrama de disperso e trace a reja ajustada sobre ele.
Dados: x = 15,8 ; y = 1634 ; xy = 3289,8 ; x2 = 32,44 ; y2 = 337558

24

Regresso Linear Simples

Respostas
1) r = 0,98
2) r = 0,89. Correlao linear positiva e forte.
3) a)

b) 0,427
c) Correlao linear positiva fraca.
4) a)

b) -0,030
c) No h correlao linear.

5) a) r = 0,9891 b) y = 1,5x + 40 c) 47,5


2
d) r = 0,98. O modelo explica 98% da variabilidade da quantidade em funo dos anos.
= 0,34x + 9,94 c) 12,66
6) a) r = 0,94 b) y
7) a) r = -0,90

b)

y = 1,87x + 386,78

= 275. Para x = 120, y = 162.


c) Para x = 60, y
2
d) r = 0,81. O modelo explica 81% da variabilidade do preo apenas em funo da demanda.
= 0,16y + 0,40
8) a) r = 0,5443 b) y = 1,81x + 0,0097 c) x
9) a) a varivel independente (x) corresponde aos gastos com propaganda; a varivel dependente ou
varivel resposta (y) corresponde s vendas da empresa.
b) r=0,913; correlao linear positiva forte.

25

Regresso Linear Simples


c)  = 50,729x + 104,061
d) 195,373 mil dlares em vendas.
e) 230,884 mil dlares em vendas.
f)

26

Regresso Linear Simples

4. Teste t para o coeficiente de correlao


1. Introduo
Uma vez calculado o coeficiente de correlao da amostra r, precisamos determinar
se h evidncia suficiente para decidir se o coeficiente de correlao populacional
(l-se: r) significante. Em outras palavras, baseado em alguns poucos pares de
dados, podemos fazer uma inferncia sobre uma populao de todos pares de
dados?
Lembre-se: estamos usando dados amostrais para tomar uma deciso sobre dados
de uma populao, ento sempre possvel que a inferncia esteja errada.
Nos estudos de correlao, uma pequena porcentagem de vezes nas quais decidimos
que a correlao significativa, quando ela na verdade no , chamada de nvel de
significncia, e geralmente vale = 0,01 ou 0,05. Assim, quando = 0,05, podemos
dizer que o coeficiente de correlao da populao significante quando realmente
no em 5% das vezes ( claro, em 95% das vezes iremos determinar corretamente
que o coeficiente de correlao significativo). Quando = 0,01, cometemos esse
tipo de erro somente 1% das vezes.
Para determinarmos se um coeficiente de correlao significante, vamos utilizar um
teste de hipteses, conforme estudaremos a seguir.

2. Teste de hiptese para a correlao populacional


Para aplicar o teste de hiptese para a existncia de correlao linear, necessrio
que as variveis populacionais X e Y tenham distribuio normal bivariada. Quando
as amostras forem superiores a 30, a hiptese de normalidade das duas variveis
razoavelmente atendida.
2.1. As hipteses do teste

As hipteses nula e alternativa para este tipo de teste so:




H0 : =0
Ha : 0

Se o teste indicar a rejeio da hiptese nula (H0), ento podemos concluir que
existe correlao significativa entre as variveis ao nvel de significncia .
Porm, se aceitarmos H0, isso indica que no h correlao significativa entre X e
Y. Logo, no faz sentido realizarmos o ajuste de uma reta de regresso para o
conjunto de dados.

27

Regresso Linear Simples

2.2. Graus de liberdade

Para este teste, trabalharemos com n2 graus de liberdade:


g.l. = n 2 .
2.3. A estatstica do teste

O valor observado deve ser calculado com a seguinte frmula:


tobs =

r.n2
1r2

2.4. Concluso do teste

se tobs regio crtica ento rejeitamos H0, ou seja, existe correlao significativa;
se tobs regio crtica ento aceitamos H0, ou seja, existe no h correlao
significativa e, por isso, no devemos realizar o ajuste de reta.

3. Exemplo
Uma amostra revelou que o coeficiente de correlao entre o salrio e o nmero de
anos de escolaridade para um grupo de 20 pessoas de 0,78. Teste a hiptese de
existncia de correlao entre essas variveis ao nvel de 5%.
Nossas hipteses so:


H0 : =0
Ha : 0

A partir da tabela tStudent, considerando os graus de liberdade g.l=n2=202= 18,


temos que o valor crtico para o teste igual a tc = 2,101.
Calculando o valor observado atravs da frmula vista anteriormente, temos:

tobs =

r.n2 0,78.202
=
=5,288
1r2
2
10,78

Colocando os valores na curva tStudent, temos:

28

Regresso Linear Simples

0,025

0,025

2,101

RC

2,101

RC

tobs = 5,288

Como tobs RC, ento rejeitamos H0, ou seja, existe uma correlao entre as
variveis salrio e nmero de anos, ao nvel de 5% de significncia.

4.Correlao e casualidade
O fato de duas variveis serem fortemente correlacionadas no implica uma relao
de causa e efeito entre elas. Um estudo mais profundo usualmente necessrio para
determinar se h uma relao causal entre as variveis.
Se houver correlao significante entre duas variveis, o pesquisador deve considerar
as possibilidades a seguir.
1) H uma relao direta de causa e efeito entre as variveis?

Ou seja, X causa y? Por exemplo, considere a relao entre os gastos com propaganda e as vendas da empresa, discutida durante essa seo. razovel concluir
que gastar mais com propaganda ir resultar em mais vendas.
2) H uma relao de causa e efeito reversa entre as variveis?

Ou seja, y causa X? Por exemplo, uma pesquisa mostrou que conforme aumenta a
durao das erupes de gisers, maior o intervalo de tempo at que uma nova
erupo ocorra. Essas variveis tm uma correlao linear positiva e possvel
concluir que a durao de uma erupo afeta o tempo antes da prxima erupo.
Entretanto, tambm possvel que o tempo entre as erupes afete a durao da
prxima erupo.
3) possvel que a relao entre as variveis possa ser causada por uma terceira varivel ou talvez pela combinao de diversas outras variveis?

Por exemplo, considere os oramentos e os ganhos brutos dos 25 filmes mais caros
j produzidos pela Century Fox. Embora essas variveis tenham uma correlao

29

Regresso Linear Simples

linear positiva, podemos duvidar de que s porque os oramentos decrescem, os


ganhos mundiais tambm vo decrescer. A relao provavelmente por causa de
diversas outras variveis, tais como propaganda, o ator ou atriz no filme e outros
filmes que estavam nos cinemas na mesma poca.
4) possvel que a relao entre duas variveis seja uma coincidncia?

Por exemplo, embora seja possvel encontrar uma correlao significante entre o
nmero de espcies de animais que vivem em certas regies e o nmero de pessoas
que tem mais de dois carros nas mesmas regies, muito improvvel que as
variveis sejam diretamente relacionadas. A relao ocorre provavelmente por causa
da coincidncia.
Determinar quais dos casos acima vlido para o conjunto de dados pode ser difcil.
Por exemplo, considere o seguinte: suponha que uma pessoa tenha erupes
cutneas cada vez que come camaro em certo restaurante. A concluso natural
que a pessoa alrgica a camaro. Entretanto, depois de um estudo mais completo
de um alergista, descobre-se que essa pessoa no alrgica a camaro, mas ao tipo
de tempero usado pelo chef no camaro.
(Texto adaptado de Farber e Larson, Estatstica Aplicada, 4ed. So Paulo: Pearson, 2010, p. 405).

5. Exerccios
1) Sessenta e quatro estudantes foram submetidos a dois testes: Raciocnio Lgico e
Conhecimentos Gerais. Dos escores obtidos, foram calculadas as somas:
x = 169 ; y = 327 ; x2 = 1450 ; y2 = 2304 ; xy = 837.

Teste, ao nvel de 4% a existncia de correlao.


2) Os pesos (em libras) de oito veculos e suas distncias de frenagem (em ps),
quando param em uma superfcie seca, so apresentados na tabela a seguir. Para
= 5%, podemos concluir que h correlao linear significante entre o peso do veculo
e a variabilidade da distncia de frenagem em superfcie seca? Use: =0,01.
Peso
Distncia

5940
1,78

5340
1,93

6500
1,91

5100
1,59

5850
1,66

4800
1,50

5600
1,61

5890
1,70

3) O nmero de horas que 13 alunos passam estudando para um teste e suas notas
so apresentadas na tabela a seguir. H evidncia suficiente para concluir que h
uma correlao linear significativa entre os dados? Use: =0,01.
Horas gastas estudando
Nota no teste

0
40

1
41

2
51

4
48

30

4
64

5
69

5
73

5
75

6
68

6
93

7
84

7
90

8
95

Regresso Linear Simples

Respostas
1) r = 0,033; rejeito H0, ou seja, existe correlao.
2) Ao nvel de 1%, no h evidncias de que haja correlao significativa entre o peso do veculo e a
variabilidade na distncia de frenagem.
3) Ao nvel de 1%, h evidncias de que a correlao linear seja significante entre o nmero de horas
estudados para um teste e a nota no teste.

31

Regresso Linear Simples

Tabela t

32

Regresso Linear Simples

Formulrio
Coeficiente de correlao de Pearson:

r=

n x i y i ( x i )( y i )

[n x

2
i

][

( x i ) n y i2 ( y i )
2

Regresso linear:
y i = a.x + b

a=

n x i y i x i y i
n x ( x i )
2
i

Teste para a existncia de correlao:

b = y a.x

tobs =

33

r. n2
1r2

x=

com

x
n

y=

g.l. = n2

y
n