Você está na página 1de 34

Captulo 13

Correlao e regresso


Neste captulo, vamos dar seqncia ao estudo de associao entre
duas variveis, mas agora, supondo que ambas sejam mensuradas
quantitativamente. Usaremos, neste caso, o termo correlao no lugar de
associao.
Variveis correlacionadas
Dizemos que duas variveis, X e Y, so positivamente correlacionadas
quando elas caminham num mesmo sentido, ou seja, elementos com valores
pequenos de X tendem a ter valores pequenos de Y e elementos com valores
grandes de X tendem a ter valores grandes de Y. So negativamente
correlacionadas quando elas caminham em sentidos opostos, ou seja,
elementos com valores pequenos de X tendem a ter valores grandes de Y e
elementos com valores grandes de X tendem a ter valores pequenos de Y.
As variveis peso e altura apresentam-se, em geral, correlacionadas
positivamente, pois os indivduos altos tendem a ser mais pesados, enquanto
que a maioria dos indivduos baixos leve. Por outro lado, no Brasil, as
variveis renda familiar e nmero de elementos da famlia costumam
apresentar-se correlacionadas negativamente, pois as famlias de baixa renda,
em geral, tendem a ter mais filhos do que as de alta renda.
Ilustraremos o estudo de correlaes entre duas variveis, usando os
dados da Tabela 13.1, relativos a alguns indicadores sociais de uma amostra
de municpios brasileiros.
1



1
Estamos usando uma amostra bastante pequena para ilustrar as tcnicas. Um estudo
dessas variveis pode ser feito com toda a populao de municpios, j que esses dados esto
disponveis no Censo Demogrfico de 2000 ou no Atlas de Desenvolvimento Humano
(www.pnud.org.br/atlas).
Tabela 13.1 Alguns dados, baseados no Censo Demogrfico de 2000, de uma amostra
aleatria de municpios brasileiros.
Municpio DistCap EspVida MortInf Alfab Renda
Araruna (PR) 365 67,99 23,19 86,23 188,29
Nova Redeno (BA) 278 61,19 56,56 63,00 74,79
Mono (MA) 150 59,58 63,32 63,64 66,96
Porto Rico do Maranho (MA) 78 58,96 66,05 79,33 65,34
Campo Er (SC) 468 68,10 31,71 83,38 173,38
Lagoa do Piau (PI) 40 63,65 47,08 65,81 60,00
So Jos das Palmeiras (PR) 486 71,01 16,62 77,54 150,67
Paraba do Sul (RJ) 83 71,36 15,69 89,28 264,55
Malhada dos Bois (SE) 65 64,46 44,18 69,95 80,69
Jandara (BA) 175 62,45 51,57 59,72 58,68
Vespasiano (MG) 14 68,68 32,81 90,43 196,51
Ipaba (MG) 167 67,42 37,04 81,82 125,75
Fonte: Atlas de Desenvolvimento Humano (www.pnud.org.br/atlas).
Descrio das variveis:
DistCap: distncia da capital da respectiva Unidade da Federao.
EspVida: esperana de vida ao nascer
MortInf: mortalidade (nmero mdio de mortes em 1.000) at um ano de idade.
Alfab: taxa de alfabetizao (percentagem da populao adulta alfabetizada).
Renda: renda per capita do municpio (R$).

13.1 DIAGRAMAS DE DISPERSO
Uma maneira de visualizarmos se duas variveis apresentam-se
correlacionadas atravs do diagrama de disperso, no qual os valores das
variveis so representados por pontos, num sistema cartesiano. Esta
representao feita sob forma de pares ordenados (x, y), onde x um valor de
uma varivel e y o correspondente valor da outra varivel. A Figura 13.1
ilustra a construo de um diagrama de disperso.





Figura 13.1 Construo de um diagrama de disperso. Representao das trs
primeiras observaes de X = distncia capital e Y = esperana de vida ao
nascer, referente aos dados da Tabela 13.1.

A Figura 13.2 mostra quatro diagramas de disperso, relativos aos
cruzamentos de algumas variveis da Tabela 13.1. O leitor deve notar que cada
par de observaes refere-se ao mesmo elemento (municpio), ou seja, a
anlise baseia-se em dados pareados.

59
61
63
65
67
69
100 150 200 250 300 350 400
y
x
50 150 250
60
70
80
90
Renda per capita (R$)
T
a
x
a

d
e

a
l
f
a
b
e
t
i
z
a

o

(
%
)

60 65 70
15
25
35
45
55
65
Esperana de vida ao nascer
T
a
x
a

d
e

m
o
r
t
a
l
i
d
a
d
e

i
n
f
a
n
t
i
l

15 25 35 45 55 65
60
70
80
90
Taxa de mortalidade infantil
T
a
x
a

d
e

a
l
f
a
b
e
t
i
z
a

o

(
%
)

0 100 200 300 400 500
60
70
80
90
Distncia da capital (km)
T
a
x
a

d
e

a
l
f
a
b
e
t
i
z
a

o

(
%
)

Figura 13.2 Alguns diagramas de disperso, construdos com os dados da
Tabela 13.1.
O diagrama (a) da Figura 13.1 mostra uma situao de correlao
positiva, porque os pontos esto em torno de uma linha imaginria
ascendente. Em geral, valores pequenos de uma varivel so tambm
pequenos na outra, o mesmo acontecendo para valores grandes.
Os diagramas (b) e (c) mostram correlaes negativas, porque, em
ambos os casos, os pontos esto em torno de uma linha imaginria
descendente. Valores pequenos de uma varivel so, em geral, grandes na
outra. Em (b) os pontos apresentam-se mais prximos de uma linha
descendente do que em (c), o que caracteriza uma correlao mais forte.
Os dados de distncia da capital e taxa de alfabetizao, diagrama (d),
no se apresentam correlacionados, pois valores pequenos (ou grandes) de
uma varivel esto associados tanto a valores pequenos quanto a valores
grandes da outra. Os pontos no se posicionam em torno de alguma linha
ascendente ou descendente.
A Figura 13.3 mostra um conjunto de pontos aproximando-se mais de
uma parbola do que de uma reta, ilustrando um caso de correlao no-
linear. As correlaes no-lineares so mais difceis de serem interpretadas e
no sero abordadas neste livro.

(b)
(a)
(d)
(c)

Figura 13.3 Diagrama de disperso de um exemplo hipottico de correlao no-
linear.
importante ressaltar que o conceito de correlao refere-se a uma
associao numrica entre duas variveis, no implicando, necessariamente,
uma relao de causa e efeito, ou mesmo numa estrutura com interesses
prticos. Se observarmos, por exemplo, as variveis populao da Argentina e
venda de cerveja no Brasil ao longo dos ltimos anos, elas devem se
apresentar correlacionadas positivamente, pois ambas esto aumentando com
o tempo. Contudo, em termos prticos, esta correlao espria, no trazendo
qualquer informao relevante.
A anlise de dados para verificar correlaes usualmente feita em
termos exploratrios, onde a verificao de uma correlao serve como um
elemento auxiliar na anlise do problema em estudo. Ou seja, o estudo da
correlao numrica entre as observaes de duas variveis geralmente um
passo intermedirio na anlise de um problema.
13.2 O COEFICIENTE DE CORRELAO LINEAR DE PEARSON
No captulo anterior, estudamos o coeficiente de contingncia, que
descreve, atravs de um nico nmero, o grau de associao dos dados de
duas variveis categorizadas. Nesta seo, apresentaremos o chamado
coeficiente de correlao (linear) de Pearson, apropriado para descrever a
correlao linear dos dados de duas variveis quantitativas.
Valores padronizados e o coeficiente r
O valor do coeficiente de correlao no deve depender da unidade de
medida dos dados. Por exemplo, o coeficiente de correlao entre as variveis
peso e altura deve acusar o mesmo valor, independentemente se o peso for
medido em gramas ou quilogramas, e a altura em metros ou centmetros.
Para evitar o efeito da unidade de medida, os dados devem ser
padronizados da seguinte forma:
S
X x
= x
x

'
S
Y y
= y
y

'

onde:
x': um valor padronizado;
x: um valor da varivel X;
X : mdia dos dados da varivel X;
Sx: desvio padro dos dados de X;

y': um valor padronizado;
y: um valor da varivel Y;
Y : mdia dos dados da varivel Y e
Sy: desvio padro dos dados de Y.
O coeficiente de correlao linear de Pearson, r, definido pela
seguinte expresso, em termos dos valores padronizados:
( )
1
' '

n
y x
r =
onde:
n o tamanho da amostra, isto , o nmero de pares (x, y) e
( )

' ' y x a soma dos produtos x'y' dos pares de valores padronizados, isto
, para cada par (x', y'), fazemos o produto x'y' e, depois, somamos os
resultados desses produtos.
Os exemplos 13.1 e 13.2 procuram justificar como a expresso de r
mede a correlao. O primeiro ilustra uma situao de correlao positiva, e o
segundo um caso de correlao negativa.
Exemplo 13.1 Clculo dos valores padronizados e do coeficiente de correlao
de Pearson de um conjunto de dados hipotticos com correlao positiva (ver
Tabela 13.2).
Tabela 13.2 Clculos intermedirios para se obter r (Exemplo 13.1).
Valores originais Valores padronizados Produtos
X Y X' Y' X'Y'
2 4 -1,50 -1,75 2,63
3 7 -1,00 -0,88 0,88
4 9 -0,50 -0,29 0,15
5 10 0,00 0,00 0,00
5 11 0,00 0,29 0,00
6 11 0,50 0,29 0,15
7 13 1,00 0,88 0,88
8 15 1,50 1,46 2,19
Soma: 40 80 0,00 0,00 6,87
Mdia: 5,00 10,00 0,00 0,00
Desvio padro: 2,00 3,42 1,00 1,00

Observe que calculamos a mdia e o desvio padro dos valores das
variveis X e Y. De cada valor, diminumos a mdia e dividimos pelo desvio
padro. Por exemplo, para o primeiro valor de X, x = 2, calculamos o valor
padronizado x = (x 5)/2 = (2 5)/2 = -1,5. Veja a mudana de escala com a
padronizao na Figura 13.4.


0
2
4
6
8
10
12
14
0 2 4 6 8
y
x

-2
-1
0
1
2
-2 -1 0 1 2
y'
x'


Figura 13.4 Diagramas de disperso dos valores originais e padronizados do Exemplo
13.1.
Quando estamos trabalhando com dados correlacionados positivamente,
como no exemplo precedente, os pares (x', y') tendem a ter o mesmo sinal (+ ou
-), especialmente para aqueles pontos longe da origem. Assim, a maioria dos
produtos x'y' resulta em valores positivos (ver Figura 13.4). Em conseqncia,
o coeficiente r ser positivo, como mostra o clculo a seguir:

( )
981 0
7
87 6
1
,
,
n
y x
r = = =

' '



Exemplo 13.2 Clculo dos valores padronizados e do coeficiente de correlao
de Pearson de um conjunto de dados hipotticos com correlao negativa
(Tabela 13.3).
Tabela 13.3 Clculos intermedirios para se obter r (Exemplo 13.2).
Valores originais Valores padronizados Produtos
X Y X' Y' X'Y'
2 16 -1,50 1,75 -2,63
3 13 -1,00 0,88 -0,88
4 11 -0,50 0,29 -0,15
5 10 0,00 0,00 0,00
5 9 0,00 -0,29 0,00
6 9 0,50 -0,29 -0,15
7 7 1,00 -0,88 -0,88
8 5 1,50 -1,46 -2,19
Soma: 40 80 0,00 0,00 -6,87
Mdia: 5,00 10,00 0,00 0,00
Desvio padro: 2,00 3,42 1,00 1,00
Complementando os clculos da Tabela 13.3, temos o coeficiente:
( )
981 0
7
87 6
1
,
,
n
y x
r = =

' '



Neste exemplo o coeficiente negativo, porque os pares (x', y') tiveram,
em geral, sinais trocados, especialmente para aqueles pontos longe da origem
(veja Figura 13.5). Isto tende a levar os produtos x'y' a resultarem em valores
negativos e, em conseqncia, gerar um coeficiente r negativo. A Figura 13.5
ilustra esta situao. Verificamos maior concentrao de pontos nos
quadrantes II e IV (onde x' e y' tm sinais trocados), acarretando num valor
negativo para r.

0
2
4
6
8
10
12
14
16
0 2 4 6 8
y
x

-2
-1
0
1
2
-2 -1 0 1 2
y'
x'

Figura 13.5 Diagrama de disperso dos valores originais e dos valores padronizados
do Exemplo 13.2.
Dos exemplos 13.1 e 13.2, verificamos que o sinal da soma dos
produtos dos valores padronizados, ( )

' ' y x , far com que o coeficiente r


tenha sinal compatvel com o que vimos nos diagramas de disperso (veja
tambm a Figura 13.6). Para dados correlacionados positivamente, os pontos
se concentraro nos quadrantes II e IV, com x e y de mesmo sinal (produtos
positivos). Para dados correlacionados negativamente, os pontos ficaro nos
quadrantes I e III, fazendo com que x e y tenham sinais trocados (produtos
negativos). Se os dados forem no-correlacionados, os pontos se espalharo de
forma aproximadamente igual em todos os quadrantes, fazendo com que
tenhamos produtos positivos e negativos, acarretando numa soma prxima de
zero.

Quadrante I
( ) 0 ' ' <

y x



y
Quadrante II
( ) 0 ' ' >

y x



Quadrante III
( ) 0 ' ' >

y x


x

Quadrante IV
( ) 0 ' ' <

y x

Figura 13.6 Justificativa do sinal de r.
Para qualquer conjunto de dados, o valor do coeficiente de correlao
de Pearson, r, estar no intervalo de -1 a 1. Ser to mais prximo de 1 (ou -1)
quanto mais forte for a correlao nos dados observados. Teremos r = +1 se os
pontos estiverem exatamente sobre uma reta ascendente (correlao positiva
perfeita). Por outro lado, teremos r = -1 se os pontos estiverem exatamente
sobre uma reta descendente (correlao negativa perfeita). Quando no houver
correlao nos dados, r acusar um valor prximo de 0 (zero). Veja a Figura
13.7.











Figura 13.7 Sentido e fora da correlao em funo do valor de r.


Clculo de r
O clculo de r pela expresso apresentada no tpico anterior tem o
inconveniente de incorporar erros de arredondamentos, pois normalmente os
valores da mdia e desvio padro no so inteiros. Neste contexto, sugerimos
usar a seguinte frmula alternativa, a qual baseada nas observaes
originais:
( ) ( ) ( )
( ) ( )
2
2
2
2
Y
Y
n X
X
n
Y X Y X n
r =



Para obter os somatrios, procedemos da seguinte maneira.
(XY): fazemos os produtos xy, referentes a cada par de observaes e,
depois, efetuamos a soma;
X: somamos os valores da varivel X;
Y: somamos os valores da varivel Y;
+1
0
-1
Sentido Fora
Negativa
Ausncia
Forte
Moderada
Fraca
Positiva
Fraca
Forte
Valor
de r
Moderada
X
2
: elevamos ao quadrado cada valor de X e, depois, efetuamos a soma; e
Y
2
: elevamos ao quadrado cada valor de Y e, depois, efetuamos a soma.

Para ilustrar o uso da ltima expresso, vamos refazer o Exemplo
13.1. A Tabela 13.4 apresenta alguns clculos intermedirios.
Tabela 13.4 Clculos intermedirios para a obteno de r.
Valores originais Clculos intermedirios
X Y X
2
Y
2
XY
2 4 4 16 8
3 7 9 49 21
4 9 16 81 36
5 10 25 100 50
5 11 25 121 55
6 11 36 121 66
7 13 49 169 91
8 15 64 225 120
Soma: 40 80 228 882 447
Sendo
( ) ( ) ( )
( ) ( )
2
2
2
2
Y
Y
n X
X
n
Y X Y X n
r =




temos,
=


r =
) 80 ( ) 882 ( 8 ) 40 ( ) 228 ( 8
) 80 ( 40 ) 447 ( 8
2 2




=
. . .
. .
=
400 6 056 7 600 1 1824
200 3 576 3




981 0
33 383
376
656 224
376
, =
,
=

=


Encontramos o mesmo resultado obtido no tpico anterior, o que era
de se esperar, pois as frmulas so matematicamente equivalentes.

Teste de significncia sobre r
Quando os dados so provenientes de uma populao, alm de
mensurar o grau de correlao observado nos dados, muitas vezes temos
interesse em testar a existncia de correlao entre duas variveis, X e Y, na
populao. Isso feito com base em uma amostra de observaes pareadas (x,
y). As hipteses so:
H0: as variveis X e Y so no correlacionadas;
H1: as variveis X e Y so correlacionadas;
podendo, ainda, a hiptese alternativa indicar o sentido da correlao (teste
unilateral), tal como,
H1: X e Y so correlacionadas positivamente ou
H1: X e Y so correlacionadas negativamente.
O teste unilateral aplicado nos casos em que j se espera que o
coeficiente de correlao tenha determinado sinal (+ ou -).
Restringimo-nos verificao de correlao linear e vamos supor que
os dados de X e de Y provenham de distribuies normais.
2
Podemos realizar o
teste com auxlio da Tabela 7 do apndice, que apresenta o valor absoluto
mnimo de r para ser significativo (rejeitar H0), para cada n.
Exemplo 13.3 Com o objetivo de verificar se existe correlao positiva entre
aptido em matemtica e aptido em msica, foi selecionado um grupo de
crianas de 8 a 10 anos de idade, que foram submetidas a dois testes de
aptido: um de matemtica e outro de msica. A ordem da aplicao dos
testes em cada criana foi aleatria.
Temos, ento, as seguintes hipteses, relativas s crianas da faixa
etria de 8 a 10 anos, similares ao grupo de crianas que participaram do
estudo:
H0: no existe correlao entre aptido em matemtica e aptido em
msica.
H1: a aptido em matemtica e a aptido em msica so correlacionadas
positivamente.
3

Os resultados dos testes de aptido foram os seguintes:
Valores de aptido em Valores de aptido em
Criana matemtica msica Criana matemtica msica
1
2
3
4
5
6
60
58
73
51
54
75
80
62
70
83
62
92
7
8
9
10
11
12
48
72
75
83
62
52
79
88
54
82
64
69
Efetuando-se o clculo do coeficiente de correlao de Pearson,
conforme visto anteriormente, temos: r = 0,17. Pela Tabela 7 do apndice,
verificamos que, ao nvel de significncia usual de 5%, o valor mnimo de r
para a correlao ser significativa de 0,497 (teste unilateral). Como o valor
encontrado (r = 0,17) menor que o valor tabelado (0,497), o teste aceita H0.
Em outras palavras, a correlao positiva fraca (r = 0,17), descrita pelos dados
da amostra, no suficiente para afirmarmos a existncia de correlao
positiva entre as duas variveis, na populao em estudo.
A Tabela 7 tambm pode ser usada para se ter uma avaliao da
probabilidade de significncia (valor p). No exemplo em questo, podemos
verificar que o valor encontrado (r = 0,17) inferior a todos os valores
tabelados para n = 12, ou seja, p > 0,10 (teste unilateral). Assim, mesmo que
estivssemos fazendo o teste ao nvel de significncia de o = 10%, o teste
ainda aceitaria H0.



2
Para se verificarem as suposies do teste de correlao, sugerimos construir: (1) um
diagrama de pontos para os dados de cada varivel para verificar se no existe forte evidncia de
desvio da distribuio normal; e (2) um diagrama de disperso para verificar se os dados
sugerem uma relao no-linear.
3
Observe que o problema sugere um teste unilateral (hiptese alternativa afirmando correlao
positiva e no somente existncia de correlao). Cabe observar que as hipteses estatsticas levam
em conta o instrumento de mensurao das variveis, isto , supe-se que os testes de aptido
estejam realmente medindo aquilo que se propem.
Uso do computador
A maioria dos pacotes computacionais de Estatstica apresenta os
resultados de uma anlise de correlaes em forma matricial. Na primeira
linha e primeira coluna, so apresentadas as variveis. Em cada cruzamento,
o coeficiente de correlao r do correspondente par de variveis. Alguns
pacotes apresentam tambm o nmero n de pares usado no clculo de r e o
valor p (p = 0,284) do teste bilateral sobre o correspondente coeficiente de
correlao populacional. A Tabela 13.5 mostra uma sada computacional do
SPSS relativa aos dados da Tabela 13.1. Vemos, por exemplo, que o
coeficiente de correlao entre DISTCAP e ESPVIDA 0,337 (positiva fraca).
Observando o correspondente valor p, verificamos que no se pode dizer que
existe correlao entre essas duas variveis na populao de municpios
brasileiros.

Tabela 13.5 Sada computacional de uma anlise de correlao pelo SPSS

DISTCAP ESPVIDA MORTINF ALF RENDA
DISTCAP Pearson Correlation
1 0,337 -0,400 0,087 0,205
Sig. (2-tailed)
. 0,284 0,198 0,788 0,523
N
12 12 12 12 12
ESPVIDA Pearson Correlation
0,337 1 -0,983(**) 0,718(**) 0,865(**)
Sig. (2-tailed)
0,284 . 0,000 0,009 0,000
N
12 12 12 12 12
MORTINF Pearson Correlation
-0,400 -0,983(**) 1 -0,684(*) -0,860(**)
Sig. (2-tailed)
0,198 0,000 . 0,014 0,000
N
12 12 12 12 12
ALF Pearson Correlation
0,087 0,718(**) -0,684(*) 1 0,863(**)
Sig. (2-tailed)
0,788 0,009 0,014 . 0,000
N
12 12 12 12 12
RENDA Pearson Correlation
0,205 0,865(**) -0,860(**) 0,863(**) 1
Sig. (2-tailed)
0,523 0,000 0,000 0,000 .
N
12 12 12 12 12
** Correlation is significant at the 0.01 level (2-tailed).
* Correlation is significant at the 0.05 level (2-tailed).

Variveis indicadoras
Algumas vezes, temos variveis codificadas com 1 e 0, indicando a
presena ou ausncia de algum atributo, respectivamente. Por exemplo, a
varivel X pode ser indicadora de indivduos fumantes (X = 1 para fumantes e
X = 0 para no-fumantes) e a varivel Y indicadora de uma certa doena (Y = 1
para indivduos doentes e Y = 0 para sadios). O clculo de r entre duas
variveis deste tipo pode indicar correlao positiva (fumante tem maior
chance de ter a doena) ou negativa (fumante tem menor chance de ter a
doena), alm do grau (forte, moderada, fraca ou ausncia). Mas no faz
sentido o teste de significncia discutido anteriormente, porque ele s vlido
para variveis com distribuio aproximadamente normal.
Quando 0 e 1 representam apenas rtulos de uma varivel (por
exemplo, 0 para feminino e 1 para masculino), melhor considerar o
coeficiente r sem sinal, indicando apenas o grau de associao descrita pelos
dados. O coeficiente r para variveis 0-1, em valor absoluto, o coeficiente de
associao phi, definido no captulo anterior. Da, para verificar sua
significncia, realizamos um teste qui-quadrado.
13.3 CORRELAO POR POSTOS
Quando os dados de alguma das variveis em estudo mostram-se com
distribuio muito assimtrica ou com valores discrepantes, a anlise da
correlao atravs do coeficiente r pode ficar comprometida. Uma alternativa
aplicar a abordagem no-paramtrica do coeficiente de correlao rs de
Spearman, o qual se utiliza apenas da ordenao dos valores.
Sejam os dados da Tabela 13.6, relativos a um estudo correlacional
entre aptido em matemtica e aptido em msica. Para facilitar, os valores de
aptido em matemtica j esto ordenados em ordem crescente. Para cada
varivel, so atribudos postos (ranks) da seguinte maneira: ao menor valor
atribudo o posto 1; ao segundo menor, posto 2; e assim por diante. Quando
ocorre algum empate (repetio de algum valor), consideramos que isto tenha
acontecido por deficincia do instrumento de medida e atribumos postos
seqenciais, mas, em seguida, calculamos a mdia dos postos dos valores
empatados. Por exemplo, na varivel aptido em matemtica, temos as
crianas 6 e 9 com valores empatados em 75. Preliminarmente, uma recebe
posto 10 e a outra, posto 11; depois, alocamos posto 10,5 (mdia entre 10 e
11) para ambas.
Tabela 13.6 Alocao de postos para o clculo de rs de Spearman.

Criana
Aptido em
matemtica
(X)
Posto
de X
Aptido em
msica
(Y)
Posto
de Y

D

D
2

7 48 1 79 7
-6 36
4 51 2 83 10
-8 64
12 52 3 69 5
-2 4
5 54 4 62 2,5
(2)

1,5 2,25
2 58 5 62 2,5
(2)

2,5 6,25
1 60 6 80 8
-2 4
11 62 7 64 4
3 9
8 72 8 88 11
-3 9
3 73 9 70 6
3 9
6 75 10,5
(1)
92 12
-1,5 2,25
9 75 10,5
(1)
54 1
9,5 90,25
10 83 12 82 9
3 9

Soma 245
Notas:
(1)
Mdia dos postos 10 e 11, referentes ao valor empatado 75.

(2)
Mdia dos postos 2 e 3, referentes ao valor empatado 62.

A sexta coluna da Tabela 13.6 apresenta as diferenas entre postos:
D = Posto de X Posto de Y
Na ltima coluna temos as diferenas quadrticas entre postos, cuja
soma denotamos por

2
D . O coeficiente de correlao de Spearman definido
por:
4


4
O coeficiente rs o prprio coeficiente de correlao de Pearson, r, calculado sobre os postos
de X e Y.
) 1 (
6
1
2
2

=

n n
D
r
s


Com os dados da Tabela 13.6, temos:

2
D = 245. E o coeficiente rs de
Spearman:
) 1 (
6
1
2
2

=

n n
D
r
s
=
( )
14 , 0 86 , 0 1
) 1 12 ( 12
245 6
1
2
= =


indicando uma correlao positiva muito fraca nos dados observados.
5

Em funo do tamanho n da amostra e do nvel de significncia o
adotado, a Tabela 8 do apndice apresenta os valores absolutos mnimos de rs
para que esse seja significativo. Em termos do exemplo em questo, para n =
12 e nvel de significncia de 5%, temos o valor mnimo tabelado de 0,503
(teste unilateral). Como o valor encontrado (rs = 0,14) menor que o valor
tabelado, o teste no acusa significncia. No possvel dizer que existe
correlao positiva entre aptido em matemtica e aptido em msica, na
populao de onde os dados foram extrados.

EXERCCIOS
1) Considerando os dados da Tabela 13.1, construir um diagrama de disperso para
as variveis renda per capita e esperana de vida ao nascer. Quais as informaes
observadas no grfico?
2) Sejam X = nota na prova do vestibular de matemtica e Y = nota final na disciplina
de clculo. Estas variveis foram observadas em 20 alunos, ao final do primeiro
perodo letivo de um curso de engenharia. Os dados so apresentados a seguir.

X Y X Y X Y X Y X Y
39 65 43 78 21 52 64 82 65 88
57 92 47 89 28 73 75 98 47 71
34 56 52 75 35 50 30 50 28 52
40 70 70 50 80 90 32 58 67 88
a) Construa um diagrama de disperso e verifique se existe correlao entre os
dados dessas duas variveis.
b) Existe algum aluno que foge ao comportamento geral dos demais (ponto
discrepante)?
c) Calcule o coeficiente r.
d) Retire o valor discrepante detectado no item (b) e calcule novamente o coeficiente
r. Verifique se significativo ao nvel de significncia de 5%. Interprete.
e) Calcule o coeficiente rs com todos os valores e verifique se significativo ao nvel
de significncia de 5%.
3) Sejam os dados do anexo do Captulo 2. Faa um diagrama de disperso com os
dados das variveis: X = satisfao do aluno com o curso e Y = desempenho do
aluno. Interprete.
4) Sejam os dados do anexo do Captulo 4. Considerando apenas a Encosta do Morro,
faa um diagrama de disperso com os dados de: X = renda familiar e Y = nmero
de moradores no domiclio. Interprete.

5
Assim como o r de Pearson, o rs de Spearman varia entre 1 e +1, com a mesma
interpretao. Porm, os resultados de r e rs no so matematicamente iguais por usarem
metodologias diferentes de clculo.
5) Faa o clculo do coeficiente r com os dados do Exemplo 13.3 e confira o resultado
encontrado.
6) Considerando as variveis taxa de alfabetizao e taxa de mortalidade infantil,
(Tabela 13.1), calcule:
a) o coeficiente de correlao de Pearson. Interprete o resultado obtido.
b) o coeficiente de correlao de Spearman e verifique se significativo ao nvel de
significncia de 5%.
7) Com respeito aos 23 alunos de uma turma de estatstica, foram observadas as
variveis: nmero de faltas e nota final na disciplina. Esses dados levaram seguinte
correlao, descrita pelo coeficiente de correlao de Pearson: r = -0,56. Comente as
seguintes frases relativas turma em estudo e ao coeficiente obtido.
a) Como r = -0,56 (correlao negativa moderada), nenhum aluno com grande
nmero de faltas tirou nota alta.
b) Como as duas variveis so correlacionadas, bastaria usar uma delas como
critrio de avaliao, pois uma acarreta a outra.
c) Os dados mostraram uma leve tendncia de que a nota final se relaciona
inversamente com o nmero de faltas; ento, os alunos freqentadores tiveram,
em geral, melhores desempenhos nas avaliaes do que os alunos que faltaram
muito.
8) Numa amostra aleatria de n = 212 livros da Biblioteca Central da UFSC,
encontramos r = 0,207 para as variveis: idade da edio e nmero de pginas do
livro.
a) O que se pode dizer com base no valor deste coeficiente de correlao?
b) Esta correlao pode ser explicada meramente por fatores casuais? Faa um
teste estatstico apropriado, ao nvel de significncia de 5%.

13.4 REGRESSO LINEAR SIMPLES
O termo regresso surgiu com os trabalhos de Galton no final do
sculo XIX. Esses trabalhos procuravam explicar certas caractersticas de um
indivduo a partir das caractersticas de seus pais. Galton acreditava que os
filhos de pais excepcionais, com respeito determinada caracterstica,
tambm possuam essa caracterstica, mas, em geral, numa intensidade
menor do que a mdia de seus pais. Seus estudos baseavam-se em
observaes empricas. Em um desses trabalhos ele relacionou centenas de
alturas de indivduos com as respectivas alturas mdias de seus pais.
Exemplo 13.4 Vamos considerar uma parte dos dados coletados por Galton,
por volta de 1885 (Tabela 13.7).

Tabela 13.7 Alturas de indivduos (Y) e alturas mdias de seus pais
(X), medidas em centmetros.
X Y X Y X Y X Y
164 166 164 168 166 166 166 168
166 171 166 173 169 166 169 168
169 171 169 173 171 166 171 168
171 171 171 173 171 176 173 168
173 171 173 176 173 178 176 171
176 173 176 176 178 176 178 178
Fonte: Stigler (1986, p. 286), com adaptaes.

A Figura 13.8 representa as observaes da Tabela 13.7 num
diagrama de disperso, indicando uma correlao positiva, como era de se
esperar. Supondo que os dados flutuem em torno de alguma relao entre X e
Y, a Figura 13.8 tambm ilustra dois modelos matemticos para essa
estrutura. A reta (A): y = x indica que, em mdia, os filhos tm alturas iguais
altura mdia de seus pais; a reta (B) representa a hiptese de Galton, a qual
postulava uma tendncia de que filhos de pais altos teriam alturas inferiores
s alturas mdias de seus pais, enquanto os filhos de pais baixos teriam
alturas superiores s alturas mdias de seus pais.








Figura 13.8 Diagrama de disperso dos dados da Tabela 13.7 e ilustrao de dois
modelos matemticos relacionando X e Y.

O Exemplo 13.4 se distingue dos exemplos anteriores por supor uma
relao de causalidade entre X e Y, descrita em termos de uma equao
matemtica. esta a diferena bsica de um estudo de correlaes e uma
anlise de regresso.
A anlise de regresso geralmente feita sob um referencial terico que
justifique a adoo de alguma relao matemtica de causalidade.
O modelo da regresso linear simples
O modelo estatstico-matemtico de regresso, em sua formulao
mais simples, relaciona uma varivel Y, chamada de varivel dependente ou
resposta, com uma varivel X, denominada varivel explicativa ou
independente. Veja o quadro 13.1.

Quadro 13.1 Aplicaes do modelo de regresso linear simples.
Varivel independente (X) Varivel dependente (Y)
Renda Consumo (R$)
Gasto com o controle da
qualidade (R$)
Nmero de defeitos nos produtos
Memria RAM do
computador (Gb)
Tempo de resposta do sistema
(segundos)
rea construda do imvel
(m
2
)

Preo do imvel (R$)
Assim como num estudo de correlaes, a anlise de regresso
tambm toma por base um conjunto de observaes pareadas (x, y), relativas
s variveis X e Y. Diremos que um dado valor y depende, em parte, do
correspondente valor x. Por exemplo, a altura de um indivduo (y) depende, em
parte, da altura mdia de seus pais (x). Simplificaremos essa dependncia por
uma relao linear entre x e y, tal como:
(A)
(B)
160
164
168
172
176
180
160 164 168 172 176 180
Altura mdia dos pais ( X )
A
l
t
u
r
a

d
o

f
i
l
h
o

(

Y

)


y = o + |x
Fixando valores para o e |, a equao y = o + |x a equao de uma
reta. Por exemplo, se o = 1 e | = 2, a equao y = 1 + 2x uma certa reta, num
par de eixos cartesianos. Para desenhar esta reta basta atribuir dois valores
para X e calcular os correspondentes valores de Y. Digamos: x = 0 y = 1 +
20 = 1 e x = 1 y = 1 + 21 = 3. Com estes dois pontos, podemos traar a reta
da Figura 13.9.







Figura 13.9 Representao grfica da equao y = 1 + 2x.
Ao observarmos um conjunto de observaes (x, y), verificamos que,
em geral, os pontos no esto exatamente sobre uma reta, mas flutuam em
torno de alguma reta imaginria. Ento, um modelo para um par de
observaes pode ser:
c + | + o = x y
onde c representa o erro aleatrio, isto , o efeito de uma infinidade de fatores
que esto afetando a observao y de forma aleatria. Por exemplo, a altura de
um indivduo (y) no depende somente da altura mdia de seus pais (x), mas,
tambm, de sua alimentao, do gentipo de seus ancestrais e de uma
infinidade de outros fatores, tudo representado no modelo por c.
No modelo y = o + |x + c, chamaremos de parte estrutural parcela de
y determinada por x, isto , o + |x. E o procedimento inicial da anlise de
regresso encontrar estimativas para o e |, com base em uma amostra de
observaes (x, y).
Estimativas dos parmetros o e |
A idia bsica da construo da parte estrutural do modelo,
supostamente linear, encontrar a reta que passe mais prximo possvel dos
pontos observados. Representaremos esta reta por:
bx a y + =
e a chamaremos de reta de regresso ou equao de regresso. Veja a Figura
13.10.











3
1
0
y
x
1
bx a y + =
160
164
168
172
176
180
160 164 168 172 176 180
Altura mdia dos pais ( X )
A
l
t
u
r
a

d
o

f
i
l
h
o

(

Y

)


Figura 13.10 Representao da equao de regresso do Exemplo 13.4.
O chamado mtodo de mnimos quadrados fornece as seguintes
expresses para a equao de regresso:
6


( ) ( ) ( )
( )
2
2
X
X
n
Y X Y X n
b =




n
X b Y
a =


onde:
n o nmero de pares (x, y) observados (tamanho da amostra);
(XY) somatrio dos produtos xy (primeiramente fazemos os produtos
xy, relativos a todos os pares observados e, depois, efetuamos a
soma);
X a soma dos valores de X;
Y soma dos valores de Y; e
X
2
soma dos quadrados dos valores de X (primeiro elevamos os valores
de X ao quadrado e, depois, efetuamos a soma).
Exemplo 13.5 Ilustraremos a construo da equao de regresso com parte
das observaes da altura mdia dos pais (X) e altura do filho (Y), extradas da
Tabela 13.7. A Tabela 13.8 mostra os clculos dos somatrios.
Tabela 13.8 Parte das observaes da Tabela 13.7 e clculos
intermedirios para a construo da reta de regresso.
Dados Clculos intermedirios
X Y X
2
XY
164
166
169
169
171
173
173
176
178
166
166
171
166
171
171
178
173
178
26.896
27.556
28.561
28.561
29.241
29.929
29.929
30.976
31.684
27.224
27.556
28.899
28.054
29.241
29.583
30.794
30.448
31.684
X = 1.539 Y = 1.540 X
2
= 263.333 (XY) = 263.483

0,872 =
1.476
1.287
=
) (1.539 (263.333) 9
(1.540) (1.539) (263.483) 9
=
2


b


22,00 =
9
.539) (0,872).(1 1.540
=

a

Assim, temos a reta de regresso: y = 22 + (0,872)x. Para traar a reta
no plano formado pelos eixos X e Y, basta atribuir dois valores para X e


6
A obteno da equao de regresso, pelo mtodo de mnimos quadrados, consiste em fazer
com que a soma quadrtica dos efeitos aleatrios, c
2
, seja a menor possvel. A soluo deste
problema matemtico gera as expresses de a e b. Veja, por exemplo, Wonnacott e Wonnacott
(1991, p. 287).
calcular os correspondentes valores de y , pois, por dois pontos passa uma e
apenas uma reta.
7
Veja a Figura 13.11.













Figura 13.11 Diagrama de disperso dos dados da Tabela 13.8 e a
reta de regresso ajustada aos dados.
Com a equao de regresso, podemos predizer a altura de um
indivduo ( y ), com base na altura mdia de seus pais (x). Por exemplo, com
uma altura mdia dos pais de x = 175 cm, temos uma predio da altura do
filho de y = 22 + (0,872)(175) = 174 cm.

O coeficiente b fornece uma estimativa da variao esperada de Y
provocada pela variao de uma unidade em X. O sinal desse coeficiente indica
o sentido (positivo ou negativo) da relao. No Exemplo 13.5, temos b = 0,872.
Ento, a cada centmetro a mais na altura mdia dos pais, esperamos um
acrscimo de 0,872 cm na altura do filho.
8

Variao explicada e no-explicada
Ao ajustar uma equao de regresso aos dados, podemos estar
interessados em verificar o quanto as variaes da varivel dependente, Y,
podem ser explicadas por variaes da varivel independente, X, segundo o
modelo especificado e para os dados da amostra.
Para cada valor x observado (ou estabelecido), temos o correspondente
valor de Y, representado por y. Com o ajuste do modelo, temos tambm o valor
predito por este: bx a y + = . Por exemplo, para o oitavo indivduo da amostra,
temos x = 176 e o correspondente valor de Y (y = 173). J o valor predito pela
equao de regresso y = 22 + (0,872)(176) = 175,47 (ver Figura 13.12). A
diferena entre o valor observado e o valor predito pelo modelo chamada de
resduo aquilo que a parte estrutural do modelo no consegue explicar.

7
Por exemplo, para um dado valor x = 164
y = 22 + (0,872)(164) = 165,0 e para x = 178
y = 22 + (0,872)(178) = 177,2. Marcamos os pontos (164; 165) e (178; 177,2) no plano formado
pelos eixos X e Y e traamos a reta que passa por estes dois pontos.
8
A equao de regresso y = 22 + (0,872)x est compatvel com a teoria de Galton, no sentido
de que sua inclinao inferior da reta y = x. Contudo, os dados no esto provando a sua
teoria, j que estamos analisando uma amostra extremamente pequena. A diferena da reta
construda com base nos dados e a reta terica, y = x, pode ser meramente casual. Para dar
maior embasamento a essa discusso, pode ser feito um teste estatstico sobre os parmetros do
modelo. Ver, por exemplo, Chatterjee, Hadi e Price (2000).
164 168 172 176
164
168
172
176
y
x
x y ) 872 , 0 ( 22 + =











Figura 13.12 Valores observado e predito para x = 176 (oitavo elemento da amostra).

Se desconsiderarmos a relao entre X e Y, ento podemos predizer
valores de Y, simplesmente, pela mdia aritmtica de suas observaes ( y ).
Naturalmente, nas situaes em que X afeta Y, os resduos em relao mdia
aritmtica vo ser, em geral, maiores do que em relao equao de
regresso (Figura 13.13).












Figura 13.13 Resduos em relao ao modelo de regresso ( y y ), e resduos em
relao mdia aritmtica ( y y ), com os dados do Exemplo 13.5.

A soma de quadrados dos resduos o numerador de uma estimativa
para a varincia da parte aleatria do modelo. Se a parte estrutural for
avaliada apenas pela mdia aritmtica, sem levar em conta qualquer relao
entre Y e X, temos a soma de quadrados total:
( )
2

= y y SQT
Se a parte estrutural levar em conta os diferentes valores de X pela
equao de regresso, resta apenas aquilo que a equao de regresso no
consegue explicar. a chamada soma de quadrados devida ao erro aleatrio,
dada por:
( )
2

= y y SQE
Observe na Figura 13.13 que SQE deve ser menor que SQT,
especialmente quando a relao entre X e Y for forte. A diferena das duas
somas de quadrados:
SQE SQT SQR =
164 168 172 176
164
168
172
176
y
x
Resduo associado ao oitavo
elemento da amostra.
47 , 175
8
= y
173
8
= y
164 168 172 176
164
168
172
176
y
x
x y ) 872 , 0 ( 22 + =
164 168 172 176
164
168
172
176
y
x
11 , 171 = y
conhecida como soma de quadrados da regresso, e pode ser interpretada
como a parte da variao de Y que a equao de regresso consegue explicar a
mais do que simplesmente a mdia aritmtica de Y.
O chamado coeficiente de determinao, dado por:
total variao
explicada variao
SQT
SQR
R = =
2

pode ser interpretado como uma medida descritiva da proporo da variao
de Y que pode ser explicada por X, segundo o modelo especificado. Em se
tratando de regresso linear simples, pode-se mostrar, matematicamente, que
o coeficiente de determinao R
2
o quadrado do coeficiente de correlao r de
Pearson, estudado na Seo 13.2.
Outra medida usada para avaliar o modelo a variabilidade da parte
aleatria, cujo desvio padro pode ser estimado por:
9

2
=
n
SQE
S
e

Esta medida usada para comparar modelos, quanto menor Se,
melhor o ajuste do modelo aos dados.
Exemplo 13.5 (continuao) A Tabela 13.9 mostra o clculo das somas de
quadrados.
Tabela 13.9 Clculo dos valores preditos, resduos e somas de quadrados dos desvios
(dados do Exemplo 13.5).

x

y
Mdia
y


y y


( )
2
y y

Preditos
y
Resduos
y y


( )
2
y y

164
166
169
169
171
173
173
176
178
166
166
171
166
171
171
178
173
178
171,11 -5,11
-5,11
-0,11
-5,11
-0,11
-0,11
6,89
1,89
6,89
26,11
26,11
0,01
26,11
0,01
0,01
47,47
3,57
47,47
165,01
166,75
169,37
169,37
171,11
172,86
172,86
175,47
177,22
0,992
-0,752
1,632
-3,368
-0,112
-1,856
5,144
-2,472
0,784
0,98
0,56
2,66
11,36
0,01
3,46
26,42
6,10
0,61
Soma: 0 177 0 52

A Tabela 13.10 apresenta as somas de quadrados, sendo que SQT e
SQE foram obtidas da Tabela 13.9, e SQR pela diferena das duas.

Tabela 13.10 Decomposio da variao de Y.
Fonte de variao Somas de quadrados
Explicada por X pelo modelo de
regresso (variao explicada)

SQR = 125

Devida ao erro aleatrio (variao
no-explicada)

SQE = 52

Variao total SQT = 177
Com os dados da Tabela 13.10,

9
O subndice e para enfatizar que esta medida se refere ao erro aleatrio.
706 , 0
177
125
2
= = =
SQT
SQR
R

Ou seja, dentre os nove indivduos em estudo, as variaes de suas alturas so
explicadas, em parte, pela variao das alturas de seus pais (R
2
~ 70% de
explicao); e outra parte (1 - R
2
~ 30%) devido a outros fatores.
O desvio padro da parte aleatria (aquela parte que no pode ser
explicada por variaes das alturas dos pais) :
73 , 2
7
52
2
= =

=
n
SQE
S
e


Uso do computador
Exemplo 13.6 O anexo deste captulo contm dados relativos a cinqenta
apartamentos da cidade de Cricima SC. Com o objetivo de construir um
modelo para subsidiar a atualizao dos valores dos tributos municipais,
vamos realizar uma regresso entre valor (Y), em milhares de reais, e rea
privativa (X), em m
2
. Usando o Excel, obtivemos os resultados apresentados na
Figura 13.14:
10


Estatsticas da regresso
R mltiplo 0,881
R-quadrado 0,777
R-quadrado ajustado 0,772
Desvio padro 43,3
Observaes 50

ANOVA
gl SQ QM F Valor p
Regresso 1 313.285,6 313.285,6 166,93 0,0000
Resduo 48 90.082,0 1.876,7
Total 49 403.368,6

Coeficientes
Erro
padro
Estat. t Valor p
Intervalo de confiana
(95,0%)
Interseo -64,57 14,66 -4,40 0,000 -94,0 -35,1
Valor novo 1,67 0,13 12,92 0,000 1,4 1,9
Figura 13.14 Resultados de uma anlise de regresso pelo Excel (Exemplo 13.6).
A primeira tabela da Figura 13.14 mostra algumas estatsticas e, em
particular, o R
2
(R-quadrado) igual a 0,777. Este resultado indica que na
amostra, cerca de 78% da variao do valor de venda do apartamento pode ser
explicada por uma relao linear com a rea privativa. Os demais 22% so a
parcela da variao provocada por outros fatores no includos no modelo de
regresso. Essa parte aleatria tem desvio padro estimado de S
e
= 43,3 mil
reais.
11
Na primeira linha da tabela, tem-se o chamado coeficiente de

10
Para realizar a anlise, no menu principal do Excel, clicar em Ferramentas, Anlise de
Dados e Regresso. Se, ao clicar em Ferramentas, no aparecer Anlise de Dados, clique em
Suplementos e assinale Ferramentas de Anlise. Quanto aos resultados, os termos foram
adequados lngua portuguesa e aos termos tcnicos deste livro. Os valores foram formatados
como nmeros.
11
Observe que, embora o R
2
indique um ajuste razovel, o desvio padro mostra que este
modelo ainda no adequado na prtica, pois, pela distribuio normal, natural valores se
correlao mltiplo, que, no caso de apenas uma varivel independente, o
coeficiente r de Pearson (Seo 13.2).
A segunda tabela apresenta a anlise de varincia (ANOVA) do modelo.
A coluna SQ apresenta as somas de quadrados. Mas o mais importante so os
resultados de um teste estatstico para as hipteses:
H0: no existe relao linear entre X e Y; e
H1: a relao linear entre X e Y significativa (no mero resultado do acaso).
O teste, conhecido como teste F do modelo, resultou em F = 166,93,
com correspondente valor p = 0,0000. Como o valor p extremamente
pequeno, o teste estatstico rejeita H0, indicando que a rea privativa do
apartamento (X) significativa para explicar o seu preo (Y).
A terceira tabela fornece vrias informaes relevantes. A primeira
coluna apresenta as estimativas dos coeficientes, de onde extramos a equao
de regresso:
x y ) 67 , 1 ( 57 , 64 + =
ou seja, tendo a rea privativa (x) podemos obter uma previso para o preo do
imvel ( y ). Por exemplo, um apartamento com rea privativa de 100 m
2
tem
seu valor predito pelo modelo de:
43 , 102 ) 100 ( ) 67 , 1 ( 57 , 64 = + = y
ou seja, R$ 102.430,00.
Interpretando o coeficiente de x, temos que, a cada m
2
a mais de rea,
estima-se que o valor do apartamento aumenta em b = 1,67 mil reais.
A ltima tabela fornece os resultados de testes estatsticos sobre cada
um dos parmetros do modelo. Em particular, na regresso simples, o teste
sobre o parmetro | (inclinao) equivalente ao teste F da anlise de
varincia sobre o modelo. As duas ltimas colunas dessa tabela apresentam
um intervalo de 95% de confiana para os dois parmetros do modelo (o
intercepto o e a inclinao |), com a mesma interpretao dos intervalos de
confiana discutidos no Captulo 9.

EXERCCIOS
9) Sejam os dados de nmero de faltas e nota na prova de uma turma de Estatstica:

Nmero de faltas 8 2 5 0 1 4 10 2
Nota na prova 7 10 6 10 8 5 2 8
a) Qual deve ser a varivel dependente e a independente? (Escolha a que lhe faz
mais sentido.)
b) Estabelea a equao de regresso.
c) Faa um grfico com os pontos observados e a reta de regresso.
d) Calcule o coeficiente R
2
.
e) Calcule Se.
f) Quais so as principais informaes que podem ser obtidas pela presente
anlise?

afastarem da mdia em at dois desvios padres. Ou seja, as predies baseadas no modelo
podem predizer valores de venda com mais de 86 mil reais de diferena do valor efetivamente
vendido.

10) Na dcada de 1970, em vrias regies, houve um movimento migratrio que fez
crescer bastante a populao urbana nos municpios mdios e grandes. Neste
contexto, vamos tentar explicar o crescimento demogrfico de um municpio, em
funo de sua populao urbana, considerando dados de doze importantes
municpios catarinenses, no perodo em discusso.

Pop. urb. (em 1.000 hab.) 101 193 42 304 42 152 55 105 68 219 129 42
Taxa de crecimento dem. 3,2 4,6 2,8 6,5 2 1,9 2,9 5,3 2,7 3,1 3,1 1,2

a) Qual deve ser a varivel dependente e a independente?
b) Estabelea a equao de regresso.
c) Faa um grfico com os pontos observados e a reta de regresso.
d) Qual a taxa de crescimento demogrfico, predita pela equao de regresso,
para um municpio de 300 mil habitantes?
e) Calcule o coeficiente R
2
.
f) Quais so as principais informaes que podem ser obtidas pela presente
anlise?
11) (Fazer com o auxlio do computador.) Considerando que a satisfao de um aluno
com um curso universitrio (Y) pode ser afetada pelo seu desempenho no curso (X),
faa uma anlise de regresso usando os dados do anexo do Captulo 2. Interprete
os resultados.

13.5 ANLISE DOS RESDUOS E TRANSFORMAES

Na seo anterior, estabelecemos um modelo para um conjunto de
observaes (x, y), relativo s variveis X e Y, da forma
y = o + |x + c
onde o e | so parmetros a serem estimados com os dados e c representa o
erro aleatrio. Ou seja, estamos assumindo que X causa Y atravs de uma
relao linear e toda a variao em torno dessa relao deve-se ao efeito do
erro aleatrio. Alm disso, para a validade dos intervalos de confiana e testes
estatsticos discutidos no Exemplo 13.6, necessrio supor que as
observaes de Y sejam independentes, e o termo de erro tenha distribuio
aproximadamente normal com mdia nula e varincia constante.
Apresentaremos um processo grfico para verificar se estas suposies podem
ser vlidas e, caso contrrio, o que pode ser feito para adequar o modelo.
Um primeiro grfico pode ser feito antes da anlise de regresso. o
diagrama de disperso, conforme discutido na Seo 13.1. Por esse grfico,
podemos verificar se a funo linear adequada para representar a forma
estrutural entre X e Y. Veja o grfico esquerda da Figura 13.15.
Aps a estimao dos parmetros do modelo, podemos calcular os
resduos do modelo ajustado aos dados. O resduo calculado para cada
observao, e definido como a diferena entre o valor observado y e o valor
predito y . Ou seja,
resduo = y y
Um grfico apresentando os pares (x, resduo) bastante til na
avaliao do modelo de regresso. Veja o grfico direita da Figura 13.15.










Figura 13.15 Grficos para verificar a adequao do modelo.

Os grficos da Figura 13.15 indicam uma situao em que as
suposies do modelo esto aparentemente satisfeitas, pois os resduos
apresentam-se distribudos de forma aleatria e razoavelmente simtrica em
torno da reta de regresso. No grfico dos resduos, a reta de regresso
corresponde linha horizontal sobre o valor zero.
A Figura 13.16 apresenta uma situao em que temos um ponto
discrepante. Esse ponto visvel nos dois grficos, mas no grfico dos resduos
ele aparece mais nitidamente. Seja:
e
S
y y
o padronizad resduo

=

Supostamente, os resduos padronizados devem seguir uma distribuio
normal padro, pelo menos aproximadamente. Ento, em torno de 95% dos
valores devem estar entre 2 ou -2 (Captulo 8). Fora deste intervalo, so casos
suspeitos de serem discrepantes. Assim, o uso de resduos padronizados
melhor para detectar pontos discrepantes.







Figura 13.16 Grficos indicando a presena de um valor discrepante.

A Figura 13.16 mostra como um ponto discrepante pode forar uma
inclinao na reta, sugerindo uma tendncia no compatvel com as demais
observaes. Esse problema surge, principalmente, quando se tem uma
amostra pequena e o ponto discrepante estiver numa das extremidades do
intervalo de observao de X. prudente, neste caso, buscar a razo da
existncia desse ponto discrepante. Se a sua causa for algum erro, alguma
falha no experimento ou, ainda, puder ser considerada uma situao atpica,
devemos efetuar nova anlise sem a observao discrepante.
Quando se trata de um estudo experimental, a varivel X costuma ser
estabelecida. Por exemplo, num estudo para verificar a relao entre o tempo de
cozimento (X) e a maciez (Y) de um alimento, podemos estabelecer diferentes
tempos de cozimento e observar os resultados de Y. Recomendamos variar X
uniformemente sobre o intervalo de estudo. Por exemplo, se pretendemos fazer a
x
y
resduo
x
0
x
y
Resduo
padronizado
0
x
1
2
-2
-1
anlise entre 20 e 30 minutos de cozimento, podemos fazer ensaios com os
tempos de cozimentos de 20, 21, 22, ..., 30 minutos.
Em estudos de levantamento, normalmente X e Y so observadas,
sendo comum ocorrer uma distribuio assimtrica de valores de X. Por
exemplo, considere o problema de se avaliar a relao entre renda (X) e
consumo (Y) de indivduos de certa regio. A maioria dos indivduos tem renda
baixa e, conseqentemente, tendem a consumir pouco, provocando
distribuies assimtricas para X e Y. Assim, os dados devem se distribuir
conforme mostra a Figura 13.17.



















Figura 13.17 Grficos indicando distribuies assimtricas de X e Y, alm da
varincia de Y ser maior para valores maiores de X e Y.

Nesta situao, os valores grandes de X vo ter mais peso na
determinao da inclinao da reta. Neste caso, recomendamos a aplicao da
transformao logartmica, tanto nos valores de X como nos valores de Y,
estabelecendo o seguinte modelo:
12

log(y) = o + |log(x) + c
A transformao logartmica aumenta as distncias entre os valores
pequenos e reduz as distncias entre os valores grandes, tornando
distribuies assimtricas de cauda longa direita em distribuies mais
simtricas. Com isso, temos uma situao mais adequada para estabelecer a
reta de regresso. Em termos computacionais, devemos:
a) calcular o logaritmo natural de cada valor x e de cada valor y;
b) aplicar a anlise de regresso linear sobre os dados transformados [log(x),
log(y)]; e
c) construir novamente o grfico de resduos para verificar a adequao das
suposies neste novo modelo.

12
comum usar o logaritmo natural ou na base 10. Outra transformao que se presta ao
mesmo propsito a raiz quadrada. Esta segunda transformao usada nas situaes em que
a inadequao do modelo no aparece de forma to forte como visto na Figura 13.17.
Observamos que estas transformaes so possveis somente quando todos os valores so
positivos.
Resduo
0
x
x
y
x
Freqncia
y
Freqncia

A Figura 13.18 apresenta uma situao que sugere relao no-linear,
com Y crescendo rapidamente para valores pequenos de X, e crescendo
lentamente para valores grandes de X. uma situao em que recomendamos
uma transformao logartmica (ou raiz quadrada) somente nos valores da
varivel X, ou seja, passamos a considerar o seguinte modelo para os dados:
y = o + |log(x) + c
Note que esse modelo pode ser considerado linear em termos das
variveis log(x) e y (no mais entre x e y). Em termos computacionais,
devemos:
a) calcular o logaritmo de cada valor x;
b) aplicar a anlise de regresso linear sobre os dados [log(x), y]; e
c) construir novamente o grfico de resduos para verificar a adequao das
suposies nesse novo modelo.







Figura 13.18 Grficos indicando uma relao no-linear, aparentemente
logartmica.

A Figura 13.19 apresenta uma situao com os seguintes problemas:
(1) relao no-linear para a parte estrutural do modelo e (2) aumento da
varincia medida que X aumenta. Recomendamos uma transformao
logartmica nos valores da varivel Y, ajustando o seguinte modelo aos dados:
log(y) = o + |x + c
Para ajustar o modelo, devemos:
a) calcular o logaritmo de cada valor y;
b) aplicar a anlise de regresso linear sobre os dados [x, log(y)]; e
c) construir novamente o grfico de resduos para verificar se o novo modelo
mais adequado aos dados.











Figura 13.19 Grficos indicando uma relao no-linear aparentemente
exponencial e varincia no-constante.

x
y Resduo
0
x
x
y
Resduo
0
x
O uso de transformaes auxilia o pesquisador a encontrar um modelo
mais adequado para os dados, ainda que utilizando as expresses da
regresso linear. A transformao logartmica muito usada por ter uma
interpretao prtica interessante, j que transforma variaes percentuais de
mesma magnitude em variaes constantes. Por exemplo, se considerar um
aumento absoluto no salrio de R$ 100,00, o seu significado vai ser muito
diferente para quem ganha R$ 100,00 e para quem ganha R$ 1.000,00. Por
isso, mais comum se ouvir falar em aumentos percentuais de salrios. Um
aumento de 10% no salrio representa um ganho de R$ 10,00 para quem
ganha R$ 100,00 e um ganho de R$ 100,00 para quem ganha R$ 1.000,00. Na
escala logartmica, esses incrementos so iguais. Por esta razo, comum
usar a escala (ou transformao) logartmica em variveis econmicas ou
medidas de tamanho em geral.

Exemplo 13.6 (continuao) Na seo anterior foi realizada uma regresso do
valor de um imvel (Y) com relao a sua rea privativa (X), considerando uma
amostra de cinqenta apartamentos, apresentada no anexo deste captulo. A
Figura 13.20 apresenta a reta de regresso e o grfico dos resduos desse
modelo.














Figura 13.20 Grficos de disperso e dos resduos (Exemplo 13.6).

Observamos na Figura 13.20 uma predominncia de valores pequenos
com respeito s duas variveis. Isto era esperado porque so mais comuns
apartamentos pequenos (rea e preo pequenos) do que apartamentos grandes
(rea e preo grandes). Tambm podemos observar maior variabilidade nos
apartamentos mais caros. Essas condies sugerem tentarmos uma
transformao logartmica em X e em Y. Assim, foi aplicado o logaritmo
natural em cada um dos cinqenta valores de X e Y. Por exemplo, o primeiro
apartamento da amostra tem x = 96 m
2
e y = 69 mil reais. Aplicando o
logaritmo natural, encontramos:
56 , 4 ) 96 log( ) log( = = x e 23 , 4 ) 69 log( ) log( = = y
A anlise com os dados transformados produziu os grficos de
disperso e de resduos apresentados na Figura 13.21.





50 150 250
-100
0
100
rea
R
e
s

d
u
o
250 150 50
500
400
300
200
100
0
rea
V
a
l
o
r
3,5 4,5 5,5
-0,5
0,0
0,5
LogArea
R
e
s

d
u
o
3,5 4,5 5,5
3
4
5
6
LogArea
L
o
g
V
a
l
o
r

Figura 13.21 Grficos de disperso e dos resduos (Exemplo 13.6), aps
transformaes nas variveis.

Verificamos pela Figura 13.21 que, aps as transformaes, as
condies bsicas do modelo esto aparentemente satisfeitas. A equao de
regresso, obtida com apoio de um sistema computacional para anlise
estatstica :
) log( ) 33 , 1 ( 58 , 1 ) log( x y de Predio + =
com R
2
= 0,813 e Se = 0,294. Observar que o poder explicativo deste modelo
melhor que o anterior (81,3% contra 77,7%). J o Se no comparvel devido
a transformao de escala.
Para predizer o valor de um apartamento com rea privativa de 100
m
2
, devemos, primeiramente, transformar este valor na escala logartmica:
x = 100 log(x) = 4,605
Aplicar o modelo de regresso:
545 , 4 ) 605 , 4 ( ) 33 , 1 ( 58 , 1 ) log( = + = y de Predio
Efetuar a transformao inversa do logaritmo:
15 , 94 } 545 , 4 exp{ = = y
Assim, por este novo modelo, o apartamento valeria R$ 94.150,00.

13.6 INTRODUO REGRESSO MLTIPLA

Em geral, uma varivel dependente (ou resposta) Y depende de vrias
variveis independentes ou explicativas (X1, X2, ..., Xk). Na anlise de regresso
mltipla, vamos construir um modelo estatstico-matemtico para se estudar,
objetivamente, a relao entre as variveis independentes e a varivel
dependente e, com o modelo construdo, conhecer a influncia de cada
varivel independente, como tambm, predizer a varivel dependente em
funo do conhecimento das variveis independentes. O Quadro 13.2 ilustra
alguns exemplos.
Quadro 13.2 Aplicaes do modelo de regresso mltipla.
Variveis independentes
(X1, X2, ..., Xk)

Varivel dependente
(Y)
X1 = altura do pai (cm)
X2 = altura da me (cm)
X3 = sexo (1 = homem, 0 = mulher)



Y = altura de um indivduo (cm)
X1 = renda (R$)
X2 = poupana (R$)
X3 = taxa de juros (%)


Y = Consumo (R$)
X1 = rea construda do imvel (m
2
)
X2 = idade (anos)
X3 = localizao



Y = preo do imvel (R$)
X1 = memria RAM (Gb)
X2 = sistema operacional
X3 = tipo de processador


Y = tempo de resposta do
sistema computacional
(segundos)


Para estabelecer o modelo clssico de regresso mltipla,
consideraremos que Y seja uma varivel quantitativa contnua e X1, X2, ..., Xk
sejam variveis quantitativas ou indicadoras de certos atributos. A varivel
indicada deve ter valor 1 quando o atributo est presente; e 0 quando no est
presente. Por exemplo, a varivel X3 = localizao do imvel pode ter valor 1
quando o imvel estiver numa rea valorizada, e 0 quando estiver numa rea
pouco valorizada. Tambm ser considerado que Y uma varivel aleatria,
isto , somente ser conhecida aps a observao do elemento (indivduo,
imvel, etc.), enquanto X1, X2, ..., Xk tambm podem provir de observao ou
serem estabelecidas a priori.
A anlise de regresso mltipla parte de um conjunto de observaes
(x1, x2,..., xk, y), relativas s variveis X1, X2, ..., Xk e Y. Diremos que um dado
valor y depende dos correspondentes valores x1, x2,..., xk, mas tambm de uma
infinidade de outros fatores no includos no modelo, que sero representados
por c (erro aleatrio). Mais especificamente, supomos o seguinte modelo para
as observaes:
y = o + |1 x1 + |2 x2 + ... + |k xk + c
onde o, |1 , |2 , ... , |k so parmetros a serem estimados com os dados e c
representa o erro aleatrio, cujo desvio padro tambm pode ser estimado
pelos dados. As suposies so anlogas s suposies da regresso simples,
acrescentando que as variveis independentes X1, X2, ..., Xk no devem ter
correlaes altas entre si.
Exemplo 13.7 Voltando questo de construir um modelo para o valor de
um apartamento (Y) com os dados do anexo deste captulo. Sejam as variveis
independentes:
X1 = rea comum do apartamento (m
2
);
X2 = idade (anos);
X3 = consumo de energia eltrica do morador (Kw/ms) e
X4 = localizao (1= rea valorizada; 0 = rea pouco valorizada).
Como discutimos no Exemplo 13.6, as variveis Y e X1 sero
analisadas na escala logartmica. A varivel X3 est sendo usada como uma
proxi do padro de vida do morador do apartamento e, por sua vez, da
qualidade do apartamento. Temos o seguinte modelo terico para os dados:
log(y) = o + |1 log(x1) + |2 x2 + |3 x3 + |4 x4 + c
Usando o Excel, obtivemos os resultados apresentados na Figura
13.22.
13


13
Nos resultados, os termos foram adequados lngua portuguesa e aos termos tcnicos deste
livro. Os valores foram formatados como nmeros.
Estatsticas da regresso
R mltiplo
0,943
R-quadrado
0,889
R-quadrado ajustado
0,879
Desvio padro
0,234
Observaes
50

ANOVA
gl SQ QM F Valor p
Regresso
4 19,702 4,926 89,863 0,000
Resduo
45 2,467 0,055
Total
49 22,169

Coeficientes
Erro
padro
Estat. t Valor p
Intervalo de confiana
(95,0%)
Interseo -1,208 0,376 -3,210 0,002 -1,966 -0,450
LogArea 1,195 0,084 14,242 0,000 1,026 1,364
Idade -0,025 0,005 -4,623 0,000 -0,036 -0,014
Energia 0,0024 0,0016 1,5214 0,135 -0,001 0,0057
Local 0,076 0,076 1,010 0,318 -0,076 0,229
Figura 13.22 Resultados de uma anlise de regresso pelo Excel (Exemplo 13.7).

Observamos, na primeira tabela da Figura 13.22, o valor de R
2
(R-
quadrado) igual a 0,889 e Se = 0,234. Comparando com os resultados do
Exemplo 13.6 (R
2
= 0,813 e Se = 0,294), vemos melhora no modelo com a
incluso das variveis: idade, gasto de energia eltrica e localizao. O valor R
2

= 0,889, indica quase 90% da variao do logaritmo do valor de um
apartamento pode ser explicado por uma relao linear que envolve o
logaritmo da rea comum (X1), idade (X2), consumo de energia eltrica do
morador (X3) e dois nveis de localizao (X4).
A segunda tabela (ANOVA) fornece o resultado de um teste estatstico
da seguinte hiptese nula:
H0: |1 = |2 = |3 = |4 = 0
ou seja, por esta hiptese, o conjunto de variveis independentes em estudo
no tem poder explicativo sobre a varivel dependente.
14
Este teste, conhecido
como teste F do modelo, resultou na estatstica F = 89,863, com
correspondente valor p extremamente pequeno (menor que um milsimo).
Assim, o teste estatstico rejeita H0, indicando que as variveis independentes
escolhidas so significativas para explicar a varivel dependente.
A terceira tabela fornece as estimativas dos coeficientes, incluindo
intervalos de confiana e testes estatsticos para cada coeficiente. A primeira
coluna apresenta as estimativas dos coeficientes, de onde podemos extrair a
seguinte equao:
4 3 2 1
076 , 0 0024 , 0 025 , 0 ) log( 195 , 1 208 , 1 ) log( x x x x y de Predio + + + =
Assim, tendo a rea do apartamento (x1), a idade (x2), o consumo de
energia eltrica (x3) e a localizao (x4) podemos obter uma predio de seu
valor. Por exemplo, um apartamento com 100 m
2
, que tenha 5 anos de uso,
morador consumindo 200 Kw e localizao em rea valorizada, temos:

14
Cabe observar que o teste estatstico refere-se populao, ou seja, quando se tem uma
amostra muito pequena, podemos obter um valor alto de R
2
e o teste aceitar H0.

1 ) 076 , 0 ( 200 ) 0024 , 0 ( 5 ) 025 , 0 ( ) 100 log( 195 , 1 208 , 1 ) log( de Predio + + + = y

ou: Predio de log(y) = 4,726. Portanto: 84 , 112 ) 726 , 4 exp( = = y
ou, seja, valor estimado de R$ 112.840,00.
Devemos observar que os sinais dos coeficientes do modelo construdo
esto coerentes. Coeficiente de X1 positivo, isto , quanto maior o
apartamento, maior dever ser o seu valor; coeficiente de X2 negativo (quanto
mais velho, menor o valor); coeficiente de X3 positivo (quanto maior o consumo
de energia do morador, maior o valor); e coeficiente de X4 positivo (em rea
valorizada, maior o valor).
A ltima tabela tambm fornece os resultados de testes estatsticos
para cada varivel. Pelos valores p, verificamos que as variveis energia e local
so no-significativas e, portanto, poderiam ser excludas do modelo sem que
os indicadores de qualidade do ajuste (R
2
e Se) piorem demasiadamente. Isso
no significa que a localizao no seja relevante para explicar o valor do
imvel, mas seu efeito j pode estar parcialmente includo nas outras variveis
independentes.

Para verificar a adequao de um modelo de regresso mltipla,
podemos calcular os resduos e, com base neles, fazer uma anlise grfica
similar a que foi feita em regresso simples.

EXERCCIOS COMPLEMENTARES
12) Para verificar se existe correlao entre X = tamanho da ninhada e Y = nmero de
brincadeiras filhote-me, em hamsters dourados, observaram-se o relacionamento
de um filhote com sua me, em cada uma das 20 ninhadas de mesmo tempo de
vida, durante uma hora. Anotaram-se, para cada ninhada, os valores das variveis
X e Y e calculou-se o valor do coeficiente r nessa amostra: r = 0,20. Podemos
concluir que realmente existe correlao entre X e Y, ao nvel de significncia de
5%?
13) Para cada um dos itens abaixo, calcule um coeficiente de associao (ou de
correlao) e interprete. Escolha o coeficiente de acordo com a forma de medida
das variveis.
a) Para avaliar o relacionamento entre renda familiar (em unidades de salrios
mnimos) e nmero de filhos nas seis famlias de uma pequela localidade,
observaram-se os seguintes valores de renda familiar: 1, 2, 4, 8, 12 e 20; e
os respectivos nmeros de filhos: 4, 5, 5, 3, 2 e 2.
b) Para avaliar o relacionamento entre peso e altura de um grupo de 10 indivduos,
fez-se a classificao cruzada, apresentada na tabela abaixo:
altura
peso baixa mediana alta
baixo
mediano
alto
2
0
1
1
2
1
1
0
2
c) Para avaliar o relacionamento entre sexo e altura, num grupo de 100 pessoas
adultas, observou-se que das 40 mulheres, 30 eram baixas e 10 eram altas.
Enquanto que dos 60 homens, observaram-se 40 altos e 20 baixos.
14) Com o objetivo de verificar se numa certa regio existe correlao entre o nvel de
escolaridade mdio dos pais e o nvel de escolaridade dos filhos, observou-se uma
amostra aleatria de oito indivduos adultos, verificando o nmero de anos que
estes freqentaram (e tiveram aprovao) em escolas regulares (Y) e o nmero
mdio de anos que os seus pais freqentaram (e tiveram aprovao) em escolas
regulares (X). Os resultados da amostra so apresentados abaixo:
X 0 0 2 3 4 4
5 7
Y 2 3 2 5 9 8
8 15
a) Calcule o coeficiente de correlao de Pearson.
b) Em termos do resultado do item (a), o que se pode dizer sobre a correlao
entre o nmero de anos que os 8 indivduos freqentaram escolas regulares (Y)
e o nmero mdio de anos que os seus pais freqentaram escolas regulares?
c) Estabelea a reta de regresso de Y em relao a X.
d) Apresente o diagrama de disperso acompanhado da reta de regresso.
15) Um administrador de uma grande sorveteria anotou por um longo perodo de
tempo a temperatura mdia diria, em
0
C (X), e o volume de vendas diria de
sorvete, em kg (Y). Com os dados, estabeleceu uma equao de regresso,
resultando em:
y = 0,5 + 1,8x, com R
2
= 0,80
Pergunta-se:
a) Qual o consumo esperado de sorvete num dia de 27
0
C?
b) Qual o incremento esperado nas vendas de sorvete a cada 1
0
C de aumento da
temperatura?
16) A tabela, a seguir, relaciona os pesos (em centenas de kg) e as taxas de
rendimento de combustvel em rodovia (km/litro), numa amostra de 10 carros de
passeio novos.
Peso 12 13 14 14 16 18 19 22 24 26
Rendimento 16 14 14 13 11 12 09 09 08 06
a) Calcule o coeficiente de correlao de Pearson.
b) Considerando o resultado do item (a), como voc avalia o relacionamento entre
peso e rendimento, na amostra?
c) Para estabelecer uma equao de regresso, qual deve ser a varivel
dependente e qual deve ser a varivel independente? Justifique a sua resposta.
d) Estabelea a equao de regresso, considerando a resposta do item (c).
e) Apresente o diagrama de disperso e a reta de regresso obtida em (d).
f) Voc considera adequado o ajuste do modelo de regresso do item (d)? D uma
medida desta adequao interpretando-a.
g) Qual o rendimento esperado para um carro de 2.000 kg? Use o modelo do item
(d). Lembrete: os dados de peso na tabela esto em centenas de kg.
h) Voc considera seu estudo capaz de predizer o rendimento esperado de um
veculo com peso de 7.000 kg? Justifique sua resposta.


ANEXO

Dados de apartamentos de Cricima SC. Variveis: valor (em milhares de reais),
rea privativa (m
2
), idade (anos), consumo mensal de energia eltrica (Kw) e local (1 =
regio mais valorizada; 0 = regio menos valorizada).
Valor Area Idade Energia Local Valor Area Idade Energia Local
69 96 14 170 1 98 114 4 170 1
176 145 8 144 1 120 101 4 192 1
195 175 2 147 1 51 80 14 170 1
80 101 4 160 1 90 115 2 128 0
390 233 2 220 1 65 55 2 118 0
360 201 6 228 1 90 98 12 143 1
80 104 2 160 1 219 161 6 175 1
45 64 14 118 0 167 101 4 192 1
153 100 2 174 1 63 85 12 172 0
66 112 17 181 1 150 123 4 154 1
90 90 2 144 1 36 61 12 163 0
114 187 28 146 0 139 153 8 144 1
165 147 4 183 0 39 51 18 135 0
101 102 2 160 1 24 37 14 163 1
150 185 8 144 1 84 83 16 147 1
75 102 6 180 0 96 67 2 118 0
38 35 6 144 1 65 82 4 147 0
68 94 28 146 0 30 42 2 160 0
90 110 14 158 0 41 66 12 154 1
60 86 6 146 0 476 240 2 183 1
55 74 10 147 0 43 64 18 184 0
92 98 4 160 0 27 57 14 143 0
84 90 4 147 1 44 65 12 147 0
92 94 12 187 0 44 73 12 128 0
37 36 2 160 0 150 130 6 190 1

Fonte: Amost r a ext r a da dos dados da di sser t ao de mest r ado ZANCAN, Evel i se C.
Met odol ogi a para Aval i a o e m Massa de I mvei s para Ef ei t o de Cobr ana de Tri but os
Muni c i pai s Caso de Apar t ament os da Ci dade de Cri c i ma, Sant a Cat ari na. UFSC,
Fl or i anpol i s, 1995. Com adapt aes.





RESPOSTAS DE ALGUNS EXERCCIOS

CAPTULO 13

2) a) Sugere correlao positiva. b) Ponto discrepante: nona observao (70, 50)
Nota no vestibular em matemtica
90 80 70 60 50 40 30 20
N
o
t
a

e
m

c

l c
u
l o
100
90
80
70
60
50
40


c) 0,69 d) 0,86. Correlao positiva e significativa (teste bilateral, o = 0,05).
e) 0,66. significativa (teste bilateral, o = 0,05)


6) a) r = -0,684. Em termos dos doze municpios pesquisados, e na poca de observao dos
dados, verificou-se uma correlao negativa moderada entre taxa de alfabetizao e taxa
de mortalidade infantil. Ento, para nveis maiores de alfabetizao, temos uma leve
tendncia de reduo na taxa de mortalidade infantil.
b) rs = -0,678. Significativo ao nvel de significncia de 5% (teste bilateral); assim, podemos
dizer que existe correlao (e negativa) entre essas duas variveis, nos municpios
brasileiros.
9) a) Varivel dependente: nota; varivel independente: nmero de faltas;
b) y = 9,51 0,63x d) R
2
= 0,82 e) Se = 1,64
10) a) Varivel dependente: taxa de crescimento demogrfico; e
varivel independente: populao urbana
b) (taxa de cresc. dem.) = 1,97 + (0,013).(pop. urbana). Obs.: Populao urbana est em
unidades de 1.000 habitantes.
c)
0 50 100 150 200 250 300
0
2
4
6
8
populao urbana (x 1000)
taxa de crescimento
demogrfico

d) Predio: taxa de crescimento de 5,8.
e) R
2
= 48%
12) No. Pela tabela 7 o valor absoluto de r deveria ser no mnimo igual a 0,444 para ser
significativo.
13) a) r = -0,85. Para as seis famlias pesquisadas, tem-se uma correlao negativa forte entre
renda familiar e nmero de filhos.
b) = 0,33. Em relao aos dez indivduos pesquisados, verifica-se uma correlao positiva
fraca.
c) C
*
= 0,09. Em relao aos cem indivduos pesquisados, praticamente no existe associao
entre altura e sexo.
14) a) r = 0,925
b) Correlao positiva forte. tambm significativamente diferente de zero (Tabela 7)
c) y = 1,19 + 1,70 x
15) a) 49,1 kg b) 1,8 kg
16) a) r = 0,96 b) Correlao positiva forte
c) Varivel dependente: consumo; e varivel independente: peso
d) (consumo) = 22,25 0,62 (peso)
e)











f) Sim, verifica-se pelo grfico do item (e) que uma relao linear parece adequar-se bem ao
presente problema. Alm disso, tem-se um coeficiente de determinao prximo de 1 (R
2
=
0,92).
g) 9,85 km / l.
h) No, pois os veculos estudados estavam na faixa de 1.200 a 2.600 kg e, portanto, a equao
de regresso deve ser usada apenas nesta faixa.

4
6
8
10
12
14
16
18
10 15 20 25 30
peso (100 kg)
c
o
n
s
u
m
o

(
k
m

/

l
)
(consumo) = 22,25 0,62 (peso)