Escolar Documentos
Profissional Documentos
Cultura Documentos
SUMÁRIO
1. CORRELAÇÃO ............................................................................................. 2
1.1. Introdução................................................................................................................................................... 2
1.2. Padrões de associação ................................................................................................................................ 3
1.3. Indicadores de associação.......................................................................................................................... 3
1.4. O coeficiente de correlação........................................................................................................................ 5
1.5. Hipóteses básicas ........................................................................................................................................ 5
1.6. Definição...................................................................................................................................................... 6
1.7. Distribuição amostral de r (quando ρ = 0) ............................................................................................... 6
1.8. Distribuição amostral de r (quando ρ ≠ 0) ............................................................................................... 7
1.9. Propriedades de r ....................................................................................................................................... 8
2. REGRESSÃO ................................................................................................ 9
2.1. Estimativa dos parâmetros de regressão................................................................................................ 11
2.2. Estimativa da variância do termo erro................................................................................................... 12
2.3. Distribuições das estimativas................................................................................................................... 15
2.3.1. Distribuição do estimador “b”.............................................................................................................................. 15
2.3.2. Distribuição do estimador “a” .............................................................................................................................. 16
2.4. Decomposição da soma dos quadrados .................................................................................................. 16
2.4.1. Decomposição dos desvios................................................................................................................................... 16
2.4.2. Cálculo das variações ........................................................................................................................................... 17
2.5. Intervalos de confiança ............................................................................................................................ 18
2.5.1. Intervalo para o coeficiente linear (α) .................................................................................................................. 18
2.5.2. Intervalo para o coeficiente angular (β) ............................................................................................................... 18
2.5.3. Intervalo para previsões ....................................................................................................................................... 18
2.6. Testes de hipóteses.................................................................................................................................... 20
2.6.1. Teste para a existência da regressão..................................................................................................................... 20
2.6.2. Teste para o coeficiente linear.............................................................................................................................. 20
2.7. Coeficiente de determinação ou de explicação....................................................................................... 21
3. EXERCÍCIOS............................................................................................... 22
4. RESPOSTAS............................................................................................... 27
5. REFERÊNCIAS ........................................................................................... 30
1.1. INTRODUÇÃO
Ao se estudar uma variável o interesse eram as medidas de tendência central, dispersão,
assimetria, etc. Com duas ou mais variáveis além destas medidas individuais também é de interesse
conhecer se elas tem algum relacionamento entre si, isto é, se valores altos (baixos) de uma das
variáveis implicam em valores altos (ou baixos) da outra variável. Por exemplo, pode-se verificar se
existe associação entre a taxa de desemprego e a taxa de criminalidade em uma grande cidade, entre
verba investida em propaganda e retorno nas vendas, etc.
A associação entre duas variáveis poder ser de dois tipos: correlacional e experimental. Numa
relação experimental os valores de uma das variáveis são controlados pela atribuição ao acaso do
objeto sendo estudado e observando o que acontece com os valores da outra variável. Por exemplo,
pode-se atribuir dosagens casuais de uma certa droga e observar a resposta do organismo; pode-se
atribuir níveis de fertilizante ao acaso e observar as diferenças na produção de uma determinada
cultura.
No relacionamento correlacional, por outro lado, não se tem nenhum controle sobre as
variáveis sendo estudadas. Elas são observadas como ocorrem no ambiente natural, sem nenhuma
interferência, isto é, as duas variáveis são aleatórias. Assim a diferença entre as duas situações é que na
experimental nós atribuímos valores ao acaso de uma forma não tendenciosa e na outra a atribuição é
feita pela natureza.
Observe−se que se não existir relação entre as duas variáveis deve−se esperar número idêntico
de empregados em cada uma das células da tabela, isto é, se a pessoa o escore da pessoa no teste
vocacional está acima ou abaixo da mediana não tem nada a ver com o seu escore no desempenho no
trabalho estar acima ou abaixo da mediana.
O que pode ser visto na tabela acima é que parece existir uma forte correlação entre as duas
variáveis, pois ao invés de igual número em cada célula o que se tem é um número grande de ambas as
variáveis acima da mediana e um número grande de escores de ambas as variáveis abaixo da mediana.
Das 50 pessoas com escore acima da mediana no teste, 40 deles (80%) apresentaram escore acima da
mediana no desempenho do trabalho. Da mesma forma dos 50 que tiverem classificações abaixo da
mediana, 40 deles apresentaram escore abaixo da mediana no desempenho do trabalho. Se não
houvesse correlação seria de se esperar que dos 50 que tiveram escores acima da mediana no teste 25
tivessem escores acima da mediana no desempenho do trabalho e 25 abaixo.
A tabela 1.2 mostra outras possíveis saídas para este tipo de esquema de classificação cruzada.
Novamente 100 elementos são classificados em 4 células de acordo com o critério anterior. A parte (a)
da tabela mostra uma associação positiva, a parte (b) uma negativa e a parte (c) que não deve existir
associação entre duas variáveis X e Y.
Tabela 1.2 - Indicativos da presença de associação entre duas variáveis X e Y.
(a) Relação positiva (b) Relação negativa (c) Sem relação
Valor de Y Valor de Y Valor de Y
Valor de Abaixo Acima da Valor de Abaixo Acima da Valor de X Abaixo Acima da
X da mediana X da mediana da mediana
mediana mediana mediana
Acima da 15 35 Acima da 35 15 Acima da 25 25
mediana mediana mediana
Abaixo 35 15 Abaixo da 15 35 Abaixo da 25 25
da mediana mediana
mediana
Diagramas de dispersão. As tabelas de contingência 2x2 fornecem somente a indicação
grosseira da relação entre duas variáveis, a não ser o fato de que os valores estão situados acima e
abaixo da mediana, qualquer outra informação é desperdiçada. Vamos considerar um exemplo,
envolvendo duas variáveis contínuas.
Um comerciante de temperos está curioso sobre a grande variação nas vendas de loja para loja
e acha que as vendas estão associadas com o espaço nas prateleiras dedicados a sua linha de produto
em cada ponto de venda. Dez lojas foram selecionadas ao acaso através do país e as duas seguintes
variáveis foram mensuradas: (1) total de espaço de frente (comprimento x altura em cm2) dedicados a
sua linha de produtos e (2) total das vendas dos produtos, em reais, no último mês. Os dados são
apresentados na tabela 1.3.
Tabela 1.3 – Vendas x espaço dedicado aos produtos (em cm2).
Local Espaço Vendas
1 340 71
2 230 65
3 405 83
4 325 74
5 280 67
6 195 56
7 265 57
8 300 78
9 350 84
10 310 65
Pela observação da tabela não é fácil perceber o tipo de relacionamento que possa existir entre
as duas variáveis. Para ter uma idéia melhor, as variáveis são colocadas no que é denominado de
diagrama de dispersão. Uma das variáveis (X) é representada no eixo horizontal e a outra variável
(Y) no eixo vertical, conforme figura 1.2.
100
90
80
70
60
50
150 200 250 300 350 400 450
Vendas x Áreas de prateleira
Suponha-se que existam apenas duas variáveis X e Y. Uma amostra da variável “X”,
assumindo os valores particulares X1, X2, ..., Xn e uma amostra da variável “Y” assumindo os valores
particulares Y1, Y2, ..., Yn são obtidas e suponha-se ainda que o objetivo é saber se existe algum tipo de
relacionamento linear entre estas duas variáveis. Isto poderá ser medido pelo coeficiente de
correlação que fornece o grau de relacionamento linear entre duas variáveis.
1.6. DEFINIÇÃO
Na população o coeficiente de correlação é representado por ρ e na amostra por r. Assim dadas
duas amostras, uma da variável X e outra da variável Y, o coeficiente de correlação amostral poderá
ser calculado através da seguinte expressão:
r=
( )(
å Xi − X . Y i − Y ) =
n å Xi . Yi − (å Xi ).(å Yi )
( ) (
2
å X i − X .å Y i − Y )
2
[nå X 2−
i (å X i )2].[nå Y2i − (å Y i )2]
Uma população que tenha duas variáveis não correlacionadas linearmente pode produzir uma
amostra com coeficiente de correlação diferente de zero. Para testar se a amostra foi ou não retirada de
uma população de coeficiente de correlação não nulo entre duas variáveis, precisamos saber qual é a
distribuição amostral da estatística r.
1− r 2
Neste caso, pode-se mostrar que o quociente: r / σr = r tem uma distribuição t com n - 2
n−2
1− r2
graus de liberdade. Isto é: t = r .
n−2
Exemplo:
Quer-se testar se existe ou não correlação linear entre X = toneladas de adubo orgânico por ha e
Y = produção da cultura A por ha. Para tanto é realizado um experimento com duração de 5 anos que
mostrou os resultados da tabela 1.4. Verificar se existe relacionamento linear entre as duas variáveis.
Tabela 1.4 − Valores das variáveis X e Y
Anos X Y
1989 2 48
1990 4 56
1991 5 64
1992 6 60
1993 8 72
Para saber se há ou não correlação linear entre estas duas variáveis na população de onde foi
retirada esta amostra é necessário realizar um teste de hipóteses, ou seja, é preciso testar:
H0: ρ = 0 (Não existe relacionamento linear na população)
H1: ρ ≠ 0 (Existe relacionamento linear na população)
A tabela 1.5 mostra os cálculos necessários para se obter o coeficiente de correlação para esta
amostra das variáveis X e Y.
Tabela 1.5 − Valores das variáveis X e Y e cálculos para obter r
Anos X Y XY X2 Y2
1989 2 48 96 4 2304
1990 4 56 224 16 3136
1991 5 64 320 25 4096
1992 6 60 360 36 3600
1993 8 72 576 64 5184
Total 25 300 1576 145 18320
1− r 2 1 − 0,952
t=r = 0,95 = 5,270
n−2 5−3
ρ < ρ0
é necessário determinar a distribuição de “r”, quando ρ é diferente de zero. A distribuição de “r” só é
simétrica quando ρ é zero, se isto não ocorre a distribuição será assimétrica. Esta falta de normalidade
impede que se use o teste tradicional, o teste t, neste caso.
Contudo, mediante uma transformação apropriada, “r” pode ser alterado para uma estatística
que é aproximadamente normal. Esta transformação é denominada de transformação Z de Fischer.
1 æ 1+ r ö
A expressão para realizá-la é: r' = lnç ÷
2 è1− r ø
Exemplo:
Suponha que de experiências anteriores pode ser suposto que a correlação entre a idade e a
pressão sangüínea sistólica é ρ = 0.85. Para testar a hipótese nula, a 5% de significância, de que ρ é
este valor contra a alternativa de que ele é diferente deste valor supõem-se que foi extraída uma
amostra de tamanho n = 30 e que forneceu um r = 0,66. Então o teste pode ser realizada através dos
seguintes cálculos:
Solução:
1 æ 1+ r ö 1 æ 1 + 0,66 ö
r’ = lnç ÷ = lnç ÷ = 0,7928
2 è1− r ø 2 è 1 − 0,66 ø
0,7928 − 12561
,
z= = -2,41
1 30 − 3
1.9. PROPRIEDADES DE R
As propriedades mais importantes do coeficiente de correlação são:
1. O intervalo de variação vai de -1 a +1.
2. O coeficiente de correlação é uma medida adimensional, isto é, ele é independente das
unidades de medida das variáveis X e Y.
3. Quanto mais próximo de +1 for “r”, maior o grau de relacionamento linear positivo entre X
e Y, ou seja, se X varia em uma direção Y variará na mesma direção.
4. Quanto mais próximo de -1 for “r”, maior o grau de relacionamento linear negativo entre X
e Y, isto é, se X varia em um sentido Y variará no sentido inverso.
5. Quanto mais próximo de zero estiver “r” menor será o relacionamento linear entre X e Y.
Um valor igual a zero, indicará ausência apenas de relacionamento linear.
2. REGRESSÃO
Uma vez constatado que existe correlação linear entre duas variáveis, pode-se tentar prever o
comportamento de uma delas em função da variação da outra.
Para tanto será suposto que existem apenas duas variáveis. A variável X (denominada variável
controlada, explicativa ou independente) com valores observados X1, X2, ..., Xn e a variável Y
(denominada variável dependente ou explicada) com valores Y1, Y2, ..., Yn. Os valores de Y são
aleatórios, pois eles dependem não apenas de X, mas também de outras variáveis que não estão sendo
representadas no modelo. Estas variáveis são consideradas no modelo através de um termo aleatório
denominado “erro”. A variável X pode ser aleatória ou então controlada.
Desta forma pode-se considerar que o modelo para o relacionamento linear entre as variáveis X
e Y seja representado por uma equação do tipo:
Y = α + β X + U,
onde “U” é o termo erro, isto é, “U” representa as outras influências na variável Y além da exercida
pela variável “X”.
Esta equação permite que Y seja maior ou menor do que α + β X, dependendo de “U” ser
positivo ou negativo. De forma ideal o termo “U” deve ser pequeno e independente de X, de modo que
se possa modificar X, sem modificar “U”, e determinar o que ocorrerá, em média, a Y, isto é:
E(Y/X) = α + β X
Os dados {(Xi, Yi), i = 1, 2, ..., n} podem ser representados graficamente marcando-se cada par
(Xi, Yi) como um ponto de um plano. Os termos Ui são iguais a distância vertical entre os pontos
observados (Xi, Yi), e os pontos calculados (Xi, α + βXi). Isto está ilustrado na figura 2.1.
Y • E(Y/X) = α + βX
Erro U
Y •
Na hipótese (i) o que se está supondo é que os Ui são variáveis aleatórias independentes com
valor esperado igual a zero e na (ii) que a variância de cada Ui é a mesma e igual a σ2, para todos os
valores de X.
Supõem-se ainda que a variável independente X, permaneça fixa, em observações sucessivas e
que a variável dependente Y seja função linear de X. Os valores de Y devem ser independentes um do
outro. Isto ocorre em geral, mas em alguns casos, como, por exemplo, observações diferentes são feitas
no mesmo indivíduo em diferentes pontos no tempo está suposição poderá não ocorrer.
Como o valor esperado de Ui é zero, o valor esperado da variável dependente Y, para um
determinado valor de X, é dado pela função de regressão α + βX ou seja:
E(Y/X) = E(α + βX + U) = α + βX + E(U) = α + βX [1]
já que α + βX é constante para cada valor de X dado.
O símbolo E(Y/X) é lido valor esperado de Y, dado X. A variância de Y, para determinado
valor de X, é igual a:
V(Y/X) = V(α + βX + U) = V(U) = σ2 [2]
A hipótese de que V(Y/X) é a mesma para todos os valores de X, denominada de
homocedasticidade, é útil pois permite que se utilize cada uma das observações sobre X e Y para
estimar σ2. O termo “homo” significa “o mesmo” e “cedasticidade” significa “disperso”.
De [1] e [2] decorre que, para um dado valor de X, a variável dependente Y tem função
densidade de probabilidade (condicional) com média α + βX e variância σ2. A figura 2.2, ilustra a
função densidade. Na parte superior da figura é ilustrado o caso heterocedástico e na parte inferior o
caso homocedástico.
A posição da função densidade f(Y/X) varia em função da variação do valor de X. Note-se que
a média da função densidade se desloca ao longo da função de regressão α + βX.
Utiliza-se o valor Y , porque o valor de Y, obtido a partir da reta estimada de regressão, para
um dado valor de X, é uma estimativa do valor E(Y/X), isto é, do valor esperado de Y dado X.
Exemplo:
São fornecidos 5 pares de valores, na tabela abaixo, correspondentes as variáveis X e Y. A
estimativa da reta de regressão entre X e Y, é obtida utilizando as expressões de a e b acima e usando
os resultados obtidos na tabela 2.1.
Tabela 2.1 - Valores para estimar a linha de regressão
X Y X2 XY
1 3 1 3
2 3 4 6
4 7 16 28
5 6 25 30
8 12 64 96
20 31 110 163
X = 20 / 5 = 4;
Y = 31/5 = 6,2
b = (5.163 - 20.31) / (5.110 - 400) = 1,30
a = Y - b X = 6,20 - 1,30.4 = 1
Então a linha estimada será: Y = 1.3X + 1
Esta reta é o “melhor” ajustamento para estes dados e seria diferente para cada amostra das
variáveis X e Y, retiradas desta mesma população. Esta reta pode ser considerada uma estimativa da
verdadeira linha de regressão onde 1,3 seria uma estimativa do valor β (parâmetro angular) e 1 uma
estimativa do valor α (parâmetro linear), que são os verdadeiros coeficientes de regressão.
2
å (E − E)
σ , onde E = å E / n . Observe-se entretanto que:
2
=
n
å E = å ( Y − a − bX ) = å Y − na − bå X = 0, pela primeira equação normal (i).
Portanto, σ 2 pode ser escrito como: σ 2 = å E2 / n .
σ
2
Mas , neste caso, é um estimador tendencioso. Pode-se obter um estimador não
tendencioso, multiplicando σ 2 por n / (n - 2). O novo estimador, não tendencioso, será representado S2
e sua raiz quadrada:
2 2
S= å E 2 = å ( Y − Y ) = å ( Y − a − bX)
n−2 n−2 n−2
Fazendo:
2
å ( X − X ) = å X2 −
(å X )2 =
S XX
n
å (Y − Y) = å Y
2 2− (å Y )2 =
SYY
n
å Xå Y
å(X − X)(Y − Y) = å XY− = SXY
n
Lembrando que:
å Xi å Yi
n å Xi Y i − å X i å Y i å Xi Y i −
b= = n , segue que b = SXY/SXX e que SXY = bSXX
2
nå Xi2 − ( å Xi)2 ( å X i)
å Xi2 −
n
Então vem:
S YY − b 2 S XX S YY − b S XY
s= =
n−2 n−2
Exemplo:
Considerando as variáveis X e Y acima e a linha de regressão anterior determinar uma
estimativa do erro padrão da regressão.
Os cálculos necessários estão na tabela 2.2.
Tabela 2.2 − Determinação do erro padrão da regressão
X Y Yc E=Y- E2
Yc
1 3 2,3 0,7 0,49
2 3 3,6 -0,6 0,36
4 7 6,2 0,8 0,64
5 6 7,5 -1,5 2,25
8 12 11,40 0,6 0,36
20 31 31 0 4,10
O erro padrão da regressão será então:
2
å E2 å ( Y − a − bX) 4,10
S= = = = 13667
, = 1,17
n−2 n−2 5−3
Este mesmo cálculo poderá ser efetuado pela expressão definida acima, sem a necessidade de
se obter os valores estimados.
Tabela 2.3 − Determinação do erro padrão da regressão
X Y X2 Y2 XY
1 3 1 9 3
2 3 4 9 6
4 7 16 49 28
5 6 25 36 30
8 12 64 144 96
20 31 110 247 163
Neste caso, tem-se:
Y( X − X )
b= å
SXX
Mas Y = α + βX + U, então:
Y( X − X ) (α + βX + U)( X − X) α ( X − X) β X(X − X ) U( X − X )
b= å = å = å + å + å
SXX SXX SXX SXX SXX
Então:
E(b) = E(β) = β, uma vez que a média de uma constante é a própria constante.
Isto, também, mostra que “b” é um estimador não-tendencioso de β.
Para a variância, tem-se:
2
U( X − X ) U( X − X ) å ( X − X)
V(b) = V(β + å ) = V( å )= 2
V(U).
SXX SXX (SXX )
Tendo em vista que por hipótese do modelo V(U) = σ2 e que å ( X − X)2 = SXX, segue:
. 2 σ
V(b) = SXX σ2 = σ . Portanto, a distribuição da estatística “b” é N(β,
2
).
(SXX ) SXX SXX
2
1
Portanto a distribuição de “a” é: N(α, σ + X ).
n SXX
Y
Y- Y
Y- Y
Y
Y Y- Y
X X
Figura 2.3 − Desvios na regressão
2.4.1. DECOMPOSIÇÃO DOS DESVIOS
Pelo figura 2.3, pode-se perceber que o desvio em relação a Y (desvio total), isto é, Y - Y pode
ser decomposto em dois outros desvios:
•O desvio explicado pela linha de regressão, isto é, Y - Y e
• O desvio não-explicado (resíduos) pela linha de regressão, isto é, Y - Y .
É fácil perceber
que a variação total, å(Y - Y ), é a soma da variação explicada, å( Y - Y ), e a
não-explicada, å(Y - Y ), pois:
Y - Y = Y - Y + Y - Y , então:
Aplicando somatório a ambos os membros vem:
å(Y - Y ) = å(Y - Y ) + å( Y - Y )
Pode-se verificar também que a propriedade aditiva dos desvios é extensiva à soma dos
quadrados desses desvios, ou seja:
å(Y - Y )2 = å(Y - Y )2 + å( Y - Y )2
De fato:
å(Y - Y )2 = å(Y - Y + Y - Y )2 = å[(Y - Y ) + ( Y - Y )]2 = å(Y - Y )2 + å( Y - Y )2 -
2å(Y - Y )( Y - Y )
Mas
å(Y - Y )( Y - Y ) = å(Y - Y )(a + bX - a - b X ) = båX(Y - Y )- b X åX(Y - Y )
Pelas condições do método dos mínimos quadrados, tem-se:
å( Y - Y ) = 0 e åX(Y - Y ) = 0, em conseqüência
å(Y - Y )( Y - Y ) = 0, logo, segue que:
å(Y - Y )2 = å(Y - Y )2 + å( Y - Y )2,
isto é, que a soma dos quadrados dos desvios calculados em torno da média de Y (variação total = VT)
é igual à soma dos quadrados dos desvios em torno da linha de regressão (variação residual = VR)
mais a soma dos quadrados dos desvios da linha de regressão em torno da média (variação explicada =
VE).
De acordo com a propriedade aditiva das variações, pode-se calcular VR por diferença. Assim:
VR = å(Y - Y )2 = VT - VE ou VR = SYY - bSXY
com tn-2 sendo um valor da distribuição “t” com “n - 2” graus de liberdade e S uma estimativa
de σ.
com tn-2 sendo um valor da distribuição “t” com “n - 2” graus de liberdade e S uma estimativa
de σ.
E( Y ) = E(a + bX) = E(a) + E(bX) = α + βE(X) = α + βX = f(X) = E(Y/X), pois, neste caso, X
é constante para cada valor de Y.
Tem-se: Y = a + bX, mas a = Y - b X , então:
Y = Y - b X + bX = Y + b(X - X ). A variância de Y , será:
V( Y ) = V[ Y - b(X - X )] = V( Y ) + V[b(X - X )] = V ( å ) + (X - X )2 V(b) =
Y 1
å V(Y) +
n n2
2 2 2 1 ( X − X) ú é 2ù
(X - X )2 σ = σ + (X - X )2 σ = σ2 ê + .
SXX n SXX ên SXX ú
ë û
Portanto:
2
1 (X − X)
Y tem distribuição N(α + βX, σ + )
n SXX
Conhecida a distribuição de Y , então o intervalo de confiança de “1 - α“ de probabilidade para
f(X) ou E(Y/X) será:
2 2
1 (X − X) 1 (X − X)
P( Y - tn-2. S. + ) ≤ E(Y/x) ≤ Y + tn-2. S. + ) = 1 - α, onde tn-2 é o valor da
n SXX n SXX
distribuição t com “n - 2” graus de liberdade.
(b) Intervalo para um valor individual ( Y )
Uma estimativa do valor individual de Yé dado pela reta de regressão Y = a + bX, para um
dado X e o desvio de previsão será dado por Y - Y , cujas propriedades são:
Para a média:
E(Y - Y ) = E(Y) - E( Y ) = f(X) - f(X) = 0
Para a variância, tem-se:
é1 2ù é 1 ( X − X) ùú
2
( X − X) ú
V(Y - Y ) = V(Y) + V( Y ) = σ2 + σ2 ê + = σ2 ê1 + + .
ên SXX ú ê n SXX ú
ë û ë û
Então:
2
1 ( X − X)
Y - Y tem distribuição N(0, σ 1 + + )
n SXX
Conhecida a distribuição de Yi - Y , então o intervalo de confiança de “1 - α“ de probabilidade
para um valor individual de Y (Yi) para um dado X, será:
2 2
1 ( X − X) 1 ( X − X)
Y - tn-2. S. 1 + + ); Y + tn-2. S. 1 + + , onde tn-2 é o valor da distribuição t
n SXX n SXX
com “n - 2” graus de liberdade.
b−β
Z = tem distribuição normal padrão. Porém como σ não é conhecido é necessário
σ
SXX
estimá-lo através de S. Então:
b−β
tn-2 =
S
SXX
a−α
Z= tem distribuição normal padrão. Porém como σ não é conhecido é necessário
æ 2 ö
σç + X ÷
1
ç n SXX ÷
è ø
a−α
estimá-lo através de S. Então: tn-2 =
æ 2 ö
Sç + X ÷
1
ç n SXX ÷
è ø
O coeficiente de determinação indica quantos por cento a variação explicada pela regressão
representa sobre a variação total. Deve-se ter:
0 ≤ R2 ≤ 1
Se R2 for igual a 1, isto significa que todos os pontos observados se situam “exatamente” sobre
a reta de regressão. Tendo-se, neste caso, um ajuste perfeito. As variações da variável Y são 100%
explicadas pelas variações da variável X, não ocorrendo desvios em torno da função estimada.
Por outro lado, se R2 = 0, isto quer dizer que as variações de Y são exclusivamente aleatórias e
explicadas pelas variações de outros fatores que não X.
3. EXERCÍCIOS
(01) Para cada uma das situações abaixo, diga o que é mais adequado: a análise de regressão ou a
análise de correlação. Por quê?
(01.1) Uma equipe de pesquisadores deseja determinar se o rendimento na Universidade sugere
êxito na profissão escolhida.
(01.2) Deseja-se estimar o número de quilômetros que um pneu radial pode rodar antes de ser
substituído.
(01.3) Deseja-se prever quanto tempo será necessário para executar uma determinada tarefa por
uma pessoa, com base no tempo de treinamento.
(01.4) Deseja-se verificar se o tempo de treinamento é importante para avaliar o desempenho na
execução de uma dada tarefa.
(01.5) Um gerente deseja estimar as vendas semanais com base nas vendas das segundas e terças-
feiras.
(02) Suponha que uma cadeia de supermercados tenha financiado um estudos dos gastos com
mercadorias para famílias de 4 pessoas. O estudo se limitou a famílias com renda líquida entre 8 e 20
salários mínimos. Obteve-se a seguinte equação:
Y = -1,20 + 0,40X, onde Y = despesa mensal estimada com mercadorias e X = renda líquida
mensal.
(02.1) Estimar a despesa de uma família com renda mensal líquida de 15 s.m.
(02.2) Um dois diretores da empresa ficou intrigado com o fato de que a equação sugerir que uma
família com renda de 3 s.m. líquidos mensais não gaste nada em mercadorias. Qual a explicação?
(02.3) Explique por que a equação acima não poderia ser utilizada para estimar
(a) As despesas com mercadorias de famílias de 5 pessoas.
(b) As despesas com mercadorias de famílias com renda de 20 a 40 s.m. líquidos mensais.
(03) Utilize os valores abaixo para estimar as equações de regressão:
(03.1) åX = 200, åY = 300, åXY = 6200, åX2 = 3600 e n = 20
(03.2) åX = 7,2, åY = 37, åXY = 3100, åX2 = 620 e n = 36
(04) Para cada uma das situações abaixo, grafe os valores em um diagrama e se uma equação linear
parecer apropriada para explicar os dados, determine os seus parâmetros.
(04.1)
Tamanho do pedido(X) 25 20 40 45 22 63 70 60 55 50 30
Custo Total (Y) 2000 3500 1000 800 3000 1300 1500 1100 950 900 1600
(04.2)
Vendas em mil (X) 201 225 305 380 560 600 685 735 510 725 450 370 150
Lucro em mil (Y) 17 20 21 23 25 24 27 27 22 30 21 19 15
(05) Suponha que uma população se constitua dos seis pontos seguintes:
(1, 2), (4, 6), (2, 4), (2, 3), (3, 5) e (5, 10)
(05.1) Grafe os pontos em um diagrama de dispersão.
(05.2) Determine a equação de regressão: Y = α + βX + u.
(05.3) Os termos-erro verificam a condição E(u) = 0?
(11.3) Há evidência suficiente nestes dados de que o tempo de decisão se relaciona linearmente ao
número de alternativas oferecidas a esses consumidores?
(12) Na fabricação de um antibiótico, a produção depende do tempo. Os dados indicados na tabela,
mostram que um processo resultou na seguinte produção (em quilogramas) de antibióticos por período
de tempo (dias) indicados:
Tempo (X = dias) 1 2 3 4 5 6
Produção (Y = em kg.) 23 31 40 46 52 63
(12.1) Por várias razões é conveniente esquematizar a produção em ciclos de 4 dias. Estime o
valor médio da produção final de antibiótico produzido em um período de 4 dias. Considere um
intervalo de 95% de confiança.
(12.2) Suponha que o processo de produção, no futuro, se desenvolverá em 4 dias. Determine um
intervalo de previsão de 95% para a produção. Compare com o intervalo para a produção média de
um período de 4 dias que foi obtido em (12.1).
(13) Mediu-se a altura de uma amostra de 5 meninos (em polegadas) na idade de 4 anos e novamente
na idade de 18 anos. Os resultados obtidos estão abaixo:
Na idade de 4 anos 40 43 40 40 42
Na idade de 18 anos 68 74 70 68 70
(13.1) Determine o coeficiente de correlação entre as duas categorias de alturas.
(13.2) Teste a hipótese de que existe uma relação linear entre a altura aos 4 anos de idade e a
altura aos 18 anos de idade.
(13.3) Se fosse feito o gráfico de toda a população de alturas, calculando-se a correspondente reta
dos mínimos quadrados, qual seria o seu coeficiente angular? Responda com um intervalo
suficientemente amplo que permita uma aposta de 95%.
(13.4) Repita o item 13.3 só que para o coeficiente linear.
(14) A equação de regressão estimada abaixo resume um estudo da relação entre o uso do fumo e a
incidência de câncer pulmonar, relacionando o número X de anos que uma pessoa fumou com a
percentagem Y de incidência de câncer pulmonar em cada grupo.
Ŷ = -2 + 1,70.X e r = 0,60.
(14.1) Explique o significado das estimativas “-2” e “ 1,70” na equação de regressão.
(14.2) Qual a taxa de incidência de câncer pulmonar para as pessoas que fumam há 20 anos?
(14.3) Se “r” fosse igual a “um” seria possível concluir que o fumo é a única causa de câncer
pulmonar?
(14.4) Suponha-se que a equação estimada tenha sido obtida de uma amostra aleatória de 50
fumantes. Teste a hipótese de que o coeficiente de correlação seja igual a zero a uma significância
de 1%.
(15) Explique se concorda ou não com as seguintes afirmativas:
(15.1) Um coeficiente de correlação de +1,0 entre duas variáveis X e Y indica que X causa Y, mas
um coeficiente de correlação de -1,0 significa que X não causa Y.
(15.2) Se o coeficiente de regressão é zero, o coeficiente de correlação é também zero.
(15.3) Se o coeficiente angular é 1 (um), isto significa que existe perfeita correlação entre X e Y.
(15.4) É possível que o coeficiente de correlação amostral seja positivo, quando não existe, de
fato, nenhuma correlação entre as variáveis X e Y.
(15.5) Não se pode utilizar a técnica da regressão pelo método dos mínimos quadrados quando a
relação básica entre X e Y não for linear.
(16) Um estudo de duas safras forneceu as seguintes informações:
Safra A: Y = 200 + 0,8X, r = 0,70 e S = 30 Safra B: Y = 50 + 1,20X, r = 0,9 e S = 20, onde
Y é a produção por alqueire e X é a quantidade de chuva (em polegadas) no período da safra.
(16.1) Se não houvesse chuva, estas duas equações poderiam ser usadas para predizer a quantidade
produzida nas duas safras? Por quê?
(16.2) Qual das duas safras tira mais proveito do aumento das chuvas? Por quê?
(16.3) Para qual das duas safras é possível predizer a produção com melhor aproximação? Por
quê?
(17) Os dados abaixo foram obtidos de cinco fábricas diferentes de uma determinada indústria.
Custo total (Y = em milhões) 80 44 51 70 61
Produção (X = toneladas) 12 4 6 11 8
(17.1) Determine um intervalo de confiança de 90% para o custo fixo dessa indústria.
(17.2) Determine um intervalo de confiança de 95% para o custo marginal dessa indústria.
(17.3) Faça uma previsão, através de um intervalo, para o custo total médio dessa indústria, para
uma produção de 15t, utilizando uma confiança de 95%.
(17.4) Faça uma previsão, através de um intervalo, para o custo total dessa indústria, para uma
produção de 15t, utilizando uma confiança de 95%.
(17.5) é possível afirmar, com uma significância de 1%, que o custo total dessa indústria está
linearmente relacionado ao nível de produção?
(17.6) Testar se o custo fixo pode ser considerado menor do que 30.
(17.7) Testar se o custo marginal pode ser considerado menor do que 5.
(18) Qual é o tamanho mínimo da amostra necessária para que se possa concluir que um coeficiente de
correlação de 0,32 difere significativamente de zero ao nível de 0,05?
(19) Um coeficiente de correlação, baseado em uma amostra de tamanho n = 18, foi calculado como
sendo 0,32. Pode-se concluir aos níveis de significância (19.1) 0,05 e (19.2) 0,01, que o coeficiente de
correlação, correspondente na população é diferente de zero?
(20) Se o coeficiente de correlação entre X e Y é 0,80, que percentagem da variação total permanece
não-explicada pela equação de regressão?
(21) Examine os cinco pares de pontos dados na tabela
X -2 -1 0 1 2
Y 4 1 0 1 4
(21.1) Qual é a relação matemática entre X e Y?
(21.2) Determine o valor de r.
(21.3) Mostre que calculando-se a linha de regressão de Y em relação a X tem-se b = 0.
(21.4) Por que, aparentemente, não existe relação entre X e Y como estão indicando b e r?
(22) Os dados abaixo representam o número de rendas pessoais tributáveis e o registro de automóveis
de passageiros, em uma determinada região.
X = número de rendas tributáveis (em milhares) 192 80 162 246 310
Y = Número de carros de passageiros (milhares) 23 11 13 31 91
4. RESPOSTAS
(01) (01.1) Correlação (01.2) Regressão (01.3) Regressão
(01.4) Correlação (01.5) Regressão
(02) (02.1) 4,80 s.m.
(03) (03.1) Y = -5 + 2.X (03.2) Y = -35 +5.X
(04) (04.1) Neste caso, com base no diagrama, uma linha reta não é adequada.
Custo total X Tamanho do Pedido
4000
3500
3000
2500
2000
1500
1000
500
0
0 20 40 60 80
(04.2) Neste caso, uma linha é adequada e sua equação está sobre o gráfico abaixo.
Vendas X Lucro
35
30 y = 0.0178x + 14.675
25
20
15
10
5
0
0 100 200 300 400 500 600 700 800
(05) (05.3)
População Amostra
X Y Yc Erro X Y
1 2 1.62 0.38 4 6
4 6 7.15 -1.15 2 4
2 4 3.46 0.54 3 5
2 3 3.46 -0.46 5 10
3 5 5.31 -0.31
5 10 9.00 1.00
17 30 30.00 0.00
12
y = 1.8462x - 0.2308 y = 1.9x - 0.4
10
0
0 1 2 3 4 5 6 7
(06) Basta mostrar que o ponto ( X , Y ) satisfaz a equação de regressão Y = a + bX. Se substituirmos
X por X na equação o resultado deverá ser Y . Mas a + b.X = a + b. X = Y - b X + b. X = Y .
Uma vez que a = Y - b X .
(07) (07.1) Y = 4,2589 + 26,2770.X
(07.2) a = Custo fixo b = Custo marginal.
(07.3) s = 0,37. O intervalo de confiança de 95% para o "custo fixo" é: [3,09; 5,42] que contém o
valor "5". Portanto não se pode afirmar, a 5% de significância que o custo fixo seja diferente do
que 5 unidades.
(08) (08.1) Y = 9200 (08.2) 800 ± 270,02 (08.3) t48 = 2,009 (tc = 5,952) (08.4) Não
(09) (09.1) Y = 3 + 0,48X (09.2) 2,24 (09.3) 17,25 ± 4,36
(10) [0,19; 0,77]
(11) (11.1) Y = 4,30 + 1,50X (r = 0,73) (11.2) S = 1,24 (11.3) t13 = 3,83
(12) (12.1) [44,69; 47,99] (12.1) [42,14; 50,54]
(13) (13.1) r = 0,87 (13.2) t3 = 3,00
(13.3) 1,50 ± 1,59 (13.4) 8,50 ± 65,26
(14) (14.1) “-2” seria a taxa de incidência de câncer pulmonar que não está relacionada ao hábito de
fumar, ou de quem nunca fumou. “1,70” é a variação na taxa de câncer pulmonar para cada ano
que a pessoa fumou.
(14.2) Ŷ = -2 + 1,70.20 = 32.
(14.3) Não, pois "r" indica associação na amostra e pode ser o mesmo na população.
(14.4) t48 = 5,20 que é significativo a 1%.
(15) (15.1) Tanto um coeficiente de "+1" quanto um de "-1" indicam correlação perfeita entre as
variáveis.
(15.2) Coeficiente de regressão igual a zero implica em correlação também zero.
(15.3) Não necessariamente, pois neste caso "1" é o valor de inclinação da linha e não grau de
associação linear entre as duas variáveis.
(15.4) Sim é possível.
(15.5) A técnica dos mínimos quadrados pode ser utilizado para ajustar vários tipos de equação.
(16) (16.1) Neste caso, a interpretação deve ser mais cuidadosa, pois tanto o excesso de chuvas quanto
a falta vão distorcer os dados e estas equações podem não ser mais válidas.
(16.2) A safra B tira mais proveito, provavelmente por ser uma cultura que precisa de mais
chuvas.
(16.3) Para a safra B pois existe uma melhor aderência dos dados a equação.
(17) (17.1) 26,28 ± 7,56 (17.2) 4,26 ± 1,17 (17.3) [81,46; 98,86]
(17.4) [78,45; 101,87] (17.5) t3 = 11,57 (17.6) tc = -1,159 e tt -2,353, Aceito H0.
(17.7) ) tc = -2,010 e tt -2,353, Aceito H0.
(18) n = 36
(19) tc = 1,35. Este valor não é significativo nem 5% e nem a 1%.
(20) ρ2 = 64%, portanto não-explicada será: 1 - ρ2 = 36%
(21) (21.1)
y = x2 - 5x-15 4.5
3.5
3
2.5
2
1.5
1
0.5
0
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
(21.2) r = 0
(21.3)
4.5
4
y=2
3.5
2.5
1.5
0.5
0
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
(21.4) Porque a correlação mostra apenas o relacionamento linear e, neste caso, o relacionamento
é do tipo parábola (equação do segundo grau).
(22) (22.1) r = 0,8544
(22.2) Y = -30,4980 + 0,3247X
(22.3) Y = 132 mil
(22.4) X = 122,01 + 2,25.Y
5. REFERÊNCIAS
[BUS86] BUSSAB, Wilton O, MORETTIN, Pedro A. Estatística Básica. 3a ed. São Paulo, Atual,
1986.
[DOW89] DOWNING, Douglas, CLARK, Jeff. Statistics the Easy Way. Barron’s Educational Series,
Inc. New York, 1989.
[FON76] FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade, TOLEDO, Geraldo Luciano.
Estatística Aplicada. São Paulo: Editora Atlas, 1976.
[FON80] FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade. Curso de Estatística. São
Paulo: Editora Atlas S. A., 1980.
[HOF80] HOFFMAN, Rodolfo. Estatística para Economistas. São Paulo. Livraria Pioneira Editora,
1980.
[KLE78] KLEIBAUM, David G., KUPPER, Lawrence L. Applied Regression Analysis and Other
Multivariable Methods. North Scituate, Massachusetts: Duxbury Press, 1978.
[MAR87] MARKLAND, Robert E., SWEIGART, James R. Quantitative Methods: Applications to
Managerial Decision Making. New York: John Wiley & Sons, 1987. 827p.
[MAS90] MASON, Robert D., DOUGLAS, Lind A. Statistical Techniques in Business And
Economics. IRWIN, Boston, 1990.
[MEY78] MEYER, Paul L. Probabilidade: aplicações à Estatística. Tradução do Prof. Ruy C. B.
Lourenço Filho. Rio de Janeiro, Livros Técnicos e Científicos Editora S.A., 1978.
[MIL90] MILLER, Charles D., HEEREN, Vern E., HORNSBY Jr., E. John. Mathematical Ideas.
USA: Harper Collins Publishers, 1990.
[REA93] The Statistics Problem Solver. Research and Education Association, Piscataway, New
Jersey, 1993.
[ROT91] ROTHENBERG, Ronald I. Probability and Statistics. Hartcourt Brace Jovanovich,
Publishers, Orlando, Florida, 1991.
[SAL82] SALVATORE, Dominick. Estatística e Econometria. Tradução Newton Boer, revisão
técnica Marco Antônio S. de Vasconcelos. São Paulo: McGraw-Hill do Brasil, 1982.