Você está na página 1de 26

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/330556342

CORRELAÇÃO E REGRESSÃO LINEAR

Book · January 2019

CITATIONS READS

0 416

1 author:

Filipe Mahaluça
Higher Institute of Accounting and Audit of Mozambique (ISCAM), Mozambique
22 PUBLICATIONS   4 CITATIONS   

SEE PROFILE

All content following this page was uploaded by Filipe Mahaluça on 23 January 2019.

The user has requested enhancement of the downloaded file.


CORRELAÇÃO E REGRESSÃO LINEAR

Filipe António Mahaluça

(Statistic and MSc in Health Sciences)

Contact:

+258-848407234

mahaluca@gmail.com
Índice
14. Correlação e Regressão Linear...................................................................................... 268
14.1. Introdução .................................................................................................................. 268
14.2. Coeficiente de Correlação de Pearson .................................................................. 268
14.2.1. Teste de significância do coeficiente de correlação de Pearson....................... 270
14.3. Análise de Regressão............................................................................................. 272
14.3.1. Regressão Linear Simples .................................................................................. 272
14.3.2. Método dos Mínimos Quadrados ....................................................................... 273
14.3.3. Estimativa da variância do termo erro............................................................... 275
14.3.4. Desvio padrão dos coeficientes e ........................................................... 276
14.3.5. Adequação do modelo de regressão linear ajustado ....................................... 276
14.3.6. Teste de hipóteses para os coeficientes e .............................................. 279
14.3.7. Intervalos de Confiança ..................................................................................... 280
14.3.8. Premissas básicas do modelo: ............................................................................ 283
14.4. Exercícios Propostos ............................................................................................... 283
14. CORRELAÇÃO E REGRESSÃO LINEAR

14.1. Introdução
Considere a existência de uma variável quantitativa X a qual acreditamos apresentar
alguma relação com uma outra variável quantitativa Y. Por exemplo: consumo de
electricidade e valor da conta de energia eléctrica; idade e tempo de reacção um
estímulo; temperatura e tempo de uma reacção química, dentre outros.

Em situações como as citadas, a construção de um gráfico de dispersão dos valores de X


versus os valores de Y, se constitui numa ferramenta estatística simples, porém muito útil,
para investigar a existência de uma possível relação entre essas duas variáveis.
Adicionalmente, podemos também fazer uso dos coeficientes de correlação, como por
exemplo, o de Pearson, apresentado a seguir.

14.2. Coeficiente de Correlação de Pearson

O coeficiente de correlação de Pearson é utilizado quando desejamos verificar a


existência de associação linear entre duas variáveis quantitativas, X e Y, e é obtido
dividindo-se a covariância de X e Y pelo produto dos respectivos desvios-padrão de
ambas as variáveis, isto é:

Esse coeficiente resulta sempre em um valor entre e e sua interpretação depende


do seu valor numérico e do seu sinal. Quanto mais próximo de e , mais forte é o
grau de relação linear existente entre X e Y e, quanto mais próximo de 0, mais fraco é
o grau desta relação. Uma correlação linear negativa indica que quando o valor de
uma variável aumenta, o valor da outra diminui e, uma correlação linear positiva, indica
que quando o valor de uma variável aumenta, o valor da outra também aumenta.

Para uma amostra de tamanho n, em que para cada indivíduo


observamos os pares de valores , o coeficiente de correlação linear entre X e Y
é:

268 Filipe Mahaluça


∑ ̅ ̅
√ √[∑ ̅ ] [∑ ̅ ]
∑ ̅ ̅
√[∑ ̅ ] [∑ ̅ ]
∑ ∑ ∑
√ ∑ ∑ √ ∑ ∑

A seguinte tabela fornece um guia de como podemos descrever uma correlação em


palavras dado o valor numérico. É claro que as interpretações dependem de cada
contexto em particular.

Valor de r (+ ou -) Interpretação
[ ] Correlação muito fraca
[ ] Correlação fraca
[ ] Correlação moderada
[ ] Correlação forte
[ ] Correlação muito forte
Abaixo estão exemplos de diagramas de dispersão de Pearson com seus coeficientes
de correlação correspondentes.

269 Filipe Mahaluça


A ausência de relação linear, quando indicada por este coeficiente, não implica a
ausência de relação entre elas. Outro tipo de relação pode estar presente, como, por
exemplo, a não-linear.

Exemplo 14.1 (Coeficiente de Correlação)


Após uma regulagem electrónica, um veículo apresenta um rendimento ideal no que
tange a consumo de combustível. Contudo, com o passar do tempo esse rendimento vai
se degradando. Os dados a seguir representam o rendimento medido mês a mês após
a regulagem.

Tempo (meses) 1 2 3 4 5 6 7 8 9 10 11 12
Rendimento (R) 10.7 10.9 10.8 9.3 9.5 10.4 9 9.3 7.6 7.6 7.9 7.7

Calcular o coeficiente de correlação entre essas variáveis.

Resolução

∑ ̅ ̅
√ √[∑ ̅ ] [∑ ̅ ]

√ √
Interpretação: A relação entre essas duas variáveis é inversamente proporcional, uma
vez que o sinal é negativo. Com isso, se o tempo após a regulagem aumenta, o consumo
de combustível irá diminuir e vice-versa. Além disso, considera-se uma relação linear
forte entre as variáveis tempo e rendimento, pois o valor modular de 0.907 é bem
superior a 0,7.

14.2.1. Teste de significância do coeficiente de correlação de Pearson

Quando se colecta uma amostra de n pares de valores das variáveis e se calcula


o seu coeficiente de correlação , o que se quer saber é se esse valor de r é
significante. Para se fazer isso, vai-se assumir como hipótese nula que não existe
correlação para a população das variáveis X e Y (o que implicaria que o valor obtido
para r ocorreu por mero acaso). Costuma-se denotar o coeficiente de correlação para a
população das variáveis X e Y por (não confundir com o coeficiente de correlação de
Spearman).

270 Filipe Mahaluça


Portanto, temos dois coeficientes de correlação: um para a população de valores de X e
Y, denotado por , que é puramente teórico; e o outro para uma amostra de n pares
retirada da população, denotado por r. A figura abaixo ilustra a situação.

O valor de r é usado para estimar o coeficiente de correlação e o teste de


significância desse valor consiste em assumir como que (ausência de
correlação) para verificar se sob tal hipótese o valor obtido para r é muito ou pouco
provável. Se a probabilidade de se obter o valor de r for menor que um certo valor
crítico (por exemplo, 0,05), rejeita-se e assume-se como mais provável a hipótese
alternativa, segundo a qual .

Para que o teste de significância do coeficiente de correlação de Pearson entre X e Y


seja realizado é necessário que a distribuição de probabilidade conjunta para a
população das variáveis X e Y seja normal bidimensional.

Em geral, quando se trabalha com amostras de n pares de valores (x, y) onde


a condição de normalidade das duas variáveis é satisfeita. Assumindo que a condição
acima é válida, temos as seguintes hipóteses:

Exemplo 14.2 (Teste de significância de Coeficiente de Correlação)


Teste a significância do exemplo 14.1
Resolução
1. ;
2. Como a amostra contém n pares de dados, então:

3. Estatística do teste:

√ √

4. Decisão:

Rejeita-se
5. Conclusão:

271 Filipe Mahaluça


Conclui-se que o valor de obtido para a amostra é significante e que existe
correlação r entre as variáveis X e Y com nível de significância igual a 5%.
Uma vez constatada a existência da relação linear entre duas variáveis, é de usual
interesse descrever essa relação por meio de uma equação linear.

14.3. Análise de Regressão

Análise de regressão é uma técnica de modelagem utilizada para analisar a relação


entre uma variável dependente (Y) e uma ou mais variáveis independentes
. O objetivo dessa técnica é identificar (estimar) uma função que
descreve, o mais próximo possível, a relação entre essas variáveis e assim podermos
predizer o valor que a variável dependente (Y) irá assumir para um determinado valor
da variável independente X. O modelo de regressão poderá ser escrito genericamente
como:

onde o termo representa uma perturbação aleatória na função, ou o erro da


aproximação. O número de variáveis independentes varia de uma aplicação para
outra, quando se tem apenas uma variável independente chama-se Modelo de
Regressão Simples, quando se tem mais de uma variável independente chama-se de
Modelo de Regressão Múltipla. A forma da função também varia, podendo ser
representada por um modelo linear, polinomial ou até mesmo uma função não linear.

14.3.1. Regressão Linear Simples

Se uma relação linear é válida para sumarizar a dependência observada entre duas
variáveis quantitativas, então a equação que descreve esta relação é dada por:

̂ ̂ ̂

Os valores observados não se encontram, contudo, exactamente sobre esta linha recta,
ou seja, existe uma diferença entre o valor observado e o valor fornecido pela
equação.

Esta diferença é denominada erro e é representada por . Este erro é assumido ser um
erro estatístico, isto é, uma variável aleatória que quantifica a falha do modelo em
ajustar-se aos dados exactamente. Tal erro pode ser devido ao efeito, dentre outros, de

272 Filipe Mahaluça


variáveis não consideradas e de erros de medição. Incorporando esse erro à equação
anterior temos:

que é denominado modelo de regressão linear simples. Para cada indivíduo


na amostra, o modelo fica representado por:

A variável X denominada variável regressora ou independente, é considerada uma


variável controlada pelo analista dos dados e medida com erro desprezível.

Já Y, denominada variável resposta ou dependente, é considerada uma variável


aleatória, isto é, existe uma distribuição de probabilidade para Y em cada valor
possível de X.

É muito frequente, na prática, encontrarmos situações em que Y tenha distribuição


Normal. Nesses casos, os erros (em que alguns são positivos e outros negativos) são
assumidos serem normalmente distribuídos com média zero e variância constante
desconhecida , bem como independentes, isto é, o valor de um erro independe do
valor de qualquer outro erro. Sendo assim, a média e a variância da variável Y serão,
respectivamente:

14.3.2. Método dos Mínimos Quadrados

Com base nos n pares de observações , o método de


estimação por MQO consiste em escolher e de modo que a soma dos quadrados
dos erros, seja mínima. Note que ̂ ̂

Para minimizar esta soma, que é expressa por:

∑ ∑( ̂ ̂ )

273 Filipe Mahaluça


Deve-se, inicialmente, diferenciar a expressão anterior com respeito a e , em
seguida, igualar a zero as expressões resultantes. Feito isso, e após algumas operações
algébricas, os estimadores resultantes são:

̂ ̅ ̂ ̅

∑ ̅ ̅
̂
∑ ̅

Onde, ̅ é a média amostral dos e ̅ a média amostral dos . Logo:

̂ ̂ ̂ ̅

É o modelo de regressão linear simples ajustado, em que ̂ , denotado também ̂

por simplicidade, e é o valor médio de para qualquer valor que esteja na


variação observada de .

Os desvios ̂ são denominados resíduos e são considerados uma amostra


aleatória dos erros. Por este facto, uma análise gráfica dos resíduos é, em geral,
realizada para verificar as suposições assumidas para os erros .

Se o modelo de regressão linear simples (MRLS) for considerado adequado para


descrever a relação linear entre Y e X, os coeficientes são interpretados do
seguinte modo:

1. Se a variação dos dados em X incluir , então o intercepto é a resposta


esperada (média) em . Caso contrário, não apresenta interpretação
prática;
2. O parâmetro é interpretado como a mudança no valor esperado de Y
produzido por uma unidade de mudança em X.

Exemplo 14.3 (Modelo de regressão)

Considere os dados do exemplo 14.1, obtenha a equação de regressão.

∑ ̅ ̅
̂
∑ ̅

̂ ̅ ̂ ̅

274 Filipe Mahaluça


Logo, a recta de regressão estimada da variável consumo de combustível (Y) em função
da tempo após a regulagem (X) é:

̂ ̂ ̂

̂
Interpretação do modelo:

= 11.34

Se o tempo após a regulagem (X) for igual a zero, o consumo de combustível será de
11.34. Nota que esta interpretação é apenas estatística e a mesma não tem nenhum
significado económico

= -1.578

A cada unidade adicional na variável tempo (X), a variável rendimento (Y) diminui em
0.325.

Esta recta é o “melhor” ajustamento para estes dados e seria diferente para cada
amostra das variáveis X e Y, retiradas desta mesma população. Esta recta pode ser
considerada uma estimativa da verdadeira linha de regressão onde -0.325 seria uma
estimativa do valor (parâmetro angular) e 11.34 uma estimativa do valor
(parâmetro linear), que são os verdadeiros coeficientes de regressão.

14.3.3. Estimativa da variância do termo erro

O termo erro, U, é uma variável aleatória, supostamente com média zero e variância
constante. Então, intuitivamente parece plausível usar os resíduos da recta de regressão
pelos método dos mínimos quadrados para se estimar a variância dos termos “erro”.
A variância amostral desses resíduos é igual a:

̂ ∑ ∑ (∑ ) ̂ [ ∑ ∑ ∑ ]

̂

A sua unidade é a mesma com a de Y.

275 Filipe Mahaluça


Exemplo 14.4 (Desvio do modelo)

O desvio padrão do modelo é igual a 0.325, isto é, em média o rendimento previsto


desvia-se do tempo em aproximadamente 0.5698 litros.

14.3.4. Desvio padrão dos coeficientes ̂ e ̂


As mediadas absolutas de qualidade do ajustamento, vêm expressas nas mesmas
unidades das variáveis e são: ̂ , ̂ e . Quanto menores forem os seus valores maior

será a precisão de ̂ e ̂ .

As fórmulas para cálculo de Desvio padrão dos parâmetros ̂ e ̂ .são:

̅
̂ √

̂ √

Exemplo 14.5 (Desvio padrão dos coeficientes do modelo)

̅
̂ √ √

̂ √ √

14.3.5. Adequação do modelo de regressão linear ajustado

Após ajustar o modelo de regressão linear simples devemos, antes de adoptá-lo


definitivamente para fazer predições (interpolações), verificar:

1. Se o modelo se ajusta bem aos dados e,


2. Se as suposições básicas se encontram satisfeitas.

276 Filipe Mahaluça


Quanto a qualidade de ajuste do modelo, podemos fazer uso do coeficiente de
determinação, que nos fornece a percentagem da variação total de Y explicada
pelo modelo, ou seja, o percentual da variabilidade da variável dependente
explicada pela variável independente . Em regressão linear simples esse coeficiente
pode ser obtido por , em que é o coeficiente de correlação de Pearson
amostral. O coeficiente de determinação varia de 0 a 1 (ou 0 a 100%), sendo que
quanto mais próximo de 1 (100%), melhor o ajuste do modelo considerado.

Podemos, também, obter o coeficiente de determinação apartir da análise de


variância da regressão, em que a variação o total de Y é decomposta como mostrado
na tabela ANOVA a seguir. Fazendo-se uso da decomposição apresentada, temos que:

∑ ̂ ̅ ̂ ̂

∑ ̂ ̂

∑ ̅

Tabela ANOVA

Fonte de GL Soma dos Quadrados Quadrado Médio Teste F


variação
Regressão F
Resíduos
Total
p = número de parâmetros do modelo e n = tamanho amostral

Para testarmos a significância do parâmetro , o que, na prática, significa verificar se


a covariável X influencia a resposta Y, testamos as hipóteses:

277 Filipe Mahaluça


{ ou {

A estatística de teste utilizada para esta finalidade é dada por:

Onde e são, respectivamente, os quadrados médios da regressão e dos


resíduos apresentados na tabela ANOVA. Sob , tal estatística tem distribuição de
Snedecor-Fisher com e graus de liberdade. Assim, rejeitamos-se se o
valor calculado de for maior que o valor de tabelado a um nível α de significância
pré-estabelecido.

Mostra-se ainda que o teste F pode se calcular através de:

Onde

Exemplo 14.6 (Teste do modelo)

∑ ̂ ̅ ̂ ̂

∑ ̂ ̂ ̂

∑ ̅

278 Filipe Mahaluça


Como , rejeita-se e conclui-se que o modelo completo (o
que contém a variável independente) é melhor do que o modelo reduzido (o que não contém a
variável X.

Em outras palavras: existe relação linear entre X e Y.

Tabela Anova
Fonte de SQ G. liberdade MQ F
Variação
Regressão 1

Residual
Total

14.3.6. Teste de hipóteses para os coeficientes ̂ e ̂


Teste para o coeficiente linear ( ̂ )

Testar o coeficiente linear da regressão “ ̂ “ é testar o valor inicial da regressão, isto


é, é testar o valor de Y quando . As hipóteses são:

̅
Considerando que a distribuição do coeficiente linear é dada por ( √ )

e fixando um nível de significância a estatística do teste será a “t” de Student com “n -


2” graus de liberdade. Então:

̂ ̂
̅ ̂

Teste para o coeficiente angular ( ̂ ) ou para a existência da regressão

Testar a existência da regressão é testar se o parâmetro é diferente de zero. Desta


forma o que se quer testar é:

279 Filipe Mahaluça


{

Fixado um nível de significância α a variável teste será a “t” de Student com “n - 2”


graus de liberdade, pois sabe-se que:

̂ ( )

Então:

̂ ̂
̂

14.3.7. Intervalos de Confiança

Da mesma forma que foram obtidos intervalos de confiança para a média, variância e
proporção de uma população, pode-se determinar os intervalos de confiança para os
parâmetros da regressão. Ou seja, pode-se determinar um intervalo de confiança para
o coeficiente linear ( ), um intervalo de confiança para o parâmetro angular ( ) e
pode-se ainda determinar um intervalo de confiança para um valor previsto de Y, dado
X. Este intervalo pode ser para o valor médio de Y para um dado X, isto é, E(Y/X) ou,
então, para um valor individual de Y, isto é, ̂ . A estimativa pontual para os dois últimos
casos é a mesma. O que vai mudar é o intervalo de confiança correspondente. Isto se
deve ao fato de que o modelo desenvolvido é associado principalmente à média do
grupo do que a uma informação individual.

Intervalo de Confiança para o coeficiente linear ( )


̅
Considerando que a distribuição do coeficiente linear é dada por ( √ ).

Então, fixada uma confiança de , o intervalo será:

̂ ̂

280 Filipe Mahaluça


Intervalo de Confiança para o coeficiente angular ( )

Considerando que a distribuição do coeficiente angular é dada por ( √ ).

Então, fixada uma confiança de , o intervalo será:

̂ ̂

Intervalo de Confiança para Previsão pontual (̂ )


Uma estimativa do valor individual de Y é dada pela recta de regressão ̂ ̂
̂ , para um dado X e o desvio de previsão será dado por ̂ , cujas as
propriedades são:

 Para média:
( ̂) ( ̂)
 Par a variança
̅
( ̂) ( ̂) * +

̅
* +

Então:

̅
( ̂) ( √ )

Assim, o intervalo de confiança para a previsão pontual encontra-se compreendido


entre os limites:

̅
̂ √

A equação do intervalo de confiança mostra que a previsão pontual é sensível:

 À estimativa do erro amostral;


 À dimensão da amostra
 À variança de X

281 Filipe Mahaluça


 À distância de á média de X

Mantendo-se tudo o resto constante, quanto maior for o n e maior a variança de X) no


denominador da expressão), menor será o erro de previsão. Este erro é mínimo quando
for igual á média de X, porque a última parcela da expressão vem zero. O erro de
previsão tem um crescimento não linear á medida que X se afasta da sua média.

Intervalo de Confiança para o valor médio de ̂


Os intervalos de confiança para a previsão em média estão contidos nos intervalos de
confiança para a previsão pontual, pois tem menos uma parcela do que o anterior,
sendo portanto mais precisos. Os intervalos de confiança apresentam ainda o erro de
previsão mínimo para á média, aumentando o erro não linearmente com os
afastamentos da média. Assim o intervalo de confiança para a previsão em média
encontra-se compreendido entre os seguintes limites:

̅
̂ √

Exemplo 14.6 (Intervalo de Confiança para a previsão de um valor médio e


individual)
Usando os dados do problema do consumo de combustível, obtenha os intervalos de
confiança de 95% para a previsão de um valor médio e um valor individual de Y para
um tempo meses.
Resolução
 Valor médio para

̅
̂ √

282 Filipe Mahaluça


 Valor individual de Y para

̅
̂ √

14.3.8. Premissas básicas do modelo:


Devem ser verificadas para assegurar a adequabilidade do modelo.
São elas:
1. Linearidade
2. ~ Normal Normalidade
3. E( ) = 0
4. ( ) constante Homocedasticidade
5. cov , )=0 Independência

14.4. EXERCÍCIOS PROPOSTOS

14.4.1. Para cada uma das situações abaixo, diga o que é mais adequado: a análise
de regressão ou a análise de correlação. Por quê?
a) Uma equipe de pesquisador deseja determinar se o rendimento na
Universidade sugere êxito na profissão escolhida.
b) Deseja-se estimar o número de quilómetros que um pneu radial pode
rodar antes de ser substituído.
c) Deseja-se prever quanto tempo será necessário para executar uma
determinada tarefa por uma pessoa, com base no tempo de treinamento.
d) Deseja-se verificar se o tempo de treinamento é importante para avaliar
o desempenho na execução de uma dada tarefa.
e) Um gerente deseja estimar as vendas semanais com base nas vendas das
segundas e terças-feiras.

14.4.2. Explique se concorda ou não com as seguintes afirmativas:


283 Filipe Mahaluça
a) Um coeficiente de correlação de +1,0 entre duas variáveis X e Y indica
que X causa Y, mas um coeficiente de correlação de -1,0 significa que X
não causa Y.
b) Se o coeficiente de regressão é zero, o coeficiente de correlação é
também zero.
c) Se o coeficiente angular é 1 (um), isto significa que existe perfeita
correlação entre X e Y.
d) É possível que o coeficiente de correlação amostral seja positivo, quando
não existe, de fato, nenhuma correlação entre as variáveis X e Y.
e) Não se pode utilizar a técnica da regressão pelo método dos mínimos
quadrados quando a relação básica entre X e Y não for linear.

14.4.3. Se o coeficiente de correlação entre X e Y é 0,80, que percentagem da


variação total permanece não-explicada pela equação de regressão?

14.4.4. Após uma regulagem electrónica, um veículo apresenta um rendimento ideal no


que tange a consumo de combustível. Contudo, com o passar do tempo esse
rendimento vai se degradando. Os dados a seguir representam o rendimento
medido mês a mês após a regulagem.

Tempo (mês) 1 2 3 4 5 6 7 8 9 10 11 12
Rendimento 10.7 10.9 10.8 9.3 9.5 10.4 9 9.3 7.6 7.6 7.9 7.7

a) Indique a variável dependente (Y) e independente (X).


b) Determine o coeficiente de correlação entre as variáveis X e Y e interprete-
o.
c) Determine o coeficiente de determinação e interprete-o.
d) Determine o desvio padrão do modelo.
e) Teste se o modelo completo (com a variável X) é melhor do que o modelo
reduzido (só com beta zero).
f) Determine os coeficientes ̂ ̂.
g) Formule as hipóteses para ̂ ̂ e conclua sobre aceitação ou rejeição da
hipótese nula.
h) Construa os intervalos de confiança para os coeficientes ̂ ̂.
i) Determine a equação do modelo e interprete os seus coeficientes.

284 Filipe Mahaluça


j) Obtenha os intervalos de confiança de 95% para a previsão de um valor
médio e um valor individual de Y para um tempo meses

14.4.5. A análise de 20 pares de valores indicou que a resistência á tração (Y) de uma
fibra sintética usada na indústria têxtil guarda uma relação linear com a
percentagem de algodão (X) presente na fibra. A equação obtida foi ̂
(X fornecido em percentagem, equação válida para o intervalo
de X entre 20% e 35%). Conhecidos os valores das Somas Quadradas
:
a) Faça a análise de Variança e conclua a respeito da significância do
modelo;
b) Calcule o valor do coeficiente de determinação e indique qual o seu
significado técnico.

14.4.6. Suponha que uma cadeia de supermercados tenha financiado um estudo sobre
os gastos com mercadorias para famílias de 4 pessoas. O estudo se limitou a
famílias com renda líquida entre 8 e 20 salários mínimos. Obteve-se a seguinte
equação:
̂ onde X é a renda líquida mensal e Y despesa mensal
estimada com mercadorias.
a) Estimar a despesa de uma família com renda mensal líquida de 15 s.m.
b) Um dos directores da empresa ficou intrigado com o fato de que a
equação sugerir que uma família com renda de 3 s.m. líquidos mensais
não gaste nada em mercadorias. Qual a explicação?
c) Explique por que a equação acima não poderia ser utilizada para
estimar:
 As despesas com mercadorias de famílias de 5 pessoas.
 As despesas com mercadorias de famílias com renda de 20 a 40 s.m.
líquidos mensais.

14.4.7. Para cada uma das situações abaixo, grafe os valores em um diagrama e se
uma equação linear parecer apropriada para explicar os dados, determine os
seus parâmetros.
a)

285 Filipe Mahaluça


Tempo do pedido 25 20 40 45 22 63 70 60 55 50 30
Custo total 2000 3500 1000 800 3000 1300 1500 1100 950 900 1600

b)
Vendas em mil 201 225 305 380 560 600 685 735 510 725 450 370 150
Lucro em mil 17 20 21 23 25 24 27 27 22 30 21 19 15

14.4.8. Os dados abaixo foram colhidos de cinco fábricas diferentes de uma


determinada indústria:
Custo Total (Y) 80 44 51 70 61
Produção (X) 12 4 6 11 8

a) Estime a equação de regressão linear para o custo total dessa indústria.


b) Qual o significado económico das estimativas “ ” e “ ”?
c) Teste a hipótese de que o custo fixo da produção do artigo em questão
seja igual a 5, contra a alternativa de diferente do que 5, utilizando uma
significância de 5%.

14.4.9. Em uma amostra aleatória de 1990, 50 homens americanos entre 35 e 54 anos


de idade acusaram a seguinte relação entre renda anual Y (em dólares) e a
escolaridade X (em anos).

A renda média foi de 10000 dólares e a escolaridade média foi de 11anos.


Sabendo, ainda, que ∑ e que o desvio padrão residual em relação
à recta ajustada foi de 7300 dólares, determine:
a) A renda de uma pessoa que tenha completado 2 anos de educação
secundária (x = 10 anos).
b) O intervalo de 95% de confiança para o coeficiente angular
populacional.
c) Se é válida a afirmação que cada ano de escolaridade custa 800
dólares?

14.4.10. Uma pesquisa foi realizada com o objectivo de determinar os efeitos da


falta de sono sobre a capacidade de as pessoas resolverem problemas simples.
Foram testadas 10 pessoas, mantendo-se cada grupo de 2 pessoas sem dormir

286 Filipe Mahaluça


por um determinado número de horas. Após cada um destes períodos, cada
pessoa teve de resolver um teste com adições simples, anotando-se então os
erros cometidos. Os dados resultantes estão na tabela abaixo:
Número de erros 6.8 6.10 8.14 12.14 12.16
Número de horas sem dormir 8 12 16 20 24

a) Determine a estimativa da linha de regressão do número de erros em


função do número de horas sem dormir.
b) Determine a dispersão dos termos erro em torno da linha de regressão.
c) Determine um intervalo de 95% de confiança para o coeficiente angular
da recta.

14.4.11. Realizou-se uma pesquisa de mercado com o objectivo de estudar a


relação entre o tempo necessário para um consumidor tomar uma decisão (sobre
o que comprar) e o número de embalagens alternativas do mesmo produto
apresentadas a esse consumidor. Eliminaram-se as marcas das embalagens, a
fim de reduzir o efeito da preferência por uma ou outra marca. Os consumidores
fizeram suas escolhas somente com base na descrição do produto, anotada nas
embalagens pelos fabricantes. O tempo necessário, Y, para que cada um
tomasse sua decisão foi anotado para 15 participantes, resultando nos seguintes
dados:
Tempo para decisão (em segundos) 5,7,8,8,9 7,8,9,9,10 9,10,10,11,12
Número de alternativas 2 3 4
a) Determine a recta dos mínimos quadrados de Y em função de X.
b) Determine o erro padrão da estimativa, ou seja, o desvio padrão
amostral da regressão.
c) Há evidência suficiente nestes dados de que o tempo de decisão se
relaciona linearmente ao número de alternativas oferecidas a esses
consumidores?

14.4.12. Na fabricação de um antibiótico, a produção depende do tempo. Os


dados indicados na tabela, mostram que um processo resultou na seguinte
produção (em quilogramas) de antibióticos por período de tempo (dias)
indicados:

287 Filipe Mahaluça


Tempo (em dias) 1 2 3 4 5 6
Produção (em kg) 23 31 40 46 52 63

a) Por várias razões é conveniente esquematizar a produção em ciclos de 4


dias. Estime o valor médio da produção final de antibiótico produzido em
um período de 4 dias. Considere um intervalo de 95% de confiança.
b) Suponha que o processo de produção, no futuro, se desenvolverá em 4
dias. Determine um intervalo de previsão de 95% para a produção.
Compare com o intervalo para a produção média de um período de 4
dias que foi obtido em a).

14.4.13. Mediu-se a altura de uma amostra de 5 meninos (em polegadas) na


idade de 4 anos e novamente na idade de 18 anos. Os resultados obtidos estão
abaixo:
Na idade de 4 anos 40 43 40 40 42
Na idade de 18 anos 68 74 70 68 70
a) Determine o coeficiente de correlação entre as duas categorias de
alturas.
b) Teste a hipótese de que existe uma relação linear entre a altura aos 4
anos de idade e a altura aos 18 anos de idade.
c) Se fosse feito o gráfico de toda a população de alturas, calculando-se a
correspondente recta dos mínimos quadrados, qual seria o seu coeficiente
angular? Responda com um intervalo suficientemente amplo que permita
uma aposta de 95%.
d) Repita a alínea a) só que para o coeficiente linear.

14.4.14. A equação de regressão estimada abaixo resume um estudo da relação


entre o uso do fumo e a incidência de câncer pulmonar, relacionando o número X
de anos que uma pessoa fumou com a percentagem Y de incidência de câncer
pulmonar em cada grupo.

a) Explique o significado das estimativas “-2” e “ 1,70” na equação de


regressão.

288 Filipe Mahaluça


b) Qual a taxa de incidência de câncer pulmonar para as pessoas que
fumam há 20 anos?
c) Se “r” fosse igual a “um” seria possível concluir que o fumo é a única
causa de câncer pulmonar?
d) Suponha-se que a equação estimada tenha sido obtida de uma amostra
aleatória de 50 fumantes. Teste a hipótese de que o coeficiente de
correlação seja igual a zero a uma significância de 1%.

14.4.15. Um estudo de duas safras forneceu as seguintes informações:


 Safra A: ̂
 Safra B: ̂ ,
Onde Y é a produção por alqueire e X é a quantidade de chuva (em
polegadas) no período da safra.
a) Se não houvesse chuva, estas duas equações poderiam ser usadas para
predizer a quantidade produzida nas duas safras? Por quê?
b) Qual das duas safras tira mais proveito do aumento das chuvas? Por quê?
c) Para qual das duas safras é possível predizer a produção com melhor
aproximação? Porquê?

14.4.16. Os dados abaixo foram obtidos de cinco fábricas diferentes de uma


determinada indústria.
Custo total (em milhões) 80 44 51 70 61
Produção (em toneladas) 12 4 6 11 8
a) Determine um intervalo de confiança de 90% para o custo fixo dessa
indústria.
b) Determine um intervalo de confiança de 95% para o custo marginal dessa
indústria.
c) Faça uma previsão, através de um intervalo, para o custo total médio
dessa indústria, para uma produção de 15t, utilizando uma confiança de
95%.
d) Faça uma previsão, através de um intervalo, para o custo total dessa
indústria, para uma produção de 15t, utilizando uma confiança de 95%.
e) É possível afirmar, com uma significância de 1%, que o custo total dessa
indústria está linearmente relacionado ao nível de produção?
f) Testar se o custo fixo pode ser considerado menor do que 30.

289 Filipe Mahaluça


g) Testar se o custo marginal pode ser considerado menor do que 5.

14.4.17. Os dados abaixo representam o número de rendas pessoais tributáveis e


o registro de automóveis de passageiros, em uma determinada região.
X=número de rendas tributáveis (em milhares) 192 80 162 246 310
Y=número de carros de passageiros (em milhares) 23 11 13 31 91

a) Verificar se existe correlação entre as duas variáveis.


b) Determine a equação de regressão de Y em função de X, caso o
coeficiente de correlação seja significativamente diferente de zero.
c) Faça uma previsão do número de carros se o número de contribuintes
tributáveis for de 500 mil.
d) Determine a equação de regressão de X em função de Y.

14.4.18. Em um processo químico, a quantidade de sólidos depositada pode


depender da concentração de um componente A que é adicionada à mistura.

Concent. 0 0 0 2 2 2 4 4 4 6 6 6 8 8 8
Quantid. 13.3 11.5 12.9 14.1 13.3 16.1 14.9 15.9 18.1 17.5 16.51 18.9 20.3 18.5 20.2

a) Ajuste um modelo de regressão linear.


b) Calcule a variança residual e a variança dos parâmetros e .
c) Construa um intervalo de confiança de 95% para a inclinação e
verifique a hipótese .
d) Calcule os intervalos de confiança para um valor médio e para um valor
individual de Y usando .
e) Faça a análise de variança e confirme a significância do modelo de
regressão linear.
f) Calcule o coeficiente de determinação e indique qual o significado técnico
desse coeficiente.

290 Filipe Mahaluça

View publication stats