Você está na página 1de 7

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL

FACULDADE DE MATEMÁTICA – DEPTº DE ESTATÍSTICA


DISCIPLINA: ESTATÍSITCA APLICADA Á ADM II

ANÁLISE DE REGRESÃO LINEAR E CORRELAÇÃO LINEAR

REGRESSÃO LINEAR

1. Objetivos e hipóteses da Análise de Regressão


O objetivo principal da análise de regressão é predizer o valor da variável
dependente Y dado que seja conhecido o valor da variável independente X.
A equação de regressão é a fórmula algébrica pela qual se determina Y.
A Análise de Regressão Simples diz respeito à predição de Y por uma única
variável X.
A Análise de Regressão Múltipla diz respeito à predição de Y por mais de uma
variável X ( x1, x2, ....).

As hipóteses gerais são:


1. Y é uma variável aleatória obtida de uma amostra;
2. Y e X estão associadas linearmente;
3. homocedasticidade – as variâncias das distribuições condicionais de Y dado X são todas
iguais.
Se em conjunto com a análise de regressão, utiliza-se a estimação por
intervalo, é necessária a hipótese de que as distribuições condicionais de Y dado X são
todas distribuídas normalmente para os valores da população.

2. Diagrama de dispersão
É um gráfico no qual cada ponto representa um par de valores (x;y). Os
valores de X são colocados no eixo horizontal e Y no vertical.

Transformação Linear – se a relação ente X e Y for curvilínea, usa-se logaritmos para


transforma-la em linear e aplicar a Análise de Regessão Linear. Para voltar à escala original
usa-se o antilogarítmo.

Se o diagrama indica uma relação linear, então ajusta-se aos dados uma linha
que seja a melhor função ajustante.

A localização precisa desta linha é determinada pelo Método dos Mínimos


Quadrados (MMQ).
Exemplos de diagramas de dispersão:
3. Método dos Mínimos Quadrados (MMQ)

A fórmula geral na população é

Y    x  u

onde

  coeficiente linear ou intercepto-Y;


  coeficiente angular;
u = variações aleatórias.

A fórmula geral na amostra é

Ŷ  a  bx

onde a= estimador do coeficiente linear;


b= estimador do coeficiente angular;

Pelo MMQ, a reta resultante tem duas características importantes:


1. A soma dos desvios verticais dos pontos em relação a reta é zero.
2. A soma dos quadrados desses desvios é mínima.

As fórmulas de cálculo para a e b são:


sxy
b
sxx
a  y  b.x
 x. y
sxy   xy 
n
  x 2

sxx   x  2

n
  y 2

syy   y  2

n
A estimação de Y deve ser feita apenas dentro do intervalo de variação de X originalmente
amostrado. A equação fornece a base de uma estimativa por ponto.

4. Erro padrão de Estimação (predição) e Intervalos de Predição


O erro padrão de estimação é um desvio-padrão condicional, na medida em que indica o desvio-
padrão da variável Y dado um valor específico de X.
O erro padrão de estimação é

ˆ u   ( y  Yˆ )
n2
Divide-se por n-2 pois perde-se dois graus de liberdade com as estimativas de  e .
Fórmula alternativa

ˆ u  y 2
 a  y  b x. y
n2
Para construir um intervalo de predição para Y dado X, usa-se ̂ u e duas hipóteses básicas:
1. a dispersão de y é a mesma em todos os pontos da reta;
2. a cada ponto, os valores de y são normalmente distribuídos em relação à reta de regressão.

5.Intervalos de Predição para a variável dependente y


^
[Y  tn2; / 2 .ˆ u ]
6. Intervalo de Predição para a declividade 
O erro-padrão de b é
ˆ u
ˆ b 
x
2
2
 nX
O parâmetro  pode ser estimado através do intervalo de predição
b  t n  2 ; / 2
.ˆ b

Se o valor zero estiver no intervalo, não há declividade.
7. Teste de Hipótese para 

H0:  =  0
H1:    0 ou  >  0 ou  <  0

b  0
tc  ~ t n  2 gl
ˆ b

CORRELAÇÃO LINEAR DE PEARSON

1.Objetivos e Hipóteses

A análise de correlação mede o grau de relacionamento entre as variáveis.


Estudaremos a Análise de Correlação Simples, a qual diz respeito à medida entre X e Y.
Hipóteses:
a. a relação entre X e Y é linear;
b. ambas são variáveis aleatórias;
c. homocedasticidade;
d. as distribuições condicionais de Y dado X têm distribuição Normal;
e. as duas distribuições, de X e de Y, têm distribuição Normal na população.

2.O coeficiente de Determinação


 2 - coeficiente de determinação na população
r2 - coeficiente de determinação na amostra

O coeficiente de determinação para a amostra é:


a  y  b  xy  n( y ) 2

Amostra: r 
2

 y  n( y )
2 2

Tem uma leve tendenciosidade positiva.


Interpretação: é a proporção da variância de Y explicada pelo conhecimento da
variação de X ( e vice-versa).

3. O coeficiente de correlação

Muito embora o coeficiente de determinação seja relativamente fácil de


interpretar, ele não pode ser testado estatisticamente. Contudo, a raiz quadrada do
coeficiente de determinação, que é o coeficiente de correlação (r), pode ser testada
estatisticamente, pois está incluída em uma estatística de teste que é distribuída
segundo uma distribuição t, quando a correlação populacional =0.

Além disso, o sinal aritmético associado com o coeficiente de correlação, que é
sempre o mesmo sinal associado com  na equação de regressão, indica a direção da
relação X e Y (positivo=direta; negativo=inversa). Por tais razões o coeficiente de
correlação é mais freqüentemente usado como medida de relação entre as variáveis.
O coeficiente de correlação para dados populacionais é:
População:   
2

O coeficiente de correlação para dados amostrais é:


Amostra: r r 2

Pode-se elevar o coeficiente de correlação ao quadrado para se obter o coeficiente


de determinação.
Fórmula Alternativa para o coeficiente de correlação amostral,

sxy
r
sxx . syy
que não requer o conhecimento dos coeficientes a e b da equação de regressão. O
sinal do coeficiente é obtido diretamente, sem necessidade de observar ou calcular a
declividade da linha de regressão.
O coeficiente amostral de correlação r tem uma leve tendenciosidade como um
estimador de
 .

4. Significância do coeficiente de correlação


Hipóteses:
H0 :   0 H0 :   0 H0 :   0
H1 :   0 ou
H1 :   0 ou
H1 :   0
Se a hipótese nula, ao nível de significância  , for rejeitada podemos concluir que
efetivamente existe uma relação entre as variáveis.
A estatística de teste é

r n2
tc 
1 r2 com n-2 graus de liberdade na tabela t .

Exercícios de CORRELAÇÃO E REGRESSÃO LINEAR

1- Abaixo você encontra uma lista de situações de pesquisa. Para cada uma delas indique se o
apropriado é proceder uma análise de regressão ou uma de correlação. Justifique sua
indicação.
a) 0 rendimento escolar na Universidade favorece o êxito profissional?
b) 0 tempo de treinamento influi no desempenho profissional?
c) O objetivo e estimar o tempo necessário a consecução de certa tarefa usando, para tanto, o
tempo
de treinamento do executor.
d) 0 objetivo e utilizar o preço da carne de gado para estimar a quantidade de procura desse
bem.
e) A quantidade procurada de carne de gado depende do preço da carne de porco?

2- Uma cadeia de supermercados financiou um estudo dos gastos realizados por família de
quatro
pessoas com renda mensal líquida entre oito e vinte salários mínimos. A pesquisa levou a
equação de
regressão Y  = -1,2 + 0,4 X, onde Y representa a despesa mensal estimada ( através do
modelo) e X a
renda mensal líquida expressa em numero de salários mínimos.
a) Estime a despesa mensal de uma família com renda líquida mensal de 15 salários mínimos.
b) A equação parece sugerir que uma família com renda mensal de 3 salários mínimos nada
gasta com
mercadorias. O que você tem a dizer sobre isso ?
c) A equação em questão serve para estimar a despesa mensal de uma família de 5 pessoas
com
renda líquida de 12 salários mínimos ? Justifique.

3- Para cada caso abaixo, estime a correspondente reta de regressão:


a) n  20,  X  200,  Y  300,  XY  6200,  X 2  3600.
2
b) n  36,  X  7,2,  Y  37,  XY  3100,  X  620.

4-Para estudar a poluição de um rio, um cientista mediu a concentração de um determinado


composto orgânico (Y) e a precipitação pluviométrica na semana anterior (X):
X Y
0,91 0,10
1,33 1,10
4,19 3,40
2,68 2,10
1,86 2,60
1,17 1,00

a)Existe alguma relação entre o nível de poluição e a precipitação pluviométrica?


Informa-se que r= 0,89. Teste sua significância, ao nível de 5%. ,

5- Procurando quantificar os efeitos da escassez de sono sobre a capacidade de resolução


de problemas simples, um agente tomou ao acaso 10 sujeitos e os submeteu a experimentação.
Deixou-os sem dormir por diferentes números de horas, após o que solicitou que os mesmos
resolvessem os itens
"contas de adicionar" de um teste. Obteve, assim, os seguintes dados:
No de Horas sem
erros - dormir - X
Y
8 8
6 8
6 12
10 12
8 16
14 16
14 20
12 20
16 24
12 24

a)Calcule o coeficiente de correlação linear de Pearson e teste a sua significância ao nível de


1%.
b) Determine a equação de regressão linear. Teste a existência da regressão, ao nível de 1 % e
5%.

6- A tabela abaixo mostra a freqüência do pulso médio em diferentes períodos etários:

Idad Pulso
e
2 112
4 104
6 100
8 92
10 88
12 86
14 84
16 80

a)Verifique se existe correlação significativa entre as variáveis com um nível de significância


de 5%.
b) Determine a equação de regressão linear. Teste a existência da regressão, ao nível de 1 % e
5%.

7- Há suspeitas de que a qualidade do remédio depende do tempo de maturação despendido em


sua produção. Para verificar isso, um laboratório farmacêutico coletou os seguintes dados:

Tempo-X Qualidade -
Y
1 23
2 31
3 40
4 46
5 52
6 63

a) Represente graficamente estes pontos.


b) Calcule o coeficiente de correlação linear de Pearson.
c) Ajuste os dados através de uma reta de mínimos quadrados. ( modelo linear )
d) Determine o coeficiente de explicação para a reta.
e) Teste a existência da regressão ao um nível de significância de 5%.

8- Em certa população, o coeficiente de correlação entre X e Y é –0,80.


a) O que isto significa?
b) Que percentual da variância de Y não é explicada pelas variações de X?

Você também pode gostar