Escolar Documentos
Profissional Documentos
Cultura Documentos
Guimares
Anlise de Regresso
1. Introduo
LINEAR NO LINEAR
Se uma relao linear vlida para sumarizar a dependncia observada entre duas
variveis quantitativas, ento a equao que descreve esta relao dada por:
Y=a+bX
Esta relao linear entre X e Y determinstica, ou seja, ela afirma que todos os
pontos caem exatamente em cima da reta de regresso. No entanto este fato raramente ir
ocorrer, ou seja, os valores observados no caem todos exatamente sobre esta linha reta.
Existe uma diferena entre o valor observado e o valor fornecido pela equao. Esta
diferena denominada erro e representada por , uma varivel aleatria que quantifica
a falha do modelo em ajustar-se aos dados exatamente. Tal erro pode ser devido ao efeito,
dentre outros, de variveis no consideradas e de erros de medio. Incorporando esse erro
equao acima temos:
Y = a + bX +
que denominado modelo de regresso linear simples. a e b so os parmetros do modelo.
A varivel X, denominada varivel regressora, explicativa ou independente,
considerada uma varivel controlada pelo pesquisador e medida com erro desprezvel. J Y,
denominada varivel resposta ou dependente, considerada uma varivel aleatria, isto ,
existe uma distribuio de probabilidade para Y em cada valor possvel de X. muito
freqente, na prtica, encontrarmos situaes em que Y tenha distribuio Normal. Este
um dos principais pressupostos para aplicao desta tcnica.
Assim, a taxa de aluguel inicia com o preo de R$ 8,00 e vai aumentando medida
que a distncia percorrida aumenta. Assim, se fosse percorrida uma distncia de 100 km, a
taxa de aluguel seria de 8 + 0,15 x 100 = R$ 23,00. No entanto, como essa equao foi
obtida baseada em dados de automveis de diversas marcas certamente haver uma
variao no preo, por causa de diversos outros fatores. Assim, essa equao ter uma
margem de erro, que devida a esses inmeros fatores que no foram controlados.
Exemplo 2: Um psiclogo investigando a relao entre o tempo que um indivduo leva para
reagir a um certo estmulo e sua idade obteve os seguintes resultados:
Tabela 1: Idade (em anos) e tempo de reao a um certo estmulo (em segundos)
140
130
120
TEMPO
110
100
90
80
15 20 25 30 35 40 45
IDADE
Y = 80,5 + 0,9X
TEMPO
110
100
90
80
15 20 25 30 35 40 45
IDADE
Exemplo 3:
Uma certa pea manufaturada por uma companhia, uma vez por ms, em lotes que variam
de tamanho de acordo com as flutuaes na demanda. A tabela abaixo contm dados sobre
tamanho do lote e nmero de horas gastas na produo de 10 recentes lotes produzidos sob
condies similares. Estes dados so apresentados graficamente na figura 4, tomando-se
horas-homem como varivel dependente ou varivel resposta (Y) e o tamanho do lote
como varivel independente ou preditora (X).
200
150
HORAS
100
50
0
0 20 40 60 80 100
TAMANHO DO LOTE
A figura sugere claramente que h uma relao linear positiva entre o tamanho do
lote e o nmero de horas, de modo que, maiores lotes tendem a corresponder a maiores
nmeros de horas-homem consumidas. Porm, a relao no perfeita, ou seja, h uma
disperso de pontos sugerindo que alguma variao no nmero de horas no dependente
do tamanho do lote. Por exemplo, dois lotes de 30 unidades (1 e 8) demandaram
quantidades um pouco diferentes de horas. Na figura foi traada uma linha (reta) de
relacionamento descrevendo a relao estatstica entre horas e tamanho do lote. Ela indica a
tendncia geral da variao em horas-homem quando h trocas no tamanho do lote.
Observa-se que grande parte dos pontos da figura no cai diretamente sobre a linha
de relacionamento estatstico. A disperso dos pontos em torno da linha de relacionamento
representa a variao em horas que no associada ao tamanho do lote, e que usualmente
considerada aleatria. Relaes estatsticas so geralmente teis, mesmo no tendo uma
relao funcional exata.
Com base nos n pares de observaes (y1 ,x1) , (y2,x2) ,... , ( yn, xn) , o mtodo de
estimao por MQO consiste em escolher a e b de modo que a soma dos quadrados dos
erros, i (i=1 ,..., n), seja mnima.
n n
SQ = i2 = ( yi a bX i )
i =1 I 1
a = y bx
X i
= 600 Y i
= 2150 n = 20 X Y
i i = 65400
2
X = 30 Y = 107,5 X i = 19000
X i = 500 Y i = 1100 n = 10 X Y
i i = 61800
2
X = 50 Y = 110 X i = 28400
b=
x y n y x = 61800 10.110.50 = 6800 = 2
i i
2 2
x nx i
2 28400 10.(50) 3400
a = y 1 x = 110 2.50 = 10
Assim, a equao de regresso linear entre X e Y ser dada por:
Y = 10 + 2 X +
Obtendo a reta de regresso com ajuda da planilha Excel, teremos que selecionar a opo
REGRESSO no mdulo de Anlise de dados (em ferramentas):
Para verificar a adequao do modelo aos dados, algumas tcnicas podem ser
utilizadas. A anlise de varincia da Regresso uma das tcnicas mais usadas. Assim,
podemos analisar a adequao do modelo pela ANOVA da regresso a qual geralmente
apresentada como na tabela abaixo:
Onde:
Exemplo 2:
n ) n
SQreg = (Yi y ) 2 = (80,5 + 0,9 xi 107,5) 2 = 810
i =1 i =1
Para obter a soma de quadrados acima, deveremos substituir em xi todos os valores
de Idade da tabela 1.
n n
SQtotal = ( yi y ) 2 = ( yi 107,5) 2 =1373
i =1 i =1
Para obter a soma de quadrados acima, deveremos substituir em yi todos os valores
de tempo de reao da tabela 1.
Exemplo 3:
n ) n
SQreg = (Yi y ) 2 = (10 + 2 xi 110) 2 = 13600
i =1 i =1
Para obter a soma de quadrados acima, deveremos substituir em xi todos os valores
do tamanho do lote da tabela 2.
n n
SQtotal = ( yi y ) 2 = ( yi 107,5) 2 =13660
i =1 i =1
Para obter a soma de quadrados acima, deveremos substituir em yi todos os valores
de nmero de horas gastas da tabela 2.
u = ( y Y ) 2
n2
u = (
S y2 1 r 2 )
n
(y y )
onde S 2
y = i =1
n
O erro padro pode ser usado para estabelecer um intervalo de predio para a
varivel dependente, dado um valor especfico da varivel independente.
Uma vez que o erro padro de estimao est baseado em dados de amostra,
apropriado o uso da distribuio t de Student com n-2 graus de liberdade. Assim, um
intervalo de predio para a varivel dependente Y, em anlise de regresso simples :
^
[Y t n 2 ; / 2 . u ]
^
[ Y t n 2 ; / 2 . u ] = [ 112 2 ,10 . 6 , 68 ] = [97 , 96 ; 126 , 03 ]
Ou seja, para uma pessoa com 35 anos, o tempo de reao predito estaria entre
97,96 e 126,03 segundos, com 95% de confiana.
E o intervalo de predio, com 95% de confiana, para um valor predito de Y= 110 seria:
^
[Y t n 2 ; / 2 . u ] = [110 2 , 31 . 3 , 3 ] = [102 , 37 ; 117 , 62 ]
Ou seja, para um lote de tamanho 50, seriam necessrias de 102,37 a 117,62 horas,
com 95% de confiana.
6. Anlise de Resduos
A regresso mltipla envolve trs ou mais variveis, ou seja, uma nica varivel
dependente, porm duas ou mais variveis independentes (explicativas).
A finalidade das variveis independentes adicionais melhorar a capacidade de
predio em confronto com a regresso linear simples. Mesmo quando estamos
interessados no efeito de apenas uma das variveis, aconselhvel incluir as outras capazes
de afetar Y, efetuando uma anlise de regresso mltipla, por 2 razes:
a) Para reduzir os resduos. Reduzindo-se a varincia residual (erro padro da
estimativa), aumenta a fora dos testes de significncia;
b) Para eliminar a tendenciosidade que poderia resultar se simplesmente
ignorssemos uma varivel que afeta Y substancialmente.
Uma estimativa tendenciosa quando, por exemplo, numa pesquisa em que se deseja
investigar a relao entre a aplicao de fertilizante e o volume de safra, atribumos
erroneamente ao fertilizante os efeitos do fertilizante mais a precipitao pluviomtrica.
O ideal obter o mais alto relacionamento explanatrio com o mnimo de variveis
independentes, sobretudo em virtude do custo na obteno de dados para muitas variveis e
tambm pela necessidade de observaes adicionais para compensar a perda de graus de
liberdade decorrente da introduo de mais variveis independentes.
a = intercepto do eixo y;
bi = coeficiente angular da i-sima varivel;
k = nmero de variveis independentes.
Enquanto uma regresso simples de duas variveis resulta na equao de uma reta, um
problema de trs variveis resulta um plano, e um problema de k variveis resulta um
hiperplano.
Na regresso mltipla:
bi = aumento em Y se Xi for aumentado de 1 unidade, mantendo-se constantes todas as
demais variveis Xj.
extrado de http://www.erudito.fea.usp.br/PortalFEA/
8. Atividades de Aplicao
Temperatura (oC) 5 10 15 20 25
Encargos (dlares) 20 17 13 11 9
(a) Determine, usando o mtodo dos mnimos quadrados, a respectiva reta de regresso
e represente-a no diagrama de disperso.
(b) Quantifique a qualidade do ajuste obtido e interprete.
(c) Determine um intervalo de confiana a 95% para os encargos mdios com gs
propano num dia em que a temperatura ambiente de 17oC.
(a) Estime, usando o modelo de regresso linear, o tempo esperado de entrega para uma
distncia de 1050 Km.
(b) Comente a afirmao o tempo de entrega explicado em aproximadamente 94% pela
distncia percorrida.