Escolar Documentos
Profissional Documentos
Cultura Documentos
Regresso
Actividade de pesquisa
Alunos:
Joo Pedro B. C. Silva 1101485
Ian Downie -1102742
Ano Lectivo 2011/2012
1.
2.
3.
4.
5.
6.
7.
8.
Introduo
Regresso Linear Simples
Modelos de Regresso Polinomiais
Tcnicas de Anlise de Varincia Aplicadas Regresso
Tcnicas de Inferncia Aplicadas Regresso
Softwares de Regresso
Concluso
Referncias
1. Introduo
A anlise de relaes com recurso regresso uma ferramenta poderosa mas de fcil
compreenso e, por estas razes , utiliza-se a regresso em quase todas as reas de investigao
de forma a estudar interaces entre variveis em anlise.
Actividade 3-Regresso
2 | Pgina
o intercepto e os
2)
3) os
so independentes;
(homoscedasticidade).
Actividade 3-Regresso
3 | Pgina
y1 1
y 2 1
M M
y n 1
x1
x1
x2 x2 L
M M
xn xn L
x1 0 1
x 2 1 2
M M M
x n n n
[1.2]
Ajuste do Modelo
[1.3]
Chegamos ao mnimo da soma dos erros atravs da derivao de [1.3]. Disto, podemos concluir
^
X t X X tY
II.
[1.4]
A regresso mltipla (regresso com mais do que uma varivel independente) importante
porque permite que sejam controlados os efeitos de outras variveis X quando estamos a
investigar os efeitos de uma varivel especfica.
Por exemplo, num estudo de Deloitte 1 sobre a valorao de parques elicos, os investigadores
construram o seguinte modelo:
[1.5]
1
Actividade 3-Regresso
4 | Pgina
e com base neste modelo, conseguiram controlar os efeitos individuais que projectos em vrias
fases de desenvolvimento produziram no valor global das iniciativas empresariais.
III.
O
modelo
acima
demonstra
como
os
autores
do
estudo
aplicaram uma dummy
para discriminar entre
transaces antes e depois
da data especificada e
estudar se houve um
aumento no valor deste
tipo de ativo. O grfico
direita
demonstra
o
impacto da dummy em
que
a
linha
azul
representa o modelo de
regresso antes da data de
referncia e a linha verde depois da data. Os investigadores acharam que a reduo do valor dos
empreendimentos entre os dois perodos foi significante.
Um outro aspecto interessante neste modelo a interaco do dummy com uma das variveis
contnua; esta interaco reflete uma reduo no valor da transaces maiores e explica o fato
de as linhas no serem paralelas. Interaces entre variveis contnuas tambm podem ser
modeladas; no entanto, o investigador tem sempre de estar atento base terica do fenmeno
que quer estudar e a possibilidade de perder interpretabilidade de modelos com interaces
complexas.
Transformaes No-Lineares
Frequentemente a varivel dependente que est a ser modelado no obedece a distribuio
normal, o que provavelmente ter consequncias como a invalidao das distribuies das
Actividade 3-Regresso
5 | Pgina
Transformao
Modelo Novo
Aplicao
Logartmica
Z=Xb
enviesamento direita
Exponencial
Z=Xb
enviesamento esquerda
Potncia
Z=Xb
enviesamento direita e
esquerda (quando p>1)
Logstica
Z=Xb
IV.
Valores Aberrantes
Normalmente, quando h um valor que est muito longe da linha de regresso, obrigatrio
examinar a situao e verificar se o valor modifica ou no drasticamente o modelo.
Frequentemente, estes valores surgem de erros na amostragem e, apesar da informao perdida,
costuma ser melhor retir-los da regresso. No entanto, se se encontram vrios destes valores
agrupados, necessrio investigar mais profundamente a razo desta anomalia talvez indique
a omisso de uma varivel importante do modelo. No entanto, valores aberrantes podem conter
informao muito importante; por exemplo, no contexto do desenvolvimento de novos produtos
ou tecnologias, podem apresentar processos mais eficiente ou baratos.
V.
Multicolinearidade
6 | Pgina
VI.
Estas situaes costumam ter trs causas principais. A primeira um modelo mal especificado
que resulta em agrupamentos de erros que no so explicados pelo modelo, por exemplo a
funo postulada linear, mas os dados so polinomiais. A segunda a utilizao de uma forma
inapropriada para medir a varivel dependente. Um exemplo disso aplicar um modelo de
regresso linear quando a varivel Y no contnua mas discreta. A terceira a omisso de uma
varivel, o que poder ser resolvido com a incluso da varivel.
VII.
Generalizaes
Como foi abordado brevemente na ltima seco, muitas vezes a regresso linear no serve para
modelar a realidade com frequncia por causa da no satisfao das suposies deste tipo de
2
Willingness to Pay for Opt-In Offsets in the Voluntary Carbon Market (http://ekoeco.com/Willingness%20to%20Pay
%20for%20OptIn%20Offsets%20in%20the%20Voluntary%20Carbon%20Market.pdf)
Actividade 3-Regresso
Linha de regresso
7 |logstica
Pgina
regresso. Embora fiquem um pouco fora do mbito deste artigo, consideraremos de forma
sucinta agora apenas alguns mtodos de regresso para ultrapassar algumas dessas dificuldades.
Regresso logstica
A regresso logstica um modelo linear generalizado.
Muitas vezes a varivel dependente discreta e no
contnua, como a regresso linear simples pressupe.
Se se pretende um resultado da regresso que binrio
(0 ou 1) por exemplo, se uma pessoa ou um negcio
saudvel ou no a regresso logstica d-nos a
probabilidade de receber um dos dois possveis
resultados. A relao entre a probabilidade e a
varivel independente
pode ser descrita pela frmul:
[1.7]
.
Regresso Multivariada
A maior parte da regresses estudadas so univariadas, que significa que tem apenas uma
varivel dependente. A regresso multivariada uma extenso deste modelo para situaes em
que h mais do que uma varivel dependente.
Uma situao em que pode ser necessria recorrer regresso mulitvariada quando se sabe
que o erro da regresso correlacionado com o erro de uma outra regresso. Se no se
inclussem as variveis na regresso, significaria existir enviesamento por causa das variveis
omitidas e, consequente, uma perda de preciso nos coeficientes.
Nestas situaes, cria-se uma distribuio conjunta para a varivel independente, como
ilustrado na [1.8]:
[1.8]
Srie temporal
A regresso de srie temporal a observao repetida de uma varivel independente ao longo do
tempo. Frequentemente, a tcnica utilizada em disciplinas como a Economia, nas quais um
objectivo estudar as transformaes em relaes com a passagem do tempo. Um exemplo
disso as alteraes observadas no preo de uma mercadoria.
8 | Pgina
relao entre variveis, poucos dados ou dados ausentes apresentam outros desafios para o
investigador.
Existem vrios outros modelos e adaptaes do modelo de regresso linear simples, mas a base
terica sempre a regresso linear. O factor mais importante, antes de escolher as tcnicas de
regresso mais adequadas, ter em conta o tipo de dados que vo ser analisado e as
consideraes tericas da disciplina na qual a regresso vai ser aplicada. Uma outra adaptao
da regresso linear simples o modelo de regresso polinomial que ser considerado no
prximo captulo.
A regresso polinomial uma tcnica estatstica que nos permite prever e avaliar o valor de uma
varivel com base em expresses polinomiais. Na regresso polinomial, a curva de ajuste dada
por uma funo polinomial.
Graficamente, a regresso polinomial caracteriza-se pela aproximao aos pontos (xi,yi) atravs
de curvas. As curvas podero ter as seguintes formas:
Polinmio de grau 2
Polinmio de grau 3
Actividade 3-Regresso
Polinmio de grau 4
9 | Pgina
Polinmio de grau 5
Extrapolao
O grau a utilizar dever ser o menor possvel. No entanto, o modelo polinomial poder estar
desadequado para alguns valores de da observao. O aumento do grau, em muitos dos casos,
no ser a soluo adequada. Um procedimento eficaz, ser a partio da zona de dados
observados em subzonas em que se far uma aproximao por um modelo polinomial diferente.
Y 0 1 x 2 x 2 ... n x m ,
em que:
i) Y a varivel aleatria dependente (ou de resposta);
ii) xi so as variveis independentes ou preditoras com i=1,,n;
iii) i so os coeficientes de regresso com i=1,,n.
Actividade 3-Regresso
10 | P g i n a
1 x1
y1
y
2
0
1
x12 x1m
1
2
x22 x2
xn2 xnm n n
1 x2
y n 1 xn
Y 0 1 x1 2 x 2 11 x12 22 x 22 12 x1 x 2
2
2
Se fizermos x 3 x1 , x 4 x 2 , x 5 x1 x 2 , 3 11 , 4 22 e 5 12 , ento a equao
Y 0 1 x1 2 x 2 3 x3 4 x 4 5 x 5 ,
que um exemplo de um modelo de regresso linear mltipla. Ento, podemos abordar a
regresso polinomial como um caso particular da regresso linear mltipla.
A forma matricial de uma equao de um modelo de regresso linear mltipla :
y1 1 x11
y
2 1 x21
y n 1 xn1
x12
x1k
x22 x 2 k
x n 2 x nk
0 1
1 2
n n
Isto ,
Y X
i
em que cada erro aleatrio tem uma distribuio normal e a estimao de considera-se nula.
Actividade 3-Regresso
11 | P g i n a
A estimao dos parmetros j feita atravs do mtodo dos mnimos quadrados e tem da
seguinte forma:
X t X X tY
^
yX
E os resduos so obtidos atravs da expresso e Y Y .
SomaQuadrados Re gresso
SomaQuadradosTotal
Ou
SomaQuadrados Re siduos
SomaQuadradosTotal
em que,
Y Y
y
i 1
y
i 1
X Y
t
t
t t
Soma dos quadrados dos resduos (SQRE) = Y Y X Y .
Actividade 3-Regresso
12 | P g i n a
iii) Quando o valor de SQRE tende para o valor de SQT, ento, o quociente SQRE/SQT tende
para 1, logo, R tende para zero. Isto indica um modelo estimado no satisfatrio;
iv) Quando SQRE tende para zero, ento, SQRE/SQT tende para zero, logo, R tende
para 1. O que indica um modelo satisfatrio.
No caso da regresso mltipla, o coeficiente de determinao dado pela raiz quadrada de R2,
ou seja R. Na regresso mltipla, R tambm assume valores no intervalo [0,1].
O coeficiente R mede a correlao linear entre Y e Y .
Yi Y (Yi Y ) (Yi Yi )
Elevando cada componente da expresso anterior ao quadrado e somando para todo o
conjunto de observaes, obtemos:
Actividade 3-Regresso
13 | P g i n a
Y
n
i 1
2
Y (Yi Y ) 2 (Yi Yi ) 2
n
i 1
i 1
A SQT tem n-1 graus de liberdade; um grau de liberdade perdido devido a restrio de
que a soma dos desvios em torno da mdia zero. De outra forma: um grau de liberdade
perdido porque a mdia da amostra usada para estimar a mdia populacional.
A SQE tem n-2 graus de liberdade. Dois graus de liberdade so perdidos pois dois
parmetros so estimados para obter Yi .
A SQR tem 1 grau de liberdade. Dois g.l. esto associados com a regresso (2
parmetros); um deles perdido devido a restrio: (Yi Y ) 0.
A soma de quadrados dividida pelos graus de liberdade chamada de quadrado mdio.
QMR
SQR
1
QME
QMT
SQE
( n 2)
SQT
( n 1)
Soma de quadrados
Graus de liberdade
Regresso
SQR
Erro
SQE
n-2
Total
SQT
n-1
Quadrado mdio
SQR/1
SQE/(n-2)
H 0 : 1 0
H 1 : 1 0
O teste a utilizar F
.
QuadradosMdios Re siduos QME
Uma motivao, baseada nas esperanas dos quadrados mdios sugere que valores grandes de F
conduzam a H1 e valores de F prximos de 1 conduzam a H0.
Logo, rejeitamos H0 com um nvel de significncia se F F(1 ,1, n 2 ) .
14 | P g i n a
Soma de quadrados
Graus de liberdade
Regresso
SQR
Erro
SQE
n-k-1
Total
SQT
n-1
Quadrado mdio
SQR/k
SQE/(n-k-1)
Para determinar se existe uma relao linear entre Y e X=x1,x2,,xk colocamos as seguintes
hipteses
H 0 : 1 2 ... k 0
O teste F o seguinte F
Vs
H 1 : j 1,..., k : j 0
QMR
e H 0 ser rejeitada se F Fk , n k 1
QMRE
Soma de
quadrados
Graus de
liberdade
Quadrado
mdio
Valor de P
278.363894
5.92982E-41
Regresso
4774717.752
1193679.438
Erro
287309.2526
67
4288.1978
Total
5062027.005
71
15 | P g i n a
[5.3] e [5.4]
sendo
o erro padro
. A estatstica de teste vem da distribuio t, com
n - k - 1 graus de liberdade. Se a estatstica de teste demasiado grande (positiva ou negativa),
rejeita-se a
e a varivel fica no modelo. Se no pudermos rejeitar
, a varivel ficar no
modelo. No entanto, no que diz respeito a tomada de deciso acerca de qual variveis devero
ficar num modelo, poderia surgir problemas se se escolhesse esta forma de as testar.
Actividade 3-Regresso
16 | P g i n a
Adicionar uma varivel ao modelo de regresso sempre causa um aumento na soma dos
quadrados da regresso e um decrscimo na soma dos quadrados do erro. Entretanto, a adio
de variveis regressoras tambm aumenta a varincia do valor ajustado . Por isso, devemos ter
cuidado para incluir somente variveis regressoras que realmente explicam a varivel resposta.
Inferncia de Predio
Pode-se inferir tambm valores que a varivel eventualmente vir a assumir. Por exemplo,
conhecendo os valores das variveis independentes, pode-se inferir o valor mdio da varivel
dependente ou, especificando os valores das variveis independentes, a predio do modelo para
a varivel dependente.
Contudo, os valores que a varivel independente possa vir a assumir nunca so exactamente os
valores que foram previstos. Por esta razo, vantajoso construir intervalos de confiana para
que se possa ter em conta a variao a volta da mdia. No caso de predio de uma observao,
chamam-se intervalos de predio.
Actividade 3-Regresso
17 | P g i n a
No entanto, o erro nesta regresso ser maior do que na [5.6] porque existe o erro de [5.8] e o de
tirar y da distribuio normal; consequentemente, h um 1 adicional em baixo da raiz
quadrado. O intervalo de predio :
[5.10]
e
[5.11]
6. Softwares de Regresso
Devido sua popularidade, existem vrios softwares que so capazes de realizar regresses.
Escolhemos considerar alguns programas que so mais comuns e outros mais especializados de
forma a dar uma ideia da diversidade de formatos em que a regresso pode ser realizada. Apesar
de no ser abordado, o SAS o SYSTAT destacam-se como ferramentas importantes de
regresso.
I.
Actividade 3-Regresso
18 | P g i n a
qualquer operao necessria nele. Outra vantagem a facildade com qual o utilizador aprende.
Ainda que a aprendizagem demore mais do que outros softwares inicialmente, a similaridade
entre os comandos faz com que seja mais fcil adicionar mais competncias ao mdio prazo.
II.
SPSS
Ao contrrio do R, que utiliza comandos e objectos, o meio para chegar aos comandos no SPSS
atravs de janelas que guiem o utilizador pela construo da regresso. Primeiro, no caso de
uma regresso linear, selecionam-se as variveis e depois as formas de exibir os resultados;
podem-se escolher ver os coeficientes dos regressores, intervalos de confiana, valores
aberrantes, o valor de R2, um quadro ANOVA, e as estatsticas descritivas. Tambm, dentro
deste ambiente, h uma janela que permite a construo de grficos como, por exemplo, dos
erros de forma a verificar a existncia de problemas como no-normalidade. Transformaes
tambm so facilmente efecutadas neste ambiente; a janela compute exibe as opes para as
variveis contnuas e recode para as variveis discretas.
O SPSS um dos programas mais utilizados para a regresso. Apesar de poder faltar um pouco
da flexibilidade que o R tem ao nvel de programao, o SPSS uma boa escolha para quem
quiser comear a fazer regresso sem aprender a programar.
III.
MINITAB
IV.
Excel
19 | P g i n a
Apesar de ter benefcios bvios como ser um dos programas mais utilizados, no que diz respeito
regresso, o Excel provavelmente no a melhor escolha. Existem vrias razes por isso: em
primeiro lugar, no produz coeficientes padronizados; segundo, o Excel no calcula estatsticas
de diagnstico nem produz grficos de diagnstico o utilizador teria de fazer isso sozinho;
terceiro, no fcil expandir as suas funes para as que outros programas tm nem construir
regresses que so diferentes da regresso padro do software.
Em resumo, os softwares como o Minitab e o SPSS apresentam-se como boas solues para
regresses mais padronizadas, mas se o utilizador pretende desenvolver projectos altamente
especificados, o R pode ser a escolha mais adequado. Adicionalmente, o facto que o R
disponvel gratuitamente na internet torna-o ainda mais aliciante.
7. Concluso
Devido s limitaes de tempo e espao, este artigo apenas apresenta alguns aspectos-tcnicos
mais fundamentais para poder realizar uma regresso com xito. No entanto, apesar de teremos
percebido a importncia e o poder da anlise por regresso, ficmos conscientes das suas
limitaes e possveis abusos - sobretudo no estudo de fenmenos sociais. As suas descries
podem ser demasiadamente simplificadas; as predies podem no corresponder realidade e as
inferncias podem ser deduzidas de modelos errados.
Mesmo aceitando estas limitaes da regresso, ao nvel da aprendizagem, a oportunidade de
investigar a regresso deu aos autores o desejo de aprofundar os seus conhecimentos ainda mais
devido ao facto que reconhecem o valor da regresso como uma ferramenta potente, entre
outras, para interpretar a realidade.
8. Bibliografia
Regression by Example, S. Chatterjee e A.S. Hadi, John Wiley & Sons Inc, 4th Edition, 2006
Design and Analysis of Experiments, D.C. Montgomery, John Wiley & Sons Inc, 5th Edition,
2001
http://www.princeton.edu/~slynch/soc504/simple_reg.pdf
http://www.princeton.edu/~slynch/soc504/simple_reg2.pdf
http://www.princeton.edu/~slynch/soc504/mult_reg.pdf
http://www.princeton.edu/~slynch/soc504/mult_reg2.pdf
http://www.princeton.edu/~slynch/soc504/expanding_ols.pdf
http://www.princeton.edu/~slynch/soc504/outliers.pdf
http://www.princeton.edu/~slynch/soc504/multicollinearity.pdf
Actividade 3-Regresso
20 | P g i n a
http://www.princeton.edu/~slynch/soc504/nonnormal.pdf
http://www.princeton.edu/~slynch/soc504/altest.pdf
http://www.princeton.edu/~slynch/soc504/generalizations.pdf
(todos consultado no dia 15 de Dezembro)
http://statmaster.sdu.dk/courses/st111/module05/module.pdf (consultado dia 20 de Dezembro)
http://www.stat.berkeley.edu/~thornton/STAT20/lec18slides4.pdf (consultado dia 24 de
Dezembro)
http://www.webpages.uidaho.edu/~chrisw/stat401/cireg1s.pdf (consultado dia 24 de Dezembro)
http://www.jeremymiles.co.uk/regressionbook/extras/appendix2/R/
http://www.jeremymiles.co.uk/regressionbook/extras/appendix2/spss9.0/index.html
http://sites.stat.psu.edu/~lsimon/stat462/fa02/minitab/regression.htm, http://www.scientificcomputing.com/scwjulaug04review_minitab_systat.html
http://www.jeremymiles.co.uk/regressionbook/extras/appendix2/excel/index.html
(todos consultado no dia 5 de Janeiro)
Regression Analysis: A Constructive Critique (prefcio), R.A Berk, 2003
(http://escholarship.org/uc/item/8db1942z) (consultado dia 6 de Janeiro)
Actividade 3-Regresso
21 | P g i n a