Escolar Documentos
Profissional Documentos
Cultura Documentos
ANÁLISE DE REGRESSÃO
Osvaldo Loquiha
osvaldo.loquiha@uem.ac.mz
Reinaldo Zezela
rzezela@gmail.com
Conteúdos
Parte 1: Regressão com duas variáveis
1 Capı́tulo I: Modelo de Regressão Linear Simples
2 Capı́tulo II: Inferência nos Modelos de Regressão o Linear
Parte 2: Regressão com múltiplas variáveis
3 Capı́tulo III: Modelos de Regresssão Linear Múltipla
4 Capı́tulo IV: Diagnósticos e Medidas de Correcção
Competências especı́ficas
No fim da disciplina o estudante deve ser capaz de:
1 Construir modelos de regressão linear e não linear simples e múltiplos;
2 Testar a validade dos coeficientes dos modelos de regressão;
3 Fazer previsões com base nos modelos estimados.
Competências especı́ficas
No fim da disciplina o estudante deve ser capaz de:
1 Construir modelos de regressão linear e não linear simples e múltiplos;
2 Testar a validade dos coeficientes dos modelos de regressão;
3 Fazer previsões com base nos modelos estimados.
Competências especı́ficas
No fim da disciplina o estudante deve ser capaz de:
1 Construir modelos de regressão linear e não linear simples e múltiplos;
2 Testar a validade dos coeficientes dos modelos de regressão;
3 Fazer previsões com base nos modelos estimados.
Competências especı́ficas
No fim da disciplina o estudante deve ser capaz de:
1 Construir modelos de regressão linear e não linear simples e múltiplos;
2 Testar a validade dos coeficientes dos modelos de regressão;
3 Fazer previsões com base nos modelos estimados.
Avaliações
Três formas de avaliar, a considerar:
1 Avaliação individual: 40% peso
I Uma avaliação: Teste individual → semana de 19-23/07
2 Avaliação em grupo: 60% peso
I Avaliações periódicas baseadas em trabalhos práticos realizados em
grupo, com apoio de softwares estatı́sticos.
3 Exame normal → ?
I Exame de recorrência →?
Livros de referência
Kutner, M.H, Nachtscheim, C.J, Neter, J. e Li, W. (2005).Applied
Linear Statistical Models. 5th edition, New York: McGraw Hill.
Outros livros
von Eye, A. e Schuster, C. (1998). Regression Analysis For Social
Sciences.San Diego: Academic Press
Pacotes estatı́sticos
1 R: uma linguagem de programação e software livre e de código aberto
para computação estatı́stica e gráficos:
I pode ser baixado gratuitamente em https://www.r-project.org/.
Parte 1
Modelo de Regressão
Análise de Regressão
É uma metodologia estatı́stica que utiliza a relação estatı́stica entre duas
ou mais variáveis quantitativas, de forma que uma variável
(variável resposta ) possa ser estimada ou prevista atráves doutra(s)
variável (is) (variável(is) explicativa(s)).
Exemplos
Exemplo de aplicações incluem:
As vendas de um produto podem ser previstas utilizando a relação
entre as vendas e o volume de gastos com publicidade;
Relação funcional
Relação funcional entre duas (ou mais) variáveis é expressa por uma
fórmula matemática:
Y = f (X)
onde f (.) é uma função conhecida.
Exemplos
Y = 2X ou Y = X 2
Dado X, Y é determinado (conhecido) completamente.
Relação estatı́stica
Numa relação estatı́stica, essencialmente as variáveis são de natureza
aleatória ou estocástica, i.e., variáveis que tem associado uma distribuição
de probabilidade.
Y = f (X) +
onde representa o erro cometido ao se usar f (X) para aproximar Y .
Notação
X é a variável independente (ou: explicativa, regressora, exógena,
predictora); Y é a variável dependente (ou: explicada, regressando,
endógena, resposta).
Nota 1
Os modelos de regressão abordados nesse curso serão considerados lineares
se a equação de regressão é linear nos parâmetros.
Nota 2
Para além dos gráficos de dispersão, o coeficiente de correlação linear de
Pearson é uma boa alternativa para descrever a associação existente entre
X e Y.
Breve historial
O termo regressão foi inicialmente introduzido por Sir Francis Galton
(1822 - 1911).
I Ele estudou a relação entre a altura dos pais (X) e dos filhos adultos
(Y ) através duma equação linear.
I Observou que a altura de filhos de pais altos ou baixos tendia a
reverter ou regressar à média da população, considerando essa
tendência uma regressão à mediocridade.
Figure: Francis Galton (1886), Regression towards mediocrity in hereditary stature. Journal of
the Anthropological Institute: 15, 246-263.
Breve historial
A lei de Galton de regressão universal foi depois confirmada por seu
amigo Karl Pearson (1857 - 1936):
I coleccionou mais de 1000 observações da altura de membros de grupos
familiares
Figure: K. Person e A. Lee (1903), On the Laws of Inheritance, Biometrika: 2, 357 - 462.
Yi = β0 + β1 Xi + i
Pressupostos
Os valores de Xi são fixos ou conhecidos à prior;
Yi é uma variável contı́nua e aleatória;
β0 e β1 são parâmetros do modelo, o que significa que são:
1 Desconhecidos;
2 Constantes, não aleatórios;
3 Independentes do número do ensaio i
Pressupostos
Pressupostos
Pressupostos adicionais
1 i ∼ N (0, σ 2 ) para todo i.
2 Para dois ensaios diferentes i e j, i e j são independentes →
covar(i ,j )=0
Nota 1
Existe uma distribuição de probabilidade para Y associada a cada valor de
X.
Nota 2
As médias dessa distribuição de probabilidade variam de uma maneira
sistemática de acordo com os valores de X.
Yi = β0 + β1 Xi + i
Métodos usados
i = Yi − (β0 + β1 Xi )
2i = [Yi − (β0 + β1 Xi )]2
b0 = β̂0 = Ȳ − b1 X̄
X(anos) 10 13 5 7 3 18
Y (×103 ) 12 8 20 15 25 7
Table: Preço de aluguer (Y ) e idade (X) de casas em Maputo
X(dólares) 80 100 120 140 160 180 200 220 240 260
Y (dólares) 70 65 90 95 110 115 120 140 155 150
Implementação em R
> Y=c(70,65,90,95,110,115,120,140,155,150)
> X=c(80,100,120,140,160,180,200,220,240,260)
> plot(X,Y, xlab = "Rendimento familiar semanal (dolares)",
ylab = "Despesas de consumo semanal (dolares)")
> modreg=lm(Y~X)
> summary(modreg)
Resultados
Call:
lm(formula = Y ~ X)
Residuals:
Min 1Q Median 3Q Max
-10.364 -4.977 1.409 4.364 8.364
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 24.45455 6.41382 3.813 0.00514 **
X 0.50909 0.03574 14.243 5.75e-07 ***
---
Estimação da variância
O valor minı́mo de Q (β0 , β1 ), quando β0 = b0 e β1 = b1 , denota-se por
SQE.
É a soma de quadrados dos desvios entre Yi e Ŷi .
Indica-nos quão bem a linha de regressão se ajusta aos dados.
P 2 P
SQE = Q (β0 , β1 ) = ni=1 Yi − Ŷi = ni=1 e2i
Estimação da variância
Nota
ei = Yi − Ŷi é a diferença entre o valor observado e estimado (previsto).
Podemos pensar em ei como um estimador do termo de erro i .
Estimação da variância
SQE tem associado n − 2 graus de liberdade.
I dois graus de liberdade usados para estimar β0 e β1 na determinação
da média estimada Ŷi .
Desta forma, a média de SQE também chamada de quadrado médio
(QM ) é dado pela fórmula:
SQE
s2 = QM =
n−2
que é um estimador não enviesado de σ 2 .
Teorema de Gauss-Markov
Sob os pressupostos do modelo de regressão, β̂0 e β̂1 são:
Teorema de Gauss-Markov
1 Não enviesados
Outras Propriedades
Pn
i=1 Xi ei =0
Pn
i=1 Ŷi ei =0
A linha de regressão sempre passa pelo ponto X̄, Ȳ .
Nota: Estas propriedades não são válidas para todos os modelos de
regressão linear.