AR Teorica

Introdução à disciplina
Modelo de Regressão Linear Simples
ANÁLISE DE REGRESSÃO
Osvaldo Loquiha
osvaldo.loquiha@uem.ac.mz
Reinaldo Zezela
rzezela@gmail.com
Universidade Eduardo Mondlane

Faculdade de Ciências
Departamento de Matemática e Informática
Análise de Regressão: I Semestre | Ano: 2021 June 3, 2021 1 / 55

Conteúdos
Parte 1: Regressão com duas variáveis
1 Capı́tulo I: Modelo de Regressão Linear Simples
2 Capı́tulo II: Inferência nos Modelos de Regressão o Linear
Parte 2: Regressão com múltiplas variáveis
3 Capı́tulo III: Modelos de Regresssão Linear Múltipla
4 Capı́tulo IV: Diagnósticos e Medidas de Correcção
Parte 3: Regressão logı́stica

5 Capı́tulo V: Modelos Não Lineares
Análise de Regressão: I Semestre | Ano: 2021 2 / 55

Informação do curso
Literatura
Pacotes estatı́sticos
Competências especı́ficas
No fim da disciplina o estudante deve ser capaz de:
1 Construir modelos de regressão linear e não linear simples e múltiplos;
2 Testar a validade dos coeficientes dos modelos de regressão;
3 Fazer previsões com base nos modelos estimados.

Literatura

Literatura

Literatura

Literatura
Dinámica das aulas

Esta disciplina compreenderá aulas de exposição oral para a
apresentação dos conceitos, suportados por exemplos.
Exercı́cios práticos na sala de aulas e no laboratório de estatı́stica

para a consolidação das matérias dadas.
Reserva-se um tempo para o estudante desenvolver as habilidades por

meio de leitura e resolução de exercı́cios práticos.

Literatura




Literatura




Literatura
Avaliações
Três formas de avaliar, a considerar:
1 Avaliação individual: 40% peso
I Uma avaliação: Teste individual → semana de 19-23/07
2 Avaliação em grupo: 60% peso
I Avaliações periódicas baseadas em trabalhos práticos realizados em
grupo, com apoio de softwares estatı́sticos.
3 Exame normal → ?
I Exame de recorrência →?

Literatura
Livros de referência
Kutner, M.H, Nachtscheim, C.J, Neter, J. e Li, W. (2005).Applied
Linear Statistical Models. 5th edition, New York: McGraw Hill.
Gujarati, D.N. (2000).Econometria Básica. 3a edição, São Paulo:

Makron Books.

Literatura
Outros livros
von Eye, A. e Schuster, C. (1998). Regression Analysis For Social
Sciences.San Diego: Academic Press
Draper, N. e Smith, H. (1998). Applied Regression Analysis.3a

edição, New York:John Wiley.

Literatura
1 R: uma linguagem de programação e software livre e de código aberto
para computação estatı́stica e gráficos:
I pode ser baixado gratuitamente em https://www.r-project.org/.
2 SPSS: amigável para o usuário mas fraco graficamente →

relativamente caro.
3 Excel: folha de cálculo e não necessariamente um pacote estatı́stico
→ erros.

Literatura
Parte 1
Regressão com duas variáveis

Introdução ao Modelo de Regressão Linear Simples
Introdução à disciplina Estimação dos parâmetros do modelo de regressão
Modelo de Regressão Linear Simples Estimação da variância
Propriedade dos estimadores do método dos Minı́mos Quadrados
Modelo de Regressão
Análise de Regressão
É uma metodologia estatı́stica que utiliza a relação estatı́stica entre duas
ou mais variáveis quantitativas, de forma que uma variável
(variável resposta ) possa ser estimada ou prevista atráves doutra(s)
variável (is) (variável(is) explicativa(s)).
É uma técnica largamente usada em economia, ciências sociais, ciências

biomédicas entre outras.

Exemplos
Exemplo de aplicações incluem:
As vendas de um produto podem ser previstas utilizando a relação
entre as vendas e o volume de gastos com publicidade;
O tamanho do vocabulário de uma criança pode ser prevista

utilizando a relação entre o tamanho do vocabulário e da idade da
criança e nı́vel de escolaridade dos pais;
O tempo de permanência no hospital de um paciente cirúrgico pode

ser previsto utilizando a relação entre o tempo no hospital e a
gravidade da operação.

Relação funcional vs. Relação estatı́stica
Relação funcional
Relação funcional entre duas (ou mais) variáveis é expressa por uma
fórmula matemática:
Y = f (X)
onde f (.) é uma função conhecida.
Exemplos
Y = 2X ou Y = X 2
Dado X, Y é determinado (conhecido) completamente.

Exemplo de uma relação funcional
Figure: Relação funcional entre receitas e vendas


Verdadeira associação entre X e Y é desconhecida, mas existe uma
necessidade de descrever ou de alguma forma usar essa associação,
porque:
1 X pode ser mais fácil ou mais barato de observar que Y ;
2 Dado um valor de X, podemos querer prever Y .

Relação estatı́stica
Numa relação estatı́stica, essencialmente as variáveis são de natureza
aleatória ou estocástica, i.e., variáveis que tem associado uma distribuição
de probabilidade.
Y = f (X) +
onde representa o erro cometido ao se usar f (X) para aproximar Y .
Notação
X é a variável independente (ou: explicativa, regressora, exógena,
predictora); Y é a variável dependente (ou: explicada, regressando,
endógena, resposta).

Exemplo de uma relação estatı́stica
Figure: Relação estatı́stica entre avaliação em meados (Midyear) e fim do ano

(Year-end).

Exemplo de uma relação estatı́stica
Figure: Relação estatı́stica curvilı́nea entre idade e nı́vel de esteróides em

mulheres saudáveis com idades entre 8-25 anos.

Modelo de Regressão Linear

Pares de dados (X, Y ) observados.
Descrever a relação entre X e Y com um erro uniformemente
pequeno.
f (X)?
I Se o gráfico de dispersão de (X, Y ) é aproximadamente linear, então
podemos escrever:
f (X) = β0 + β1 X
Y =f (X) + = β0 + β1 X +


No modelo anterior:
f (X) é uma equação de uma linha recta;
β0 é parâmetro para o intercepto da recta e β1 para o declive ou
coeficiente angular;
Simples porque apenas contém uma variável independente ou

explicativa.
Linear porque nenhum parâmetro aparece como função doutro

parâmetro(no expoente ou multiplicado e/ou dividido por outro
parâmetro).

Nota 1
Os modelos de regressão abordados nesse curso serão considerados lineares
se a equação de regressão é linear nos parâmetros.
Nota 2
Para além dos gráficos de dispersão, o coeficiente de correlação linear de
Pearson é uma boa alternativa para descrever a associação existente entre
X e Y.

Exemplos de Modelos de Regressão Linear Simples
Modelos de regressão linear simples

1
Y = β0 + β1 +
X
Y = β0 + β1 X 2 +
ln (Y ) = β0 + β1 X +

Exemplos de Modelos de Regressão Não Linear Simples
Modelos de regressão não linear

Y = β0 + β1 X β2 +
Y = β0 [1 − exp (β1 X)]β2 +
β0
Y = +
1 + β1 eβ2 X

Breve historial
O termo regressão foi inicialmente introduzido por Sir Francis Galton
(1822 - 1911).
I Ele estudou a relação entre a altura dos pais (X) e dos filhos adultos
(Y ) através duma equação linear.
I Observou que a altura de filhos de pais altos ou baixos tendia a
reverter ou regressar à média da população, considerando essa
tendência uma regressão à mediocridade.

Figure: Francis Galton (1886), Regression towards mediocrity in hereditary stature. Journal of
the Anthropological Institute: 15, 246-263.

Breve historial
A lei de Galton de regressão universal foi depois confirmada por seu
amigo Karl Pearson (1857 - 1936):
I coleccionou mais de 1000 observações da altura de membros de grupos
familiares

Figure: K. Person e A. Lee (1903), On the Laws of Inheritance, Biometrika: 2, 357 - 462.

Descrição formal do modelo de regressão linear

Um experimento aleatório é repetido n vezes em condições idênticas.
Em cada ensaio i = 1, 2, . . . , n o valor de Xi é determinado
(conhecido) e o valor de Yi observado.
Usamos um modelo de regressão linear simples da forma:
Yi = β0 + β1 Xi + i

Descrição formal do modelo de regressão linear
Pressupostos
Os valores de Xi são fixos ou conhecidos à prior;
Yi é uma variável contı́nua e aleatória;
β0 e β1 são parâmetros do modelo, o que significa que são:
1 Desconhecidos;
2 Constantes, não aleatórios;
3 Independentes do número do ensaio i

Pressupostos
Sobre o termo de erro

i é o termo de erro aleatório:
1 Não é observável;
2 Média igual a zero;
3 Possuı́ variância constante (ou homoscedasticidade).

Pressupostos
Pressupostos adicionais
1 i ∼ N (0, σ 2 ) para todo i.
2 Para dois ensaios diferentes i e j, i e j são independentes →
covar(i ,j )=0
De (1) e (2), segue que Yi ∼ N (β0 + β1 Xi , σ 2 ) e covar(Yi ,Yj )=0.
Isto resulta naquilo a que se chama Modelo de regressão com termo

de erro normal

Figure: Ilustração dum modelo de regressão com termo de erro normal

Modelo de regressão com termo de erro normal
Nota 1
Existe uma distribuição de probabilidade para Y associada a cada valor de
X.
Nota 2
As médias dessa distribuição de probabilidade variam de uma maneira
sistemática de acordo com os valores de X.

Interpretação dos parâmetros do modelo
Modelo de regressão populacional

Não pode ser observado segundo o terceiro pressuposto:
Yi = β0 + β1 Xi + i
Modelo de regressão amostral ou estimado

Uma realização do modelo populacional:
Ŷi = β̂0 + β̂1 Xi

onde β̂0 e β̂1 são estimadores não enviesados de β0 e β1 .

Figure: Interpretação dos parâmetros do modelo

Métodos usados
Metódo dos minı́mos quadrados

Método dos mı́nimos quadrados é usado para estimar β0 e β1 , e também
para σ 2 mas de forma indirecta. Este método é valido independentemente
de conhecida ou não a distribuição do termo de erro.
Método de máxima verossimilhança

Método de máxima verossimilhança é usado para a estimação quando se
conhece a distribuição (normal) do termo de erro i .

Método dos Mı́nimos Quadrados (M Q)

Ideia: encontrar β0 e β1 que minimizem a soma do quadrado dos
erros(SQE).
Para cada par (Xi ,Yi ), o termo de erro é dado por:
i = Yi − (β0 + β1 Xi )
2i = [Yi − (β0 + β1 Xi )]2
Somando para todas as observações:

n
X n
X
Q (β0 , β1 ) = 2i = [Yi − (β0 + β1 Xi )]2
i=1 i=1

Método dos Mı́nimos Quadrados (MQ)

Calculando as derivadas parciais em relação à β0 e β1 , e igualando os
resultados à zero, obtemos as chamadas Equações Normais:
n
X n
X
Yi = nb0 + b1 Xi
i=1 i=1
n
X n
X n
X
Yi Xi = b0 Xi + b1 Xi2
i=1 i=1 i=1
Note que b0 e b1 representam estimações pontuais (valores especı́ficos) de

β0 e β1 , respectivamente, que minimizam Q(.).

Método dos Mı́nimos Quadrados (MQ)

Com um pouco de álgebra, obtemos:
Pn
i=1 (Xi −X̄ )(Yi −Ȳ ) SXY
b1 = β̂1 = Pn 2 = SXX
i=1 (Xi −X̄ )
b0 = β̂0 = Ȳ − b1 X̄
onde SXY é chamado de soma de quadrados de produtos cruzados e SXX

é a soma de quadrados de X.

Método dos Minimo Quadrados (MQ):Exemplo

A Tabela abaixo mostra os valores de aluguer (Y ) em milhares MTs e
idade (X) em anos de 6 casas em Maputo.
X(anos) 10 13 5 7 3 18
Y (×103 ) 12 8 20 15 25 7
Table: Preço de aluguer (Y ) e idade (X) de casas em Maputo
Objectivo: Estimar a relação estatı́stica entre Preço de aluguer e idade de

casas.

Figure: Gráfico de dispersão para preço de aluguer e idade de casas em Maputo

Metódo dos Minimos Quadrados (MQ):Exemplo

Para esses dados:
X̄ = 9.333
Ȳ = 14.5
SXY = −182
SXX = 153.333
Então:
−182
b1 = β̂1 = = −1.187
153.333
b0 = β̂0 = 14.5 + 1.187 × 9.333 = 25.578

Equação de regressão estimada

Conhecidos β̂0 e β̂1 , podemos escrever a equação de regressão estimada:
Ŷi = 25.578 − 1.187Xi
Podemos pensar em Ŷi como a média estimada da variável resposta para

Xi = x

Figure: Recta de regressão estimada

Método dos Minimo Quadrados (MQ): Outro Exemplo

A Tabela abaixo mostra dados sobre despesas de consumo familiar (Y ) e
rendimento familiar (X) semanal.
Table: Despesas de consumo familiar (Y ) e rendimento familiar (X)
X(dólares) 80 100 120 140 160 180 200 220 240 260
Y (dólares) 70 65 90 95 110 115 120 140 155 150
Objectivo: Estimar a relação estatı́stica entre despesas de consumo

familiar (Y ) e rendimento familiar (X).

Implementação em R
> Y=c(70,65,90,95,110,115,120,140,155,150)
> X=c(80,100,120,140,160,180,200,220,240,260)
> plot(X,Y, xlab = "Rendimento familiar semanal (dolares)",
ylab = "Despesas de consumo semanal (dolares)")
> modreg=lm(Y~X)
> summary(modreg)
> regLine(modreg, col="blue", lwd=2)

Figure: Gráfico de dispersão para despesas de consumo familiar e rendimento

familiar

Resultados
Call:
lm(formula = Y ~ X)
Residuals:
Min 1Q Median 3Q Max
-10.364 -4.977 1.409 4.364 8.364
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 24.45455 6.41382 3.813 0.00514 **
X 0.50909 0.03574 14.243 5.75e-07 ***
---
Residual standard error: 6.493 on 8 degrees of freedom

Multiple R-squared: 0.9621,Adjusted R-squared: 0.9573
F-statistic: 202.9 on 1 and 8 DF, p-value: 5.753e-07

Figure: Gráfico de dispersão para despesas de consumo familiar e rendimento

familiar

Figure: Modelo estimado

Estimação da variância
O valor minı́mo de Q (β0 , β1 ), quando β0 = b0 e β1 = b1 , denota-se por
SQE.
É a soma de quadrados dos desvios entre Yi e Ŷi .
Indica-nos quão bem a linha de regressão se ajusta aos dados.
P 2 P
SQE = Q (β0 , β1 ) = ni=1 Yi − Ŷi = ni=1 e2i
onde ei é designado por resı́duo

Nota

ei = Yi − Ŷi é a diferença entre o valor observado e estimado (previsto).
Podemos pensar em ei como um estimador do termo de erro i .
Como σ 2 é a variância comum dos 1 , 2 , . . . , n e porque e1 , e2 , . . . , en

estima os i então SQE deve providenciar alguma informação sobre σ 2 .

SQE tem associado n − 2 graus de liberdade.
I dois graus de liberdade usados para estimar β0 e β1 na determinação
da média estimada Ŷi .
Desta forma, a média de SQE também chamada de quadrado médio
(QM ) é dado pela fórmula:
SQE
s2 = QM =
n−2
que é um estimador não enviesado de σ 2 .

Teorema de Gauss-Markov
Sob os pressupostos do modelo de regressão, β̂0 e β̂1 são:
Teorema de Gauss-Markov
1 Não enviesados
2 Têm a minı́ma variância entre todos os estimadores lineares não

enviesados de β0 e β1
β̂0 e β̂1 são também chamados de Melhores Estimadores Lineares Não

Enviesados(BLUE) de β0 e β1 , respectivamente.

Propriedades do modelo de regressão linear estimada

A recta de regressão estimada usando o método dos Minı́mos Quadrados
possue as seguintes propriedades:
A soma dos resı́duos é igual a zero:
Pn
i=1 ei
A soma de quadrados dos resı́duos ni=1 e2i é um minimo.
P
I isto resulta directamente da condição à satisfazer quando derivamos os
estimadores no método do Mı́nimos Quadrados
A soma dos valores observados Yi é igual a soma dos valores
estimados Ŷi
Pn Pn
i=1 Yi = i=1 Ŷi

Outras Propriedades
Pn
i=1 Xi ei =0
Pn
i=1 Ŷi ei =0

A linha de regressão sempre passa pelo ponto X̄, Ȳ .
Nota: Estas propriedades não são válidas para todos os modelos de
regressão linear.

AR Teorica

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

AR Teorica

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução à disciplina

Modelo de Regressão Linear Simples

Universidade Eduardo Mondlane

Análise de Regressão: I Semestre | Ano: 2021 June 3, 2021 1 / 55

Parte 3: Regressão logı́stica

Análise de Regressão: I Semestre | Ano: 2021 2 / 55

Análise de Regressão: I Semestre | Ano: 2021 3 / 55

Análise de Regressão: I Semestre | Ano: 2021 3 / 55

Análise de Regressão: I Semestre | Ano: 2021 3 / 55

Análise de Regressão: I Semestre | Ano: 2021 3 / 55

Dinámica das aulas

Exercı́cios práticos na sala de aulas e no laboratório de estatı́stica

Reserva-se um tempo para o estudante desenvolver as habilidades por

Análise de Regressão: I Semestre | Ano: 2021 4 / 55

Dinámica das aulas

Exercı́cios práticos na sala de aulas e no laboratório de estatı́stica

Reserva-se um tempo para o estudante desenvolver as habilidades por

Análise de Regressão: I Semestre | Ano: 2021 4 / 55

Dinámica das aulas

Exercı́cios práticos na sala de aulas e no laboratório de estatı́stica

Reserva-se um tempo para o estudante desenvolver as habilidades por

Análise de Regressão: I Semestre | Ano: 2021 4 / 55

Análise de Regressão: I Semestre | Ano: 2021 5 / 55

Gujarati, D.N. (2000).Econometria Básica. 3a edição, São Paulo:

Análise de Regressão: I Semestre | Ano: 2021 6 / 55

Draper, N. e Smith, H. (1998). Applied Regression Analysis.3a

Análise de Regressão: I Semestre | Ano: 2021 7 / 55

2 SPSS: amigável para o usuário mas fraco graficamente →

Análise de Regressão: I Semestre | Ano: 2021 8 / 55

Regressão com duas variáveis

Análise de Regressão: I Semestre | Ano: 2021 9 / 55

É uma técnica largamente usada em economia, ciências sociais, ciências

Análise de Regressão: I Semestre | Ano: 2021 10 / 55

O tamanho do vocabulário de uma criança pode ser prevista

O tempo de permanência no hospital de um paciente cirúrgico pode

Análise de Regressão: I Semestre | Ano: 2021 11 / 55

Relação funcional vs. Relação estatı́stica

Análise de Regressão: I Semestre | Ano: 2021 12 / 55

Exemplo de uma relação funcional

Figure: Relação funcional entre receitas e vendas

Análise de Regressão: I Semestre | Ano: 2021 13 / 55

Relação funcional vs. Relação estatı́stica

Análise de Regressão: I Semestre | Ano: 2021 14 / 55

Relação funcional vs. Relação estatı́stica

Análise de Regressão: I Semestre | Ano: 2021 15 / 55

Exemplo de uma relação estatı́stica

Figure: Relação estatı́stica entre avaliação em meados (Midyear) e fim do ano

Análise de Regressão: I Semestre | Ano: 2021 16 / 55

Exemplo de uma relação estatı́stica

Figure: Relação estatı́stica curvilı́nea entre idade e nı́vel de esteróides em

Análise de Regressão: I Semestre | Ano: 2021 17 / 55

Modelo de Regressão Linear

Análise de Regressão: I Semestre | Ano: 2021 18 / 55

Modelo de Regressão Linear

Simples porque apenas contém uma variável independente ou

Linear porque nenhum parâmetro aparece como função doutro

Análise de Regressão: I Semestre | Ano: 2021 19 / 55

Modelo de Regressão Linear

Análise de Regressão: I Semestre | Ano: 2021 20 / 55

Exemplos de Modelos de Regressão Linear Simples

Modelos de regressão linear simples

Análise de Regressão: I Semestre | Ano: 2021 21 / 55

Exemplos de Modelos de Regressão Não Linear Simples

Como σ 2 é a variância comum dos 1 , 2 , . . . , n e porque e1 , e2 , . . . , en