Você está na página 1de 15

MODELOS LINEARES

2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 1

Revisões sobre distribuições relacionadas com a normal

1. Considere X1, X2,..., Xk variáveis aleatórias independentes em que cada Xi tem


distribuição qui-quadrado com ni graus de liberdade.

a) Encontre a função geradora de momentos (f.g.m.) de X1, MX (t) = E etX1 , e ( )


indique qual o seu domínio.

k k
b) Mostre que a variável U = ∑X i
tem ainda distribuição qui-quadrado com ∑n i
i=1 i =1

graus de liberdade.

c) Calcule E(X1) e Var(X1).

2. Seja X uma variável com distribuição normal, N(µ,s2).

( )
2
a) Mostre que a variável U = X − µ σ 2 tem distribuição qui-quadrado com 1
grau de liberdade.

b) Se X1, X2,..., Xk são variáveis aleatórias independentes com distribuição normal


padrão, N(0,1), qual a distribuição de probabilidade da variável

k
S2 = ∑X 2
i
?
i=1

3. Considere (X1,X2,...,Xn) uma amostra aleatória recolhida de uma população X com


distribuição normal, N(µX,s2) e (Y1,Y2,...,Ym) uma outra amostra aleatória,
independente da primeira, e recolhida de uma população Y com distribuição
normal, N(µY,s2). Pressupondo que µX = µY, qual a distribuição de probabilidade da
estatística

( )
2

2
nm X − Y
T =
( n + m) S 2
T

n m
em que X = ∑X i
n, Y = ∑Y i
m e
i=1 i=1

⎛ n 2⎞
( ) ( )
m
1 2
ST2 = ∑ X −X
n + m − 2 ⎜⎝ i=1 i
+ ∑ Yi − Y ⎟ .

i=1

Qual a região de rejeição do teste para H0: µX = µY contra H0: µX ≠ µY com base
nesta estatística?
MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 2

Análise da variância

4. Considere uma colecção de variáveis aleatórias Xij que seguem um modelo de


análise de variância,

X ij = µ i + ε ij , i=1,...,I e j=1,...,ni,

em que os µi são constantes e os eij são variáveis aleatórias i.i.d. com distribuição
normal tais que E(eij)=0 e Var(eij)=s2. Designando por N a dimensão total do
I
conjunto das amostras, N = ∑ n , considere o estimador de s2 dado por
i
i=1

1 I n
( ) 1 I
2
S2 = ∑ ∑ X − Xi
N i=1 j =1 ij
= ∑ n S2 .
N i=1 i i

a) Encontre a distribuição de probabilidade de NS2/s2.

b) Verifique que S2 não é um estimador centrado para s2. Encontre um estimador


centrado para s2.

5. Uma empresa multinacional está interessada em investir em acções de uma


empresa de determinado ramo de actividade, num certo país. As três maiores
empresas desse ramo de actividade são semelhantes em termos de dimensão e
implantação no mercado e apresentaram, em finais de exercícios, os lucros (em
milhares de unidades monetárias) que se apresentam na tabela em baixo. Para a
empresa 2 tomou-se em consideração os lucros dos últimos 12 anos mas, para a
empresa 1 e para a empresa 3, em virtude de estas terem adquirido outras
empresas e passado por um processo de reestruturação, só se analisam os
resultados dos últimos 10 e 8 anos, respectivamente.

Admitindo que o lucro anual de qualquer uma das empresas segue uma distribuição
normal com variância σ 2 e fixando um nível de significância de 5%, responda às
questões que se seguem.

a) Construa intervalos de confiança para os lucros esperados de cada empresa.


b) Com base em testes-t, compare as empresas duas a duas.
MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 3

c) Baseando-se nas alíneas anteriores, teça os comentários que achar pertinentes.


d) Contrua uma tabela ANOVA com os dados apresentados.
e) Com base no teste da ANOVA compare os lucros esperados das três empresas.
f) Compare e comente os resultados obtidos em b) e e). Que conselho daria à
administração da multinacional?

6. Se um produto no supermercado é oferecido a preço reduzido com frequência, será


que os clientes ficam com a expectativa de que o preço desse produto será mais
baixo, no futuro? Uma empresa de marketing conduziu um estudo para responder a
esta questão. Para isso, enviou informação sobre o preço de um produto a 160
indivíduos durante 10 semanas. No entanto, estes indivíduos foram divididos em 4
grupos de 40 de modo que cada um dos grupos foi informado, respectivamente, 1,
3, 5 e 7 vezes sobre promoções do produto. No fim das 10 semanas, perguntou-se
a cada indivíduo qual o preço que esperaria para esse produto, num futuro
próximo. Os resultados apresentam-se na tabela em baixo.

a) Faça um resumo destes resultados construindo uma tabela com a dimensão,


média, variância e desvio-padrão de cada um dos grupos.

b) Teste ao nível de significância de 1% se a hipótese de igualdade de variâncias é


verificada pelos quatro grupos

c) Construa a tabela ANOVA e faça o teste F para a igualdade de médias dos quatro
grupos.

7. Prepare um programa numa folha de Excel que, a partir de um conjunto de colunas


onde são inseridas as diferentes amostras de um modelo de Análise de Variância,
apresente as dimensões, médias, variâncias de cada uma das amostras bem como
as estatísticas que considerar relevantes. Programe ainda um conjunto de células
que apresentem a tabela ANOVA e o teste-F.
MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 4

Regressão linear simples

8. Consideremos o modelo Yi = bxi + ε i , i=1,…,n, onde E(ei)=0, E (ε 2 ) = σ 2 e, para i≠j,


i

E (ε i ε j ) = 0 .

a) Encontre o estimador de mínimos quadrados para b, o seu valor médio e a sua


variância.

b) Mostre que a soma dos resíduos pode não ser zero, contrariamente ao que
acontece no modelo com termos constante.

9. Consideremos o modelo Y = α + β x + ε , i=1,…,n, onde E(ei)=0, E (ε 2 ) = σ 2 e, para


i i i i

i≠j, E (ε ε ) = 0 .
i j

n
a) Se ∑ xi = 0 encontre os estimadores de mínimos quadrados para a e b e
i =1

respectivos valores médios.

b) Se o seu modelo estiver construído a partir de xi’s cuja unidade é o centímetro e


os quiser transformar em polegadas, Y = α * + β * z + ε , calcule α * e β * a
i i i

partir de a e b e diga se irá haver alteração no valor de R2 (suponha que uma


polegada vale c cm).

c) Considere um novo modelo W = α + β x + η , i=1,…,n, onde os ei e os hi são


i 1 i i

variáveis independentes entre si e os hi são variáveis independentes com valor


médio zero e variância s2. Encontre os estimadores para a, a1 e b.

d) Mostre que o coeficiente de determinação múltipla, R2, resultante do


ajustamento do modelo à relação entre as variáveis x e Y é tal que R2=
SQR SxY
2
= rxY em que rxY = .
SQTO Sx SY

10. Huber (1957) realizou um estudo em que procurava relacionar a intensidade do


trânsito (IT) com a velocidade média dos veículos (Vm). É natural que estas
variáveis estejam relacionadas entre si porque quanto maior é a intensidade do
trânsito menor é a velocidade média a que os veículos se deslocam. No entanto,
sabe-se que esta relação não é linear e que pode ser bem descrita por uma
equação do tipo

Vm = b0 + b1 IT (Modelo 1)
ou
b1 IT
Vm = b0e (Modelo 2)

Este problema é importante para o planeamento e gestão de transportes porque a


redução dos tempos de viagem é, em geral, o objectivo das infra-estruturas e
MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 5

facilidades de transporte. Os dados que Huber recolheu no Connecticut, E.U.A.,


apresentam-se na tabela em baixo.

a) Ajuste o modelo 1 a estes dados, estimando os parâmetros pelo método dos


mínimos quadrados, e verifique a qualidade do ajustamento pela análise do R2 e
através de um teste no declive. Faça também a análise dos resíduos.

b) Repita a alínea anterior para o modelo 2.


c) Qual o modelo que melhor se adequa a estes dados? Indique as vantagens e
desvantagens de cada um dos modelos.
d) Determine um intervalo de 95% de confiança para a velocidade média dos
veículos quando a intensidade do trânsito é de 70, utilizando ambos os modelos.

11. Uma casa editora de livros publicou, em 1988, o conjunto de livros cujo preço
(convertido para euros) e número de páginas se indicam na tabela em baixo. A
letra "b" significa que é uma brochura e a letra "e" que se trata de uma
encadernação.

Tipo Pags. Preço Tipo Pags. Preço


b 112 10,8 e 250 31,0
b 260 15,0 e 146 25,9
b 382 18,5 e 212 31,4
b 175 12,7 e 292 32,0
b 340 17,2 e 252 30,6
b 322 17,4 e 158 26,0
b 188 13,2 e 276 32,2
b 240 17,7 e 264 30,3
b 425 18,5 e 251 32,0
b 378 18,7 e 202 29,0

a) Ajuste a recta dos mínimos quadrados às brochuras, usando o preço como


variável dependente e o número de páginas como variável independente. Repita
o mesmo exercício para os livros encadernados.
b) Estime o preço de uma brochura com 100 páginas e de uma encadernação com
400 páginas. Determine um intervalo de 95% confiança para essas estimativas.
c) Fará sentido, no caso dos livros encadernados, usar um modelo de regressão?
MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 6

Regressão linear múltipla

12. Considere o modelo de regressão múltipla Y = Xb + e, em que Y é o vector nx1 de


observações, X é a matriz nxp de planenamento, b é o vector px1 de observações
e e representa o vector nx1 dos termos de erro aleatórios, verificando as condições
de Gauss-Markov.

a) Mostre, utilizando notação matricial, que os estimadores dos mínimos quadrados


ˆ′ = ⎡ b̂ ! b̂ ⎤ , isto é, os estimadores que
do vector de coeficientes b, b
⎢⎣ 1 p ⎥

minimizam SQ(b) = (Y-Xb)'(Y-Xb) e que são obtidos por derivação de SQ(b)
verificam a equação

( X′X ) b̂ = X′Y .
(Sugestão: relembre que, para um vector c, c′ = ⎡ c1 ! c p ⎤ , e para uma
⎣⎢ ⎥⎦
matriz simétrica pxp, A = ⎡ aij ⎤ , se tem que o vector das derivadas parciais
⎣ ⎦ ij=1,...,p
=1,...,p

de c'b e de b'Ab são dados por, respectivamente,

∂ ∂
c′b = c e b ′ Ab = 2 A b.)
∂b ∂b

b) Mostre que a soma dos quadrados dos resíduos é tal que

ˆ ′ X ′X b̂ = Y ′ Y − Y
e′ e = Y ′Y − b ˆ ′Ŷ

13. Considere os modelos lineares Y = Xb + e e Y* = X*b + e*, com E(e)=0, Cov(e) =


s2I, Y* = GY, X* = GX, e*= Ge e G é uma matriz ortogonal nxn. Mostre que:

a) E(e*) = 0 e Cov(e*) = s2I;

b) b̂ * = b̂ e que S2 = S*2, em que b̂ e b̂ * são os estimadores de mínimos


quadrados para b e S2 e S*2 são os estimadores para s2, obtidos para cada um
dos modelos.

c) Considerando o modelo Y = X*b* + h, mas agora com X* = XG em que G é uma


matriz ortogonal pxp, e em que o vector dos termos de erro, h, verifica as
condições de Gauss-Markov, mostre que b̂* ≠ b̂ mas que se mantém a igualdade
da soma de quadrados dos resíduos, S2 = S*2, e que também se dá a igualdade
R2 = R*2. Ou seja, isto significa que usar um determinado conjunto de variáveis
independentes ou uma transformaçao ortogonal das mesmas produz modelos
com a mesma qualidade de ajustamento.

14. A tabela em baixo apresenta valores registados em 17 fábricas de Xangai para a


produtividade por trabalhador (Prod), em ienes Chineses, o número de
trabalhadores por fábrica (NT), a área da fábrica (AT) por trabalhador, em metros
quadrados, e o investimento por trabalhador (I), em ienes.
MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 7

Prod NT AT I
12 090 56 840 10,54
11 360 133 2 040 11,11
12 930 256 2 410 10,73
12 590 382 2 760 14,29
16 680 408 2 520 11,19
23 090 572 2 950 14,03
16 390 646 2 480 18,76
16 180 772 2 270 13,53
17 940 805 4 040 16,71
18 800 919 2 750 14,74
28 340 1081 3 870 29,19
30 750 1181 4 240 21,21
29 660 1217 2 840 12,45
20 030 1388 3 420 17,33
17 420 1489 3 200 24,4
11 960 1508 3 060 28,26
15 700 1754 2 910 19,52

a) Utilize o método dos mínimos quadrados para ajustar um modelo que exprima o
valor da produtividade por trabalhor em função das restantes variáveis. Verifique
se todas as variáveis são significativas. Calcule o valor de S2 e também de R2.
b) Repita a alínea anterior, mas agora incluindo também as variáveis NT2 e ATxI.
Compare o modelo obtido com o da alínea anterior e comente.
c) Encontre a dimensão óptima da fábrica, em termos do número de trabalhadores,
que maximiza a produtividade.

d) Considerando o modelo ajustado na alínea b), faça um teste F nas variáveis NT2
e ATxI e apresente a tabela ANOVA correspondente a este teste.

15. Suponha que Y=Xb+e representa um modelo de regressão linear em que E(e)=0,
Cov(e) = s2In, X é a matriz de planeamento com dimensão n x p e característica p
≤ n, e b é o vector px1 dos coeficientes de regressão. Além disso, suponha que se
pretende obter uma predição de yn+1 em que x' = ( x ,..., xn +1, p ) , isto é,
n +1 n +1,1

y n+1 = x 'n+1b + ε n+1 , em que en+1 tem a mesma distribuição dos outros ei's e é
independente deles. A predição baseada no estimador de mínimos quadrados de b
é dada por ŷ
n+1
= x'n+1b̂ , em que b̂ = (X ' X)−1 X ' Y .

a) Mostre que ŷ é função linear de y1,…,yn tal que E (ŷ ) = E (y ) ;


n+1 n +1 n +1

b) Suponha que y! n+1 = a' Y , em que a é um vector nx1 de coeficientes, é um outro


preditor linear de yn+1 tal que E(y! n+1 ) = E(yn+1 ) . Mostre que o vector de

coeficientes a tem que satisfazer a' X = x' ;


n +1

( ) ( )
c) Determine var ŷn +1 e var y! n+1 ;

d) Mostre que var (ŷ ) ≤ var ( y! ) .


n +1 n+1
MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 8

16. A tabela em baixo apresenta o custo de reparação, em dólares dos EUA, do motor
de arranque, do anel do volante ou de ambas essas partes de motores diesel.

Peça Custo da reparação em US$


Motor de 37 127 118 75 66 59 499 420 526 141 126 142
arranque 137 471 172 149 315 506 575 81 67 36 130 110
126 189 27 88 67 13 432 148 94 432 108 648
81 108 150 79 420 34 236 27 67 42 161 506
468 97 189 551 79 40 420 220 126 261 192 202
101 180 58 61 72 49 189 73 236 306 64
Anel do 425 474 276 229 256 431 252 1069 190 765 621 310
volante 604 540 81 641 432 252 431 310 256 236 276 609
472 603 431 304 414 241 741
Ambos 499 420 526 229 471 315 506 575 67 431 190 765
621 432 540 432 648 81 420 310 236 276 506 468
609 472 603 431 551 304 414

a) Considere as variáveis

⎧⎪ 1 se o motor de arranque foi reparado;


xi1 = ⎨
⎩⎪ 0 caso contrário.

⎪⎧ 1 se o anel do volante foi reparado;


xi2 = ⎨
⎩⎪ 0 caso contrário.

e escreva o custo da reparação como um modelo de regressão linear utilizando


estas variáveis, primeiro incluindo um termo constante e, seguidamente, sem
termo constante.
b) Calcule os valores ajustados, os resíduos, o valor de S e o de R2 para ambos os
modelos. Qual dos modelos lhe parece mais adequado?
c) Verifique se o custo de reparar o anel do volante é significativamente diferente
do custo de reparar ambas as partes.

17. A tabela em baixo, reproduzida de Sen, A. e Srivastava, M. (1990), apresenta o


preço de venda de casas em Chicago (Preço), em milhares de dólares,
conjuntamente com informação relativa a outras características da casa que podem
influenciar o preço, nomeadamente:
AREA - Área da casa em metros quadrados;
NDIV - Número de divisões;
NWC - Número de casas de banho;
GAR - Garagem (número de carros);
IMP - Taxas pagas anualmente em dólares;
VDUP - Vidros duplos (1=presença);
TERR - Frente do lote em metros;
CONST - Tipo de construção (1=tijolo);
NLar - Número de lareiras;
NQuar - Número de quartos;
EST - Estado da casa (1=precisa de obras);
L1 e L2 - Localização (L1=1 zona A, L2=1 zona B, L1=0 e L2=0 zona C).
MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 9

PREÇO ÁREA NDIV NWC GAR IMP VDUP TERR CONST NLar NQuar EST L1 L2
53 90 5 1,5 0 652 0 11,9 1 0 2 0 1 0
55 76 5 1 2 1 000 0 10,1 1 1 2 1 1 0
56 84 5 1,5 1 897 1 10,7 1 0 3 0 1 0
58 94 6 1,5 2 964 1 7,3 0 0 3 0 1 0
64 102 7 1,5 1,5 1 099 0 15,2 1 1 3 0 1 0
44 83 7 2 1 960 0 7,6 0 0 4 0 1 0
49 130 8 1 1 678 0 9,1 0 0 5 1 1 0
70 210 6 1 2 2 700 0 8,8 0 0 3 0 1 0
72 120 8 1,5 1,5 800 1 10,1 1 0 4 0 1 0
82 195 9 2,5 1 1 038 0 12,2 1 0 4 1 1 0
85 208 12 3 2 1 200 1 15,2 0 1 8 0 1 0
45 60 5 1 0 860 0 7,6 0 0 2 0 0 1
47 80 6 1 0 600 0 7,6 1 0 3 0 0 1
49 97 7 1,5 0 676 0 9,1 0 0 4 0 0 1
56 123 8 1,5 0 1 287 0 15,2 0 0 4 0 0 1
60 73 5 1 0 834 1 7,6 0 0 2 0 0 1
62 105 7 2 0 734 1 9,1 1 0 3 1 0 1
64 114 8 2 2 551 0 11,3 0 0 4 0 0 1
66 86 5 1 1 1 355 0 9,1 1 1 2 0 0 1
35 106 7 1,5 0 561 0 7,6 0 0 4 0 0 0
38 69 6 1 0 489 0 7,6 1 0 3 0 0 0
43 55 5 1 0 752 0 15,2 0 0 3 0 0 0
46 75 5 1 0 774 0 8,2 1 0 2 1 0 0
46 65 4 2 1 440 0 9,1 1 0 2 0 0 0
50 64 6 1 2 549 0 9,1 0 0 2 1 0 0
65 95 7 2 1 900 1 9,1 1 0 3 0 1 0

a) Ajuste, pelo método dos mínimos quadrados, um modelo que escreva o PREÇO
como função linear das variáveis ÁREA, NDIV, NWC, GAR, IMP, VDUP E TERR.
b) Teste a hipótese H0: bAREA = 0 contra H1: bAREA ≠ 0.
c) Ajuste agora um modelo linear ao PREÇO como função das variáveis ÁREA,
VDUP, GAR e TERR. Repita o teste executado em b). Comente o resultado.

d) Para o modelo obtido em c) estime s2, calcule R2 e construa a tabela ANOVA.


Comente os resultados.
e) Verifique se o conjunto de variáveis EST, L1 e L2 deverá ser incluído neste
segundo modelo. Se sim, verifique se alguma delas pode ser omitida.

18. Considere o modelo de regressão linear, Y = Xb + e, em que X é a matriz de


planeamento com dimensão nxp e em que os termos de erro, ei, i=1,...,n, são
variáveis i.i.d. com distribuição normal, N(0, s2). Considere ainda a matriz

( )
−1
Z = ⎡ zij ⎤ i =1,...,p = X ′X . Suponha que se pretende testar a hipótese
⎣ ⎦ j =1,...,p

H0: bi = bj contra H1: bi ≠ bj.


a) Escreva as hipóteses nula e alternativa na forma da hipótese linear isto é, na
forma Cb=h, identificando a matriz C e o vector h.

b) Mostre que a estatística de teste F para esta hipótese linear é dada por

(b̂ − b̂ ) (b̂ − b̂ )
2 2

i j i j
F = =
(
S 2 zii + z jj − 2z ) σ̂ ( b̂ − b̂ )
ij
2
i j

e indique o número de graus de liberdade do numerador e do denominador.


MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 10

19. (
Considere Y11 ,Y12 ,...,Y1n
1
) uma amostra
( ,...,Y )
Y ,Y
aleatória recolhida de uma população com
21 22 2n2

distribuição normal, N(µ1,s2) e uma outra amostra aleatória,

independente da primeira, e também recolhida de uma população com distribuição


normal, N(µ2,s2).

a) Mostre que as observações Yij (i=1,2; j=1,...,ni) podem ser escritas como um
modelo linear, Y = Xµ+e, em que µ'=[µ1 µ2], identificando o vector Y, a matriz
de planeamento X e o vector dos termos de erro e.

b) Mostre que os estimadores de mínimos quadrados dos coeficientes µ1 e µ2 são


dados, respectivamente, por Y1 e Y2 .

c) Utilize o exercício anterior para verificar que o teste para a hipótese linear

H0: µ1 = µ2 contra H1: µ1 ≠ µ2

é equivalente ao teste t para a igualdade de médias de populações normais.

20. Considere de novo os dados sobre o preço das casas (exercício 17).

a) Tendo como base o modelo de regressão linear que explica o preço das casas
como função de ÁREA, VDUP, GAR, TERR, EST e L2, responda às seguintes
questões:
i) Será o preço das casas afectado pelo número de quartos (NQuar), supondo
que as outras variáveis independentes se mantém no modelo?
ii) O agente imobiliário afirmou que uma casa com garagem para um carro vale
mais 5000 dolares que a mesma sem garagem. Comente a afirmação.
iii) Será que a AREA e a TERR têm efeitos semelhantes?
iv) Outro agente imobiliário afirmou que VDUP aumenta o preço em 6000
dolares e a garagem para um carro em 4000. Comente ainda esta
afirmação.
v) Será que se pode dizer que o preço das casas é maior na zona B do que na
zona C?

b) Encontre uma estimativa para o preço de uma casa com 250 metros quadrados,
7 divisões, 4 quartos, 2 WC, VDUP, sem lareira, garagem para um carro e 12
metros de frente. Construa um intervalo de 95% de confiança para o preço
dessa casa.

21. Considere de novo os dados relativos ao preço dos livros (brochuras e


encadernações) tendo em consideração o seu preço, apresentados na tabela do
exercício 11. Verifique se o aumento de preço por página é o mesmo para as
brochuras do que para as encadernações.
MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 11

22. O ficheiro Inflacção.xlsx apresenta as taxas de inflacção, de 1961 a 2015 para 7


países: Alemanha, França, Espanha, Portugal, Grécia, E.U.A. e China. Os valores
para a Alemanha só são apresentados um ano após a reunificação e os valores para
a China só estão disponíveis a partir de 1987.

a) Utilize um modelo de análise da variância para verificar se, no período 1961-


2015, a média das taxas de inflação dos 7 países foi a mesma, apresentando a
tabela ANOVA. Uma vez que a variância da taxa de inflacção é muito diferente
entre os vários países, considere os dados logaritmizados.

b) A análise da variância pode ser tratada como um modelo de regressão múltipla


em que cada variável independente está associada a uma população e é uma
variável indicatriz que toma o valor 1 se a observação corresponde a essa
população e 0 em caso contrário. Supondo que se recolhem I amostras
aleatórias de I populações, com dimensões n1, n2,...,nI, mostre que

( X′X ) ( )
−1
= diag n1−1 ,n2−1 ,...,nI−1

e também que

b̂j = Y j ,

para j=1,...,I, isto é, o EMQ do coeficiente de regressão da variável independente


j é a média das observações da amostra correspondente à população j.

c) Suponha que se pretende verificar se as taxas médias de inflacção, de 1961 a


2015, da Alemanha, França e E.U.A. foram iguais entre si, e se as taxas de
inflação em Espanha, Portugal e Grécia também foram iguais entre si, isto é,
pretende-se testar:

H0: µAlem=µFrança=µEUA; µEsp=µPort=µGrécia.

Esta hipótese pode ser testada como uma hipótese linear. Com esse objectivo, e
tendo em consideração o resultado demonstrado na alínea anterior,

−1

i) Identifique a matriz das restrições C, calcule ⎡⎢C X ' X ( ) ⎤


−1
C′ ⎥ e o vector
⎣ ⎦
dos EMQ do modelo reduzido, isto é, Cb̂ .

ii) Calcule a estatística de teste F e verifique se a hipótese nula é


verdadeira.

d) Verifique se é correcto dizer que, no período de 1961 a 1998 (pré-euro) as


taxas médias de inflacção dos países da zona euro (Alemanha, França, Espanha,
Portugal e Grécia) foram as mesmas. Repita o exercício para o período de 1999
a 2015 (pós-euro). Compare os resultados e comente.
MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 12

Escolha de modelos

23. Considere a variável dependente Y e as variáveis independentes x1 a x5 que se


apresentam na tabela em baixo e que também se encontram no ficheiro
ExercíciosDados.xlsx.

Y X1 X2 X3 X4 X5
1,2378 0,005 2,9808 *1,7849 1,0506 3,009
*1,1602 *0,2455 0,6616 *1,0312 *0,0356 0,4867
3,1928 *1,1584 1,1675 0,5555 1,0238 0,1264
*1,3105 0,9645 *1,2996 *0,8334 *1,1901 *0,2977
1,7084 0,8764 0,0485 0,427 0,1736 0,8276
3,6943 0,9096 1,3813 1,2283 1,3599 2,2863
2,2835 *0,5112 *0,0484 1,3383 0,5255 *0,5067
2,4409 *0,5242 *0,6004 1,3957 0,2656 *0,8869
2,1405 *0,4683 0,2692 0,7271 0,3663 *0,1798
*1,8542 *0,3426 *0,3129 *0,7971 *0,5029 *0,7294
*0,1293 *0,6177 *0,9368 0,004 *0,5395 *1,6136
0,781 0,6662 0,3194 *0,1455 0,1926 0,9863
3,3353 *0,1323 1,7857 0,866 1,4673 1,5829
*1,3472 *0,6047 *1,3542 *0,4506 *1,0105 *1,9811
*0,6553 *0,6978 0,3193 *1,8325 *0,5795 *0,5332
1,9532 *0,5537 0,4601 0,9753 0,6348 *0,0801
3,8093 1,8009 0,5237 0,8053 0,6488 2,1572
1,4089 *1,2339 0,768 *0,1034 0,3703 *0,4282
0,9481 0,4175 *0,9756 1,1215 *0,1024 *0,4954
3,3172 *0,0127 1,2405 0,1863 0,7472 1,0543
4,6652 *0,5606 1,2245 1,8764 1,5537 0,5074
*0,0289 0,2868 0,4287 *0,3419 0,1257 0,7889
*0,3239 1,5287 *1,5679 *1,1384 *1,3593 0,0277
0,7419 0,6745 0,4276 *1,5489 *0,2994 1,0796
*0,7648 *1,1007 0,5368 *0,5189 0,1265 *0,473
*1,1359 *2,4162 *0,6673 *0,357 *0,6007 *3,0397
4,3678 0,2175 0,9888 3,0514 1,8186 1,1138
0,4494 *0,7123 0,4254 *0,5017 0,016 *0,4079
0,4308 *0,9225 *1,0796 0,8415 *0,3019 *2,0445
*0,4205 1,1623 0,6898 *1,3482 0,1025 1,9074

a) Ajuste um modelo de regressão múltipla que escreva a variável Y como função


linear das restantes variáveis. Verifique quais as variáveis que o teste t indica
que não são significativas. Em seguida, calcule o valor de R2 e explique porque é
que se pode concluir que estes dados apresentam forte multicolinearidade.

b) Identifique e elimine as variáveis que causam o problema da multicolinearidade,


utilizando o método dos factores de inflacção das variâncias. Para cada variável
retirada faça a regressão da variável Y sobre as restantes variáveis e observe o
efeito de eliminar essa variável nos resultados do ajustamento do modelo.

c) Identifique e elimine as variáveis que causam o problema da multicolinearidade,


utilizando agora o método dos números condição e das componentes da
variância.
MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 13

24. O ficheiro ExercícioEVN.xlsx apresenta os valores, para o ano de 2001, da


esperança média de vida à nascença (EVN) para um conjunto de 132 países com
população superior a 1 milhão de habitantes e para os quais existe informação
sobre outras variáveis que se consideram relevantes para a esperança média de
vida. Os dados foram recolhidos no Relatório do Desenvolvimento Humano
pulbicado para o Programa para o Desenvolvimento das Nações Unidas. As três
primerias colunas da tabela são apenas indicativas e apresentam, respectivamente,
o índice de desenvolvimento humano do país, de acordo com a calssificação do
relatório, o nome do país e a sua população. Para além da EVN as restantes
variáveis são:

FERT: Fertilidade por mulher;


LMA: Literacia das mulheres adultas;
TxALF: Taxa de alfabetização dos adultos;
PIBpc: PIB per capita em dólares E.U.A., a preços de 2001 (PPC);
Ln(PIBpc): Logaritmo do PIB per capita;
DSAUDpc: Despesas de saúde per capita;
Ln(DSAUDpc) : Logaritmo das despesas de saúde per capita;
DSaudPUB: Despesas de saúde pública em percentagem do PIB;
DSaudPRIV: Despesas de saúde privada em percentagem do PIB.

a) Seleccione, de entre as variáveis acima, aquelas que melhor descrevem a EVN


através de um modelo de regressão, utilizando, primeiro o método de selecção
progressiva stepwise e, seguidamente, o método de selecção regressiva.

b) Compare os resultados da aplicação dos dois métodos e diga, justificando, qual


o modelo que lhe parece ser mais adequado.

Regressão logística

25. Considere um conjunto de variáveis Yi, i=1,...,n, que seguem um modelo de


regressão logística, isto é, em que cada uma tem distribuição de Bernoulli,
Bi(1,p(xi)), em que xi, i=1,...,n, representam os valores de uma variável
independente e

e bx
p(x) = .
1 + e bx
a) Escreva a equação normal para o estimador de máxima verosimilhança de b, isto
é, a equação

d ln L(y1,...,y n ;b)
=0
db
b) Mostre, em seguida, que o estimador de máxima verosimilhança de b pode ser
obtido através da fórmula recursiva
n n
b(i+1) = b(i) + ∑ x (yi i − pi ) ∑x 2
i pi (1 − pi ).
i=1 i=1
MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 14

c) Indique qual a distribuição assintótica do estimador de máxima verosimilhança,


b̂n
.

26. Para um modelo de regressão logística, isto é, sendo Yi, i=1,...,n, variáveis
aleatórias de Bernoulli, Bi(1,p(xi)), em que os xi, i=1,...,n, representam os valores
de uma variável independente e tal que

e b0 +b1 x i
p(x i ) = ,
1 + e b0 +b1 x i
os estimadores de máxima verosimilhança de b0 e b1 são assintoticamente
centrados e com distribuição normal bivariada. A matriz de covariâncias da sua

( )
−1
distribuição assintótica é dada por Σ = X ′VX , em que X é a matriz de
planeamento, isto é, a matriz nx2 cuja primeira coluna é apenas um vector de
valores iguais a 1 e a segunda coluna corresponde às observações da variável
independente.

a) Qual a distribuição de probabilidade assintótica de b̂0 + b̂1 x * , em que x* é um


valor não observado da variável independente?
b) A partir da alínea anterior, indique como se pode construir um intervalo
assintótico, com nível de confiança aproximadamente (1-a), para b0+b1x*. E
para a probabilidade p(x*)?

27. O gerente do departamento de crédito de um Banco deseja saber qual a


probabilidade de sucesso de pequenos empresários que pretendem iniciar um
negócio, tendo em consideração a experiência de trabalho que já têm no ramo de
actividade. Para tal, analisou o caso de 50 pequenas empresas procurando
relacionar o sucesso da empresa (1 se a empresa conseguiu desenvolver-se e 0 se
faliu ou fechou ao fim de 5 anos após início da actividade) com o número de anos
de experiência do proprietário. O resultado da aplicação de um modelo de
regressão logística a esta amostra apresenta-se na tabela em baixo.

Variáveis Coeficientes Desv.-pad.


Constante -1.99325 0.66770
Experiência 0.23861 0.07293

a) Verifique se a experiência do empresário tem, de facto, influência no sucesso


da nova empresa.
b) Sabendo que a razão de verosimilhanças, L0/L1, em que L0 corresponde ao
modelo em que p(x)=p é constante e L1 ao modelo de regressão logística, foi
de 0.00056, verifique se o modelo de regressão logística encontrado se ajusta
bem a estes dados.
c) Sabendo que a matriz de covariâncias dos estimadores de máxima
verosimilhança, estimada a partir desta amostra é dada por
⎡ 0.4459 −0.0423⎤
Σ=⎢ ⎥,
⎣−0.0423 0.0053 ⎦
encontre um intervalo de 95% de confiança, assintótico, para a probabilidade
de uma empresa ter sucesso, sabendo que o seu proprietário tinha 6 anos de
experiência.
MODELOS LINEARES
2020-2021

Mestrado em Matemática Aplicada à Economia e Gestão Folha nº 15

28. Uma empresa de sondagens pretende saber quais as razões que levam os cidadãos
a votar ou não nas eleições legislativas. Assim, foram inquiridos 4158 eleitores, a
quem se perguntou se tinham ou não ido votar nas últimas eleições, sendo esta a
variável dependente Y, que toma o valor 1 para os que foram votar e 0 para os que
não votaram. Procurou-se relacionar a variável Y com o género, masculino ou
feminino, do indivíduo e a sua idade. O resultado da aplicação de um modelo de
regressão logística a esta amostra apresenta-se na tabela em baixo, em que o
género se descreve por uma variável dicotómica em que o valor 1 correspponde ao
sexo feminino e o 0 ao sexo masculino.

Variáveis Coeficientes Desv.-pad.


Constante -0.779 0.118
Género(F) 0.077 0.074
Idade 0.037 0.002

a) Verifique se as variáveis independentes utilizadas, género e idade, influenciam


a propensão ao voto dos eleitores.

b) Para um modelo de regressão logística com k variáveis independentes,


costuma-se designar por “odds” o quociente

pi
πi = = exp(b0 + b1x i1 + ... + bk x ik ).
1 − pi
Este quociente exprime a grandeza da probabilidade de ocorrência
relativamente ao seu complementar ou, por outras palavras, o quociente entre
os casos favoráveis ao acontecimento e os não favoráveis. Por exemplo, se a
probabilidade é 1/2, o correspondente “odds” é igual à unidade, mas se a
probabilidade for, por exemplo, 2/3, o “odds” é 2, isto é, a probabilidade de
ocorrência é duas vezes maior do que a de não ocorrência. No modelo de
regressão logística é fácil calcular o factor de variação no “odds” provocado
pela variação de uma unidade numa das variáveis independentes. Qual é o
factor de variação no “odds" provocada por um eleitor do sexo feminino? E qual
o factor de variação correspondente a aumento de um ano de idade do eleitor?
E um aumento de 10 anos de idade?

29. Considere o ficheiro MarketingBanco.xlsx que contém registos relativos a clientes


de uma Instituição Bancária Portuguesa que foram contactados (por telefone ou
telemóvel) no sentido de lhes ser proposto um determinado tipo de depósito a
prazo (S. Moro, P. Cortez and P. Rita. - A Data-Driven Approach to Predict the
Success of Bank Telemarketing. Decision Support Systems, In press,
http://dx.doi.org/10.1016/j.dss.2014.03.001). A folha "Variáveis" apresenta um
conjunto de variáveis que podem influenciar a decisão do cliente de aderir ou não
ao produto, expressa na coluna "y" que é uma variável binária, "1" se o cliente fez
o depósito ou "0" se não fez. Considere o conjunto inicial de variáveis constituído
por "age", "duration", "campaign", "previous", "pdays", "nr.employed",
"cons.conf.idx", "emp.var.rate", "cons.price.idx" e "euribor3m". Utilize o método de
selecção de variáveis stepwise para encontrar um modelo de regressão logística
que estime a probabilidade de um cliente fazer o depósito como função de algumas
das variáveis indicadas acima. Encontre a "Confusion Matrix" para os pontos de
corte 0.2; 0.4 e 0.5 e comente.

Você também pode gostar