Escolar Documentos
Profissional Documentos
Cultura Documentos
2020-2021
k k
b) Mostre que a variável U = ∑X i
tem ainda distribuição qui-quadrado com ∑n i
i=1 i =1
graus de liberdade.
( )
2
a) Mostre que a variável U = X − µ σ 2 tem distribuição qui-quadrado com 1
grau de liberdade.
k
S2 = ∑X 2
i
?
i=1
( )
2
2
nm X − Y
T =
( n + m) S 2
T
n m
em que X = ∑X i
n, Y = ∑Y i
m e
i=1 i=1
⎛ n 2⎞
( ) ( )
m
1 2
ST2 = ∑ X −X
n + m − 2 ⎜⎝ i=1 i
+ ∑ Yi − Y ⎟ .
⎠
i=1
Qual a região de rejeição do teste para H0: µX = µY contra H0: µX ≠ µY com base
nesta estatística?
MODELOS LINEARES
2020-2021
Análise da variância
X ij = µ i + ε ij , i=1,...,I e j=1,...,ni,
em que os µi são constantes e os eij são variáveis aleatórias i.i.d. com distribuição
normal tais que E(eij)=0 e Var(eij)=s2. Designando por N a dimensão total do
I
conjunto das amostras, N = ∑ n , considere o estimador de s2 dado por
i
i=1
1 I n
( ) 1 I
2
S2 = ∑ ∑ X − Xi
N i=1 j =1 ij
= ∑ n S2 .
N i=1 i i
Admitindo que o lucro anual de qualquer uma das empresas segue uma distribuição
normal com variância σ 2 e fixando um nível de significância de 5%, responda às
questões que se seguem.
c) Construa a tabela ANOVA e faça o teste F para a igualdade de médias dos quatro
grupos.
E (ε i ε j ) = 0 .
b) Mostre que a soma dos resíduos pode não ser zero, contrariamente ao que
acontece no modelo com termos constante.
i≠j, E (ε ε ) = 0 .
i j
n
a) Se ∑ xi = 0 encontre os estimadores de mínimos quadrados para a e b e
i =1
Vm = b0 + b1 IT (Modelo 1)
ou
b1 IT
Vm = b0e (Modelo 2)
11. Uma casa editora de livros publicou, em 1988, o conjunto de livros cujo preço
(convertido para euros) e número de páginas se indicam na tabela em baixo. A
letra "b" significa que é uma brochura e a letra "e" que se trata de uma
encadernação.
( X′X ) b̂ = X′Y .
(Sugestão: relembre que, para um vector c, c′ = ⎡ c1 ! c p ⎤ , e para uma
⎣⎢ ⎥⎦
matriz simétrica pxp, A = ⎡ aij ⎤ , se tem que o vector das derivadas parciais
⎣ ⎦ ij=1,...,p
=1,...,p
∂ ∂
c′b = c e b ′ Ab = 2 A b.)
∂b ∂b
ˆ ′ X ′X b̂ = Y ′ Y − Y
e′ e = Y ′Y − b ˆ ′Ŷ
Prod NT AT I
12 090 56 840 10,54
11 360 133 2 040 11,11
12 930 256 2 410 10,73
12 590 382 2 760 14,29
16 680 408 2 520 11,19
23 090 572 2 950 14,03
16 390 646 2 480 18,76
16 180 772 2 270 13,53
17 940 805 4 040 16,71
18 800 919 2 750 14,74
28 340 1081 3 870 29,19
30 750 1181 4 240 21,21
29 660 1217 2 840 12,45
20 030 1388 3 420 17,33
17 420 1489 3 200 24,4
11 960 1508 3 060 28,26
15 700 1754 2 910 19,52
a) Utilize o método dos mínimos quadrados para ajustar um modelo que exprima o
valor da produtividade por trabalhor em função das restantes variáveis. Verifique
se todas as variáveis são significativas. Calcule o valor de S2 e também de R2.
b) Repita a alínea anterior, mas agora incluindo também as variáveis NT2 e ATxI.
Compare o modelo obtido com o da alínea anterior e comente.
c) Encontre a dimensão óptima da fábrica, em termos do número de trabalhadores,
que maximiza a produtividade.
d) Considerando o modelo ajustado na alínea b), faça um teste F nas variáveis NT2
e ATxI e apresente a tabela ANOVA correspondente a este teste.
15. Suponha que Y=Xb+e representa um modelo de regressão linear em que E(e)=0,
Cov(e) = s2In, X é a matriz de planeamento com dimensão n x p e característica p
≤ n, e b é o vector px1 dos coeficientes de regressão. Além disso, suponha que se
pretende obter uma predição de yn+1 em que x' = ( x ,..., xn +1, p ) , isto é,
n +1 n +1,1
y n+1 = x 'n+1b + ε n+1 , em que en+1 tem a mesma distribuição dos outros ei's e é
independente deles. A predição baseada no estimador de mínimos quadrados de b
é dada por ŷ
n+1
= x'n+1b̂ , em que b̂ = (X ' X)−1 X ' Y .
( ) ( )
c) Determine var ŷn +1 e var y! n+1 ;
16. A tabela em baixo apresenta o custo de reparação, em dólares dos EUA, do motor
de arranque, do anel do volante ou de ambas essas partes de motores diesel.
a) Considere as variáveis
PREÇO ÁREA NDIV NWC GAR IMP VDUP TERR CONST NLar NQuar EST L1 L2
53 90 5 1,5 0 652 0 11,9 1 0 2 0 1 0
55 76 5 1 2 1 000 0 10,1 1 1 2 1 1 0
56 84 5 1,5 1 897 1 10,7 1 0 3 0 1 0
58 94 6 1,5 2 964 1 7,3 0 0 3 0 1 0
64 102 7 1,5 1,5 1 099 0 15,2 1 1 3 0 1 0
44 83 7 2 1 960 0 7,6 0 0 4 0 1 0
49 130 8 1 1 678 0 9,1 0 0 5 1 1 0
70 210 6 1 2 2 700 0 8,8 0 0 3 0 1 0
72 120 8 1,5 1,5 800 1 10,1 1 0 4 0 1 0
82 195 9 2,5 1 1 038 0 12,2 1 0 4 1 1 0
85 208 12 3 2 1 200 1 15,2 0 1 8 0 1 0
45 60 5 1 0 860 0 7,6 0 0 2 0 0 1
47 80 6 1 0 600 0 7,6 1 0 3 0 0 1
49 97 7 1,5 0 676 0 9,1 0 0 4 0 0 1
56 123 8 1,5 0 1 287 0 15,2 0 0 4 0 0 1
60 73 5 1 0 834 1 7,6 0 0 2 0 0 1
62 105 7 2 0 734 1 9,1 1 0 3 1 0 1
64 114 8 2 2 551 0 11,3 0 0 4 0 0 1
66 86 5 1 1 1 355 0 9,1 1 1 2 0 0 1
35 106 7 1,5 0 561 0 7,6 0 0 4 0 0 0
38 69 6 1 0 489 0 7,6 1 0 3 0 0 0
43 55 5 1 0 752 0 15,2 0 0 3 0 0 0
46 75 5 1 0 774 0 8,2 1 0 2 1 0 0
46 65 4 2 1 440 0 9,1 1 0 2 0 0 0
50 64 6 1 2 549 0 9,1 0 0 2 1 0 0
65 95 7 2 1 900 1 9,1 1 0 3 0 1 0
a) Ajuste, pelo método dos mínimos quadrados, um modelo que escreva o PREÇO
como função linear das variáveis ÁREA, NDIV, NWC, GAR, IMP, VDUP E TERR.
b) Teste a hipótese H0: bAREA = 0 contra H1: bAREA ≠ 0.
c) Ajuste agora um modelo linear ao PREÇO como função das variáveis ÁREA,
VDUP, GAR e TERR. Repita o teste executado em b). Comente o resultado.
( )
−1
Z = ⎡ zij ⎤ i =1,...,p = X ′X . Suponha que se pretende testar a hipótese
⎣ ⎦ j =1,...,p
b) Mostre que a estatística de teste F para esta hipótese linear é dada por
(b̂ − b̂ ) (b̂ − b̂ )
2 2
i j i j
F = =
(
S 2 zii + z jj − 2z ) σ̂ ( b̂ − b̂ )
ij
2
i j
19. (
Considere Y11 ,Y12 ,...,Y1n
1
) uma amostra
( ,...,Y )
Y ,Y
aleatória recolhida de uma população com
21 22 2n2
a) Mostre que as observações Yij (i=1,2; j=1,...,ni) podem ser escritas como um
modelo linear, Y = Xµ+e, em que µ'=[µ1 µ2], identificando o vector Y, a matriz
de planeamento X e o vector dos termos de erro e.
c) Utilize o exercício anterior para verificar que o teste para a hipótese linear
20. Considere de novo os dados sobre o preço das casas (exercício 17).
a) Tendo como base o modelo de regressão linear que explica o preço das casas
como função de ÁREA, VDUP, GAR, TERR, EST e L2, responda às seguintes
questões:
i) Será o preço das casas afectado pelo número de quartos (NQuar), supondo
que as outras variáveis independentes se mantém no modelo?
ii) O agente imobiliário afirmou que uma casa com garagem para um carro vale
mais 5000 dolares que a mesma sem garagem. Comente a afirmação.
iii) Será que a AREA e a TERR têm efeitos semelhantes?
iv) Outro agente imobiliário afirmou que VDUP aumenta o preço em 6000
dolares e a garagem para um carro em 4000. Comente ainda esta
afirmação.
v) Será que se pode dizer que o preço das casas é maior na zona B do que na
zona C?
b) Encontre uma estimativa para o preço de uma casa com 250 metros quadrados,
7 divisões, 4 quartos, 2 WC, VDUP, sem lareira, garagem para um carro e 12
metros de frente. Construa um intervalo de 95% de confiança para o preço
dessa casa.
( X′X ) ( )
−1
= diag n1−1 ,n2−1 ,...,nI−1
e também que
b̂j = Y j ,
Esta hipótese pode ser testada como uma hipótese linear. Com esse objectivo, e
tendo em consideração o resultado demonstrado na alínea anterior,
−1
Escolha de modelos
Y X1 X2 X3 X4 X5
1,2378 0,005 2,9808 *1,7849 1,0506 3,009
*1,1602 *0,2455 0,6616 *1,0312 *0,0356 0,4867
3,1928 *1,1584 1,1675 0,5555 1,0238 0,1264
*1,3105 0,9645 *1,2996 *0,8334 *1,1901 *0,2977
1,7084 0,8764 0,0485 0,427 0,1736 0,8276
3,6943 0,9096 1,3813 1,2283 1,3599 2,2863
2,2835 *0,5112 *0,0484 1,3383 0,5255 *0,5067
2,4409 *0,5242 *0,6004 1,3957 0,2656 *0,8869
2,1405 *0,4683 0,2692 0,7271 0,3663 *0,1798
*1,8542 *0,3426 *0,3129 *0,7971 *0,5029 *0,7294
*0,1293 *0,6177 *0,9368 0,004 *0,5395 *1,6136
0,781 0,6662 0,3194 *0,1455 0,1926 0,9863
3,3353 *0,1323 1,7857 0,866 1,4673 1,5829
*1,3472 *0,6047 *1,3542 *0,4506 *1,0105 *1,9811
*0,6553 *0,6978 0,3193 *1,8325 *0,5795 *0,5332
1,9532 *0,5537 0,4601 0,9753 0,6348 *0,0801
3,8093 1,8009 0,5237 0,8053 0,6488 2,1572
1,4089 *1,2339 0,768 *0,1034 0,3703 *0,4282
0,9481 0,4175 *0,9756 1,1215 *0,1024 *0,4954
3,3172 *0,0127 1,2405 0,1863 0,7472 1,0543
4,6652 *0,5606 1,2245 1,8764 1,5537 0,5074
*0,0289 0,2868 0,4287 *0,3419 0,1257 0,7889
*0,3239 1,5287 *1,5679 *1,1384 *1,3593 0,0277
0,7419 0,6745 0,4276 *1,5489 *0,2994 1,0796
*0,7648 *1,1007 0,5368 *0,5189 0,1265 *0,473
*1,1359 *2,4162 *0,6673 *0,357 *0,6007 *3,0397
4,3678 0,2175 0,9888 3,0514 1,8186 1,1138
0,4494 *0,7123 0,4254 *0,5017 0,016 *0,4079
0,4308 *0,9225 *1,0796 0,8415 *0,3019 *2,0445
*0,4205 1,1623 0,6898 *1,3482 0,1025 1,9074
Regressão logística
e bx
p(x) = .
1 + e bx
a) Escreva a equação normal para o estimador de máxima verosimilhança de b, isto
é, a equação
d ln L(y1,...,y n ;b)
=0
db
b) Mostre, em seguida, que o estimador de máxima verosimilhança de b pode ser
obtido através da fórmula recursiva
n n
b(i+1) = b(i) + ∑ x (yi i − pi ) ∑x 2
i pi (1 − pi ).
i=1 i=1
MODELOS LINEARES
2020-2021
26. Para um modelo de regressão logística, isto é, sendo Yi, i=1,...,n, variáveis
aleatórias de Bernoulli, Bi(1,p(xi)), em que os xi, i=1,...,n, representam os valores
de uma variável independente e tal que
e b0 +b1 x i
p(x i ) = ,
1 + e b0 +b1 x i
os estimadores de máxima verosimilhança de b0 e b1 são assintoticamente
centrados e com distribuição normal bivariada. A matriz de covariâncias da sua
( )
−1
distribuição assintótica é dada por Σ = X ′VX , em que X é a matriz de
planeamento, isto é, a matriz nx2 cuja primeira coluna é apenas um vector de
valores iguais a 1 e a segunda coluna corresponde às observações da variável
independente.
28. Uma empresa de sondagens pretende saber quais as razões que levam os cidadãos
a votar ou não nas eleições legislativas. Assim, foram inquiridos 4158 eleitores, a
quem se perguntou se tinham ou não ido votar nas últimas eleições, sendo esta a
variável dependente Y, que toma o valor 1 para os que foram votar e 0 para os que
não votaram. Procurou-se relacionar a variável Y com o género, masculino ou
feminino, do indivíduo e a sua idade. O resultado da aplicação de um modelo de
regressão logística a esta amostra apresenta-se na tabela em baixo, em que o
género se descreve por uma variável dicotómica em que o valor 1 correspponde ao
sexo feminino e o 0 ao sexo masculino.
pi
πi = = exp(b0 + b1x i1 + ... + bk x ik ).
1 − pi
Este quociente exprime a grandeza da probabilidade de ocorrência
relativamente ao seu complementar ou, por outras palavras, o quociente entre
os casos favoráveis ao acontecimento e os não favoráveis. Por exemplo, se a
probabilidade é 1/2, o correspondente “odds” é igual à unidade, mas se a
probabilidade for, por exemplo, 2/3, o “odds” é 2, isto é, a probabilidade de
ocorrência é duas vezes maior do que a de não ocorrência. No modelo de
regressão logística é fácil calcular o factor de variação no “odds” provocado
pela variação de uma unidade numa das variáveis independentes. Qual é o
factor de variação no “odds" provocada por um eleitor do sexo feminino? E qual
o factor de variação correspondente a aumento de um ano de idade do eleitor?
E um aumento de 10 anos de idade?