Você está na página 1de 10

Relatório Técnico e Cientı́fico de

Modelos Lineares Generalizados


Trabalho Bônus 1

Aluno: Fulano Ciclano Beltrano de Tal


Professora: Themis da Costa Abensur Leão

Universidade Federal do Amazonas


Curso de Bacahrelado em Estatśtica

18 de fevereiro de 2022
Os dados seguintes são provenientes de informações demográficas e sócio-econômicas
dos 50 estados norte-americanos da década de 70. Dentre elas temos:

• estado: nome do estado americano;

• pop: população estimada, de julho de 1975;

• percap: renda percapita (em USD), de 1974;

• analf: proporção de analfabetos, de 1970;

• expvida: expectativa de vida (em anos), de 1969-70;

• crime: taxa de criminalidade por 100000 habitantes, de 1976;

• estud: porcentagem de estudantes que concluem o segundo grau, de 1970;

• ndias: número de dias do ano com temperatura abaixo de 0o Celsius na cidade mais
importante do estado;

• area: área do estado (em milhas quadradas);

• dens: densidade populacional, dada pela razão pop/area.

O objetivo deste trabalho é estudar a relação entre a expectativa de vida da população


americana e as demais variáveis descritas. O resumo estatı́stico do perfil sócio-econômico
da população dos 50 estados norte-americanos é apresentado na Tabela 1.

Tabela 1: Resumo estatı́stico do perfil sócio-econômico

pop area percap analf expvid crime estud ndias


média 4246 54277 4436 1.17 70.88 7.378 53.11 104.46
DP 4464.5 89719.8 0.412 0.61 1.342 3.692 8.077 51.98
mı́nimo 365 1049 3098 0.50 67.96 1.400 37.80 0.00
mediana 2838 54277 4519 0.95 70.67 6.850 53.11 114.50
máximo 21198 566432 6315 2.80 73.60 15.10 67.30 188.00

Quanto às informações demongráficas, as variáveis: população estimada, área e número


de dias com temperatura abaixo de 0o C apresentam grandes devsios-padrão indicando que
existem estados cujos valores dessas variáveis são atı́picos em comparação com os demais
que estão em torno de suas médias. O estado de Washington possui a maior população
estimada, seguido do estado de Nova Iorque, enquanto que o Alasca possui a menor; o

1
estado com a maior área (em milhas quadradas) é o Alasca, seguido de Nova Iorque e
Utah, no entanto a Carolina do Sul possui a menor área; o estado com o maior número
de dias muito frios é Nevada, enquanto que o Havaı́ não apresenta temperaturas abaixo
de 0o C ao longo do ano. Os padrões atı́picos dessas variáveis podem ser observados pelos
gráficos da Figura 2.

Quanto às informações sócio-econômicas, as variáveis: renda per capita, proporção de


analfabetos, taxa de criminalidade e porcentagem de estudantes que concluem o ensino
médio apresentam baixa variabilidade em suas distribuições. Nota-se que o estado com a
maior proporção de analfabetos é Louisiana, enquanto que Dakota do Sul, Iowa e Nevada
possuem a menor; o maior taxa de criminalidade ocorre no estado de Alabama, enquanto
que Dakota do Norte é o estado com menos crimes; a maior porcentagem de estudantes
que concluem o ensino médio se concentra no estado de Utah (67.3%), enquanto que
este percentual é menor na Carolina do Sul (37.8%). O comportamento das respectivas
distribuições dessas variáveis é observado na Figura 2.

Apesar de a renda per capita não ter apresentado grande variabilidade em sua distri-
buição, o estado com a maior renda é o Alaska, onde o mesmo se apresenta como outlier
na Figura 2. Por outro lado, o estado do Mississippi possui a menor renda per capita.

A Tabela 1 também apresenta o resumo de informações da variável de interesse, a


expectativa de vida. Pode-se observar que as pessoas vivem por mais tempo no estado
do Havaı́ (cerca de 74 anos) e vivem menos no estado da Carolina do Sul (com apro-
ximadamente 68 anos). As informações sobre o comportamento de sua distribuição são
corroboradas pela Figura 1.

expectativa de vida
72
70
68

Figura 1: Distribuição e assimetria e investigação de outliers da variável resposta.

2
população estimada área

0e+00 3e+05
10000
0

densidade populacional renda per capita

6000
2.0

4500
1.0

3000
0.0

proporção de analfabetos taxa de criminalidade


10 14
2.5
1.5

6
0.5

estudandes com ensino médio dias muito frios


150
60
50

50
40

Figura 2: Distribuição, assimetria e investigação de outliers das covariáveis.

3
Expectativa de vida

Expectativa de vida
72

72
70

70
68

68
0.0 1.0 2.0 3000 4000 5000 6000

densidade Renda per capita


Expectativa de vida

Expectativa de vida
72

72
70

70
68

68

0.5 1.0 1.5 2.0 2.5 2 4 6 8 12

Proporção de analfabetos Taxa de criminalidade


Expectativa de vida

Expectativa de vida
72

72
70

70
68

68

40 50 60 0 50 100 150

Estudantes com o ensino médio Dias de muito frio

Figura 3: Diagrama de dispersão da expectativa de vida com relação às covariáveis.

4
A investigação da relação linear entre a expectativa de vida e as demais covariáveis
é apresentada na Figura 3. Pode-se observar indı́cios de tendência linear negativa entre
a expectativa de vida e a proporção de analfabetos e a taxa de criminalidade; significa
que quanto maiores a criminalidade e o analfabetismo, menor será o tempo de vida da
população. Em relação às variáveis renda per capita, proporção de estudantes que con-
cluem o ensino médio e número de dias com temperatura abaixo de 0o C, há uma tendência
positiva; significa que quanto maior a renda per capita, mais dias de muito frio e mais
estudantes concluindo o ensino médio, maior será a expectativa de vida da populaç ao.
Quanto à relação com a densidade, a tendência de linearidade não é aparente com o tempo
de vida dos norte-americados.

O estudo da relação entre a expectativa de vida da população americana e as demais


variáveis envolvidas é reforçado ao se ajustar um modelo linear generalizado com distri-
buição normal e função de ligação identidade (da famı́lia exponencial canônica). Neste
caso, o preditor linear é dado por
µi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + β4 xi4 + β5 xi5 + β6 xi6 , (1)
em que a indexação i se refere ao estado norte-americano, µi é a expectativa de vida média,
xi1 é a renda per capita, xi2 é a propora̧ão de analfabetos, xi3 é a taxa de criminalidade,
xi4 é a porcentagem de estudantes com o ensino médio, xi5 é o número de dias abaixo
de 0o C na cidade mais importante, xi6 é a densidade populacional e β1 , . . . , β6 são os
respectivos coeficientes associados.

É feita uma seleção de variáveis usando o Critério de Informação de Akaike (AIC) e


o modelo escolhido não apresenta os regressores: renda per capita e proporção de analfa-
betos. Portanto, o modelo teórico fica representado da seguinte forma:
µi = β0 + β3 xi3 + β4 xi4 + β5 xi5 + β6 xi6 . (2)
Este modelo apresentou AIC = 116.7, desvio de 23.766 (com 4 graus de liberdade) e
precisão estimada ϕ̂ = 0.5281, enquanto que o modelo em (1) apresentou um AIC de
119.52, desvio de 23.207 (com 6 graus de liberdade) e precisão estimada de 0.5397.

As estimativas dos coeficientes do modelo em (2) e os testes marginais, vistos na Tabela


2, mostram que todas as covariáveis envolvidas foram significativas ao nı́vel de 10%. Além
disso, as estimativas dos coeficientes mostram que há uma relação linear positiva entre a
expectativa de vida média e a proporção de estudantes com o ensino médio e uma relação
negativa com respeito à taxa de criminalidade, número de dias com temperatura abaixo
de 0o e densidade populacional.

O teste de qualidade de ajuste, medido pela estatı́stica da razão de verossimilhanças


entre os dois modelos: restrito em (2), sob H0 e saturado em (1), sob H1 , apresentou

5
Tabela 2: Estimativas e testes marginais dos coeficientes do modelo selecionado.

Covariáveis Estimativas Erro-padrão valor-t p-valor


Intercepto 71.5015 0.9984 71.614 < 2e-16
crime −0.2859 0.0360 −7.946 4.14e-10
estud 0.0436 0.0153 2.852 0.00655
ndias −0.0071 0.0024 −2.977 0.00467
dens −0.4568 0.2620 −1.744 0.08800

o valor da estatı́stica D(y; µ̂) = 1.189, com 2 graus de liberdade e p-valor de 0.552,
indicando que o modelo em (2) está bem ajustado, ao nı́vel de significância de 5%.

Dado o modelo selecionado pelo critério AIC, uma análise de diagnóstico é realizada
para validação e adequação do modelo. Na Figura 4, observa-se que existem dois pontos de
alavanca, referentes aos estados de Nevada (ponto 28), cujo padrão atı́pico incide no maior
número de dias de temperatura abaixo de 0o C; e Carolina do Sul (ponto 40), cuja padrão
atı́pico reside na maior densidade populacional. Os gráficos não mostram evidências
de pontos aberrantes e pontos influentes. Além disso, o gráfico dos resı́duos do desvio
apresenta um comportamento aleatório de seus valores, o que indica homoscedasticidade
do modelo.

As suposições do Teorema de Gauss-Markov que envolve homoscedasticidade e nor-


malidade dos resı́duos são avaliadas descritivamente na Figura 5. O gráfico da função de
autocorrelação residual indica que que os resı́duos são estacionários, com média próxima
de zero e não autocorrelacionados; o comportamento gráfico da densidade se aproxima
da distribuição normal padrão; e o gráfico de probabilidade normal padrão com envelope
indica que os resı́duos estão adequadamente descritos. Conclui-se, a partir disso, que as
suposições estão satisfeitas.

Para verificar o impacto dos pontos de alavanca no modelo, foi realizada uma análise
confirmatória dos dados retirando esses pontos do ajuste. A verificação do impacto foi
dada pelas variações percentuais das estimativas do modelo com todas as observações de
primeira ordem e dos modelos sem as outliers. Com isso, os resultados foram interpretados
de acordo com as variações percentuais entre as estimativas dos parâmetros do modelo
original e o modelo sem a observação. A variação percentual pode ser calculada da seguinte
forma: !
β̂(−i) − β̂
VP(−i) = × 100.
β̂

6
0.8

40

2
residuos do desvio
0.6

1
alavancagem

0.4

0
28

−1
0.2

−2
0.0

0 10 20 30 40 50 0 10 20 30 40 50

indice das observacoes indice das observacoes


0.20
LD

0.10
0.00

0 10 20 30 40 50

indice das observacoes

Figura 4: Gráficos de diagnóstico do modelo selecionado.

7
1.0

0.6
correlacao residual

0.6

densidade

0.4
0.2

0.2
−0.2

0.0
0 5 10 15 −1.5 −0.5 0.5 1.5

defasagem residuos do desvio


1 2 3
Residuo do Desvio

−1
−3

−2 −1 0 1 2

Percentil da N(0,1)

Figura 5: Distribuição aproximada e aleatoridade dos resı́duos.

8
A Tabela 3 mostra que para o modelo (2) sem o estado de Nevada, o impacto é
praticamente irrelevante nas estimativas do modelo. Porém, a exclusão do estado da
Carolina do Sul causa um impacto de grandes proporções na estimativa da densidade
populacional.

Tabela 3: Variações percentuais no ajuste do modelo com a retirada dos estados de Nevada
e Carolina do Sul.
Covariável VP(−28) VP(−40) VP(−28,−40)
Intercepto 0.73 0.07 0.79
crime 6.76 1.03 7.67
estud 12.64 0.66 11.87
ndias 14.30 1.99 16.04
dens 1.37 53.99 52.78

Você também pode gostar