Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTATÍSTICOS
Cristiane da Silva
Análise de variância
em modelos lineares
generalizados
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
Introdução
Os modelos lineares generalizados (MLG) são uma forma de ampliar as
possibilidades de análises para outras distribuições de probabilidades
que vão além da distribuição normal. A regressão linear tradicional é um
caso particular do MLG, caracterizados por ter componente aleatória,
componente sistemática e função de ligação. Para pertencer a um MLG,
a distribuição de probabilidade precisa fazer parte da família exponencial.
A análise de resíduos é necessária quando tratamos desse tipo de modelo,
o que permite verificar o ajuste e a qualidade dele.
Neste capítulo, você estudará o MLG, verá que este é uma extensão
dos modelos de regressão simples e múltipla, e será capaz de estimar os
seus coeficientes. Também, conhecerá algumas áreas de aplicação para
o modelo e os benefícios que ele traz para os resultados das estimações.
2 Análise de variância em modelos lineares generalizados
Yi = β1 + β2 Xi + ui
Yi = β1 X0i + β2 Xi + ui
onde X0i = 1 para cada i. Supondo que as variâncias heterocedásticas σi2 sejam
conhecidas, divide-se a equação Yi = β1 X0i + β2 Xi + ui por σi para obter:
Análise de variância em modelos lineares generalizados 3
onde as variáveis com asterisco (*) são as originais divididas por σi. As notações
β1* e β2* indicam os parâmetros do modelo transformado e os distinguem dos
parâmetros normais de MQO, β1 e β2. Para compreender o objetivo de trans-
formar o modelo original, vamos olhar para o termo de erro transformado ui*:
Ou seja:
onde:
Nesta seção, mostramos os MQG que são uma extensão dos modelos de
regressão simples e múltipla e, além disso, definimos os coeficientes desse
tipo de modelo, destacando sua relevância.
0 Resíduo 0
100 100
X X
Figura 1. Gráficos de resíduos heterocedásticos: (a) padrão leque e (b) padrão funil.
Fonte: Adaptada de Doane e Seward (2014).
(a) (b)
(c)
Exemplo 1
Um modelo de regressão foi ajustado para a taxa de execução hipotecária,
em 2007, em função da proporção, por estado, de todos os créditos imobiliá-
rios novos negociados em 2005, que eram subprime — ou seja, empréstimos
hipotecários de alto risco em função do histórico de crédito do mutuário ou
do valor elevado do empréstimo.
Como resultados, encontrou-se que a variável explicativa justificou apro-
ximadamente 25% (R2 = 0,251) da variação na taxa de execução hipotecária
estadual, mas o gráfico de resíduos pela taxa de execução hipotecária prevista
apresenta um padrão de heterocedasticidade, conforme mostrado na a Figura 3,
a seguir.
Exemplo 2
Engenheiros aeroespaciais tinham um grande conjunto de dados de 469 ob-
servações sobre propulsão (na decolagem de um jato com turbinas) junto a
7 preditores potenciais: TurbTemp (temperatura da turbina), Airflow (fluxo
de ar), TurbSpeed (velocidade da turbina), OilTemp (temperatura do óleo),
OilPres (pressão do óleo), RunTime (tempo de funcionamento) e ThermCyc
(ciclo térmico). Na ausência de um modelo teórico, uma regressão stepwise
foi feita, com os resultados mostrados na Figura 4, a seguir.
São mostrados apenas os valores-p para cada preditor, junto a R2, Rajustado2
e o erro padrão. Nesse exemplo, muitos dos valores-p são pequenos devido ao
fato de n ser grande. Ainda que a regressão stepwise seja uma forma eficiente
de identificar o melhor modelo para k preditores, ela é indicada apenas quando
não existe um modelo teórico especificando os preditores que devem ser usados.
Outra automação dessa tarefa é efetuar a regressão dos melhores subcon-
juntos, usando todas as possíveis combinações de preditores. Muitos pacotes
computacionais oferecem essa possibilidade, mas não é recomendada, já que
ela produz saídas em excesso e pouco discernimento adicional (DOANE;
SEWARD, 2014)
Vejamos outra situação, agora elaborada por Freund (2007). Suponha que
seja aplicado um teste de compreensão de leitura a amostras aleatórias de
alunos da mesma série de quatro escolas, com os seguintes resultados.
Escolas Notas
A 87 70 92
B 43 75 56
C 70 66 50
D 67 85 79
Essas quatro amostras têm médias 83, 58, 62 e 77. Como as diferenças entre
elas são muito grandes, pode-se concluir que há algumas diferenças reais entre
os graus de compreensão dos alunos da série em questão das quatro escolas.
Mas não é o que aparece pela análise de variância de um critério, como vemos
a seguir (FREUND, 2007, p. 379).
Total 11 2.454
14 Análise de variância em modelos lineares generalizados
Escola A 71 92 89
Escola B 44 51 85
Escola C 50 64 72
Escola D 67 81 86
Análise de variância em modelos lineares generalizados 15
Você pode saber mais sobre a análise de variância consultando a obra Estatística
aplicada: economia, administração e contabilidade, de John E. Freund, publicada em 2017.
Então, seguiremos com o caso das notas dos alunos, apresentado por Freund
(2007), para entender esse processo.
Exemplo 3
Suponha que os dados do exemplo das notas dos alunos das quatro escolas
consistam em amostras aleatórias independentes de populações normais,
todas com o mesmo desvio-padrão teste, ao nível 0,05 de significância.
Se as diferenças entre as médias obtidas para as quatro escolas (que são nossos
tratamentos) são significantes e, também, se as diferenças entre as médias
obtidas para os três níveis de NM (que são nossos blocos) são significantes.
16 Análise de variância em modelos lineares generalizados
Solução:
1.
H0: α1 = α2 = α3 = α4 = 0
β1 = β2 = β3 = 0
HA: os efeitos de tratamento não são todos iguais a zero; os efeitos de blocos
não são todos iguais a zero.
2.
4. Substituindo k = 4, n = 3, T1. = 252, T2. = 180, T3. = 186, T4. = 234, T.1 = 232,
T.2 = 288, T.3 = 332, T.. = 852 e ∑∑x2 = 63.414 nas fórmulas de cálculo
para as somas de quadrados, obtemos a soma total dos quadrados STQ:
Análise de variância em modelos lineares generalizados 17
para tratamentos, e:
18 Análise de variância em modelos lineares generalizados
Total 11 2.922