Escolar Documentos
Profissional Documentos
Cultura Documentos
Base de Dados:
“Absenteeism at work”
1. Introdução 3
2. Análise de Regressão Clássica 3
2.1. Absenteeism at work: Descrição das variáveis 3
2.2. Estatística Descritiva 4
2.3. Seleção do Modelo de Regressão 5
2.4. Normalidade 6
2.5. Multicolinearidade 7
2.6. Autocorrelação 8
2.7. Heterocedasticidade 8
2.8. Outliers 9
2.9. Estimação do Modelo de Regressão 10
3. Conclusões 11
1. Introdução
Para uma escolha acertada sobre qual o modelo que deveria ser escolhido para
prosseguir com a análise, calculamos o AIC (Akaike information criterion), concluindo
que o melhor modelo seria o modelo de regressão 3 por apresentar um valor de AIC menor
face aos modelos de regressão 1, 2 e 5.
2.4. Normalidade
Tendo optado pelo modelo de regressão 3, foi necessário averiguar se este era
satisfatório face ao modelo mais completo. Para isso, aplicamos o teste ANOVA no R,
que considera as seguintes hipóteses:
𝐻0: Modelo reduzido (Mod3res) é satisfatório face ao modelo mais completo
(Mod1res)
𝐻1: Caso contrário
Pela análise do teste, verificamos que à direita de 0.9172 temos probabilidade de
0.5846, pelo que concluímos que o modelo 3 é satisfatório, pela probabilidade ser maior
que o nível de significância (5%).
2.5. Multicolinearidade
Neste ponto do trabalho, procuramos focar-nos na análise da multicolinearidade
entre variáveis. Este fenómeno ocorre quando variáveis independentes num modelo de
regressão estão correlacionadas, correlação essa que é um problema porque as variáveis
independentes devem ser independentes (e quanto maior for a correlação, pior). Na
presença de multicolinearidade, as variáveis independentes tendem a mudar em uníssono,
e tal vai comprometer a interpretação do coeficiente de regressão.
2.7. Heterocedasticidade
A heterocedasticidade caracteriza-se como sendo um fenómeno estatístico que
ocorre quando o modelo de hipótese matemático apresenta variância distinta para Y e X
(X1, X2,…, Xn), o que contraria o pressuposto de que a variância dos erros é constante e
igual para todos os indivíduos, ou seja, 𝑉𝑎𝑟(𝑌𝑖|𝑋𝑖) = 𝑉𝑎𝑟(𝜇𝑖) ≠ 𝜎2.
2.8. Outliers
Para verificarmos a existência de outliers, corremos o comando
influenceIndexPlot(Mod1res), através do qual, graficamente, percebemos que existem
alguns outliers.
Pela análise dos valores, antes e depois do ajustamento, podemos observar que os
valores mínimo e máximo diminuíram significativamente, reduzindo a amplitude do
tempo de ausência do trabalhador na empresa. A média permanece igual, tal como era
suposto, e a mediana aumentou para valores próximo da média, porém, trata-se ainda de
um valor inferior. Assim, Absenteeism.time.in.hours apresenta apenas uma ligeira
distribuição assimétrica positiva.
O Gráfico 9 espelha os valores ajustados da nossa variável dependente
(Absenteeism.time.inhours) para cada observação, pelo que podemos aferir que existe
uma elevada concentração de valores no intervalo nas primeiras 20h de absenteísmo no
trabalho.
3. Conclusões
Tendo em conta o estudo realizado, podemos concluir que as variáveis explicativas
relevantes para a variável independente são Reason.for.absence, Day.of.the.week,
Social.drinker, Distance.from.Residence.to.Work, Age, Son e, apesar da variável
Body.mass.index estar incluída no modelo de regressão, não é considerada
estatisticamente significativa.
Quando realizamos o modelo de regressão 3, deparamo-nos com um problema de
heterocedasticidade, pelo que tivemos que o corrigir.
Por forma a obtermos um modelo de previsão, realizamos este segundo o intervalo de
confiança e o intervalo de previsão. Face aos resultados obtidos, concluímos que o melhor
modelo será com base no intervalo de confiança, uma vez que alguns lwr no modelo com
base no intervalo de previsão aparecem com valores negativos.