Você está na página 1de 5

Universidade Federal de Pernambuco

Centro Acadêmico do Agreste


Programa de Pós-Graduação em Engenharia de Produção
Métodos Estatísticos

Ano: 2019.1
Prof. Dr. Thalles Garcez

Discentes: Emanuel Bruno; Livia Malta, Mônica Rocha, Rylla Ohana.

Relatório

Baseado em uma amostra do desempenho de vinte e cinco estudantes.


1. Verificar a natureza linear da relação ente X, tempo de estudo e Y, a nota.
Para avaliar a natureza linear da relação, plotamos um gráfico de dispersão que possibilita
a visualização da intensidade e o comportamento da relação entre a variável X (tempo de
estudo) e Y (nota), variável explicativa e variável de resposta, respectivamente. O gráfico
de dispersão apresenta um comportamento linear crescente (quanto maior o tempo de
estudo, maior é o resultado obtido). Pode ser observado uma aproximação entre os pontos
indicando uma associação positiva forte. O diagrama de dispersão mostra uma tendência
dizendo que existe um relacionamento entra as variáveis.

Gráfico 1: Gráfico de dispersão – Tempo de estudo Vs. Desempenho.


50
45
40
Desempenho

35
30
25

0 5 10 15 20

Horas.de.estudo
2. Calcular a força e direção da relação linear entre X e Y.

O gráfico de dispersão fornece a indicação de linearidade da regressão, assim verificamos


a veracidade desta indicação, com o auxílio do R Commander.

O relatório disponibiliza as seguintes informações:

o Validando o gráfico de dispersão, o valor de r é 0,8539053 (resultado da


correlação da amostra); sua aproximação do valor 1 indica uma associação
positiva e consideravelmente forte para as amostras. Feito o teste t (para avaliar a
correlação entre a população), onde t = 7,8689. Para o teste F com valor de 61,92
para o ajuste geral do modelo (quanto mais distante de zero, melhor o ajuste do
modelo). Pode ser observado o p-value, onde para α = 0,05; o p-value da estatística
F é 5,689e-8.
o O valor que a reta de regressão toca no eixo Y, o intercepto, tem um valor de
26,9729, mesmo que o aluno estude um total de zero horas, a média da nota será
26,9729. A significância do intercepto só é possível se o zero for um valor
assumido possível entre os dados. É observado também no coeficiente de
determinação R² = 71,74% que mostra o quanto da variação do modelo pode ser
explicado, assim, é possível observar também que 28,26% da variação presente
no modelo, não pode ser explicada. A inclinação da reta da regressão é o
coeficiente angular, o mesmo apresenta um valor positivo, indicando que a cada
hora de estudo existe um acréscimo de 1,65 na nota do aluno.

3. Estimar os parâmetros da linha de regressão Y = bX + a; e testar o modelo


de predição.

Observando os relatórios do R Commander, temos a equação da regressão:


Y – nota (variável de resposta);
X – horas de estudo (variável explicativa).

Y = 26,9729 + 1,65 * X

Podemos observar que os intervalos de confiança tanto do intercepto quanto do


coeficiente angular não possuem valor igual a zero, mostra que ambos são
significativamente diferentes de zero, implicando em influência na variável resposta.

A partir da reta, obteve-se os seguintes valores de predição:

Alunos Horas de estudo Desempenho Predição Resíduos


1 2,6 24,4 31,2629 -6,8629
2 6,3 38 37,3679 0,6321
3 19,7 50 59,4779 -9,4779
4 1,3 25,3 29,1179 -3,8179
5 3,9 32,4 33,4079 -1,0079
6 0 21,9 26,9729 -5,0729
7 9,2 49,5 42,1529 7,3471
8 15 47,7 51,7229 -4,0229
9 2,6 26,8 31,2629 -4,4629
10 7,5 44,9 39,3479 5,5521
11 13,1 48,7 48,5879 0,1121
12 10 39,5 43,4729 -3,9729
13 6,6 46,6 37,8629 8,7371
14 2,5 28,1 31,0979 -2,9979
15 9,2 44,3 42,1529 2,1471
16 0 21,3 26,9729 -5,6729
17 18,4 50,6 57,3329 -6,7329
18 8,8 48,8 41,4929 7,3071
19 11,8 50,6 46,4429 4,1571
20 1,3 23,3 29,1179 -5,8179
21 6,6 44,3 37,8629 6,4371
22 8,8 46,8 41,4929 5,3071
23 5,3 42,1 35,7179 6,3821
24 12,5 49,1 47,5979 1,5021
25 3,9 37,7 33,4079 4,2921

Podemos observar a partir dos resultados resíduos (valores observados / valores


estimados) que as notas não diferem muito dos valores estimados.

4. Estimar os intervalos de confiança dos parâmetros do modelo.

Podemos observar no gráfico abaixo o intervalo de confiança de predição dos resultados


das notas, onde 95% dos valores estimados das notas estarão neste intervalo. Os valores
são mais estreitos quando estão próximos da média.

Assim, avaliado os intervalos de confiança para o intercepto e o coeficiente angular, é


observado que ambos não possuem zero, eles são significativamente diferentes de zero,
demonstrando uma determinada influência na variável dependente.

5. Verificar as condições de homocedasticidade, auto correlação e normalidade.

Rediduals vs Fitted: Sabe-se que a linha que representa os pontos dos resíduos quanto
mais próximos da linha pontilhada caracteriza-se como homocedástico, ou seja, com a
variância constante. Entretanto, isso não ocorre o que caracteriza o gráfico como
heterocedástico. São apresentados três pontos críticos (3,16,17).
Normal Q-Q: De acordo com o gráfico apresentado, é possível verificar que a
normalidade pode ser violada, uma vez que o comportamento dos pontos não apresenta
um formato linear exato como os pontos 3,17,13 que se apresentam mais distantes da
reta.
Scale-Location: Possui característica de heterocedasticidade, pois, os pontos apresentam-
se relativamente distantes da linha que representa os pontos dos resíduos, destacando
como pontos críticos (3,17,13).
Residuals vs Leverage: Esse gráfico mostra a influência de retirada dos valores, onde
quanto mais um ponto se aproxima da linha da distância de Cook mais influência no
modelo. É o caso dos pontos (3,17,16).
Todos os gráficos destacam três pontos que possuem grande influência no modelo, todos
estes valores são incomuns, visto que são <=2 na escala dos resíduos padronizados.
A condição de normalidade é verificada, por meio do gráfico Normal Q-Q e para sustentar
essa informação foi utilizado também o Teste de Normalidade de Shapiro Wilk, temos:

Assim, pode-se notar que o valor-p do teste é 0,2414, ou seja, para o nível de significância
de 5%, não se pode rejeitar a hipótese de normalidade dos resíduos e, o que por sua vez,
admite-se que os erros são normalmente distribuídos. Para analisar a condição de
homocedasticidade, há um pressuposto de que os erros tenham variância comum, quando
o mesmo não é atendido dizemos que existe heterocedasticidade, o que é possível
verificar através do gráfico Rediduals vs Fitted. Observando ainda que o valor-p do teste
é 0,2414 é maior que os níveis de significância mais usuais (0,01; 0,05; 0,10). Dessa
forma, pode-se concluir que a variância dos dois subconjuntos é igual, o que implica na
homocedasticidade dos erros.

Você também pode gostar