Você está na página 1de 6

DD118 – ESTATÍSTICA BÁSICA

CASO PRÁTICO

No arquivo coches.xlsx, as características de 193 carros clássicos de várias marcas são fornecidas
de acordo com os dados publicados no Anuário Automobilístico Ward de 1985, com o preço
ajustado pela inflação em 2019.

Instruções para o desenvolvimento da atividade

I. A partir das informações fornecidas, responda às seguintes perguntas:

1. Pesquise qual marca de carro é a mais cara. Justifique a resposta.


2. Calcular um intervalo de confiança para o preço médio ajustado pela inflação de cada
marca.
3. Contraste a hipótese, para um nível de significância estatística de 99%, de que o preço
da Mazda e Subaru são diferentes.
4. Compare a hipótese, para um nível de significância de 95%, de que o preço dos carros
a diesel da Mercedes-Benz é mais alto que os carros a gasolina da própria marca.
5. Desenvolva um modelo de regressão linear que permita estimar a variável preço
inflação a partir das variáveis Capacidade motor, Cavalos potência, Comprimento e
peso. Qual das variáveis analisadas melhor explica o preço?

Esclarecimento: Para realizar os cálculos solicitados, sugere-se aos alunos que usem um programa
de computador. O próprio Excel possui uma ferramenta de análise de dados que pode ser usada,
mas poderiam ser utilizados SPSS, SAS, R, etc.

Embora o software de análise estatística seja usado para realizar os cálculos, a entrega será feita por
meio de um relatório de resultados. Na resposta a cada pergunta, o aluno deve justificar
teoricamente o método de solução escolhido e, em seguida, os cálculos feitos.

Universidad Europeia Del Atlântico

Mestrado Internacional em Auditoria e Gestão Empresarial

Mestrando: Leandro Vidal da Silva

1
CASO PRÁTICO

Desenvolvimento:

1 – Pesquise qual marca de carro é a mais cara. Justifique a resposta:

O veículo de marca mais cara desta lista fornecida é um Mercedes Benz com motor a
gasolina, duas portas, que oferece 184 cavalos de potência, com 8 cilindros e uma
aceleração de 4.500 rotações com motor dianteiro e preço ajustado pela inflação de
112.195. Nota-se que na tabela anterior, este resultado pode ser obtido organizando
os dados do maior para o menor, também com a possibilidade de uso das fórmulas
de soma MAX, abrindo parênteses, selecionando a coluna e serrando no final, isso
nos dará os resultados solicitados.

2 – Calcular um intervalo de confiança para o preço médio ajustado pela


inflação de cada marca.

Nível de confiança (1 - α) = 95% Nível significativo de (1 - α) = 5%

Média ou Média Ŷ = ΣYi Desvio padrão Yi σy = √ Σ (Yi -Ȳ) ²

n n-1

3 – Contraste a hipótese para um nível de significância estatística de 99% de


que o preço da Mazda e Subaru são diferentes.

Teste de Hipótese com intervalo de confiança de 99%.

Hipótese Nula(H0)

Hipótese Alternativa (H1)

Abordagem da Hipótese Nula e Alternativa

Ho: μx ≠ μy O preço do Mazda é diferente do Subaru.


H1 : μx = μy O preço do Mazda é igual ao do Subaru

Média e o desvio de ambas as amostras que são independentes e têm o mesmo


número de elementos.

/ 292.162/12 = 24.346,83

= 10.792,64

2
CASO PRÁTICO

253.293/12 = 21.107,75

Valor T (α / 2, n-1) embora sejam uma amostra independente, eles têm o mesmo
número de elementos, então dizemos 12 + 12 = 24-2grau de liberdade dizemos T (1-
a = 0,99) T (24 - 2= 22) = 2.819

Como o teste é bilateral, o intervalo será de 2.819 a 2.819 positivos dentro da curva t
de Student.

T calculado por meio da diferença de médias e então o dividimos pelo erro padrão.

Cálculo Estatístico

T (prova) =

T (prova) = 0,9503

Decisão

Como o valor da T(prova) é menor que T(tabela), podemos dizer que a hipótese nula
é aceita porque está na zona de aceitação sob a curva de Tstudent.

4 - Compare a hipótese, para um nível de significância de 95%, de que o preço


dos carros a diesel da Mercedes-Benz é mais alto que os carros a gasolina da
própria marca.

O preço da Mercedes Benz a Diesel é maior que a de gasolina.


O preço da Mercedes Benz a Diesel é menor ou igual a de gasolina.

Encontrar a média e o desvio de ambas as amostras que são independentes e têm


o mesmo número de elementos.

Determinamos o valor T (a / 2, n-1) que é nossa amostra independente n = 4e m = 4


têm o mesmo número de elementos, temos n + m = 4 + 4 = 8 - 2 = 6 graus de
liberdade, o valor de T (0,05; 6) = 3,182.

Como o teste é unilateral para a direita de – oo a 3.182 positivo dentro da curva de


distribuição T de Student.

Encontramos o T calculado por meio da diferença de médias e então dividimos pelo


erro padrão para o teste unilateral correto.

T(teste) =

3
CASO PRÁTICO

T(teste) = 3,605
5- Desenvolva um modelo de regressão linear que permita estimar a variável
preço inflação a partir das variáveis Capacidade motor, Cavalos potência,
Comprimento e peso. Qual das variáveis analisadas melhor explica o preço?

Para resolver este ponto, utilizaremos um software de computador, o GRETL que,


além de outras utilidades, pode realizar uma análise de programação linear múltipla
como neste caso. Observamos a variável dependente (inflação de preços) e as
independentes (capacidade motora, potência, comprimento e peso).
Uma vez que as variáveis são identificadas e inseridas no software, os resultados
mostrados são os seguintes:

Desta forma, a equação que deve ser estimada por meio do modelo de regressão
linear múltipla tem a seguinte forma funcional:

Yi = β0 +β1 .X1i + β2 .X2i + β3 .X3i + Ɛ

β0 =representa a interceptação

β1 = o coeficiente do regressor X1i β2 = o coeficiente do regressor X2i β3 = o


o coeficiente do regressor X3i β4 = o coeficiente do regressor X4i Ɛ = termo de
erro não observável.

Equação da linha de regressão linear múltipla.

Y = -24,994 -2,566X1 + 215X2 - 64X3 + 21X4

Primeira estatística a examinar será o R ao quadrado e o R ajustado ao quadrado;


ambas as estatísticas fornecem informações sobre a variação da variável dependente
(neste caso, a inflação de preços), que é explicada pelo conjunto de variáveis
explicativas. Neste caso, tanto o R ao quadrado quanto o R ao quadrado ajustado
ultrapassam 77%, o que indica que 77% da variação da inflação de preços é
demonstrada pela capacidade motora, potência, comprimento e peso.

É aconselhável escolher como medida de ajuste o R-quadrado ajustado (0,769)


sobreo R-quadrado, pois este tende a ter um comportamento otimista ao ajustar a
regressão linear, foram adicionadas mais variáveis explicativas ao modelo, a
estatística R-quadrada também aumenta, independentemente de as variáveis
explicativas adicionais terem algum grau de correlação com a variável dependente.
O R-quadrado ajustado corrige a superestimativa produzida pelo R-quadrado.

Uma vez que a análise de regressão linear múltipla fora realizada para determinar o
comportamento da variável de inflação de preços, em função de um conjunto de
variáveis explicativas (cilindrada do motor, potência, comprimento e peso),é
necessário examinar se as premissa pelo modelo de regressão é atendido: sem
Multicolinearidade, Homocedasticidade, independência de erros, distribuição normal
de erros, independência e linearidade. A importância do cumprimento dos
pressupostos implicaria que os resultados produzidos pelo modelo podem ser
aplicados com grande precisão à população de interesse.

4
CASO PRÁTICO

Para verificar se os erros são independentes entre as observações, é aplicado o teste


de Durbin-Watson.Este teste pode variar entre 0 e 4, onde um valor próximo a 2
significa que os resíduos não estão correlacionados, por outro lado, um valor maior
que 2 indica uma correlação positiva entre os erros subjacentes, enquanto um valor
menor que 2 representa uma correlação negativa entre erros. Revendo as
informações apresentadas na tabela, observa-se que o valor da estatística Durbin
Watson é próximo a 2, informação confirmada com o valor de p de 0,735.

A multicolinearidade ocorre quando existe uma forte correlação entre as variáveis


explicativas ou quando existe uma combinação linear perfeita entre elas. Uma das
consequências da multicolinearidade está na dificuldade de se fazer uma avaliação
da importância de cada preditor.
O método para detectar a presença de multicolinearidade é por meio do fator de
inflação da variância (VIF). Essa estatística indica se um regressor tem um
relacionamento linear forte com outro regressor. A literatura especializada considera
que, se o valor do VIF for maior que 10, provavelmente há um problema de
multicolinearidade, considerando também a média desse indicador, se for maior que
1, a multicolinearidade possivelmente gere um problema de viés no modelo de
regressão.
Além disso, uma estatística adicional, que está relacionada às anteriores, é a
estatística de tolerância, que é representada como a razão entre 1 / VIF. Se esse
valor for inferior a 0,1, haverá um problema de multicolinearidade.
Analisando as informações da tabela, fica evidente que tanto os valores VIF quanto a
estatística de tolerância atendem aos parâmetros estabelecidos, portanto, conclui-se
que não há multicolinearidade.

Deve ser considerado o pressuposto da distribuição normal dos resíduos (erros).


Para tanto, os resíduos padronizados (no eixo y) devem ser plotados contra os
valores ajustados (no eixo x), com isso será determinado se a suposição de erros
aleatórios e homocedasticidade é atendida. No gráfico você pode ver a dispersão dos
pontos uniformemente distribuídos em torno de zero, sendo este um sinal de que
ambas as hipóteses de linearidade(α), trabalharemos com as mais comuns delas, a
relação entre as variáveis dependentes e independentes são lineares) e a
homocedasticidade (variação de erros constantes) é satisfeita.

Outro gráfico que nos possibilita visualizar e examinar se uma variável tem uma
distribuição normal é o gráfico P-P, que plota os valores cumulativos da variável
versus a probabilidade cumulativa da distribuição normal. Nesse sentido, cada valor é
contrastado como valor esperado de que o resultado seja uma distribuição normal.
No caso deste estudo, os resíduos observados são analisados e plotados usando o
diagrama P-P.
Em essência, se os erros tiverem uma distribuição normal, eles formarão uma reta
diagonal, o que fica evidente no gráfico, portanto, os erros têm distribuição normal.
O modelo previsto pode ser generalizável para a população. Da mesma forma, e à luz
dos resultados vistos, conclui-se que a potência e o preço são tão importantes na
previsão da inflação de preços. Entretanto as variáveis capacidade motora e
comprimento tenham sido estatisticamente significativos, tiveram menor impacto em
relação às duas variáveis.

5
CASO PRÁTICO

Referências:

GRETL-Software de Econometria.

N.D. (2021). Estatística Básica: [Apostila do curso de Mestrado em Auditoria e


Gestão Empresarial, Fundação Universitária Ibero Americana]. Brasil.

Estatística Básica, disponível em: < https://www.ufrgs.br/probabilidade-


estatistica/extra/material/apostila_de_estatistica_basica.pdf> acessado em
22/12/2021

Você também pode gostar