Você está na página 1de 69

Estudo de Caso 2

Jony Arrais
Motivação
Motivação
§ Suponha que um analista esteja interessado em avaliar a existência de
relação entre variáveis:

§ Renda e a quantidade de anos de escolaridade formal de uma pessoa;

§ Custo de produção e o número de empregados de uma empresa;

§ Inadimplência de uma instituição de microcrédito e a natureza da atividade econômica


do negócio;

§ Outros cenários?
Modelos Estatísticos
§ Precisamos de ferramentas apropriadas para investigar as relações de
interesse: modelos estatísticos.

§ Ajuste de modelos: descrever as relações entre as variáveis; estimar e


testar parâmetros associados; e predizer resultados não observados.

§ Fases da modelagem:
§ Especificação,
§ Ajuste do modelo,
§ Diagnóstico,
§ Análise.
Modelos Estatísticos

§ Fase de especificação:

§ Propor o modelo a ser usado.


§ Determinar a variável resposta (desfecho ou dependente).
§ Determinar variáveis relevantes (explicativas ou independentes) para explicar o
desfecho de interesse.
§ Determinar a forma funcional que relaciona a variável resposta com as variáveis
explicativas.

§ Observação: a análise exploratória dos dados tem papel fundamental aqui


(fornecem os sentimentos iniciais do problema)
Modelos Estatísticos

§ Fase de ajuste:

§ Usar a teoria estatística para estimar os parâmetros desconhecidos do modelo de


regressão especificado.

§ Obter estimativas pontuais e intervalares (usando o R).

§ Testar hipóteses sobre os parâmetros.


Modelos Estatísticos

§ Fase de diagnóstico:

§ Analisar a adequação e validar o modelo ajustado (pressupostos são válidos?).

§ Avaliar se o modelo ajustado é compatível com os dados disponíveis.

§ Comparar as predições produzidas pelo modelo aos valores de fato observado.

§ Caso o modelo não se mostre adequado, é preciso voltar para o passo 1 e rever a
sua especificação.
Modelos Estatísticos

§ Fase de análise:

§ Após o modelo ser validado, podemos usá-lo para entender as relações estimadas.

§ Podemos realizar inferência.

§ Podemos fazer previsão.


Modelo de Regressão
Linear Simples
Regressão Linear Simples
§ Dizemos que existe uma relação funcional entre x e y, se existe uma
função tal que y = f(x).

§ Dizemos que existe uma relação estatística entre x e y, se para cada valor
de x existe uma distribuição de probabilidade para y.

§ Relação funcional: para cada x, temos um único valor de y.

§ Relação estatística: para cada x, temos vários valores de y (alguns com


maiores probabilidades do que outros).
Regressão Linear Simples
Regressão Linear Simples
Regressão Linear Simples
§ Um modelo de regressão é a formalização de uma relação estatística
entre duas variáveis: x e y.

§ x não é uma variável aleatória, mas y é uma variável aleatória.

§ Existe uma distribuição de probabilidade para y para cada valor de x.

§ A média de y varia de forma sistemática em relação à x.


Regressão Linear Simples
§ É razoável assumir que todas as famílias que ganham x reais, gastam
exatamente y reais com alimentação por mês?

§ Podemos pensar que para uma determinada renda familiar x (variável


explicativa) existe uma distribuição de probabilidade para o gasto com
alimentação y (variável resposta).

§ Fixada a renda de uma família em x podemos supor que o gasto com


alimentação dessa família, y, é uma variável aleatória.
Regressão Linear Simples
§
Regressão Linear Simples
§
Distribuição Normal (Gaussiana)
Distribuição Normal (Gaussiana)

§
Regressão Linear Simples
Regressão Linear Simples
§
Regressão Linear Simples
Regressão Linear Simples
§ Métodos de estimação: mínimos quadrados e máxima verossimilhança.
§ Mínimos quadrados: minimiza a soma dos quadrado dos erros.
§ Máxima verossimilhança: maximiza a função de verossimilhança.
§ Estimadores:

§ Valor ajustado pelo modelo:


Regressão Linear Simples
§
Regressão Linear Simples
§ Realizar teste de hipóteses
Diagnóstico do modelo
§ Diagnóstico do modelo.
§ Avaliar a qualidade geral do ajuste,
§ Checar se as pressuposições do modelo são atendidas.
§ Identificar possíveis outliers e pontos influentes (impacto deles na inferência).
§ Para tal vamos usar o resíduo do modelo ao invés do erro do modelo.
§ Chamamos de i-ésimo resíduo, a diferença entre o valor observado e o
valor ajustado da i-ésima variável resposta:
Análise de resíduo
§ Chamaremos de resíduo padronizado:

§ Um gráfico útil é representado por resíduo padronizado X valor estimado


pelo modelo: esperamos encontrar pontos aleatoriamente distribuídos
em torno do zero, sem nenhum padrão de crescimento, decrescimento ou
aumento de amplitude.
Análise de resíduo
§
Análise de resíduo
§ Gráfico de resíduos padronizados X valores ajustados.
Análise de resíduo
§
Análise de resíduo - homocedasticidade
§
Análise de resíduo - normalidade
§
Coeficiente de determinação
§
Coeficiente de determinação
§
Predição
§
Predição
§
Problema 1
§ Uma companhia fabrica equipamentos de refrigeração, bem como muitas
peças de reposição.

§ No passado, uma das peças de reposição era produzida periodicamente


em lotes de tamanhos variados.

§ Quando um programa de melhoria de custos foi realizado, os funcionários


da empresa desejavam determinar o tamanho de lote ideal para produzir
essa peça.

§ Uma amostra de 30 unidades.


Problema 1
§ Variáveis observadas: Tamanho do lote produzido e o número de horas
trabalhada.

§ 9999 - código para dado faltante.

§ Quem desempenha o papel da variável resposta e da variável explicativa?


§
§ Faça uma análise para avaliar a presença de dados faltantes.

§ Calcule medidas que sumarizem as variáveis.


Problema 1
§ Avalie a existência de uma relação linear entre as variáveis.

§ Ajuste um modelo de regressão linear simples.

§ Faça uma análise de diagnóstico para checar a qualidade do modelo


ajustado.

§ Faça uma previsão do tempo de horas trabalhada para um lote com 65


peças.
Dados faltantes
Medidas descritivas
Gráficos
Gráfico de dispersão
Ajuste do modelo
Intervalo de confiança
Reta de ajuste do modelo
Avaliando homocedasticidade
Avaliando normalidade
Resumindo os resultados
§
Passo a passo do ajuste de um modelo simples

§ Definir quem é a variável dependente e quem é a variável explicativa.


§ Realizar uma análise descritiva para avaliar a força da relação entre as
duas variáveis (calcular correlação e gráfico de dispersão).
§ Realizar o ajuste do modelo de regressão linear simples.
§ Avaliar a homocedasditidade do erro (gráfico resíduo padronizado X valor
estimado pelo modelo e teste de Breusch-Pagan).
§ Avaliar a normalidade do erro. (gráfico resíduo padronizado X valor
estimado pelo modelo e teste de Shapiro-Wilk).
§ Avaliar linearidade (gráfico resíduo padronizado X valor estimado pelo
modelo).
Passo a passo do ajuste de um modelo simples

§ Caso o modelo esteja adequado (satisfaça os pressupostos):


§ Verifique se os parâmetros são estatisticamente significativos (diferente de
0).
§ Interprete os parâmetros estatisticamente significativos.
§ Obtenha os intervalos de confiança dos parâmetros.
§ Calcule o coeficiente de determinação e interprete.
§ Plote o gráfico com a reta ajustada.
§ Faça previsões caso seja de interesse. Lembre-se que o valor de x usado para
a previsão precisa estar entre o menor e o maior valor observado para a
variável explicativa.
Regressão Linear Simples sem intercepto
§
Regressão pela origem (modelo sem intercepto)
§ É o modelo que define uma relação estatística linear entre uma variável
independente x (variável preditiva ou explicativa), e uma variável
dependente y (variável resposta ou desfecho).
Regressão pela origem (modelo sem intercepto)

§ Métodos de estimação: mínimos quadrados e máxima verossimilhança.


§ Mínimos quadrados: minimiza a soma dos quadrado dos erros.
§ Máxima verossimilhança: maximiza a função de verossimilhança.
§ Estimador:
Regressão pela origem (modelo sem intercepto)
Problema 2
§ Um consultor de uma companhia, na tentativa de reforçar os
procedimentos de planejamento e controle, resolveu analisar alguns
dados referentes a produção.

§ Uma amostra de 81 unidades experimentais.

§ Variáveis observadas: Número de unidades produzidas e o Custo com a


mão de obra.

§ 8888 - código para dado faltante.


Problema 2
§ Quem desempenha o papel da variável resposta e da variável explicativa?
§ Qual modelo usar?
§ Faça uma análise para avaliar a presença de dados faltantes.
§ Calcule medidas que sumarizem as variáveis.
§ Avalie a existência de uma relação linear entre as variáveis.
§ Ajuste um modelo de regressão linear simples.
§ Faça uma análise de diagnóstico para checar a qualidade do modelo
ajustado.
§ Faça uma previsão do tempo de horas trabalhada para um lote com 65
peças.
Dados faltantes
Medidas descritivas
Gráfico de dispersão
Diagnóstico
Avaliando normalidade - graficamente
§ Gráfico qq-plot dos resíduos (QQ-residuals).
Avaliando normalidade – teste de hipóteses
§ Teste de Shapiro-Wilk.
§ P-valor = 0,5882 > 𝛼 = 0,05 → Não rejeitamos 𝐻! .
§ Conclusão: resíduos normais.
Avaliando homocedasticidade
§ Teste de Breusch-Pagan (não é possível aqui, pois o modelo
precisa ter intercepto para usar o teste).
§ Gráfico: resíduos x valores ajustados pelo modelo.
Ajuste do modelo
Intervalo de confiança
Reta de ajuste do modelo
Resumindo os resultados
§ 𝛽" é estaticamente significativo (𝛽" ≠ 0).

)" = 4,64 é o aumento no custo com mão de obra para o


§𝛽
aumento de uma unidade produzida.

§ Suposição de normalidade e homocedasticidade dos resíduos foi


validada.

§ 99,9% da variabilidade do custo com a mão de obra é explicado


pelo número de peças.

§ E[y|x=180] = 835,16 com IC(90%) = (806,17;864,14)


Atividade
1. Importe o arquivo base_massa_muscular.csv. 7777 foi utilizado para
identificar dados faltantes. As mulheres tem idade entre 40 e 79
anos.
2. Analise a quantidade de dados faltantes.
3. Analise descritivamente os dados. Achou alguma inconsistência? Se
sim, é preciso corrigir. Faça um boxplot para a variável idade e um
histograma para a variável massa muscular e um gráfico de dispersão
para avaliar a relação entre as duas variáveis.
4. Ajuste um modelo de regressão linear simples.
5. Obtenha os gráficos de diagnóstico. Quais suas conclusões?
Atividade
6. Faça um teste de hipóteses para verificar normalidade dos resíduos.
Use 𝛼 = 0,01. Avalie graficamente também.
7. Faça um teste de hipóteses para verificar homoscedasticidade dos
resíduos. Use 𝛼 = 0,01. Avalie graficamente também.
Os itens (8) a (11) só devem ser realizados se o modelo for adequado.
8. Interprete os parâmetros estimados pelo modelo. Escreva suas
interpretações
9. Calcule o coeficiente de determinação e interprete.
10. Obtenha intervalos de confiança de 90% para os parâmetros.
11. Faça uma previsão de massa para uma mulher de 50 anos. Forneça
intervalos de confiança com 92% de confiança.

Você também pode gostar