Escolar Documentos
Profissional Documentos
Cultura Documentos
Anlise de Regresso
1 - Introduo
Em diversas reas de aplicao, freqentemente h interesse em estudar a relao entre duas variveis, como: Idade e altura das crianas; Tempo de prtica de esportes e ritmo cardaco; Tempo de estudo e nota na prova; Taxa de desemprego e taxa de criminalidade; e Expectativa de vida e taxa de analfabetismo. A natureza e o grau de relao entre variveis podem ser analisados pelas tcnicas de Regresso e Correlao. Em linhas gerais, podemos dizer: a anlise de regresso ocupa-se do estudo da dependncia de uma varivel, a varivel dependente (ou varivel resposta), em relao a uma ou mais variveis, as variveis explicativas (ou variveis independentes), com o objetivo de estimar e/ou prever a mdia (da populao) ou valor mdio da varivel dependente em termo dos valores conhecidos ou fixos das variveis explicativas. A anlise de correlao, por outro lado, consiste na medio do grau ou intensidade de associao entre duas variveis. Quando se pode demonstrar que a variao de uma varivel est de algum modo associada com a variao da outra, ento podemos dizer que as duas variveis esto correlacionadas. A anlise de regresso uma das tcnicas estatsticas mais utilizadas para pesquisar e modelar o relacionamento existente entre duas ou mais variveis.
Y = b + b X +e
0 1
onde
b eb
0
A teoria da regresso assenta nas seguintes suposies sobre os erros: 1. Tm mdia zero e a mesma varincia desconhecida. 2. So no correlacionados, ou seja, o valor de um erro no depende de qualquer outro erro. 3. Os erros tem distribuio normal. As verificaes das suposies supracitadas so feitas atravs da Anlise Residual.
EXEMPLO 1
Proposta: Avaliar a relao linear entre duas variveis plotando a reta de regresso. Problema: Percebe-se que com o aumento da temperatura ambiente, o consumo de cerveja tambm tende a aumentar. Assim sendo, foram coletados dados para entendermos melhor a relao existente entre a temperatura ambiente e o consumo de cerveja. Dados coletados: Os dados foram coletados aleatoriamente em nove localidades com as mesmas caractersticas demogrficas e scio-econmicas. Ferramentas: Fitted Line Plot Arquivo de dados: ConsumoXTemperatura.mpj
Descrio Varivel Resposta:consumo de cerveja em um dia (em 100 litros) Varivel Explicativa: temperatura mxima (em C)
AJUSTANDO UM MODELO LINEAR Desejamos determinar o efeito do aumento da temperatura ambiente no consumo de cerveja. Atravs da ferramenta Fitted Line Plot construiremos a equao de regresso. FITTED LINE PLOT 1. Abra ConsumoXTemperatura.mpj 2. Selecione Stat > Regression > Fitted Line Plot 3. Complete a caixa de dilogo como mostra a figura:
4. Clique em OK
INTERPRETANDO OS RESULTADOS A equao de regresso : Consumo = 217,4 + 4,739 Temperatura Logo, para um acrscimo de 1C na temperatura mxima h um acrscimo mdio de 473,9 litros no consumo de cerveja. O S uma estimativa da variabilidade mdia sobre a linha de regresso. Para um dado problema, melhor a equao para predizer a resposta ser aquela que tiver o S mais baixo. O coeficiente R2 (R-Sq) mede a proporo de variabilidade presente nas observaes da varivel resposta que explicada pelo uso das variveis regressoras no modelo. Assim, 92,5% da variao do consumo de cerveja explicada pela temperatura mxima O R2 ajustado (R-Sq (adj)) sensvel ao nmero de termos includos em um modelo, devendo ser adotado quando analisarmos um modelo mltiplo.
Usaremos os resultados da Anlise de Varincia (ANOVA) para saber se o MRLS til ou no.
Modelo de Regresso:
Y = b + b X +e
0 1
H0:
b H1: b
1 1
=0 0
Interpretaremos o Valor P da seguinte maneira: Valor P < ; Rejeita-se H0 Valor P > ; No rejeita-se H0
Regression Analysis: Consumo versus Temperatura
The regression equation is Consumo = 217,4 + 4,739 Temperatura
S = 15,5509
R-Sq = 92,5%
R-Sq(adj) = 91,4%
Analysis of Variance Source Regression Error Total DF 1 7 8 SS 20752,1 1692,8 22444,9 MS 20752,1 241,8 F 85,81 P 0,000
CONCLUSO Considerando um nvel de significncia de 5% ( = 0,05) rejeitamos a hiptese nula de que o coeficiente angular da reta de regresso seja igual a zero, ou seja, podemos afirmar que a temperatura mxima apresenta um efeito significativo no consumo de cerveja. CRIANDO OS GRFICOS DOS RESDUOS O Resduo de cada observao a diferena entre o valor observado na amostra e o valor previsto pelo modelo.
Para confirmarmos se o modelo de regresso valido, devemos verificar todas as suposies (abaixo listadas) sobre os erros. 1. Tem mdia zero e a mesma varincia desconhecida. 2. So no correlacionados, ou seja, o valor de um erro no depende de qualquer outro erro. 3. Os erros tm distribuio normal. Para isso, faz-se a Anlise Residual:
RESIDUAL PLOTS
1. Selecione Stat > Regression > Fitted Line Plot ou pressione <CTRL + E> 2. Clique em Graphs 3. Complete a caixa de dilogo como mostra a figura a seguir
GRFICO DE PROBABILIDADE NORMAL Usado para verificar se os resduos se comportam de acordo com a distribuio Normal. Se os resduos provm de uma distribuio Normal, os pontos devem estar ao longo de uma linha reta. Nota: Neste caso o valor P do teste de normalidade dos resduos de 0,891. Baseando-se neste grfico, razovel no rejeitarmos a hiptese nula de que os resduos provm de uma distribuio Normal.
HISTOGRAMA Caso a amostra seja razoavelmente grande e se concluirmos que os resduos provm de uma distribuio Normal, o histograma dever tambm indicar esta normalidade.
RESDUOS VERSUS VALORES AJUSTADOS Usado para verificar no est faltando nenhum termo quadrtico no modelo, se a varincia constante ao longo de todos os valores ajustados e se no existe nenhum outlier. Se observarmos a existncia de qualquer padro no aleatrio neste grfico, sinal que algumas das suposies foram violadas. A tabela abaixo resume padres tpicos:
Indica que ... Um termo quadrtico pode estar faltando H presena de um outlier
RESDUOS VERSUS VALORES ORDENADOS Representa a ordem na qual os valores foram coletados e usado para verificarmos a independncia dos resduos. Se no existir nenhum efeito devido ordem de coleta dos dados, os resduos estaro espalhados aleatoriamente em torno do zero.
CONSIDERAES FINAIS A Anlise de Regresso Linear Simples nos revela que o consumo de cerveja est associado ao aumento da mxima temperatura ambiente . A equao encontrada mostra que para um acrscimo de 1C na temperatura mxima h um acrscimo mdio de 473,9 litros no consumo de cerveja. Devemos estar alerta durante a verificao das suposies do modelo (Anlise Residual).
Y = b 0 + b 1 X 1 + b 2 X 2 + ... + bkX k + e
recebe o nome de regresso linear mltipla com k variveis explicativas. Os parmetros bj , j = 0, ..., k so chamados de coeficientes de regresso. Suposies do modelo de regresso linear mltipla (MRLM) 1. Tem mdia zero e a mesma varincia desconhecida. 2. So no correlacionados, ou seja, o valor de um erro no depende de qualquer outro erro. 3. Os erros tm distribuio normal. As verificaes das suposies supracitadas so feitas atravs da Anlise Residual.
EXEMPLO 2
Proposta: Avaliar a relao linear entre mltiplas variveis atravs da Anlise de Regresso. Problema: Um engenheiro do departamento de qualidade est tentando identificar a causa do barulho nas mquinas. As seguintes variveis foram consideradas: Ponto de centelhamento da vela Razo ar-combustvel Temperatura de entrada Temperatura de exausto
Dados coletados: Foram coletados dados de 13 mquinas selecionadas aleatoriamente, todas funcionando gasolina. Ferramentas: Matrix Plot Correlation Regression Arquivo de dados: Barulho do Motor.mpj
Varivel Ponto de centelhamento da vela Razo ar-combustvel Temperatura de entrada Temperatura de exausto Barulho
Descrio Varivel Causa Varivel Causa Varivel Causa (C) Varivel Causa (C) Varivel Resposta: Medio do barulho do motor
CRIANDO UM MATRIX PLOT Primeiro utilizaremos a matriz e o coeficiente de correlao para verificarmos se existe uma relao entre a varivel resposta e a varivel preditora. MATRIX PLOT 1. Abra Barulho do Motor.mpj 2. Selecione Graph > Matrix Plot 3. Selecione Matrix of Plots Simple, ento clique em OK 4. Complete a caixa de dilogo como mostra a figura:
5. Clique em Matrix Options 6. Abaixo Matrix Display, selecione Lower left 7. Clique em OK em todas as caixas de dilogos
INTERPRETANDO OS RESULTADOS Nota-se que as variveis Barulho e Ponto de centelhamento da vela parecem ter uma correlao negativa e a varivel Barulho parece ter uma correlao positiva com todas as demais variveis preditoras.
PRXIMO PASSO Utilizar Correlation para avaliar a intensidade das relaes lineares. 1. Selecione Stat > Basic Statistics > Correlation 2. Complete a caixa de dilogo como mostra a figura a seguir:
3. Clique em OK
INTERPRETANDO OS RESULTADOS Como sugerido na Matriz, existe uma correlao negativa entre as variveis Barulho e Ponto de centelhamento da vela (r = -0,699). Tambm observa-se que existe uma correlao positiva entre a varivel Barulho e todas as demais variveis preditoras
Correlations: Ponto de cen; Razo ar-com; Temperatura ; Temperatura ; Barulho
Razo ar-com Ponto de cen -0,580 0,038 -0,500 0,082 -0,723 0,005 -0,699 0,008 Razo ar-com Temperatura Temperatura
Temp. Entrada
0,521 0,068 0,587 0,035 0,961 0,000 0,291 0,335 0,673 0,012 0,682 0,010
Temp. Exausto
Barulho
PRXIMO PASSO Utilizar Regression para analisar o modelo de regresso mltipla com todas as variveis preditoras.
AJUSTANDO UM MODELO DE REGRESSO LINEAR MLTIPLA Regression 1. Selecione Stat > Regression > Regression 2. Complete a caixa de dilogo como mostra a figura a seguir:
3. Clique em OK
Equao de Regresso: Barulho = 23,8 - 0,296 Ponto de centelhamento da vela + 3,19 Razo ar-combustvel + 0,359 Temperatura de entrada + 0,0134 Temperatura de exausto
Tabela de Coeficientes Devemos tomar cuidado quando estivermos interpretando os coeficientes de regresso mltipla. O valor P de cada varivel indica somente a significncia daquela varivel somente naquele modelo especfico.
The regression equation is Barulho = 23,8 - 0,296 Ponto de centelhamento da vela + 3,19 Razo ar-combustvel + 0,359 Temperatura de entrada + 0,0134 Temperatura de exausto
Predictor Constant Ponto de centelhamento da vela Razo ar-combustvel Temperatura de entrada Temperatura de exausto
S = 0,510560
R-Sq = 98,8%
R-Sq(adj) = 98,2%
Analysis of Variance Source Regression Residual Error Total DF 4 8 12 SS 170,245 2,085 172,331 MS 42,561 0,261 F 163,28 P 0,000
Source Ponto de centelhamento da vela Razo ar-combustvel Temperatura de entrada Temperatura de exausto
DF 1 1 1 1
CUIDADO COM A MULTICOLINEARIDADE Podemos usar a correlao para tentar identificar a fonte potencial da multicolinearidade. Se existir uma multicolinearidade que comprometa demasiadamente o modelo, o MINITAB uma mensagem na Session Window. Uma boa maneira de se escolher a varivel preditora que deve ser mantida em um modelo de regresso mltipla com multicolinearidade, construindo todas as combinaes em potencial utilizando a ferramenta comparativa de modelos Best Subsets. No problema em questo, a varivel Ponto de centelhamento da vela no significatica para explicar o modelo (P = 0,363). Contudo, se removermos a varivel Temperatura de Exausto do modelo, o Ponto de centelhamento da vela passa a ser significativa (P = 0,034) ao nvel de 5% de significncia. Isso ocorre devido alta correlao existente entre essas variveis (r = -0,723), ou seja, ambas explicam a mesma parte da variabilidade da varivel resposta Barulho.
Analisando o Best Subsets 1. Selecione Stat > Regression > Best Subsets 2. Complete a janela de acordo com a figura a seguir:
3. Clique em OK
INTERPRETANDO OS RESULTADOS Variveis: A coluna Vars indica o nmero de variveis preditoras presentes no modelo correspondente. R2 (R- Sq) e R2 Ajustado (R-Sq (Adj)): em geral, adota-se o modelo com o maior R2. Mallows C-p: Em geral, adota-se o modelo em que o C-p for menor e apresentar o valor mais prximo do nmero de parmetros do modelo. Lembrando que um parmetro b do modelo.
0
Variabilidade: S uma estimativa da varincia mdia sobre a linha de regresso. Em geral, desejamos que o S seja o menor possvel.
Best Subsets Regression: Barulho versus Pto cent da ; ar-combustv; ...
Response is Barulho
Vars 1 1 2 2 3 3 4
P t o a r c e c n o t m b d u a s t v e v l e a l X X X X X X X X X X
T T e e m m p p d d e e e e x n a t u r s a t d a o
X X X X X X
Concluso Baseado nestes critrios, conclumos que o modelo que contm as variveis Razo arcombustvel, Temperatura de entrada e Temperatura de exausto o melhor. Isso porque o modelo que contm as quatro variveis possui uma estimativa para o S levemente maior alm de no apresentar nenhum ganho significativo no R2 Ajustado.
A NOVA EQUAO DE REGRESSO 1. Selecione Stat > Regression > Regression 2. Complete a caixa de dilogo como mostra a figura a seguir:
3. Clique em OK
INTERPRETANDO OS RESULTADOS Usaremos um de 0,05 em todas as anlises R2 (R- Sq) e R2 Ajustado (R-Sq (Adj)): O modelo explica 98,2% da variabilidade total da varivel resposta. Nota: O R2 nunca ir decrescer quando adicionamos variveis preditoras a um modelo, mesmo se estas novas variveis no servirem de fato para explicar o comportamento da varivel resposta, no devendo ser interpretado em modelos mltiplos. O R2 ajustado corrige este problema pois ajustado para o nmero de termos presente no modelo.
ANOVA
b H1: b
H0:
j j
=0 0
j = 0,1,2,3
Interpretaremos o Valor P da seguinte maneira: Valor P < ; Rejeita-se H0 Valor P > ; No rejeita-se H0
j = 1,2,3
diferente de zero
Interpretaremos o Valor P da seguinte maneira: Valor P < ; Rejeita-se H0 Valor P > ; No rejeita-se H0 Neste exemplo, o valor P do teste F de 0,000, ou seja, rejeita-se a hiptese nula de que todos os coeficientes so iguais a zero. O teste T individual confirma isso.
Regression Analysis: Barulho versus ar-combustvel; Temp de entrada; ...
The regression equation is Barulho = 16,5 + 3,21 ar-combustvel + 0,386 Temp de entrada + 0,0166 Temp de exausto
S = 0,508616
R-Sq = 98,6%
R-Sq(adj) = 98,2%
Analysis of Variance Source Regression Residual Error Total DF 3 9 12 SS 170,003 2,328 172,331 MS 56,668 0,259 F 219,06 P 0,000
DF 1 1 1
ANLISE DE RESDUOS A interpretao da Anlise de Resduos ocorre da mesma forma que na Anlise de Regresso Linear Simples.
CONSID ERA ES FINAIS A equao de regress o Barulho = 16,5 + 3,21 arcombust vel + 0,386 Temp de entrada
85,0
92,5
95,0
5 6 7 8 9 10 11 12 13 Observation Order
+ 0,0166 Temp de exausto O modelo explica 98,2% da variabilidade total da varivel resposta. Devemos estar alerta durante a verificao das suposies do modelo (Anlise Residual).
EXERCCIO 1 Um administrador de uma cadeia de supermercados deseja desenvolver um modelo com a finalidade de estimar as vendas mdias semanais (em milhares de dlares) de cada supermercado, Para isto, selecionou-se uma amostra aleatria de 20 supermercados entre todos os que formam a cadeia. Ao desenvolver o modelo foi considerado entre outras variveis explicativas (ou independentes) a varivel "o nmero de clientes por semana. Os dados so apresentados na tabela abaixo: Supermercado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 N de Clientes 907 926 506 741 789 889 874 510 529 420 679 872 607 452 729 794 844 1010 621 Vendas Semanais 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12 7,63 9,43 7,64 6,92 8,95 9,33 10,23 11,77 7,41
Calcule a equao de regresso, faa a anlise residual e interprete os resultados. Arquivo de dados: Supermercado.mpj
Soluo do Exerccio
S = 0,443029
R-Sq = 93,4%
R-Sq(adj) = 93,1%
Analysis of Variance Source Regression Error Total DF 1 17 18 SS 47,5729 3,3367 50,9096 MS 47,5729 0,1963 F 242,38 P 0,000
A Equao de Regresso : Vendas Semanais = 2,215 + 0,009092 N de Clientes Isto , para cada incremento de um cliente, o modelo prev uma estimao de um aumento nas vendas de 0,009092 mil dlares (ou 9,092 dlares). Portanto, para cada 100 clientes, esperamos que as vendas semanais aumentem, em mdia $ 909,2 dlares. Como o Valor P de 0,000, conclui-se ao nvel de significncia de 5%, que existe uma relao linear significativa entre o nmero de clientes e as vendas semanais.
Anlise Residual: