Você está na página 1de 22

Curso de MINITAB Universidade Federal de Ouro Preto

Anlise de Regresso

Curso de MINITAB Universidade Federal de Ouro Preto

1 - Introduo
Em diversas reas de aplicao, freqentemente h interesse em estudar a relao entre duas variveis, como: Idade e altura das crianas; Tempo de prtica de esportes e ritmo cardaco; Tempo de estudo e nota na prova; Taxa de desemprego e taxa de criminalidade; e Expectativa de vida e taxa de analfabetismo. A natureza e o grau de relao entre variveis podem ser analisados pelas tcnicas de Regresso e Correlao. Em linhas gerais, podemos dizer: a anlise de regresso ocupa-se do estudo da dependncia de uma varivel, a varivel dependente (ou varivel resposta), em relao a uma ou mais variveis, as variveis explicativas (ou variveis independentes), com o objetivo de estimar e/ou prever a mdia (da populao) ou valor mdio da varivel dependente em termo dos valores conhecidos ou fixos das variveis explicativas. A anlise de correlao, por outro lado, consiste na medio do grau ou intensidade de associao entre duas variveis. Quando se pode demonstrar que a variao de uma varivel est de algum modo associada com a variao da outra, ento podemos dizer que as duas variveis esto correlacionadas. A anlise de regresso uma das tcnicas estatsticas mais utilizadas para pesquisar e modelar o relacionamento existente entre duas ou mais variveis.

2 - Modelo de Regresso Linear Simples (MRLS)


Um modelo de regresso linear simples (MRLS) descreve uma relao entre uma varivel independente (explicativa ou regressora) X e uma varivel dependente (resposta) Y , nos termos seguintes:

Y = b + b X +e
0 1

onde

b eb
0

so constantes (parmetros) desconhecidas e e o erro aleatrio.

A teoria da regresso assenta nas seguintes suposies sobre os erros: 1. Tm mdia zero e a mesma varincia desconhecida. 2. So no correlacionados, ou seja, o valor de um erro no depende de qualquer outro erro. 3. Os erros tem distribuio normal. As verificaes das suposies supracitadas so feitas atravs da Anlise Residual.

Curso de MINITAB Universidade Federal de Ouro Preto

EXEMPLO 1

Proposta: Avaliar a relao linear entre duas variveis plotando a reta de regresso. Problema: Percebe-se que com o aumento da temperatura ambiente, o consumo de cerveja tambm tende a aumentar. Assim sendo, foram coletados dados para entendermos melhor a relao existente entre a temperatura ambiente e o consumo de cerveja. Dados coletados: Os dados foram coletados aleatoriamente em nove localidades com as mesmas caractersticas demogrficas e scio-econmicas. Ferramentas: Fitted Line Plot Arquivo de dados: ConsumoXTemperatura.mpj

Varivel Consumo Temperatura

Descrio Varivel Resposta:consumo de cerveja em um dia (em 100 litros) Varivel Explicativa: temperatura mxima (em C)

AJUSTANDO UM MODELO LINEAR Desejamos determinar o efeito do aumento da temperatura ambiente no consumo de cerveja. Atravs da ferramenta Fitted Line Plot construiremos a equao de regresso. FITTED LINE PLOT 1. Abra ConsumoXTemperatura.mpj 2. Selecione Stat > Regression > Fitted Line Plot 3. Complete a caixa de dilogo como mostra a figura:

Curso de MINITAB Universidade Federal de Ouro Preto

4. Clique em OK

INTERPRETANDO OS RESULTADOS A equao de regresso : Consumo = 217,4 + 4,739 Temperatura Logo, para um acrscimo de 1C na temperatura mxima h um acrscimo mdio de 473,9 litros no consumo de cerveja. O S uma estimativa da variabilidade mdia sobre a linha de regresso. Para um dado problema, melhor a equao para predizer a resposta ser aquela que tiver o S mais baixo. O coeficiente R2 (R-Sq) mede a proporo de variabilidade presente nas observaes da varivel resposta que explicada pelo uso das variveis regressoras no modelo. Assim, 92,5% da variao do consumo de cerveja explicada pela temperatura mxima O R2 ajustado (R-Sq (adj)) sensvel ao nmero de termos includos em um modelo, devendo ser adotado quando analisarmos um modelo mltiplo.

Usaremos os resultados da Anlise de Varincia (ANOVA) para saber se o MRLS til ou no.

Curso de MINITAB Universidade Federal de Ouro Preto

Modelo de Regresso:

Y = b + b X +e
0 1

As hipteses para ANOVA so:

H0:

b H1: b

1 1

=0 0

Interpretaremos o Valor P da seguinte maneira: Valor P < ; Rejeita-se H0 Valor P > ; No rejeita-se H0
Regression Analysis: Consumo versus Temperatura
The regression equation is Consumo = 217,4 + 4,739 Temperatura

S = 15,5509

R-Sq = 92,5%

R-Sq(adj) = 91,4%

Analysis of Variance Source Regression Error Total DF 1 7 8 SS 20752,1 1692,8 22444,9 MS 20752,1 241,8 F 85,81 P 0,000

CONCLUSO Considerando um nvel de significncia de 5% ( = 0,05) rejeitamos a hiptese nula de que o coeficiente angular da reta de regresso seja igual a zero, ou seja, podemos afirmar que a temperatura mxima apresenta um efeito significativo no consumo de cerveja. CRIANDO OS GRFICOS DOS RESDUOS O Resduo de cada observao a diferena entre o valor observado na amostra e o valor previsto pelo modelo.
Para confirmarmos se o modelo de regresso valido, devemos verificar todas as suposies (abaixo listadas) sobre os erros. 1. Tem mdia zero e a mesma varincia desconhecida. 2. So no correlacionados, ou seja, o valor de um erro no depende de qualquer outro erro. 3. Os erros tm distribuio normal. Para isso, faz-se a Anlise Residual:

Curso de MINITAB Universidade Federal de Ouro Preto

RESIDUAL PLOTS

1. Selecione Stat > Regression > Fitted Line Plot ou pressione <CTRL + E> 2. Clique em Graphs 3. Complete a caixa de dilogo como mostra a figura a seguir

4. Clique OK em todas as caixas de dilogo

Residual Plots for Consumo


Normal Probability Plot of the Residuals
99 90 50 10 1 -40 -20 0 Residual 20 40 Residual Percent 20 10 0 -10 -20 250 300 350 Fitted Value 400

Residuals Versus the Fitted Values

Histogram of the Residuals


2,0 Frequency Residual -24 -12 0 Residual 12 24 1,5 1,0 0,5 0,0

Residuals Versus the Order of the Data


20 10 0 -10 -20 1 2 3 4 5 6 7 Observation Order 8 9

Curso de MINITAB Universidade Federal de Ouro Preto

GRFICO DE PROBABILIDADE NORMAL Usado para verificar se os resduos se comportam de acordo com a distribuio Normal. Se os resduos provm de uma distribuio Normal, os pontos devem estar ao longo de uma linha reta. Nota: Neste caso o valor P do teste de normalidade dos resduos de 0,891. Baseando-se neste grfico, razovel no rejeitarmos a hiptese nula de que os resduos provm de uma distribuio Normal.

HISTOGRAMA Caso a amostra seja razoavelmente grande e se concluirmos que os resduos provm de uma distribuio Normal, o histograma dever tambm indicar esta normalidade.

RESDUOS VERSUS VALORES AJUSTADOS Usado para verificar no est faltando nenhum termo quadrtico no modelo, se a varincia constante ao longo de todos os valores ajustados e se no existe nenhum outlier. Se observarmos a existncia de qualquer padro no aleatrio neste grfico, sinal que algumas das suposies foram violadas. A tabela abaixo resume padres tpicos:

Padres Curvolinear Um ponto est longe da linha

Indica que ... Um termo quadrtico pode estar faltando H presena de um outlier

RESDUOS VERSUS VALORES ORDENADOS Representa a ordem na qual os valores foram coletados e usado para verificarmos a independncia dos resduos. Se no existir nenhum efeito devido ordem de coleta dos dados, os resduos estaro espalhados aleatoriamente em torno do zero.

CONSIDERAES FINAIS A Anlise de Regresso Linear Simples nos revela que o consumo de cerveja est associado ao aumento da mxima temperatura ambiente . A equao encontrada mostra que para um acrscimo de 1C na temperatura mxima h um acrscimo mdio de 473,9 litros no consumo de cerveja. Devemos estar alerta durante a verificao das suposies do modelo (Anlise Residual).

Curso de MINITAB Universidade Federal de Ouro Preto

3 - Modelo de Regresso Linear Mltipla (MRLM)


Em muitas aplicaes da anlise de regresso envolve situaes onde tem-se mais de uma varivel explicativa. Esse modelo de regresso recebe o nome de modelo de regresso mltipla. Em geral, a varivel dependente ou resposta Y pode estar relacionada com k variveis explicativas ou independentes. O modelo

Y = b 0 + b 1 X 1 + b 2 X 2 + ... + bkX k + e
recebe o nome de regresso linear mltipla com k variveis explicativas. Os parmetros bj , j = 0, ..., k so chamados de coeficientes de regresso. Suposies do modelo de regresso linear mltipla (MRLM) 1. Tem mdia zero e a mesma varincia desconhecida. 2. So no correlacionados, ou seja, o valor de um erro no depende de qualquer outro erro. 3. Os erros tm distribuio normal. As verificaes das suposies supracitadas so feitas atravs da Anlise Residual.

EXEMPLO 2
Proposta: Avaliar a relao linear entre mltiplas variveis atravs da Anlise de Regresso. Problema: Um engenheiro do departamento de qualidade est tentando identificar a causa do barulho nas mquinas. As seguintes variveis foram consideradas: Ponto de centelhamento da vela Razo ar-combustvel Temperatura de entrada Temperatura de exausto

Dados coletados: Foram coletados dados de 13 mquinas selecionadas aleatoriamente, todas funcionando gasolina. Ferramentas: Matrix Plot Correlation Regression Arquivo de dados: Barulho do Motor.mpj

Curso de MINITAB Universidade Federal de Ouro Preto

Varivel Ponto de centelhamento da vela Razo ar-combustvel Temperatura de entrada Temperatura de exausto Barulho

Descrio Varivel Causa Varivel Causa Varivel Causa (C) Varivel Causa (C) Varivel Resposta: Medio do barulho do motor

CRIANDO UM MATRIX PLOT Primeiro utilizaremos a matriz e o coeficiente de correlao para verificarmos se existe uma relao entre a varivel resposta e a varivel preditora. MATRIX PLOT 1. Abra Barulho do Motor.mpj 2. Selecione Graph > Matrix Plot 3. Selecione Matrix of Plots Simple, ento clique em OK 4. Complete a caixa de dilogo como mostra a figura:

5. Clique em Matrix Options 6. Abaixo Matrix Display, selecione Lower left 7. Clique em OK em todas as caixas de dilogos

Curso de MINITAB Universidade Federal de Ouro Preto

INTERPRETANDO OS RESULTADOS Nota-se que as variveis Barulho e Ponto de centelhamento da vela parecem ter uma correlao negativa e a varivel Barulho parece ter uma correlao positiva com todas as demais variveis preditoras.

Curso de MINITAB Universidade Federal de Ouro Preto

PRXIMO PASSO Utilizar Correlation para avaliar a intensidade das relaes lineares. 1. Selecione Stat > Basic Statistics > Correlation 2. Complete a caixa de dilogo como mostra a figura a seguir:

3. Clique em OK

INTERPRETANDO OS RESULTADOS Como sugerido na Matriz, existe uma correlao negativa entre as variveis Barulho e Ponto de centelhamento da vela (r = -0,699). Tambm observa-se que existe uma correlao positiva entre a varivel Barulho e todas as demais variveis preditoras
Correlations: Ponto de cen; Razo ar-com; Temperatura ; Temperatura ; Barulho
Razo ar-com Ponto de cen -0,580 0,038 -0,500 0,082 -0,723 0,005 -0,699 0,008 Razo ar-com Temperatura Temperatura

Temp. Entrada

0,521 0,068 0,587 0,035 0,961 0,000 0,291 0,335 0,673 0,012 0,682 0,010

Temp. Exausto

Barulho

Cell Contents: Pearson correlation P-Value

Curso de MINITAB Universidade Federal de Ouro Preto

PRXIMO PASSO Utilizar Regression para analisar o modelo de regresso mltipla com todas as variveis preditoras.

AJUSTANDO UM MODELO DE REGRESSO LINEAR MLTIPLA Regression 1. Selecione Stat > Regression > Regression 2. Complete a caixa de dilogo como mostra a figura a seguir:

3. Clique em OK

INTERPRETANDO OS RESULTADOS Usaremos um de 0,05 em todas as anlises.

Equao de Regresso: Barulho = 23,8 - 0,296 Ponto de centelhamento da vela + 3,19 Razo ar-combustvel + 0,359 Temperatura de entrada + 0,0134 Temperatura de exausto

Curso de MINITAB Universidade Federal de Ouro Preto

Tabela de Coeficientes Devemos tomar cuidado quando estivermos interpretando os coeficientes de regresso mltipla. O valor P de cada varivel indica somente a significncia daquela varivel somente naquele modelo especfico.
The regression equation is Barulho = 23,8 - 0,296 Ponto de centelhamento da vela + 3,19 Razo ar-combustvel + 0,359 Temperatura de entrada + 0,0134 Temperatura de exausto

Predictor Constant Ponto de centelhamento da vela Razo ar-combustvel Temperatura de entrada Temperatura de exausto

Coef 23,815 -0,2965 3,1918 0,35870 0,013376

SE Coef 8,137 0,3072 0,2398 0,07848 0,005421

T 2,93 -0,97 13,31 4,57 2,47

P 0,019 0,363 0,000 0,002 0,039

S = 0,510560

R-Sq = 98,8%

R-Sq(adj) = 98,2%

Analysis of Variance Source Regression Residual Error Total DF 4 8 12 SS 170,245 2,085 172,331 MS 42,561 0,261 F 163,28 P 0,000

Source Ponto de centelhamento da vela Razo ar-combustvel Temperatura de entrada Temperatura de exausto

DF 1 1 1 1

Seq SS 84,250 80,029 4,380 1,587

CUIDADO COM A MULTICOLINEARIDADE Podemos usar a correlao para tentar identificar a fonte potencial da multicolinearidade. Se existir uma multicolinearidade que comprometa demasiadamente o modelo, o MINITAB uma mensagem na Session Window. Uma boa maneira de se escolher a varivel preditora que deve ser mantida em um modelo de regresso mltipla com multicolinearidade, construindo todas as combinaes em potencial utilizando a ferramenta comparativa de modelos Best Subsets. No problema em questo, a varivel Ponto de centelhamento da vela no significatica para explicar o modelo (P = 0,363). Contudo, se removermos a varivel Temperatura de Exausto do modelo, o Ponto de centelhamento da vela passa a ser significativa (P = 0,034) ao nvel de 5% de significncia. Isso ocorre devido alta correlao existente entre essas variveis (r = -0,723), ou seja, ambas explicam a mesma parte da variabilidade da varivel resposta Barulho.

Curso de MINITAB Universidade Federal de Ouro Preto

Analisando o Best Subsets 1. Selecione Stat > Regression > Best Subsets 2. Complete a janela de acordo com a figura a seguir:

3. Clique em OK

INTERPRETANDO OS RESULTADOS Variveis: A coluna Vars indica o nmero de variveis preditoras presentes no modelo correspondente. R2 (R- Sq) e R2 Ajustado (R-Sq (Adj)): em geral, adota-se o modelo com o maior R2. Mallows C-p: Em geral, adota-se o modelo em que o C-p for menor e apresentar o valor mais prximo do nmero de parmetros do modelo. Lembrando que um parmetro b do modelo.
0

Variabilidade: S uma estimativa da varincia mdia sobre a linha de regresso. Em geral, desejamos que o S seja o menor possvel.
Best Subsets Regression: Barulho versus Pto cent da ; ar-combustv; ...

Response is Barulho

Curso de MINITAB Universidade Federal de Ouro Preto

Vars 1 1 2 2 3 3 4

R-Sq 92,3 48,9 96,4 95,3 98,6 97,9 98,8

R-Sq(adj) 91,6 44,2 95,7 94,4 98,2 97,2 98,2

Mallows C-p 42,0 328,9 16,9 23,9 3,9 9,1 5,0

S 1,0989 2,8297 0,78871 0,89735 0,50862 0,63879 0,51056

P t o a r c e c n o t m b d u a s t v e v l e a l X X X X X X X X X X

T T e e m m p p d d e e e e x n a t u r s a t d a o

X X X X X X

Concluso Baseado nestes critrios, conclumos que o modelo que contm as variveis Razo arcombustvel, Temperatura de entrada e Temperatura de exausto o melhor. Isso porque o modelo que contm as quatro variveis possui uma estimativa para o S levemente maior alm de no apresentar nenhum ganho significativo no R2 Ajustado.

A NOVA EQUAO DE REGRESSO 1. Selecione Stat > Regression > Regression 2. Complete a caixa de dilogo como mostra a figura a seguir:

Curso de MINITAB Universidade Federal de Ouro Preto

3. Clique em OK

INTERPRETANDO OS RESULTADOS Usaremos um de 0,05 em todas as anlises R2 (R- Sq) e R2 Ajustado (R-Sq (Adj)): O modelo explica 98,2% da variabilidade total da varivel resposta. Nota: O R2 nunca ir decrescer quando adicionamos variveis preditoras a um modelo, mesmo se estas novas variveis no servirem de fato para explicar o comportamento da varivel resposta, no devendo ser interpretado em modelos mltiplos. O R2 ajustado corrige este problema pois ajustado para o nmero de termos presente no modelo.
ANOVA

As hipteses para ANOVA so: 1. Teste T individual para os parmetros

b H1: b

H0:

j j

=0 0

j = 0,1,2,3

Interpretaremos o Valor P da seguinte maneira: Valor P < ; Rejeita-se H0 Valor P > ; No rejeita-se H0

Curso de MINITAB Universidade Federal de Ouro Preto

2. Teste F para os parmetros

H0: Todos os b so iguais a zero


j

j = 1,2,3

H1: Pelo menos um

diferente de zero

Interpretaremos o Valor P da seguinte maneira: Valor P < ; Rejeita-se H0 Valor P > ; No rejeita-se H0 Neste exemplo, o valor P do teste F de 0,000, ou seja, rejeita-se a hiptese nula de que todos os coeficientes so iguais a zero. O teste T individual confirma isso.
Regression Analysis: Barulho versus ar-combustvel; Temp de entrada; ...
The regression equation is Barulho = 16,5 + 3,21 ar-combustvel + 0,386 Temp de entrada + 0,0166 Temp de exausto

Predictor Constant ar-combustvel Temp de entrada Temp de exausto

Coef 16,488 3,2148 0,38637 0,016576

SE Coef 2,918 0,2377 0,07278 0,004273

T 5,65 13,52 5,31 3,88

P 0,000 0,000 0,000 0,004

S = 0,508616

R-Sq = 98,6%

R-Sq(adj) = 98,2%

Analysis of Variance Source Regression Residual Error Total DF 3 9 12 SS 170,003 2,328 172,331 MS 56,668 0,259 F 219,06 P 0,000

Source ar-combustvel Temp de entrada Temp de exausto

DF 1 1 1

Seq SS 159,048 7,062 3,892

ANLISE DE RESDUOS A interpretao da Anlise de Resduos ocorre da mesma forma que na Anlise de Regresso Linear Simples.

Curso de MINITAB Universidade Federal de Ouro Preto

Residual Plots for Barulho


Normal Probability Plot of the Residuals
99 90 Residual Percent 50 10 1 -1,0 -0,5 0,0 Residual 0,5 1,0 0,8 0,4 0,0 -0,4 -0,8

Residuals Versus the Fitted Values

CONSID ERA ES FINAIS A equao de regress o Barulho = 16,5 + 3,21 arcombust vel + 0,386 Temp de entrada

85,0

87,5 90,0 Fitted Value

92,5

95,0

Histogram of the Residuals


3 Frequency 2 1 0 Residual -0,8 -0,6 -0,4 -0,2 0,0 Residual 0,2 0,4 0,6

Residuals Versus the Order of the Data


0,8 0,4 0,0 -0,4 -0,8

5 6 7 8 9 10 11 12 13 Observation Order

+ 0,0166 Temp de exausto O modelo explica 98,2% da variabilidade total da varivel resposta. Devemos estar alerta durante a verificao das suposies do modelo (Anlise Residual).

Curso de MINITAB Universidade Federal de Ouro Preto

EXERCCIO 1 Um administrador de uma cadeia de supermercados deseja desenvolver um modelo com a finalidade de estimar as vendas mdias semanais (em milhares de dlares) de cada supermercado, Para isto, selecionou-se uma amostra aleatria de 20 supermercados entre todos os que formam a cadeia. Ao desenvolver o modelo foi considerado entre outras variveis explicativas (ou independentes) a varivel "o nmero de clientes por semana. Os dados so apresentados na tabela abaixo: Supermercado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 N de Clientes 907 926 506 741 789 889 874 510 529 420 679 872 607 452 729 794 844 1010 621 Vendas Semanais 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12 7,63 9,43 7,64 6,92 8,95 9,33 10,23 11,77 7,41

Calcule a equao de regresso, faa a anlise residual e interprete os resultados. Arquivo de dados: Supermercado.mpj

Curso de MINITAB Universidade Federal de Ouro Preto

Soluo do Exerccio

Curso de MINITAB Universidade Federal de Ouro Preto

Fitted Line Plot


Vendas Semanais = 2,215 + 0,009092 N de Clientes 12 11 Vendas Semanais 10 9 8 7 6 400 500 600 700 800 N de Clientes 900 1000
S R-Sq R-Sq(adj) 0,443029 93,4% 93,1%

Regression Analysis: Vendas Semanais versus N de Clientes


The regression equation is Vendas Semanais = 2,215 + 0,009092 N de Clientes

S = 0,443029

R-Sq = 93,4%

R-Sq(adj) = 93,1%

Analysis of Variance Source Regression Error Total DF 1 17 18 SS 47,5729 3,3367 50,9096 MS 47,5729 0,1963 F 242,38 P 0,000

A Equao de Regresso : Vendas Semanais = 2,215 + 0,009092 N de Clientes Isto , para cada incremento de um cliente, o modelo prev uma estimao de um aumento nas vendas de 0,009092 mil dlares (ou 9,092 dlares). Portanto, para cada 100 clientes, esperamos que as vendas semanais aumentem, em mdia $ 909,2 dlares. Como o Valor P de 0,000, conclui-se ao nvel de significncia de 5%, que existe uma relao linear significativa entre o nmero de clientes e as vendas semanais.

Curso de MINITAB Universidade Federal de Ouro Preto

Anlise Residual:

Residual Plots for Vendas Semanais


Normal Probability Plot of the Residuals
99 90 Residual Percent 50 10 1 -1,0 -0,5 0,0 Residual 0,5 1,0 0,8 0,4 0,0 -0,4 -0,8 6,0 7,5 9,0 Fitted Value 10,5 12,0

Residuals Versus the Fitted Values

Histogram of the Residuals


4 Frequency Residual -0,8 -0,4 0,0 Residual 0,4 0,8 3 2 1 0

Residuals Versus the Order of the Data


0,8 0,4 0,0 -0,4 -0,8 2 4 6 8 10 12 14 Observation Order 16 18

Você também pode gostar