Você está na página 1de 22

Curso de MINITAB – Universidade Federal de Ouro Preto

Análise de Regressão
Curso de MINITAB – Universidade Federal de Ouro Preto

1 - Introdução

Em diversas áreas de aplicação, freqüentemente há interesse em estudar a relação entre duas


variáveis, como:

• Idade e altura das crianças;


• Tempo de prática de esportes e ritmo cardíaco;
• Tempo de estudo e nota na prova;
• Taxa de desemprego e taxa de criminalidade; e
• Expectativa de vida e taxa de analfabetismo.

A natureza e o grau de relação entre variáveis podem ser analisados pelas técnicas de Regressão
e Correlação.

Em linhas gerais, podemos dizer: a análise de regressão ocupa-se do estudo da dependência de


uma variável, a variável dependente (ou variável resposta), em relação a uma ou mais variáveis,
as variáveis explicativas (ou variáveis independentes), com o objetivo de estimar e/ou prever a
média (da população) ou valor médio da variável dependente em termo dos valores conhecidos ou
fixos das variáveis explicativas.

A análise de correlação, por outro lado, consiste na medição do grau ou intensidade de


associação entre duas variáveis. Quando se pode demonstrar que a variação de uma variável
está de algum modo associada com a variação da outra, então podemos dizer que as duas
variáveis estão correlacionadas.

A análise de regressão é uma das técnicas estatísticas mais utilizadas para pesquisar e modelar o
relacionamento existente entre duas ou mais variáveis.

2 - Modelo de Regressão Linear Simples (MRLS)

Um modelo de regressão linear simples (MRLS) descreve uma relação entre uma variável
independente (explicativa ou regressora) X e uma variável dependente (resposta) Y , nos termos
seguintes:
Y = b + b X +e
0 1

onde b eb são constantes (parâmetros) desconhecidas e e é o erro aleatório.


0 1

A teoria da regressão assenta nas seguintes suposições sobre os erros:

1. Têm média zero e a mesma variância desconhecida.


2. São não correlacionados, ou seja, o valor de um erro não depende de qualquer outro
erro.
3. Os erros tem distribuição normal.

As verificações das suposições supracitadas são feitas através da Análise Residual.


Curso de MINITAB – Universidade Federal de Ouro Preto

EXEMPLO 1

Proposta:
Avaliar a relação linear entre duas variáveis plotando a reta de regressão.

Problema:
Percebe-se que com o aumento da temperatura ambiente, o consumo de cerveja também
tende a aumentar. Assim sendo, foram coletados dados para entendermos melhor a
relação existente entre a temperatura ambiente e o consumo de cerveja.

Dados coletados:
Os dados foram coletados aleatoriamente em nove localidades com as mesmas
características demográficas e sócio-econômicas.

Ferramentas:
Fitted Line Plot

Arquivo de dados:
ConsumoXTemperatura.mpj

Variável Descrição
Variável Resposta:consumo de cerveja em um dia
Consumo
(em 100 litros)
Temperatura Variável Explicativa: temperatura máxima (em ºC)

AJUSTANDO UM MODELO LINEAR


Desejamos determinar o efeito do aumento da temperatura ambiente no consumo de
cerveja. Através da ferramenta Fitted Line Plot construiremos a equação de regressão.

FITTED LINE PLOT


1. Abra ConsumoXTemperatura.mpj
2. Selecione Stat > Regression > Fitted Line Plot
3. Complete a caixa de diálogo como mostra a figura:
Curso de MINITAB – Universidade Federal de Ouro Preto

4. Clique em OK

INTERPRETANDO OS RESULTADOS
A equação de regressão é:

Consumo = 217,4 + 4,739 Temperatura

Logo, para um acréscimo de 1°C na temperatura máxima há um acréscimo médio de


473,9 litros no consumo de cerveja.

O “S” é uma estimativa da variabilidade média sobre a linha de regressão. Para um dado
problema, melhor a equação para predizer a resposta será aquela que tiver o “S” mais
baixo.

O coeficiente R2 (R-Sq) mede a proporção de variabilidade presente nas observações da


variável resposta que é explicada pelo uso das variáveis regressoras no modelo. Assim,
92,5% da variação do consumo de cerveja é explicada pela temperatura máxima

O R2 ajustado (R-Sq (adj)) é sensível ao número de termos incluídos em um modelo,


devendo ser adotado quando analisarmos um modelo múltiplo.

Usaremos os resultados da Análise de Variância (ANOVA) para saber se o MRLS é útil ou


não.
Curso de MINITAB – Universidade Federal de Ouro Preto

Modelo de Regressão:

Y = b + b X +e
0 1

As hipóteses para ANOVA são:

H0: b =0
1

H1: b ≠0
1

Interpretaremos o Valor P da seguinte maneira:


Valor P < α ; Rejeita-se H0
Valor P > α ; Não rejeita-se H0

Regression Analysis: Consumo versus Temperatura

The regression equation is


Consumo = 217,4 + 4,739 Temperatura

S = 15,5509 R-Sq = 92,5% R-Sq(adj) = 91,4%

Analysis of Variance

Source DF SS MS F P
Regression 1 20752,1 20752,1 85,81 0,000
Error 7 1692,8 241,8
Total 8 22444,9

CONCLUSÃO
Considerando um nível de significância de 5% (α = 0,05) rejeitamos a hipótese nula de
que o coeficiente angular da reta de regressão seja igual a zero, ou seja, podemos afirmar
que a temperatura máxima apresenta um efeito significativo no consumo de cerveja.

CRIANDO OS GRÁFICOS DOS RESÍDUOS


O Resíduo de cada observação é a diferença entre o valor observado na amostra e o
valor previsto pelo modelo.
Para confirmarmos se o modelo de regressão é valido, devemos verificar todas as suposições
(abaixo listadas) sobre os erros.

1. Tem média zero e a mesma variância desconhecida.


2. São não correlacionados, ou seja, o valor de um erro não depende de qualquer outro
erro.
3. Os erros têm distribuição normal.

Para isso, faz-se a Análise Residual:


Curso de MINITAB – Universidade Federal de Ouro Preto

RESIDUAL PLOTS
1. Selecione Stat > Regression > Fitted Line Plot ou pressione <CTRL + E>
2. Clique em Graphs
3. Complete a caixa de diálogo como mostra a figura a seguir

4. Clique OK em todas as caixas de diálogo

Residual Plots for Consumo


Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99
20
90
10
Residual
Percent

50 0

-10
10
-20
1
-40 -20 0 20 40 250 300 350 400
Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data


2,0
20

1,5 10
Frequency

Residual

1,0 0

-10
0,5
-20
0,0
-24 -12 0 12 24 1 2 3 4 5 6 7 8 9
Residual Observation Order
Curso de MINITAB – Universidade Federal de Ouro Preto

GRÁFICO DE PROBABILIDADE NORMAL


Usado para verificar se os resíduos se comportam de acordo com a distribuição Normal.
Se os resíduos provêm de uma distribuição Normal, os pontos devem estar ao longo de
uma linha reta.

Nota: Neste caso o valor P do teste de normalidade dos resíduos é de 0,891.

Baseando-se neste gráfico, é razoável não rejeitarmos a hipótese nula de que os resíduos
provém de uma distribuição Normal.

HISTOGRAMA
Caso a amostra seja razoavelmente grande e se concluirmos que os resíduos provêm de
uma distribuição Normal, o histograma deverá também indicar esta normalidade.

RESÍDUOS VERSUS VALORES AJUSTADOS


Usado para verificar não está faltando nenhum termo quadrático no modelo, se a
variância é constante ao longo de todos os valores ajustados e se não existe nenhum
outlier.

Se observarmos a existência de qualquer padrão não aleatório neste gráfico, é sinal que
algumas das suposições foram violadas.
A tabela abaixo resume padrões típicos:

Padrões Indica que ...


Curvolinear Um termo quadrático pode estar faltando
Um ponto está longe da linha Há presença de um outlier

RESÍDUOS VERSUS VALORES ORDENADOS


Representa a ordem na qual os valores foram coletados e é usado para verificarmos a
independência dos resíduos. Se não existir nenhum efeito devido à ordem de coleta dos
dados, os resíduos estarão espalhados aleatoriamente em torno do zero.

CONSIDERAÇÕES FINAIS
A Análise de Regressão Linear Simples nos revela que o consumo de cerveja está
associado ao aumento da máxima temperatura ambiente .

A equação encontrada mostra que para um acréscimo de 1°C na temperatura máxima há


um acréscimo médio de 473,9 litros no consumo de cerveja.

Devemos estar alerta durante a verificação das suposições do modelo (Análise Residual).
Curso de MINITAB – Universidade Federal de Ouro Preto

3 - Modelo de Regressão Linear Múltipla (MRLM)


Em muitas aplicações da análise de regressão envolve situações onde tem-se mais de
uma variável explicativa. Esse modelo de regresso recebe o nome de modelo de
regressão múltipla.

Em geral, a variável dependente ou resposta Y pode estar relacionada com k variáveis


explicativas ou independentes.
O modelo
Y = b 0 + b 1 X 1 + b 2 X 2 + ... + bkX k + e
recebe o nome de regressão linear múltipla com k variáveis explicativas.
Os parâmetros bj , j = 0, ..., k são chamados de coeficientes de regressão.

Suposições do modelo de regressão linear múltipla (MRLM)

1. Tem média zero e a mesma variância desconhecida.


2. São não correlacionados, ou seja, o valor de um erro não depende de qualquer
outro erro.
3. Os erros têm distribuição normal.

As verificações das suposições supracitadas são feitas através da Análise


Residual.

EXEMPLO 2
Proposta:
Avaliar a relação linear entre múltiplas variáveis através da Análise de Regressão.

Problema:
Um engenheiro do departamento de qualidade está tentando identificar a causa do
barulho nas máquinas. As seguintes variáveis foram consideradas:
• Ponto de centelhamento da vela
• Razão ar-combustível
• Temperatura de entrada
• Temperatura de exaustão

Dados coletados:
Foram coletados dados de 13 máquinas selecionadas aleatoriamente, todas funcionando
à gasolina.

Ferramentas:
• Matrix Plot
• Correlation
• Regression

Arquivo de dados:
Barulho do Motor.mpj
Curso de MINITAB – Universidade Federal de Ouro Preto

Variável Descrição
Ponto de centelhamento da vela Variável Causa
Razão ar-combustível Variável Causa
Temperatura de entrada Variável Causa (°C)
Temperatura de exaustão Variável Causa (°C)
Variável Resposta: Medição do
Barulho
barulho do motor

CRIANDO UM MATRIX PLOT


Primeiro utilizaremos a matriz e o coeficiente de correlação para verificarmos se existe
uma relação entre a variável resposta e a variável preditora.

MATRIX PLOT
1. Abra Barulho do Motor.mpj
2. Selecione Graph > Matrix Plot
3. Selecione Matrix of Plots – Simple, então clique em OK
4. Complete a caixa de diálogo como mostra a figura:

5. Clique em Matrix Options


6. Abaixo Matrix Display, selecione Lower left
7. Clique em OK em todas as caixas de diálogos
Curso de MINITAB – Universidade Federal de Ouro Preto

INTERPRETANDO OS RESULTADOS

Nota-se que as variáveis Barulho e Ponto de centelhamento da vela parecem ter uma
correlação negativa e a variável Barulho parece ter uma correlação positiva com todas as
demais variáveis preditoras.
Curso de MINITAB – Universidade Federal de Ouro Preto

PRÓXIMO PASSO
Utilizar Correlation para avaliar a intensidade das relações lineares.
1. Selecione Stat > Basic Statistics > Correlation
2. Complete a caixa de diálogo como mostra a figura a seguir:

3. Clique em OK

INTERPRETANDO OS RESULTADOS
Como sugerido na Matriz, existe uma correlação negativa entre as variáveis Barulho e
Ponto de centelhamento da vela (r = -0,699). Também observa-se que existe uma
correlação positiva entre a variável Barulho e todas as demais variáveis preditoras

Correlations: Ponto de cen; Razão ar-com; Temperatura ; Temperatura ; Barulho

Ponto de cen Razão ar-com Temperatura Temperatura


Razão ar-com -0,580
0,038

Temp. Entrada -0,500 0,521


0,082 0,068

Temp. Exaustão -0,723 0,587 0,291


0,005 0,035 0,335

Barulho -0,699 0,961 0,673 0,682


0,008 0,000 0,012 0,010

Cell Contents: Pearson correlation


P-Value
Curso de MINITAB – Universidade Federal de Ouro Preto

PRÓXIMO PASSO
Utilizar Regression para analisar o modelo de regressão múltipla com todas as variáveis
preditoras.

AJUSTANDO UM MODELO DE REGRESSÃO LINEAR MÚLTIPLA

Regression
1. Selecione Stat > Regression > Regression
2. Complete a caixa de diálogo como mostra a figura a seguir:

3. Clique em OK

INTERPRETANDO OS RESULTADOS
Usaremos um α de 0,05 em todas as análises.

Equação de Regressão:
Barulho = 23,8 - 0,296 Ponto de centelhamento da vela + 3,19 Razão ar-combustível +
0,359 Temperatura de entrada + 0,0134 Temperatura de exaustão
Curso de MINITAB – Universidade Federal de Ouro Preto

Tabela de Coeficientes

Devemos tomar cuidado quando estivermos interpretando os coeficientes de regressão


múltipla. O valor P de cada variável indica somente a significância daquela variável
somente naquele modelo específico.

The regression equation is


Barulho = 23,8 - 0,296 Ponto de centelhamento da vela
+ 3,19 Razão ar-combustível + 0,359 Temperatura de entrada
+ 0,0134 Temperatura de exaustão

Predictor Coef SE Coef T P


Constant 23,815 8,137 2,93 0,019
Ponto de centelhamento da vela -0,2965 0,3072 -0,97 0,363
Razão ar-combustível 3,1918 0,2398 13,31 0,000
Temperatura de entrada 0,35870 0,07848 4,57 0,002
Temperatura de exaustão 0,013376 0,005421 2,47 0,039

S = 0,510560 R-Sq = 98,8% R-Sq(adj) = 98,2%

Analysis of Variance

Source DF SS MS F P
Regression 4 170,245 42,561 163,28 0,000
Residual Error 8 2,085 0,261
Total 12 172,331

Source DF Seq SS
Ponto de centelhamento da vela 1 84,250
Razão ar-combustível 1 80,029
Temperatura de entrada 1 4,380
Temperatura de exaustão 1 1,587

CUIDADO COM A MULTICOLINEARIDADE


Podemos usar a correlação para tentar identificar a fonte potencial da multicolinearidade.
Se existir uma multicolinearidade que comprometa demasiadamente o modelo, o
MINITAB uma mensagem na Session Window.

Uma boa maneira de se escolher a variável preditora que deve ser mantida em um
modelo de regressão múltipla com multicolinearidade, é construindo todas as
combinações em potencial utilizando a ferramenta comparativa de modelos Best Subsets.

No problema em questão, a variável Ponto de centelhamento da vela não é significatica


para explicar o modelo (P = 0,363). Contudo, se removermos a variável Temperatura de
Exaustão do modelo, o Ponto de centelhamento da vela passa a ser significativa (P =
0,034) ao nível de 5% de significância. Isso ocorre devido à alta correlação existente entre
essas variáveis (r = -0,723), ou seja, ambas explicam a mesma parte da variabilidade da
variável resposta Barulho.
Curso de MINITAB – Universidade Federal de Ouro Preto

Analisando o Best Subsets


1. Selecione Stat > Regression > Best Subsets
2. Complete a janela de acordo com a figura a seguir:

3. Clique em OK

INTERPRETANDO OS RESULTADOS

Variáveis: A coluna Vars indica o número de variáveis preditoras presentes no modelo


correspondente.

R2 (R- Sq) e R2 Ajustado (R-Sq (Adj)): em geral, adota-se o modelo com o maior R2.

Mallows C-p: Em geral, adota-se o modelo em que o C-p for menor e apresentar o valor
mais próximo do número de parâmetros do modelo. Lembrando que
é um parâmetro b do modelo.
0

Variabilidade: S é uma estimativa da variância média sobre a linha de regressão. Em


geral, desejamos que o S seja o menor possível.

Best Subsets Regression: Barulho versus Pto cent da ; ar-combustív; ...

Response is Barulho
Curso de MINITAB – Universidade Federal de Ouro Preto

P T
t T e
o a e m
r m p
c - p
e c d
n o d e
t m e
b e
d u e x
a s n a
t t u
v í r s
e v a t
Mallows l e d ã
Vars R-Sq R-Sq(adj) C-p S a l a o
1 92,3 91,6 42,0 1,0989 X
1 48,9 44,2 328,9 2,8297 X
2 96,4 95,7 16,9 0,78871 X X
2 95,3 94,4 23,9 0,89735 X X
3 98,6 98,2 3,9 0,50862 X X X
3 97,9 97,2 9,1 0,63879 X X X
4 98,8 98,2 5,0 0,51056 X X X X

Conclusão
Baseado nestes critérios, concluímos que o modelo que contêm as variáveis Razão ar-
combustível, Temperatura de entrada e Temperatura de exaustão é o melhor. Isso porque
o modelo que contêm as quatro variáveis possui uma estimativa para o S levemente
maior além de não apresentar nenhum ganho significativo no R2 Ajustado.

A NOVA EQUAÇÃO DE REGRESSÃO

1. Selecione Stat > Regression > Regression


2. Complete a caixa de diálogo como mostra a figura a seguir:
Curso de MINITAB – Universidade Federal de Ouro Preto

3. Clique em OK

INTERPRETANDO OS RESULTADOS
Usaremos um α de 0,05 em todas as análises

R2 (R- Sq) e R2 Ajustado (R-Sq (Adj)): O modelo explica 98,2% da variabilidade total da
variável resposta.

Nota: O R2 nunca irá decrescer quando adicionamos variáveis preditoras a um modelo,


mesmo se estas novas variáveis não servirem de fato para explicar o comportamento da
variável resposta, não devendo ser interpretado em modelos múltiplos. O R2 ajustado
corrige este problema pois é ajustado para o número de termos presente no modelo.

ANOVA
As hipóteses para ANOVA são:

1. Teste T individual para os parâmetros

H0: b =0
j
j = 0,1,2,3
H1: b j ≠0

Interpretaremos o Valor P da seguinte maneira:


Valor P < α ; Rejeita-se H0
Valor P > α ; Não rejeita-se H0
Curso de MINITAB – Universidade Federal de Ouro Preto

2. Teste F para os parâmetros

H0: Todos os b são iguais a zero


j
j = 1,2,3
H1: Pelo menos um b j é diferente de zero

Interpretaremos o Valor P da seguinte maneira:


Valor P < α ; Rejeita-se H0
Valor P > α ; Não rejeita-se H0

Neste exemplo, o valor P do teste F é de 0,000, ou seja, rejeita-se a hipótese nula de que
todos os coeficientes são iguais a zero. O teste T individual confirma isso.

Regression Analysis: Barulho versus ar-combustível; Temp de entrada; ...

The regression equation is


Barulho = 16,5 + 3,21 ar-combustível + 0,386 Temp de entrada
+ 0,0166 Temp de exaustão

Predictor Coef SE Coef T P


Constant 16,488 2,918 5,65 0,000
ar-combustível 3,2148 0,2377 13,52 0,000
Temp de entrada 0,38637 0,07278 5,31 0,000
Temp de exaustão 0,016576 0,004273 3,88 0,004

S = 0,508616 R-Sq = 98,6% R-Sq(adj) = 98,2%

Analysis of Variance

Source DF SS MS F P
Regression 3 170,003 56,668 219,06 0,000
Residual Error 9 2,328 0,259
Total 12 172,331

Source DF Seq SS
ar-combustível 1 159,048
Temp de entrada 1 7,062
Temp de exaustão 1 3,892

ANÁLISE DE RESÍDUOS
A interpretação da Análise de Resíduos ocorre da mesma forma que na Análise de
Regressão Linear Simples.
Curso de MINITAB – Universidade Federal de Ouro Preto

Residual Plots for Barulho


Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99
CONSID
0,8
ERAÇÕ
90 0,4 ES

Residual
Percent

50 0,0
FINAIS

10 -0,4 A
1 -0,8 equação
-1,0 -0,5 0,0 0,5 1,0 85,0 87,5 90,0 92,5 95,0 de
Residual Fitted Value
regressã
Histogram of the Residuals Residuals Versus the Order of the Data oé
3 0,8

0,4
Barulho
= 16,5 +
Frequency

Residual
2
0,0 3,21 ar-
1
-0,4 combust
ível +
-0,8
0
-0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 1 2 3 4 5 6 7 8 9 10 11 12 13
0,386
Residual Observation Order Temp de
entrada
+ 0,0166 Temp de exaustão

O modelo explica 98,2% da variabilidade total da variável resposta.

Devemos estar alerta durante a verificação das suposições do modelo (Análise Residual).
Curso de MINITAB – Universidade Federal de Ouro Preto

EXERCÍCIO 1

Um administrador de uma cadeia de supermercados deseja desenvolver um modelo com


a finalidade de estimar as vendas médias semanais (em milhares de dólares) de cada
supermercado, Para isto, selecionou-se uma amostra aleatória de 20 supermercados
entre todos os que formam a cadeia. Ao desenvolver o modelo foi considerado entre
outras variáveis explicativas (ou independentes) a variável "o número de clientes por
semana”. Os dados são apresentados na tabela abaixo:

Supermercado Nº de Clientes Vendas Semanais


1 907 11,20
2 926 11,05
3 506 6,84
4 741 9,21
5 789 9,42
6 889 10,08
7 874 9,45
8 510 6,73
9 529 7,24
10 420 6,12
11 679 7,63
12 872 9,43
13 607 7,64
14 452 6,92
15 729 8,95
16 794 9,33
17 844 10,23
18 1010 11,77
19 621 7,41

Calcule a equação de regressão, faça a análise residual e interprete os resultados.

Arquivo de dados: Supermercado.mpj


Curso de MINITAB – Universidade Federal de Ouro Preto

Solução do Exercício
Curso de MINITAB – Universidade Federal de Ouro Preto

Fitted Line Plot


Vendas Semanais = 2,215 + 0,009092 Nº de Clientes
12 S 0,443029
R-Sq 93,4%
R-Sq(adj) 93,1%
11
Vendas Semanais

10

400 500 600 700 800 900 1000


Nº de Clientes

Regression Analysis: Vendas Semanais versus Nº de Clientes

The regression equation is


Vendas Semanais = 2,215 + 0,009092 Nº de Clientes

S = 0,443029 R-Sq = 93,4% R-Sq(adj) = 93,1%

Analysis of Variance

Source DF SS MS F P
Regression 1 47,5729 47,5729 242,38 0,000
Error 17 3,3367 0,1963
Total 18 50,9096

A Equação de Regressão é:

Vendas Semanais = 2,215 + 0,009092 Nº de Clientes

Isto é, para cada incremento de um cliente, o modelo prevê uma estimação de um


aumento nas vendas de 0,009092 mil dólares (ou 9,092 dólares). Portanto, para cada 100
clientes, esperamos que as vendas semanais aumentem, em média $ 909,2 dólares.

Como o Valor P é de 0,000, conclui-se ao nível de significância de 5%, que existe uma
relação linear significativa entre o número de clientes e as vendas semanais.
Curso de MINITAB – Universidade Federal de Ouro Preto

Análise Residual:

Residual Plots for Vendas Semanais


Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99 0,8

90 0,4

Residual
Percent

50 0,0

-0,4
10

1 -0,8
-1,0 -0,5 0,0 0,5 1,0 6,0 7,5 9,0 10,5 12,0
Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data


4 0,8

3 0,4
Frequency

Residual

2 0,0

1 -0,4

0 -0,8
-0,8 -0,4 0,0 0,4 0,8 2 4 6 8 10 12 14 16 18
Residual Observation Order

Você também pode gostar