Você está na página 1de 16

Lista de Exercícios sobre Regressão

Exercício sobre Regressão Linear

1. As vendas da Sunflowers Roupas, uma cadeia de lojas de roupas de primeira linha, vêm
aumentando nos últimos 12 anos à medida que a cadeia expande o número de lojas abertas. Até agora,
os gerentes da Sunflowers têm selecionado locais para instalação de lojas com base em fatores
subjetivos, tais como a disponibilidade de um bom contrato de arrendamento ou a percepção de que
um determinado local parece ideal para uma loja de roupas. No papel de novo diretor de
planejamento, você precisa desenvolver uma abordagem sistemática que leve à tomada de decisões
mais eficazes durante o processo de seleção de locais para instalação. Como ponto de partida, você
acredita que o tamanho da loja contribui significativamente para as vendas e deseja utilizar essa
relação no processo de tomada de decisão. Para examinar a relação entre o tamanho de uma loja,
medida em milhares de metros quadrados, e as suas respectivas vendas anuais, em milhões de reais,
foram coletados os dados de uma amostra de 14 lojas. A tabela abaixo apresenta os dados
organizados.

Loja 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Área 1,7 1,6 2,8 5,6 1,3 2,2 1,3 1,1 3,2 1,5 5,2 4,6 5,8 3,0

Vendas 3,7 3,9 6,7 9,5 3,4 5,6 3,7 2,7 5,5 2,9 10,7 7,6 11,8 4,1

a) Construa o gráfico de dispersão;

14
12
10
Vendas

8
6
4
2
0
0 2 4 6 8
Área
b) Obtenha a equação de regressão linear;

14
12
10
Vendas

8
6
4 y = 1,6699x + 0,9645
R² = 0,9042
2
0
0 2 4 6 8
Área

c) Verifique, com 5% de significância, se o coeficiente angular é significativo;

Estatística de regressão
R múltiplo 0,950883
R-Quadrado 0,904179
R-quadrado
ajustado 0,896194
Erro padrão 0,96638
Observações 14

ANOVA
F de
gl SQ MQ F significação
Regressão 1 105,7476 105,7476 113,2335128 1,8227E-07
Resíduo 12 11,20668 0,93389
Total 13 116,9543

Erro 95% 95% Superior


Coeficientes padrão Stat t valor-P inferiores superiores Inferior 95,0% 95,0%
-
Interseção 0,964474 0,526193 1,832927 0,091726832 0,18200306 2,11095038 -0,182003058 2,11095
Área 1,669862 0,156925 10,64112 1,82269E-07 1,3279513 2,01177334 1,327951298 2,011773
Como p-valor<0,05 ocorre uma relação linear e o ajuste de regressão é significativo
e valido.

d) Explique o valor do coeficiente de correlação;

Como valor do coeficiente de correlação foi de 90,42% das vendas anuais pela
variação do tamanho da loja, então 9,58% da variabilidade da amostra é
decorrente de fatores que não são considerados do modelo linear.
2. Um pesquisador decidiu relacionar a altura de árvores com a medida de sua circunferência. Para
isso ele fez a medida em 14 árvores. Os resultados estão apresentados na tabela abaixo:

x (circunferência) y (altura)
(cm) (cm)

54,9 640,1

57,9 1021,1

54,9 749,8

73,2 1240,5

155,4 2231,1

94,5 759,0

167,6 1231,4

155,4 1380,7

253,0 1630,7

417,6 2859,0

161,5 1950,7

149,4 1911,1

112,8 1438,7

115,8 1350,3
a) Construa o gráfico de dispersão;

3500
3000
2500
Altura (cm)

2000
1500
1000
500
0
0 100 200 300 400 500
Circuferência (cm)

b) Obtenha a equação de regressão linear;

3500
3000
2500
Altura (cm)

2000
1500
y = 5,3404x + 684,69
1000 R² = 0,6861
500
0
0 100 200 300 400 500
Circuferência (cm)
c) Verifique, com 5% de significância, se o coeficiente angular é significativo;

Ordinary Least Squares Regression:


Circuferência (cm)-Altura (cm)

Slope a: 5,3404 Std. error a: 1,0427


t: 5,1219 p (slope): 0,00025248
Intercept b: 684,69 Std. error b: 179,08

95% bootstrapped confidence


intervals (N=1999):
Slope a: (0,39015, 7,0186)
Intercept b: (380,31, 1187,8)

Correlation:
r: 0,82833
r2: 0,68614
t: 5,1219
p (uncorr.): 0,00025248
Permutation p: 0,0008

Como p-valor<0,05 ocorre uma relação linear e o ajuste de regressão é significativo


e valido.

d) Qual a altura de uma árvore que tenha uma circunferência de 122 cm?

Y=5,3404X+684,69
Y=5,3404x122+684,69
Y=651,5288+684,59
Y=1336,17 cm
Exercício sobre Regressão Não-Linear

3. Na engenharia a estimativa dos tamanhos dos reservatórios depende de estim

precipitação estão disponíveis para muitos an

anos nos quais apenas medidas de precipitação foram feitos. Os seguintes dados estão disponíveis
para um rio que deve ser estancado:

Precipitação (cm ano-1) 88,9 108,5 104,1 139,7 127

Escoamento (m3 s-1) 14,6 16,7 15,3 23,2 19,5

a) Calcule através do método de regressão linear e polinomial a função que melhor ajusta aos
dados.

Regressão Linear

25
Escoamento (m³/s)

20

15

10
y = 0,1714x - 1,6234
R² = 0,9381
5

0
0 50 100 150
Precipitação (cm/ano)
Regressão Linear exponencial

25

20
Escoamento (m3/s)

15

10 y = 6,0995e0,0093x
R² = 0,9574
5

0
0 50 100 150
Precipitação (cm/ano)

Regressão Linear logarítmica

25

20
Escoamento (m3/s)

15

y = 19,009ln(x) - 71,876
10 R² = 0,9034

0
0 50 100 150
Precipitação (cm/ano)
Regressão Linear Polinomial

25
Escoamento (m³/s)
20

15

10 y = 0,0027x2 - 0,4521x + 33,326


R² = 0,9919
5

0
0 50 100 150
Precipitação (cm/ano)

Como os modelos tiveram valor de p-valor<0,05 ocorre uma relação linear e o ajuste
de regressão é significativo e valido, então não se descarta os modelos. Porém
como o R2 do modelo polinomial é maior que o do modelo logaritmo, exponencial e
linear, então se conclui que ele é o melhor modelo que ajusta os dados de
regressão na reta.

b) Qual a vazão do rio estimada para uma precipitação de 120 cm ano-1?

Y= 0,0027x²-0,4521x+33,326
Y= 0,0027x(120)²-0,4521x120+33,326
Y= 17,95 m3/s

c) Qual a vazão do rio estimada para uma precipitação de 150 cm ano-1?

Y= 0,0027x²-0,4521x+33,326
Y= 0,0027x(150)²-0,4521x120+33,326
Y= 26,26 m3/s

A vazão seria 26,26 m³/s com precipitação de 150 cm/ano, porem este valor é
uma estimativa, pois ele está fora do intervalo dos dados medidos da tabela e
dos pontos plotados no gráfico de dispersão (Precipitação variou de 88,9 a 127
cm/ano).

4. A tabela apresentada a seguir lista o número de mortes de peixes-boi da Amazônia relacionadas a


trombadas com embarcações (com base em dados de pesquisa).
Ano 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990

Mortes 16 24 20 15 34 33 33 39 43 50 47

Ano 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000

Mortes 53 38 35 49 42 60 54 67 82 78

a) Construa um diagrama de dispersão;

90
80
70
60
Mortes

50
40
30
20
10
0
1975 1980 1985 1990 1995 2000 2005
Ano

b) Identifique o modelo matemático que melhor se ajusta aos dados.


Regressão Linear

90
80
70
60
Mortes

50
40
30 y = 2,6455x - 5221
20 R² = 0,802
10
0
1975 1980 1985 1990 1995 2000 2005
Ano

Regressão Linear exponencial

90
80
70
60
Mortes

50
40
30
20 y = 1E-56e0,0665x
10 R² = 0,7838
0
1975 1980 1985 1990 1995 2000 2005
Ano

Regressão Linear logarítmica


90
80
70
60
Mortes

50
40
30
y = 5263,7ln(x) - 39939
20 R² = 0,8018
10
0
1975 1980 1985 1990 1995 2000 2005
Ano

Regressão Polinomial

90
80
70
60
Mortes

50
40
30
y = 0,0517x2 - 202,98x + 199379
20 R² = 0,8109
10
0
1975 1980 1985 1990 1995 2000 2005
Ano

Como os modelos tiveram valor de p-valor<0,05 ocorre uma relação linear e o ajuste
de regressão é significativo e valido, então não se descarta os modelos. Porém
como o R2 do modelo polinomial é maior que o do modelo exponencial, logarítmico e
linear então se conclui que ele melhor modelo que ajusta dados de regressão na
reta.

c) Qual o valor de mortes predito para o ano de 2001? Sabe-se que em 2001 foram registradas 82
mortes de peixes-boi relacionadas com embarcações. Como se compara o valor previsto com o real?
Y=0,0517x²-202,98x+199379
Y=0,0517x(2001)²-202,98x2001+199379
Y= 222,87 mortes peixe

Se compara o valor previsto com o real através da diferença de erro que ocorreu ou seja
,não faz parte dos dados da regressão linear que foi de 140,87 peixes, com erro de 17,89%.

Erro residual= [222,87-82]/[222,87]x100= 63,2% erro,

Erro predito= 81,09-63,2= 17,89% erro.


Exercícios sobre Regressão Múltipla

5. Considere os seguintes dados: y é a quantidade vendida de um produto Q em quilogramas; x1 o


Preço do produto, em reais, e x2 o Investimento com a divulgação do produto, em reais. Determinar a
equação de regressão de y em função de x1 e de x2.

Q (kg) 55 70 90 100 90 105 80 110 125 115 130 130

Preço (R$) 100 90 80 70 70 70 70 65 60 60 55 50


(x1)

Investimento 550 630 720 700 625 735 560 715 750 690 715 650
(R$)
(x2)

Equação de y para x1 e x2 fica:

Y=116,15-1,31.x1+0,11.x2

6. Uma agroindústria deseja saber o custo de manutenção de sua frota de caminhões durante um
determinado período. Para isso, por um procedimento de amostragem, foram coletados dados de
quilometragem, em milhares de quilômetros, e a idade do caminhão, em anos. Verifique se é possível
estabelecer uma relação entre essas duas variáveis com o custo de manutenção dos caminhões?
Custo de manutenção Quilometragem Idade do caminhão
(R$) (x1000 km) (anos)

832 6 8

730 7 7

647 9 6

553 11 5

467 13 4

373 15 3

283 17 2

189 18 1

96 19 0

Primeiro modelo:

Equação: y=0,66+4,94.x1+99,89.x2
No primeiro modelo não ocorre relação entre variável custo de manutenção do caminhão
com a quilometragem, pois a variável Idade do caminhão apresentou valor p>0,05, então
dados não são lineares. Porém ocorre relação entre custo de manutenção e a idade do
caminhão, pois a variável idade do caminhão apresentou valor de p<0,05. Então se conclui
que quanto maior idade do caminhão maior será custo de manutenção.

Segundo modelo:

Equação: y= -0,97320,05+91,50.x2-0,51.x12

Neste modelo a equação pode apresentar relação próxima entre variáveis, porem
como o modelo apresentou valor para maioria das suas variáveis com p-valor>0,05
não ocorre uma relação linear e o ajuste de regressão não é significativo e valido,
então poderá descartar as variáveis. Porem como o R2 do modelo quase próximo do
valor 1, então se conclui que pode ser ajustado dados de regressão múltipla.

Você também pode gostar