Você está na página 1de 5

Planejamento e An

alise de Experimentos - Estudo


de Caso 2
Marcel Souza Oliveira

F
abio Mafra Kunoh

marcel.s.o@me.com, and fabiok@gmail.com

Universidade Federal de Minas Gerais

Intorduc
ao
No contexto de veculos automotores, a eficiencia no consumo
de combustvel e entendida como a economia de energia de
um determinado veculo que e dada como a raz
ao entre a
dist
ancia percorrida pela unidade de combustvel consumido.
Normalmente, e expressa em quil
ometro por litro (Km/l).
A eficiencia no uso de combustveis leva em consideraca
o
diversas caractersticas do veculo, incluindo os par
ametros
do motor, arrasto aerodin
amico, peso, dentre outros. No
presente estudo de caso, deseja-se eliminar a influencia
destas diferencas, buscando encontrar a magnitude media da
diferenca entre a eficiencia de um tipo de combustvel dado
dois tipos de terreno.
No Brasil, o Compet em parceria com o INMETRO, s
ao
o
rg
aos respons
aveis por realizar medico
es de eficiencia de
veculos, levando em consideraca
o diferentes tipos de combustveis, categoria e modelos de carros. Os dados utilizados neste estudo, trazem eficiencia no uso de combustveis de
veculos leves que s
ao comercializados no Brasil.

Desenvolvimento
Os dados fornecidos para estudo continham informaco
es referentes a v
arios modelos, sua categoria e sobre seus consumos
medios por tipo de combustvel (gasolina e etanol) e tipo de
terreno (cidade e estrada). Foram fornecidos dados de 234
modelos de carros de diferentes categorias e fabricantes comercializados no Brasil.
No presente estudo de caso, deseja-se verificar se a
diferenca de terreno tem impacto significante no consumo
dos veculos da classe grande, desconsiderando possveis
diferencas nos par
ametros de cada um dos veculos. Tais
par
ametros podem ser entendidos como uma fonte de variaca
o
esp
uria dos dados e devem ser eliminados.
Uma fonte de variaca
o esp
uria e uma relaca
o matem
atica
na qual dois ou mais eventos n
ao tem relaca
o direta de causalidade. Neste caso, para que seja possvel reduzir ou retirar
estes efeitos, usa-se tecnicas para o pareamento de medidas,
onde os dados s
ao considerados em pares. Deve-se ent
ao, realizar a subtraca
o das medias dos dados de consumo de combustvel nos dois tipos de terreno, o que resulta em um conjunto de dados u
nico (dados pareados).
Para verificar se existe diferenca significativa, deve-se
aplicar um teste de hip
oteses, onde pode-se definir o seguinte:

Testes de Normalidade e Independ


encia dos Dados
Para possibilitar a execuca
o dos testes de normalidade e independencia, primeiramente devem-se aplicar tratamentos aos
dados fornecidos, visado apresenta-los de forma mais conveniente para o processamento. Estes dados foram dispostos
em seis colunas (modelo, consumo de gasolina e etanol nos
terrenos estrada e cidade e categoria), das quais apenas duas
eram necess
arias. Logo utilizou-se os seguintes comandos em
R para que fossem recuperadas apenas as colunas consumo de
etanol na estrada e na cidade apenas.
data<-read.table("cars.txt",header=T)
data<-data[dataCATEGORIA=="GRANDE",
c("MODELO","ET.CIDADE","ET.ESTRADA")]
etCidade<-data[,2]
etEstrada<-data[,3]

As vari
aveis etCidade e etEstrada guardam os consumos
de etanol de, todos os veculos da categoria grande, na cidade
e na estrada respectivamente.
Para realizar o teste de normalidade utilizou-se os testes
de Shapiro-Wilk juntamente dos gr
aficos Quantile-Quantile e
Density. Todos estes testes podem ser executados em R com
os seguintes comandos:
shapiro.test(etCidade-etEstrada)
qqnorm((etCidade-etEstrada),pch=16,col="blue",cex=0.75)
qqline((etCidade-etEstrada),pch=16,col="blue",cex=0.75)
plot(density((etCidade-etEstrada)))

importante ressaltar que os testes foram realizados com


E
um vetor de diferencas (etCidade-etEstrada).
A seguir s
ao apresentados os gr
aficos Quantile-Quantile e
Density dos dados em estudo:

density.default(x = (etCidade etEstrada))

0.8

Density

0.4

Pode-se entender a hip


otese nula como a ausencia de
variaca
o no uso do etanol em ambos os terrenos. Isso indica
que todos os valores dos dados pareados (diferenca entre os
valores de consumo em ambos os terrenos) e igual a zero. A
hip
otese alternativa descreve a situaca
o contr
aria.
Nestas condic
oes, para que seja possvel aplicar o teste
de hip
oteses sobre os dados pareados, algumas condico
es devem ser satisfeitas. S
ao elas: testes de normalidade e teste

1.2

[1]

0.0

(
H 0 : C E = 0
H1 : C E 6= 0

de independencia dos dados. Estes testes ser


ao detalhados a
seguir.

3.0

2.5

2.0

1.5

N = 29 Bandwidth = 0.1364

Fig. 1. Density Plot

dos dados em estudo.

Dessa forma, uma nova perspectiva para o trabalho e adotada onde ser
ao escolhidos carros, considerando apenas um
veculo por montadora. Este procedimento ser
a apresentado
a seguir.

Sample Quantiles
2.6
2.2
1.8

Normal QQ Plot

Filtragem dos dados

dos dados em estudo.

O primeiro dos gr
aficos apresenta uma curva com um comportamento que se dist
ancia em v
arios aspectos de uma curva
normal. Percebe-se que o valor central da distribuica
o est
a
distante do valor mais prov
avel, caracterstica que descaracteriza os dados em estudo como tal.
O segundo gr
afico apresenta v
arios pontos que se distanciam da reta, o que n
ao e esperado para o QQ-plot de uma
distribuica
o normal.
O resultado do teste de Shapiro-Wilk pode ser visto a
seguir:
Shapiro-Wilk normality test
data: etCidade - etEstrada
W = 0.9287, p-value = 0.1455

O ultimo dos testes de normalidade resultou em um valorp de 0.1455, o que pode ser considerado baixo quando comparado ao nvel de confianca estabelecido (0.05). Logo, diz-se
que os dados n
ao apresentam comportamento normal.
O segundo dos testes e o teste de Durbin-Watson, respons
avel por verificar a independencia do conjunto de dados.
Os resultados deste teste s
ao apresentados a seguir:
Durbin-Watson test
data: (etCidade - etEstrada) ~ 1
DW = 1.1085, p-value = 0.005205
alternative hypothesis: true autocorrelation is greater
than 0

Os valores obtidos pelo teste de Durbin-Watson levam a


`
desconfianca da independencia dos dados. Uma forma de visualizar a independencia destes e plot
a-los com o intuito de
verificar se os mesmos ocupam o espaco de maneira dispersa.
Ao plotar os dados, verificou-se que sempre que havia uma
mudanca de patamar do nvel dos dados, os pontos seguintes
seguiam os mesmos valores.
A Tabela 1 apresenta os valores das diferencas de consumo.
Percebe-se que carros de uma mesma montadora, costumam
ter os mesmos valores de consumo de combustvel. Por exemplo, os tres carros da marca Kia (Tabela 1, linhas 11 a 13)
apresentam os mesmos valores, assim como os 4 carros Focus
da marca Ford (Tabela 1, linhas 14 a 17).
Uma vez que, para uma mesma montadora, os valores de
consumo se mantem, e esperado tambem que a premissa de
normalidade n
ao seja atendida. Pois uma montadora que
apresente, por exemplo, 10 carros na tabela, afetar
a a distribuica
o de forma muito mais significativa que uma montadora que apresente 2. Sendo assim, a ideia central do trabalho, que e a eliminaca
o de fatores esp
urios, n
ao est
a sendo
respeitada. O fator montadora est
a alterando significativamente os resultados dos testes.

density.default(x = (etCidade etEstrada))

Density

Fig. 2. Quantile-Quantile Plot

0.0 0.5 1.0 1.5 2.0

2.8

2.4

2.0

1.6

N = 6 Bandwidth = 0.1173

Fig. 3. Density Plot

dos dados filtrados.

Normal QQ Plot
2.1

2.3

Sample Quantiles

Theoretical Quantiles

2.5

Realizando a filtragem proposta, a quantidade de veculos caiu


de 29 para 6. Esta diferenca era esperada, uma vez que muitos
carros apareciam repetidamente (o carro Ford Focus representava 10 dos 29 veculos presentes nos dados originais).
Novamente foram realizados testes de normalidade dos dados baseados no Q-Q plot, Density plot e teste de Shapiro
Wilk. Os resultados destes testes s
ao apresentados a seguir.

1.0 0.5

0.0

0.5

1.0

Theoretical Quantiles

Fig. 4. Quantile-Quantile Plot

dos filtrados.

Shapiro-Wilk normality test


data: etCidade - etEstrada
W = 0.9124, p-value = 0.4522

Analisando-se os testes gr
aficos, percebe-se pontos bem
comportados no Q-Q Plot, que se distribuem bem ao redor da reta, caracterstica que indica a normalidade dos dados. O Density plot gerado, apresenta uma curva visualmente
pr
oxima de uma normal. Existe apenas uma leve elevaca
o
em sua porca
o esquerda que, por sua vez, n
ao leva a rejeica
o
da hip
otese de normalidade. Ambos os resultados dos testes
gr
aficos, quando comparados aos testes realizados nos dados
completos, apresentaram melhoras significativas.
O teste de Shapiro-Wilk apresentou um valor-p de aproximadamente 0.45, o que e muitas vezes maior que o limite de
0.05 que foi definido previamente como alfa. Essa e mais uma
informaca
o que prove a
` rejeica
o da hip
otese de n
ao normalidade, uma grande seguranca, validando a premissa de normalidade.

Validadas as premissas de normalidade, pode-se verificar a


independencia dos dados em estudo. Mais uma vez, utilizouse o teste de Durbin Watson para tanto. Os resultados deste
teste s
ao apresentados a seguir.
Durbin-Watson test
data: (etCidade - etEstrada) ~ 1
DW = 1.6991, p-value = 0.3419
alternative hypothesis: true autocorrelation is greater
than 0

O teste de Durbin Watson, que indicou problemas no


grupo completo de veculos, neste novo grupo aceitou a premissa de independencia, apresentando um valor-p elevado
(0.34). Sendo assim, as premissas de normalidade e independencia foram comprovadas e o teste pareado t pode ser
realizado para avaliaca
o do problema principal.

Teste t
Uma vez comprovados ambas as premissas, pode-se ent
ao realizar o teste t. O teste t de Student e um teste de hip
oteses
que usa conceitos estatsticos para a rejeica
o ou n
ao de uma
hip
otese nula.
Para tanto, utiliza-se em R os seguintes comandos.
t.test(etCidade,etEstrada,alternative="two.sided",mu=0,
var.equal = FALSE,conf.level=0.95,paired=T)

Como pode ser observado, o comando em R recebe como


par
ametros dois vetores contendo os dados a serem trabalhados (etCidade eetEstrada), a media estimada mu=0, o nvel
de confianca conf.level igual a 95% e o indicador de paridade dos testes paired=T. O resultado deste e apresentado a
seguir.
Paired t-test
data: etCidade and etEstrada
t = -27.9768, df = 5, p-value = 1.092e-06

alternative hypothesis: true difference in means is not


equal to 0
95 percent confidence interval:
-2.420340 -2.012993
sample estimates:
mean of the differences
-2.216667

Pelo teste realizado, observou-se que o intervalo de confianca de 95% da diferenca de rendimento dos carros se localiza
no intervalo [-2.420340 -2.012993]. Como o valor nulo n
ao
se encontra neste intervalo, pode-se afirmar que existe uma
diferenca de consumo com nvel de signific
ancia 95%.
Garantida uma signific
ancia estatstica, uma avaliaca
o importante est
a relacionada a
` signific
ancia pr
atica da diferenca
de consumo. A diferenca media de 2.217 representa mais de
20% do maior valor de rendimento informado pelos dados. O
que e um valor elevado. Utilizando-se o estimador de Cohen, que e dado pela raz
ao entre diferenca media e vari
ancia
amostral, obtemos um valor maior que 58.84. Isso mostra que
temos uma grande diferenca media sendo que h
a uma baixa
vari
ancia das medidas, o que reforca o ponto avaliado neste
trabalho.

Considerac
oes finais
Como conclus
ao deste trabalho, pode-se inicialmente citar que
a decis
ao de filtrar os dados por montadora foi acertada uma
vez que tal filtro permitiu que os dados atendessem as premissas necess
arias para o teste. O resultado do teste estatstico
respondeu claramente a pergunta motivadora do trabalho que
e O desempenho de carros tipo grande em condico
es de
cidade estrada e significativamente diferente? e Qual a magnitude dessa diferenca. Como foi citada na seca
o anterior,
essa diferenca existe, e clara e significativa. Foi comprovado
que a cultura popular de que ambientes diferentes que exigem
din
amicas de direca
o diferentes resultam em consumos variados de combustvel.

Tabela 1. Modelo e consumo de combustvel na estrada e na cidade.


N

MODELO

ET.CIDADE

ET.ESTRADA

Et-Dif

HONDA.Civic.LXS.1.8.16V.Flex

7.4

13.4

-2.1

HONDA.Civic.LXS.1.8.16V.Flex

7.3

13.4

-2.7

TOYOTA.Corolla.Gli.1.8.16V.Flex

7.1

13.3

-2

TOYOTA.Corolla.XLi.1.8.16V.Flex

7.1

13.3

-2

TOYOTA.Corolla.Gli.1.8.16V.Flex

13.5

-2.6

TOYOTA.Corolla.XLi.1.8.16V.Flex

13.5

-2.6

KIA.Cerato.EX3.1.6.16V.Flex

6.8

14

-2.5

KIA.Cerato.LX3.1.6.16V.Flex

6.8

14

-2.5

KIA.Cerato.SX3.1.6.16V.Flex

6.8

14

-2.5

10

RENAULT.Fluence.Dynamique.2.0.16V.Flex

6.8

14.1

-2.4

11

KIA.Cerato.EX3.1.6.16V.Flex

6.6

12.4

-2.5

12

KIA.Cerato.LX3.1.6.16V.Flex

6.6

12.4

-2.5

13

KIA.Cerato.SX3.1.6.16V.Flex

6.6

12.4

-2.5

14

FORD.Focus.Hatch.GL.1.6.16V.Flex

6.5

12.9

-2.2

15

FORD.Focus.Hatch.GLX.1.6.16V.Flex

6.5

12.9

-2.2

16

FORD.Focus.Sedan.GL.1.6.16V.Flex

6.5

12.9

-2.2

17

FORD.Focus.Sedan.GLX.1.6.16V.Flex

6.5

12.9

-2.2

18

HONDA.Civic.LXR.2.0.16V.Flex

6.5

12.8

-2.7

19

HONDA.Civic.EXR.2.0.16V.Flex

6.5

12.8

-2.7

20

FORD.Focus.Hatch.GLX.2.0.16V.Flex

6.4

11.7

-1.7

21

FORD.Focus.Hatch.Titanium.2.0.16V.Flex

6.4

11.7

-1.7

22

FORD.Focus.Sedan.GLX.2.0.16V.Flex

6.4

11.7

-1.7

23

NISSAN.Sentra.20.2.0.16V.Flex

11.7

-2.1

24

NISSAN.Sentra.20S.2.0.16V.Flex

11.7

-2.1

25

NISSAN.Sentra.20SL.2.0.16V.Flex

11.7

-2.1
-2.1

26

FORD.Focus.Hatch.GLX.2.0.16V.Flex

5.7

11.3

27

FORD.Focus.Hatch.Titanium.2.0.16V.Flex

5.7

11.3

-2.1

28

FORD.Focus.Sedan.GLX.2.0.16V.Flex

5.7

11.3

-2.1

29

FORD.Focus.Sedan.Titanium.2.0.16V.Flex

5.7

11.3

-2.1

Tabela 2. Modelo e consumo de combustvel na estrada e na cidade


(dados Filtrados).

MODELO

ET.CIDADE

ET.ESTRADA

HONDA.Civic.LXS.1.8.16V.Flex

7.4

9.5

Et-Dif
2.1

TOYOTA.Corolla.Gli.1.8.16V.Flex

7.1

9.1

2.0

KIA.Cerato.EX3.1.6.16V.Flex

6.8

9.3

2.5

RENAULT.Fluence.Dynamique.2.0.16V.Flex

6.8

9.2

2.4

FORD.Focus.Hatch.GL.1.6.16V.Flex

6.5

8.7

2.2

NISSAN.Sentra.20.2.0.16V.Flex

6.0

8.1

2.1

Você também pode gostar