Você está na página 1de 9

TPQB - Programa de Ps-Graduao em Tecnologia de Processos Qumicos e

Bioqumicos da EQ/UFRJ

Anlise Estatstica Multivariada - Anlise de Cluster no Estudo da


Adulterao da Gasolina no Brasil

EQE-720: Planejamento e Anlise Estatstica de Dados


Professora: Vernica Calado
Aluno: Jos Rodrigues Torraca Neto
DRE: 115148165

Rio de Janeiro, Dezembro de 2015

Introduo
O presente trabalho teve como objetivo utilizar o mtodo estatstico em grupamento
(cluster), utilizando o software Statistica 7 e para avaliao dos dados experimentais do seguinte
artigo: Brazilian Gasoline Quality: Study of Adulteration by Statistical Analysis and Gas
Chromatography, publicado na Journal Brazilian Chemical Society.
Artigo IQ/EQ/UFRJ (2005):

Objetivo
O objetivo deste trabalho utilizar a anlise multivariada em agrupamentos (cluster
analysis) para identificar e classificar diversas amostras de gasolina e suas adulteraes, a partir de
parmetros fsico-qumicos, obtidos das amostras experimentais por cromatografia gasosa.

Os Parmetros Fsico-Qumicos
A octanagem ou ndice de octano (AI) o ndice de resistncia detonao do combustvel
usado em motores a ciclo Otto (gasolina, lcool, GNV e GPL Auto). O ndice faz relao de
equivalncia resistncia de detonao de uma mistura percentual de isoctano e n-heptano.
Assim, uma gasolina de octanagem 87 apresenta resistncia de detonao equivalente a uma
mistura de 87% de isoctano e 13% de n-heptano.
A octanagem no nica, pois varia conforme a rotao do motor; para isso existem os
ndices RON (Research Octane Number) e MON (motor octane number) com os motores
operando, respectivamente, a 600 e 900 rpm.

Metodologia do Artigo
A metodologia do artigo utilizou 22 amostras adulteradas, preparadas em laboratrio, e 22
amostras oriundas de postos de gasolina praticados no mercado. As amostras preparadas em
laboratrio foram alteradas com cadeias carbnicas alifticas leves, pesadas, e tambm
aromticas, propositalmente para a criao posterior dos clusters bem definidos.

Dados Fsico-Qumicos
O artigo utilizou apenas 7 das 8 variveis disponveis na tabela a seguir. A varivel resduo
foi suprimida, mas este trabalho considerou todas as 8 variveis, com o intuito de verificar a
importncia desta varivel no desenvolvimento dos clusters.

Cluster Analysis - Artigo (Statiscal 99 ed.)


O artigo utilizou o programa Statiscal 99 edition para fazer a anlise em clusters, e utilizou
o mtodo ligao simples (complete linkage), como mtodo de agrupamento. O dendrograma
obtido est representado na figura a seguir:

Dados padronizados - Statistica 7


O estudo do artigo comea efetivamente aqui, com a padronizao dos dados, utilizando o
Statistica. Uma parte da tabela est representada na figura seguinte, que em sua totalidade
contm 44 amostras e 8 variveis.

Dendrograma inicial - Statistica 7


O mtodo de agrupamento que eu utilizei foi o mtodo de ward, e o dendrograma inicial
(joining tree), est representado a seguir. Nota-se uma grande similaridade com o dendrograma
obtido pelo artigo, o que j indica que a supresso da varivel 6 (resduos) provavelmente no
faria muita diferena.

Graph of amalgamation Schedule


Ento temos o grfico das distncias euclidianas (graph of amalgamation schedule), que
apresenta a maior variao da distncia aproximadamente no passo 10, que foi utilizado no
presente trabalho como linha de corte.

Tree Clustering Graph Final


Assim, obtemos o dendrograma final, utilizando como linha de corte base o valor 10 como
valor mximo no "scale value". Assim, conseguimos dividir as amostras em 4 clusters bem
definidos, a saber: MIX, HAH, ARH e LAH.

MIX (mixture): gasolina adulterada com uma mistura de solventes;


HAH (heavy aliphatic hydrocarbons): gasolina adulterada com hidrocarbonetos alifticos
pesados;
ARH (aromatic hydrocarbons): gasolina adulterada com aromticos;
LAH (light aliphatic hydrocarbons): gasolina adulterada com hidrocarbonetos alifticos
leves.

K-means - Plot of means


Ento utilizamos a tcnica no-hierrquica do K-means clustering no Stastica com 4
clusters. O grfico das mdias (plof of means) mostra principalmente que a varivel resduos no
influi muito nos clusters, pois a sua mdia est bem prxima para todos eles.

Anlise da varincia
A anlise da varincia permite a confirmao final da nossa hiptese de que a varivel
resduo no significativa, pois o p-level dela bem alto: 0,137615. Todas as outras variveis so
estatisticamente significativas com p-level's muito baixos, todos menores que 0,05. Alm disso,
temos que a varivel DT 90% a varivel mais importante.

Two-way joining
O grfico two-way joining mostra os valores mdios das variveis para cada amostra com
uma distribuio de cores. Esse grfico facilita a comparao entre as amostras e variveis, sendo
possvel identificar quais amostras apresentam os maiores ou menores valores de determinada
varivel. Quanto mais prximo do vermelho for a cor, maior ser o valor da varivel, e logicamente
quanto menor for o valor dela, mais verde ela ser.
Na nossa anlise esse grfico no foi to til, pois j tnhamos chegado s concluses que
queramos com todas as anlises anteriores, principalmente com as do K-means.

Concluso
O artigo utilizou o mtodo complete linkage, e usou apenas 7 fatores da tabela de dados,
no incluindo a varivel resduos. O mtodo utilizado neste trabalho foi o mtodo de Ward, com
todos os 8 fatores levados em considerao.
A anlise em clusters levou a um resultado bem parecido com o obtido no artigo, com 4
clusters bem definidos. Porm, algumas amostras especficas ficaram em clusters diferentes.
Com toda as anlises possveis de serem feitas por K-means, conclui-se que a varivel
resduos realmente no era significativa, e poderia ser descartada sem prejuzo para a anlise em
clusters.