Escolar Documentos
Profissional Documentos
Cultura Documentos
PÓS-GRADUAÇÃO EM CIÊNCIA DE
DADOS E INTELIGÊNCIA ARTIFICIAL
1.
1
Precisão refere-se ao número de previsões de classe positiva que realmente existem na classe positiva
2
reconheceu 70% dos casos positivos possíveis (Revocação 2). Para a classe
Não Especificado o modelo apresentou 80% de precisão e 94% de revocação
enquanto para o Propano tem-se 94% e 76% de precisão e revocação
respectivamente.
Como continuidade do trabalho foi sugerido o estudo de outras técnicas
de Machine Learning realizando uma avaliação de desempenho entre elas para
efetivar a indicação da mais adequada para aplicação como ferramenta de
suporte à decisão do operador de uma UPGN.
Palavras-chave: Machine Learning, Processamento de Gás, k-NN,
Petróleo e Gás
2
Revocação ou Recall refere-se ao número de previsões de classe positivas de todas as positivas na coleção
3
2.
4
para outras indústrias), dentre outros constituintes. (Brasil, N.I et al, 2011).
O presente trabalho centra-se no contexto de uma UPGN que produz GLP
e/ou Propano líquido Um dos desafios nesta planta é manter a especificação
de seus produtos durante os transientes, quando da necessidade de alternância
entre a campanha de produção de Gás Liquefeito de Petróleo (GLP) e a
campanha de produção de Propano líquido. (Matias, 2019)
O objetivo do trabalho é propor uma ferramenta para auxiliar à tomada de
decisão para os gestores da planta e operadores de produção a partir de dados
de processo como pressão de topo, temperatura de fundo e vazão de saída da
torre de separação (Debutanizadora), equipamento chave deste processo. A
proposta é utilizar o algoritmo K-NN para classificar os atributos operacionais
em produção de GLP, Propano Líquido e Produto desenquadrado. Desta forma
o operador não precisará aguardar resultados de análise laboratorial para
tomada de decisão e assim obter uma redução do tempo de ajuste da planta.
Matias (2019) desenvolveu esse tema utilizando um algoritmo de
Regressão Logística. Este mesmo autor cedeu o conjunto de dados (data set)
utilizado no desenvolvimento desse artigo.
5
3.
Matias (2019) apresenta um diagrama básico de uma UPGN como apresentado na figura 2
3
Operações Unitárias – Etapa básicas de um processo, normalmente é uma operação de separação física (destilação, filtração, etc)
6
Figura 2- Diagrama Básico de uma UPGN
4
São compostos orgânicos constituídos essencialmente dos elementos carbono e hidrogênio. O Petróleo e o Gás Natural são
constituídos basicamente de hidrocarbonetos. (BRASIL, et al, 2011)
7
um produto que não esteja especificado nem como GLP nem como propano. A
unidade necessita reduzir o tempo de ajuste para minimizar o tempo de
produção não especificada, porém para o operador tomar a decisão ele
depende de resultados de testes de laboratório. Assim foi proposto um modelo
de Machine Learning baseado em um algoritmo de regressão logística que
utilizou como atributos os parâmetros de processo Pressão de Topo,
Temperatura de Topo, Temperatura de Fundo, Vazão de entrada, Vazão de
refluxo e Vazão de saída para classificar o produto como GLP, Propano ou Não
Especificado. (MATIAS, 2019)
A base de dados utilizada por Matias (2019) foi gerada a partir de
simulação de um processo de uma UPGN utilizando o software de simulação
CHEMSEP© variando os parâmetros operacionais e observando qual era o
produto. Desta forma o autor rotulou os atributos em GLP, PROPANO e Não
Especificado.
Como resultado, Matias (2019) obteve a matriz de confusão da figura 3 e
as estatísticas para o modelo de Regressão Logística da tabela. Para a criação
do modelo utilizou-se o software WEKA©
Figura 3 – Matriz de Confusão Modelo de Regressão Logística
Precision 0,915
Recall 0,915
Fscore 0,915
Taxa de Acerto 91,48%
Fonte: Matias (2019)
8
4.
Estes dados são representativos de uma UPGN típica, que como descrito
anteriormente foram gerados por simulação de processos por Matias (2019).
Escolheu-se o algoritmo de aprendizado baseado em instâncias o K-NN
(K-Nearest Neighbors) ou K vizinhos mais próximos. Segundo Amaral (2016)
nesse tipo de algoritmo não há a criação de um modelo propriamente dito. Isto
quer dizer que os dados históricos não são descartados após a construção do
modelo, esses são mantidos em memória, sendo convocados a cada nova
avaliação de uma instância, podendo exigir assim um maior esforço
computacional.
O processo de classificação acontece a partir do cálculo da distância entre
a instância que se deseja classificar e uma ou mais instâncias rotuladas.
(CASTRO e FERRARI, 2016).
A figura 4 apresenta um esquema de um processo de classificação
baseado em distância.
9
Figura 4- Classificação Baseada em Distância
A métrica utilizada foi a Distância Euclidiana uma vez que os atributos são
valores contínuos.
O algoritmo de classificação foi implementado na linguagem Python.
Para manipulação do data set foi utilizado o pacote de ferramentas do
pandas.
Como ambiente de implementação foi utilizado o Google Colaboratory
(Google Colab). Este ambiente é um serviço de nuvem gratuito disponibilizado
pela própria Google. (SCALCO, 2021)
Para a divisão entre dados de treino e teste foi escolhida a técnica hold
out. Por essa técnica os dados são divididos aleatoriamente sem substituição,
em 70% para treino e 30% para teste. (AMARAL, 2016). Esta técnica foi
implementada utilizando a biblioteca do scikit-learn train_test_split com o
parâmetro random_state = 31.
Os dados foram normalizados, uma vez que os atributos são grandezas
que possuem dimensão e, portanto, seus valores têm ranges diferentes, o que
poderia impactar na resposta do processo de classificação. A implementação
se deu com a biblioteca StandardScaler do sklearn.preprocessing.
A seleção do número de k de vizinhos foi realizada a partir da variação
em uma faixa de valores e comparando para cada iteração a acurácia obtida
pelo modelo.
Para avaliação do desempenho foi utilizada a matriz de confusão e o
relatório de classificação disponíveis no pacote de métricas sklearn.metrics
10
5.
5
pandas-profiling gera relatórios de perfil de um pandas DataFrame
11
Figura 7 – Visão dos dados normalizados
12
Figura 10 – Matriz de Confusão
13
6.
14
como GLP são verdadeiros positivos (precisão6) enquanto ele consegue
reconhecer 70% dos casos positivos possíveis (Revocação7). Para a classe
Não Especificado o modelo apresenta 80% de precisão e 94% de revocação
enquanto para o Propano tem-se 94% e 76% de precisão e revocação
respectivamente.
Comparando os resultados obtidos para o kNN no presente trabalho com
os obtidos por Matias (2019) para regressão logística observa-se que o
segundo apresentou melhores valores para os parâmetros de desempenho
(Precison, Recall e F1-Score).
Para definição de qual modelo é o melhor serão necessários mais estudos
de avaliação de desempenho, utilizando-se de outras métricas para suportar
esta decisão como por exemplo o gráfico de Características do Receptor de
Operação (ROC do inglês Receiver Operating Characteristics), além de
construir outros modelos a partir de técnicas diferentes como por exemplo
Máquina de Vetor de Suporte, Árvore de Decisão, dentre outros.
6
Precisão refere-se ao número de previsões de classe positiva que realmente existem na classe positiva
7
Revocação ou Recall refere-se ao número de previsões de classe positivas de todas as positivas na coleção
15
7.
16
AMARAL, Fernando. Introdução à Ciência de Dados: Mineração de Dados
e BIG DATA.1ª ed. Rio de Janeiro: Alta Books, 2016
BRASIL, Nilo Índio; ARAÚJO, Maria Adelina Santos; SOUSA, Elisabeth Cristina
Molina de. Processamento de Petróleo e Gás: Petróleo e seus Derivados,
Processamento Primário, Processos de Refino, Petroquímica, Meio
Ambiente.1ª ed. Rio de Janeiro: LTC, 2011.
17
PANDAS. Pandas Documentation. Disponível em:
https://pandas.pydata.org/docs/. Acesso em 01 ago. 2022
18