Você está na página 1de 19

Proposta de uma Ferramenta baseada em Aprendizado de Máquina para auxiliar a

Tomada de Decisão Operacional em Unidades de Processamento de Gás Natural

PÓS-GRADUAÇÃO EM CIÊNCIA DE
DADOS E INTELIGÊNCIA ARTIFICIAL

ALUNO: Warlley Ligório Antunes


ORIENTADOR: Nome do Orientador
Sumario
´
1. RESUMO .............................................................................................................................................. 2
2. INTRODUÇÃO ...................................................................................................................................... 4
3. TRABALHOS RELACIONAIS .................................................................................................................. 6
4. METODOLOGIA ................................................................................................................................... 9
5. RESULTADOS .....................................................................................................................................11
6. DISCUSSÃO ........................................................................................................................................14
7. CONCLUSÃO E TRABALHOS FUTUROS ..............................................................................................16
8. REFERÊNCIAS.....................................................................................................................................17
ARTIGO CIENTÍFICO

1.

A indústria de petróleo e gás natural desempenha um papel importante


na economia brasileira e mundial. Os investimentos previstos para o Brasil
alcançarão em torno de US$ 24 bilhões por ano, ou o equivalente a R$ 102
bilhões/ano, até 2025. (Jornal do Brasil, 2022)
Dentro do contexto dessa indústria encontra-se o processamento de gás
natural que se dá em unidades industriais conhecidas como UPGN (Unidade
de Processamento de Gás Natural). O objetivo dessas unidades é agregar valor
ao gás natural obtendo desse derivados como GLP e Propano.
Esse trabalho centrou-se no cenário de uma UPGN que produz GLP e/ou
Propano líquido. Um dos desafios nessa planta é manter a especificação de
seus produtos durante os transientes, quando da necessidade de alternância
entre a campanha de produção de Gás Liquefeito de Petróleo (GLP) e a
campanha de produção de Propano. (Matias, 2019).
Foi proposta uma ferramenta baseada em aprendizado de máquina para
auxiliar à tomada de decisão de gestores da planta e operadores de produção
a partir de dados de processo como pressão de topo, temperatura de fundo e
vazões de entrada, de saída e de refluxo da torre de separação
(Debutanizadora). A aplicação desta ferramenta pode contribuir com a redução
do tempo para ajuste da planta uma vez que o operador poderia tomar decisões
antes de obter os resultados de análises laboratoriais.
Implementou-se o algoritmo k-NN para classificar os atributos
operacionais em produção de GLP, Propano Líquido e Produto não
especificado.
A análise da matriz de confusão indicou que o 87% dos casos
classificados como GLP são verdadeiros positivos (precisão 1) enquanto

1
Precisão refere-se ao número de previsões de classe positiva que realmente existem na classe positiva

2
reconheceu 70% dos casos positivos possíveis (Revocação 2). Para a classe
Não Especificado o modelo apresentou 80% de precisão e 94% de revocação
enquanto para o Propano tem-se 94% e 76% de precisão e revocação
respectivamente.
Como continuidade do trabalho foi sugerido o estudo de outras técnicas
de Machine Learning realizando uma avaliação de desempenho entre elas para
efetivar a indicação da mais adequada para aplicação como ferramenta de
suporte à decisão do operador de uma UPGN.
Palavras-chave: Machine Learning, Processamento de Gás, k-NN,
Petróleo e Gás

2
Revocação ou Recall refere-se ao número de previsões de classe positivas de todas as positivas na coleção

3
2.

A indústria de petróleo e gás natural desempenha um papel importante


na economia brasileira e mundial. De acordo com o estudo Relevância do
Petróleo para o Brasil realizado pelo IBP e EY em 2019, a indústria de óleo e
gás fomenta as principais matrizes energéticas, gera divisas com sua
exportação, cria vagas alta qualificação no mercado de trabalho, gera também
receitas para os municípios, estados e federação através do recolhimento de
impostos e taxas. Esse mesmo estudo afirma que essa indústria tem e terá um
papel preponderante na transição energética para as matrizes renováveis. Os
resultados dos últimos leilões de energia, comprovam essa visão, uma vez que
já registraram uma redução de fontes como carvão, diesel e óleo combustível.
(IBP, 2019)
Os dados do estudo mostram que o Brasil possui reservas de petróleo e
gás em grande quantidade, ocupando o terceiro lugar na classificação das
principais atividades econômicas e o quarto em relação às exportações,
desempenhando um relevante papel para o alcance de superávit comercial.
(IBP, 2019)
Destacando ainda a importância desse setor na economia a Associação
Brasileira das Empresas de Serviços de Petróleo (ABESPetro) indica que os
investimentos da indústria de petróleo e gás no Brasil alcançarão em torno de
US$ 24 bilhões por ano, ou o equivalente a R$ 102 bilhões/ano, até 2025.
(Jornal do Brasil, 2022)
Dentro do contexto dessa indústria encontra-se o processamento de gás
natural que se dá em unidades industriais conhecidas como UPGN (Unidade
de Processamento de Gás Natural). O objetivo dessas unidades é adicionar
valor ao gás natural produzido nos campos de produção, fazendo uma
separação em constituintes de maior valor agregado, como por exemplo o GLP
(Gás Liquefeito de Petróleo ou gás de cozinha), Gás Seco que pode ser
utilizado como GNV (Gás Natural Veicular ou como fonte de energia para outras
indústrias), Propano líquido (produto utilizado como intermediário de processo

4
para outras indústrias), dentre outros constituintes. (Brasil, N.I et al, 2011).
O presente trabalho centra-se no contexto de uma UPGN que produz GLP
e/ou Propano líquido Um dos desafios nesta planta é manter a especificação
de seus produtos durante os transientes, quando da necessidade de alternância
entre a campanha de produção de Gás Liquefeito de Petróleo (GLP) e a
campanha de produção de Propano líquido. (Matias, 2019)
O objetivo do trabalho é propor uma ferramenta para auxiliar à tomada de
decisão para os gestores da planta e operadores de produção a partir de dados
de processo como pressão de topo, temperatura de fundo e vazão de saída da
torre de separação (Debutanizadora), equipamento chave deste processo. A
proposta é utilizar o algoritmo K-NN para classificar os atributos operacionais
em produção de GLP, Propano Líquido e Produto desenquadrado. Desta forma
o operador não precisará aguardar resultados de análise laboratorial para
tomada de decisão e assim obter uma redução do tempo de ajuste da planta.
Matias (2019) desenvolveu esse tema utilizando um algoritmo de
Regressão Logística. Este mesmo autor cedeu o conjunto de dados (data set)
utilizado no desenvolvimento desse artigo.

5
3.

Domeneghini (2015) descreve uma Unidade de Processamento de Gás


Natural (UPGN) como sendo um conjunto de operações unitárias 3 responsáveis
pela remoção de contaminantes do gás natural e separação dos produtos
principais. A figura 01 apresenta um esquema genérico de uma UPGN

Figura 1- Esquema genérico de um UPGN

Fonte: Domeneghini (2015)

Matias (2019) apresenta um diagrama básico de uma UPGN como apresentado na figura 2

3
Operações Unitárias – Etapa básicas de um processo, normalmente é uma operação de separação física (destilação, filtração, etc)

6
Figura 2- Diagrama Básico de uma UPGN

Fonte: Matias (2019)

Nesse diagrama destacam-se duas operações unitárias de destilação a


torre desetanizadora que tem a função de separar as frações mais leves do gás
natural (metano e etano) das frações mais pesadas conhecidas como LGN
Líquido de Gás Natural. Essa fração mais pesada segue para a segunda torre
conhecida como Debutanizadora onde o LGN é separado em dois produtos a
saber: GLP Gás Liquefeito de Petróleo também conhecido como gás de cozinha
e em uma fração constituída por compostos que contêm uma mistura de
hidrocarbonetos4 com 5 átomos de carbono ou mais (C5+). (MATIAS, 2019)
O foco do trabalho de Matias (2019) foi exatamente a torre
Debutanizadora, pois ali se define os produtos principais da UPGN que foi
estudada por ele. Esta UPGN tem como produtos principais o GLP e o Propano
porém a produção de um ou de outro depende da demanda de mercado.
Intercalar entre um produto ou outro envolve alteração dos parâmetros
operacionais do processo, e durante essa transição a saída da torre pode ser

4
São compostos orgânicos constituídos essencialmente dos elementos carbono e hidrogênio. O Petróleo e o Gás Natural são
constituídos basicamente de hidrocarbonetos. (BRASIL, et al, 2011)

7
um produto que não esteja especificado nem como GLP nem como propano. A
unidade necessita reduzir o tempo de ajuste para minimizar o tempo de
produção não especificada, porém para o operador tomar a decisão ele
depende de resultados de testes de laboratório. Assim foi proposto um modelo
de Machine Learning baseado em um algoritmo de regressão logística que
utilizou como atributos os parâmetros de processo Pressão de Topo,
Temperatura de Topo, Temperatura de Fundo, Vazão de entrada, Vazão de
refluxo e Vazão de saída para classificar o produto como GLP, Propano ou Não
Especificado. (MATIAS, 2019)
A base de dados utilizada por Matias (2019) foi gerada a partir de
simulação de um processo de uma UPGN utilizando o software de simulação
CHEMSEP© variando os parâmetros operacionais e observando qual era o
produto. Desta forma o autor rotulou os atributos em GLP, PROPANO e Não
Especificado.
Como resultado, Matias (2019) obteve a matriz de confusão da figura 3 e
as estatísticas para o modelo de Regressão Logística da tabela. Para a criação
do modelo utilizou-se o software WEKA©
Figura 3 – Matriz de Confusão Modelo de Regressão Logística

Fonte: Matias (2019)

Tabela 1 – Estatísticas do modelo de Regressão Logística

Precision 0,915
Recall 0,915
Fscore 0,915
Taxa de Acerto 91,48%
Fonte: Matias (2019)

8
4.

Para alcançar o propósito deste trabalho partiu-se de um data set


disponibilizado por Matias (2019) consistindo em dados estruturados, que de
acordo com Móre (2021) são dados tabulares, com campos pré-definidos, que
facilitam o processamento e a análise. A tabela 2 apresenta uma amostra
destes dados.
Tabela 2 -Amostra do data set utilizado no trabalho

Fonte: Adaptado de Matias (2019)

Estes dados são representativos de uma UPGN típica, que como descrito
anteriormente foram gerados por simulação de processos por Matias (2019).
Escolheu-se o algoritmo de aprendizado baseado em instâncias o K-NN
(K-Nearest Neighbors) ou K vizinhos mais próximos. Segundo Amaral (2016)
nesse tipo de algoritmo não há a criação de um modelo propriamente dito. Isto
quer dizer que os dados históricos não são descartados após a construção do
modelo, esses são mantidos em memória, sendo convocados a cada nova
avaliação de uma instância, podendo exigir assim um maior esforço
computacional.
O processo de classificação acontece a partir do cálculo da distância entre
a instância que se deseja classificar e uma ou mais instâncias rotuladas.
(CASTRO e FERRARI, 2016).
A figura 4 apresenta um esquema de um processo de classificação
baseado em distância.

9
Figura 4- Classificação Baseada em Distância

Fonte: Castro e Ferrari 2016

A métrica utilizada foi a Distância Euclidiana uma vez que os atributos são
valores contínuos.
O algoritmo de classificação foi implementado na linguagem Python.
Para manipulação do data set foi utilizado o pacote de ferramentas do
pandas.
Como ambiente de implementação foi utilizado o Google Colaboratory
(Google Colab). Este ambiente é um serviço de nuvem gratuito disponibilizado
pela própria Google. (SCALCO, 2021)
Para a divisão entre dados de treino e teste foi escolhida a técnica hold
out. Por essa técnica os dados são divididos aleatoriamente sem substituição,
em 70% para treino e 30% para teste. (AMARAL, 2016). Esta técnica foi
implementada utilizando a biblioteca do scikit-learn train_test_split com o
parâmetro random_state = 31.
Os dados foram normalizados, uma vez que os atributos são grandezas
que possuem dimensão e, portanto, seus valores têm ranges diferentes, o que
poderia impactar na resposta do processo de classificação. A implementação
se deu com a biblioteca StandardScaler do sklearn.preprocessing.
A seleção do número de k de vizinhos foi realizada a partir da variação
em uma faixa de valores e comparando para cada iteração a acurácia obtida
pelo modelo.
Para avaliação do desempenho foi utilizada a matriz de confusão e o
relatório de classificação disponíveis no pacote de métricas sklearn.metrics

10
5.

Após a obtenção do data set foi realizada uma análise exploratória


utilizando a biblioteca pandas profiling 5, o objetivo desta análise foi verificar o
grau de pré-processamento que seria necessário para adequação dos dados
ao pipeline de implementação do algoritmo KNN. A figura 5 apresenta a visão
geral do relatório obtido.
Figura 5 – Perfil do Data Set

Fonte: O Autor (2022)

Os dados foram normalizados utilizando-se a biblioteca StandardScaler


conforme código da figura 6 e resultado da figura 7.
Figura 6 – Código de normalização

Fonte: O Autor (2022)

5
pandas-profiling gera relatórios de perfil de um pandas DataFrame

11
Figura 7 – Visão dos dados normalizados

Fonte:O Autor (2022)

Para a seleção do valor de k, foi implementado o código ilustrado na figura


8. Na sequência foi plotado o gráfico da figura 9 indicando que a melhor
acurácia foi aproximadamente 0,87 para k = 9.
Figura 8 – Código para seleção do k

Fonte: O Autor (2022)

Figura 9 – Acurácia X valores de K

Fonte: O Autor (2022)

Com o valor de k selecionado implementou-se o algoritmo kNN, obtendo-


se a matriz de confusão da figura 10 e o relatório de classificação apresentado
na figura 11

12
Figura 10 – Matriz de Confusão

Fonte: O Autor (2022)

Figura 11 – Relatório de Classificação

Fonte: O Autor (2022)

13
6.

A partir do perfil obtido com a biblioteca Pandas Profiling, verificou-se que


os dados já estavam tratados, não apresentando por exemplo valores ausentes,
linhas duplicadas, dentre outros aspectos que necessitassem adequação.
Observou-se também a partir desta descrição de perfil que as classes
estão desbalanceadas, conforme ilustrado na figura 12. Tendo uma
predominância da classe Não Especificado, seguida da classe Propano e por
fim GLP.
Figura 12 – Distribuição das Classes

Fonte: O Autor (2022)

As variáveis operacionais utilizadas são grandezas físicas de dimensões


diferentes, pressão temperatura, vazão, desta forma foi necessária a
normalização de valores, aplicando para isso a biblioteca StandardScaler.
A definição do valor do número de vizinhos mais próximos (k) a ser
utilizado, não é uma tarefa simples conforme apontado por Provost e Fawcett
(2016), pelo contrário pode ser bastante complicado. Neste trabalho optou-se
por escolher o valor de k a partir de testes buscando aquele valor que
apresentasse melhor acurácia, foi uma forma simples de fazer a seleção e o
resultado k = 9 foi satisfatório, apresentando uma acurácia de 87% além de que
é um número ímpar que ainda conforme Provost e Fawcett (2016) pode ser algo
conveniente.
Considerando que foi adotada a técnica hold out (70/30) para a divisão
entre dados de treino e teste, o conjunto de teste teve 1112 pontos.
Para um k = 9 e um conjunto de teste de 1112 pontos o modelo
apresentou uma acurácia de 87%
A análise da matriz de confusão indica que o 87% dos casos classificados

14
como GLP são verdadeiros positivos (precisão6) enquanto ele consegue
reconhecer 70% dos casos positivos possíveis (Revocação7). Para a classe
Não Especificado o modelo apresenta 80% de precisão e 94% de revocação
enquanto para o Propano tem-se 94% e 76% de precisão e revocação
respectivamente.
Comparando os resultados obtidos para o kNN no presente trabalho com
os obtidos por Matias (2019) para regressão logística observa-se que o
segundo apresentou melhores valores para os parâmetros de desempenho
(Precison, Recall e F1-Score).
Para definição de qual modelo é o melhor serão necessários mais estudos
de avaliação de desempenho, utilizando-se de outras métricas para suportar
esta decisão como por exemplo o gráfico de Características do Receptor de
Operação (ROC do inglês Receiver Operating Characteristics), além de
construir outros modelos a partir de técnicas diferentes como por exemplo
Máquina de Vetor de Suporte, Árvore de Decisão, dentre outros.

6
Precisão refere-se ao número de previsões de classe positiva que realmente existem na classe positiva
7
Revocação ou Recall refere-se ao número de previsões de classe positivas de todas as positivas na coleção

15
7.

Como uma contribuição à otimização do tempo de tomada de decisão por


operadores de uma Unidade de Processamento de Gás Natural (UPGN)
através da identificação do momento em que o produto GLP ou Propano está
especificado após o transiente entre a campanha de produção de um e de outro,
o presente trabalho propôs uma ferramenta baseada em Aprendizado de
Máquina particularmente utilizando um algoritmo baseado em distâncias o kNN.
Esta proposta teve como inspiração trabalho realizado por Matias (2019),
que na mesma linha propôs um modelo utilizando a técnica de Regressão
Logística.
A ferramenta proposta apresentou bons resultados com uma acurácia de
87%.
Como não é simples estabelecer a priori qual técnica de Machine Learning
será mais adequada para resolver algum tipo de problema. Sugere-se que
outras técnicas sejam estudadas e seu desempenho seja comparado, para
enfim, indicar a mais adequada para aplicação como ferramenta de suporte à
decisão do operador de uma UPGN.

16
AMARAL, Fernando. Introdução à Ciência de Dados: Mineração de Dados
e BIG DATA.1ª ed. Rio de Janeiro: Alta Books, 2016

BRASIL, Nilo Índio; ARAÚJO, Maria Adelina Santos; SOUSA, Elisabeth Cristina
Molina de. Processamento de Petróleo e Gás: Petróleo e seus Derivados,
Processamento Primário, Processos de Refino, Petroquímica, Meio
Ambiente.1ª ed. Rio de Janeiro: LTC, 2011.

CASTRO, Leandro Nunes de; FERRARI, Daniel Gomes. Introdução à


Mineração de Dados: Conceitos Básicos, Algoritmos e Aplicações.1ª ed.
São Paulo: Editora Saraiva, 2016

DOMENEGHINI, Elis Cristina. Proposta de Índice de Eficiência Energética


Baseado na Exergia para UPGN. Monografia (Trabalho de Conclusão de
Curso) – Escola de Engenharia - Departamento de Engenharia Química -
Universidade Federal do Rio grande do Sul. Porto Alegre. Rio Grande do Sul.
2015.

GÉRON, Aurélien. Mãos à Obra: Aprendizado de Máquina com Scikit-Learn,


Keras & TensorFlow.2ª ed. Rio de Janeiro: Alta Books, 2021

INSTITUTO BRASILEIRO DO PETRÓLEO, GÁS e BIOCOMBUSTÍVEIS, Relevância


do Petróleo para o Brasil. Rio de Janeiro, 2019. E-book. Disponível em:
https://www.ibp.org.br/personalizado/uploads/2019/08/ey-relevancia-do-petroleo-
brasil.pdf. Acesso em: 10 ago. 2022.

JORNAL DO BRASIL. investimentos-em-petroleo-e-gas-alcancarao-rs-102-


bi-por-ano-até-2025. Rio de Janeiro, 04 ago. 2022. Disponível
em:https://www.jb.com.br/economia/2022/08/1038956-investimentos-em-
petroleo-e-gas-alcancarao-rs-102-bi-por-ano-ate-2025.html. Acesso em: 04
ago.2022.

MATIAS, Caio Rangel. Acompanhamento de uma Torre Debutanizadora


utilizando um Algoritmo de Regressão Logística. Monografia (Trabalho de
Conclusão de Curso) – Faculdade Católica Salesiana de Macaé. Macaé. Rio de
Janeiro. 2019.

MÓRE, Martin Machine Learning I: Aprendizado


Duarte.
Supervisionado. [PowerPoint de apoio à disciplina Machine
Learning I: Aprendizado Supervisionado, lecionada no Curso de Pós-
graduação em Ciência de Dados e Inteligência Artificial - PUCRS]. Porto Alegre.
2021

17
PANDAS. Pandas Documentation. Disponível em:
https://pandas.pydata.org/docs/. Acesso em 01 ago. 2022

PROVOST, Foster; FAWCETT, Tom. Data Science para Negócios: O que


Você Precisa Saber Sobre Mineração de dados e Pensamento Analítico de
Dados. 1ª ed. Rio de Janeiro: Alta Books, 2016

SCALCO, Felipe Fagundes. Visualização de Dados em Processos de


Machine Learning. Monografia (Trabalho de Conclusão de Curso) –
Universidade de Caxias do Sul. Caxias do Sul. Rio Grande do Sul. 2021.

SCIKIT-LEARN. Machine Learning in Python. Disponível em: https://scikit-


learn.org/stable/. Acesso em 01 ago. 2022

SCIPY LECTURE NOTES. One document to learn numerics, science, and


data with Python. Disponìvel em: https://scipy-lectures.org/. Acesso em 01
ago. 2022.

18

Você também pode gostar