Você está na página 1de 9

Limitações do uso de dados históricos do PIMS – Fatos e

Recomendações

Autor
Constantino Seixas Filho.1
1
Membro do conselho editorial da revista InTech, Engenheiro Eletrônico, M.Sc., CTO
da Accenture Automation & Industrial Solutions, Belo Horizonte – MG, Brasil.

Resumo
Este artigo discute a utilização de dados históricos comprimidos de um sistema historiador de dados
(PIMS – Process Information Management System) e as limitações que esses dados impõem a uma série de
projetos. O PIMS tem se tornado a grande fonte de dados para sistemas de manufatura, integrando
as ilhas de informação representadas pelos sistemas de automação de nível 2 e se tornando na base
de dados confiável para as demais aplicações de nível 3 como o MES. Para acomodar maiores
volumes de dados, equivalente a 5 a 10 anos de operação, os dados são geralmente comprimidos
com altas taxas de compressão na faixa de 10:1. O problema ocorre quando os engenheiros
inadvertidamente utilizam os dados históricos como base para modelos matemáticos do processo,
para uso em controle, auditoria de malhas e em modelos multivariados que são a base do MSPM –
Multivariate Statistical Process Monitoring. Este artigo discute os métodos de compressão de dados
geralmente empregados em sistemas PIMS e apresenta um tutorial de como a compressão afeta os
modelos obtidos. Finalmente o artigo deixa uma série de recomendações para que engenheiros
utilizem a ferramenta com segurança, baseados nos resultados teóricos e experimentais já
disponíveis na academia.

Introdução
As séries históricas servem de base para diversos tipos de análises que ocorrem após a execução de
um processo contínuo ou de batelada, ou em tempo real durante sua execução. O termo Analytics é
usado para resumir todas as atividades de busca de conhecimento a partir deste banco de dados de
séries históricas.

Dentre as utilizações destes dados podemos citar:


a) Identificação e interpretação de falhas que levaram a paradas, perdas de produção ou de
qualidade para a planta. A análise de dados históricos pode evidenciar situações de erros
operacionais ou de processo que servem para criar melhores práticas evitando que tais erros
voltem a ocorrer.
b) Identificação da melhor batelada (golden batch) ou da melhor produção verificada e de seus
parâmetros de set-up buscando a melhoria contínua.
c) Detecção de padrões de comportamento. Determinados padrões detectados no comportamento
da planta servem para prever quando a planta irá falhar e que fatores influenciam na falha [ref 9]
d) Estabelecer estatísticas do processo desde as mais simples estatísticas univariadas de cada sinal,
até estatísticas multivariadas, estatísticas de alta ordem (HOS) usadas para detecção de não
linearidades de processo, trincas e rachaduras em equipamentos, vibrações, etc.
e) Monitoração multivariada on-line (MSPM-Multivariate Statistical Process Monitoring) que serve para
monitorar um processo contra um modelo estatístico pré estabelecido e indicar quando o
processo se afasta de sua condição operacional ótima. Essa técnica pode ser utilizada para
processos contínuos, em batelada e discretos e permitem diagnosticar porque o problema e

1
mitigá-lo (troubleshooting). Essa prática é fundamental para implementar a estratégia cujo slogan é:
from data to knowledge ... to action.
f) Classificação de padrões em processos para identificar comportamentos saudáveis de
comportamentos [10].
g) Estabelecer modelos de processos utilizados para análise de malhas de controle, MPC (Model
Predictive Control), modelos com redes neurais, fuzzy, etc.
h) Realizar reconciliação de dados e balanços de massa
i) Implementar soft-sensors que são capazes de predizer o valor de uma variável não medida a partir
de outras variáveis de processo ou funcionar como back-up de instrumentos já existentes.

Devido ao grande volume de dados armazenados, que podem atingir 50 000 pontos para uma
grande unidade operacional e ao tempo total de armazenamento que tipicamente se situa na faixa de
3 a 10 anos, a compressão de dados de produção surgiu como uma funcionalidade de grande
importância. Apenas mais recentemente é que estudos acadêmicos demonstraram que a compressão
ocasiona efeitos colaterais nefastos para uma grande gama de aplicações.

Algoritmos de compressão de dados de processo:


Os algoritmos de compressão de dados de processo utilizados em PIMS usam como conceito chave
a redução de redundância dos dados de entrada. O algoritmo de compressão consiste em um critério
que define que pontos da série histórica serão armazenados (trazem informação) e que pontos serão
descartados (são redundantes). Essa classe de algoritmos é denominada compressão linear por
partes.

Quase todos esses algoritmos derivam do mecanismo de swing doors definido por Edgar Bristol da
Foxboro e patenteado em 1987 [Ref 5]. Esse é o algoritmo usado pelo Produto PI da Osisoft [Ref
8]. A Aspentech (IP.21) utiliza o algoritmo boxcar-backslope-BCBS [Ref 11] e a GE (Proficy Historian) o
algoritmo um algoritmo collector/archive compression de efeito semelhante ao da OSI. Existem tentativas
de se usar outras técnicas para a compressão de dados de processo como wavelets [Ref 6], mas esses
algoritmos ainda não estão em uso nas principais ferramentas PIMS de mercado.

O algoritmo utilizado pela OSI será explicado a seguir e usado como referência nesse trabalho. Esse
algoritmo é constituído de dois passos: o teste de exceção e o teste de compressão

Figura 1 – Mecanismo de compressão em dois estágios utilizados em historiadores de processo


Fonte: Referência [OSIsoft – ref 7]

a) Teste de exceção
Inicialmente a estação de coleta de dados realiza o teste de exceção ou de banda morta também
conhecido na literatura como preditor de ordem 0 [Ref 4]. Existem dois parâmetros definidos: ExcDev
e ExcMax. ExDev fornece a tolerância em percentual em relação a faixa de valores da variável (span)
ou em valor absoluto. EscDev determina a altura da banda morta. Se um ponto cai dentro deste
retângulo ele é considerado redundante em relação ao ponto inicial e pode ser descartado. ExcMax

2
fornece a largura em segundos da janela de banda morta. Se esse tempo for excedido o ponto será
enviado à estação de coleta independente de estar ou não dentro da janela.

Figura 2 – Teste de exceção realizado no computador de coleta de dados


Fonte: Referência [OSIsoft – ref 7]
A primeira amostra é sempre selecionada para envio para o nodo servidor. Se a amostra cair fora do
retângulo determinado por ExcDev e ExcMax a amostra corrente e a anterior serão enviadas ao
servidor. Cada amostra na verdade é formada pelo trio: selo de tempo, valor e qualidade da mesma
forma como descrito em outros padrões como o OPC, por exemplo.

b) Teste de compressão:
O teste de compressão testa cada ponto recebido. Se o paralelogramo, caracterizado pelos
parâmetros Compdev e Compmax, e definido pela amostra atual e a última amostra armazenada fizer
com que algum dos pontos intermediários caia fora do paralelogramo, o ponto anterior à última
amostra é armazenado. Os demais pontos são então descartados e o processo se reinicia.

Compmax é o tempo limite. Se esse tempo for excedido o ponto é armazenado. Compdev é o
desvio de compressão percentual ou absoluto que caracteriza a altura do paralelogramo.

Figura 3 – Teste de compressão


Fonte: Referência [OSIsoft – ref 7]
Não é possível reconstruir os dados originais exatamente com os dados armazenados o que significa
dizer que esse tipo de compressão traz perdas de parte dos detalhes dos dados originais. Os dados
intermediários entre duas amostras salvas em disco são reconstituídos utilizando-se interpolação
linear. É recomendável interpolar os pontos usando o mesmo período utilizado na amostragem dos
dados originais.

Uma das figuras de maior importância nesse processo é a taxa de compressão (compression factor)
definida como:

Pontos antes da compressão


fator de compressão =
Pontos depois da compressão

3
Taxas de compressão total (exceção + compressão) típicas na ordem de 10:1 são facilmente obtidas
para dados industriais típicos. Quanto maior Comdev maior será a taxa de compressão.

Cada fase desse processo de compressão pode ser ativado ou desativado independentemente.

Testando as propriedades do conjunto de dados antes e depois da compressão.

Para testar as propriedades de cada série temporal, antes e depois da compressão foi elaborado um
experimento com os alunos da disciplina sistemas distribuídos do curso de Engenharia de Controle e
automação da UFMG que consistia em ter um nodo realizando o teste de exceção se comunicando
via o protocolo TCP/IP com outro nodo que realizava o protocolo de compressão.
Vários sinais podiam ser editados. Os sinais eram comprimidos e as figuras de mérito de interesse
eram verificadas. Os únicos parâmetros estudados foram a taxa de compressão, a média e o desvio
padrão dos sinais antes e depois da compressão.

Figura 4 – Arquitetura do sistema

Os valores da média e variância do sinal antes e depois da compressão deveria continuar o mesmo
para que as séries temporais pudessem ser utilizadas para efeito de análise de processo. As médias
dos valores lidos de balanças por exemplo são fundamentais para se estabelecer o balanço de massas
e detectar perdas por vazamento, evaporação, transbordamento, etc. A variância é um importante
parâmetro para medida da variabilidade de um processo. Tanto para variáveis de processo tais como
pH, nível, temperaturas como para variáveis de qualidade de um produto, o que se deseja é reduzir a
variabilidade. A Figura 5 mostra como a compressão afeta a forma do sinal armazenado no banco
de dados.

4
Figura 5 – Como a compressão afeta os pontos armazenados
Fonte: Ivan da Costa e Thiago Tavares [Ref 12]
Referência
Nina Thornhill e outros [ref 1] sugerem um indicador para cálculo de como a média e a variância são
afetados. O indicador PDM (percentage difference between mean values) mede a diferença da média do
valor real e reconstruído normalizado pelo desvio padrão.
mean ( y ) − mean ( yˆ )
PDM = 100 σy
A deterioração da variância é medida pelas razões entre a variância do sinal reconstruído (ŷi) e a
variância do sinal original (yi ) (RCV – Ratio Variance Value) e a variância do erro e a variância do
sinal original (RVE – Ratio Variance Error).

ei = yi – ŷi

σ y2ˆ σ e2
RVC = RVE = σ y2
σ y2

Os estudos apresentados na Ref 1 mostram que: a variância do sinal reconstruído é menor que a
variância do sinal original, o que é de se esperar porque vários detalhes do sinal original são perdidos
principalmente as variações de alta freqüência. A média sofre menor impacto em unidades de desvio
padrão, mas como a média é muito usada para reconciliação de dados

Figura 6 – Resultados dos testes de média e variância após compressão para três conjuntos de dados típicos
Fonte: Nina Thornhill [Ref 1]
O experimento teste da UFMG realizados com diversos tipos de sinais confirmaram
quantitativamente esses resultados. Apenas a média e desvio padrão foram calculados. Os
indicadores PDM, RVC e RVE não foram computados.

Thornhill [Ref 1] detectou também que a compressão com taxas de compressão maiores que 4
introduz não linearidades em séries temporais originalmente lineares. A detecção de não linearidade
utiliza estatísticas de alta ordem (HOS – high order statistics) como o teste de bicoherência. Como esse
teste é a base para os algoritmos de detecção de agarramento de válvulas de controle (stiction test) e na

5
detecção de vibração em máquinas rotativas [Ref 14], um capítulo importante do gerenciamento de
ativos, a compressão de dados com altas taxas de compressão não é recomendada também neste
tipo de aplicação.

Reconhecimento de padrões
Um uso possível de séries históricas seria o processo de análise para busca de um determinado
padrão de comportamento em um conjunto de dados. Uma técnica de reconhecimento de padrões
consiste em se escolher um conjunto de dados representando um período de operação correta ou
com defeito de uma planta. O objetivo é achar períodos de operação da planta similares a esse
padrão de comportamento. Uma janela correspondendo ao tempo da amostra é deslizada sobre os
dados históricos da planta. Dois fatores de similaridade são calculados. O fator de similaridade SPCA
baseado em PCA (Principal Components Analysis), ou fator de Krzanowski , opera medindo-se o ângulo
entre dois subespaços correspondentes aos modelos da amostra (padrão) e do conjunto de dados
(janela). Se os comportamentos forem similares, esse ângulo tende a zero e o seu co-seno a 1. O
fator conhecido como Sdist é calculado a partir da distância de Mahalanobis entre os centros dos dois
conjuntos de dados. A Ref 15 explica em detalhes o cálculo desses indicadores.

Padrão
Janelas
Figura 7: Buscando um padrão em uma série temporal
Fonte: Singhal e Seborg [Ref 15]

m2
Dados Históricos l2

θ22 l1
θ21
xH θ11
θ23 θ23 θ12
θ32 m1
θ13
θ31
θ33
m3
Dados da Amostra
l3
xS
Distância PCA: Serve para comparar dois
conjuntos de dados que possuem médias
Distância de Mahalanobis: Serve para comparar semelhantes
dois conjuntos de dados que possuem a mesma 3 3
orientação espacial, mas que estão distantes um S PCA = 13 ∑∑ cos 2 θij
do outro. i =1 j =1

Figura 8: Duas medidas de similaridade entre conjuntos de dados

6
Singhal e Seborg demonstram [Ref 3] que a capacidade de reconhecer padrões é muito prejudicada
ao se comprimir dados utilizando algoritmos como o swing doors mostrado nesse artigo. Resultados
melhores foram conseguidos utilizando-se compressão com wavelets.

Uso em análise multivariada


O uso de séries temporais comprimidas em análise multivariada foi analisado por Imtiaz, Choudhury
e Shah [Ref 3]. O principal problema levantado é que a reconstrução dos dados após compressão é
uma técnica univariada e a correlação existente entre os dados antes da compressão não é levada em
conta no processo de reconstrução. A conseqüência disso é que a matriz de correlação obtida a
partir dos dados reconstruídos pelos métodos tradicionais de interpolação linear é muito diferente da
original. A Figura 9 mostra as matrizes de correlação de dados reais de uma coluna de destilação de
uma refinaria antes e depois da compressão utilizando o algoritmo swing-doors.

Dados antes da compressão Dados após compressão


Figura 9 – Matriz de correlação entre variáveis de um processo antes e depois da compressão de dados
Fonte: Imtiaz, 2007 [Referência 2]
Algoritmos de compressão baseados em wavelets mostraram melhores resultados, mas esses
algoritmos não são utilizados hoje em produtos PIMS comerciais. Imtiaz introduz uma nova técnica
de reconstrução dos dados baseada não em interpolação linear univariada, mas em um processo
multivariado. Esse algoritmo denominado PCAIA - Principal Component Analysis Iterative Algorithm
pode ser usado a partir dos dados de um PIMS para se restaurar a matriz de correlação obtendo um
resultado mais próximo do original. O algoritmo inicialmente elimina os dados interpolados ficando
apenas com os pontos armazenados correspondentes às amostras e a partir dela constrói um modelo
estático dos dados usando PCA.

Detecção da compressão:
Quando se desconhece se o conjunto de dados disponível no PIMS está ou não comprimido, deve-
se proceder a um teste de compressão. Os dados são reconstruídos como um conjunto de
segmentos de reta que interpolam os valores entre duas amostras pertencente ao data set original.
Portanto a derivada segunda calculada para o conjunto de pontos dever dar como resultado zero.

( yˆ i +1 − yˆ i ) / h − ( yˆ i − yˆ i −1 ) / h yˆi +1 − 2 yˆ i + yˆi −1
Δ(Δyˆ )i = =
h h2
A expressão acima proposta por Thornhill [Ref 1] fornece o cálculo numérico da segunda derivada
de uma curva, onde N é número de amostras, h é o intervalo de amostragem, ŷ é o sinal
reconstruído e i varia de 2 a N-1. O conjunto de dados original tem N amostras e após a compressão
terá m valores armazenados, o que corresponde a m-1 segmentos. Após a diferenciação teremos n =
N - m segundas diferenças iguais a 0.

7
Conclusões:
Dados de séries temporais sofrem importantes alterações de suas propriedades ao passar por um
processo de compressão. Esses dados não poderiam ser utilizados para modelos de quaisquer
natureza, para gerenciamento de ativos tais como monitoração on-line de malhas de controle, ou
análise de vibrações, monitoração estatística de processos (MSPM) , balanços de massa e uma série
de outras aplicações reunidas sob o nome genérico de analytics. Os sistemas PIMS modernos
permitem controlar que variáveis serão comprimidas e possibilitam ao usuário desligar a
compressão quando conveniente. Com a queda dos custos de memória externa, qualquer
computador doméstico de baixo custo pode ser adquirido com 1 tera bytes de espaço em disco
rígido. Servidores industriais atingem tipicamente 10 vezes essa quantidade. Isso permite reduzir o
número de variáveis que irão sofrer compressão.

Simplesmente eliminar a compressão de todos os sinais não é uma boa alternativa, porque a
compressão diminui o volume de dados a serem manipulados, torna os processos de procura e
recuperação de informação muito mais eficientes, aumentando a performance do sistema. Outro
efeito positivo da compressão é diminuição da largura de banda entre as estações de coleta e de
armazenamento de dados.

A conclusão mais importante é que cada líder de projeto especializado em aplicações PIMS tenha
consciência dos efeitos da compressão e saiba decidir cientificamente quando e onde empregá-la.

Bibliografia
[1] Thornhill, Nina F., Choudhury, M.A.A. Shoukat, Shah Sirish L., The Impact of compression
on data-driven process analyses, Journal of process control, 14 (2004), 389-398
[2] Imtiaz, Syed A., Choudhury, M. A. A. Shoukat, and Shah, Sirish L., Building Multivariate
Models from Compressed Data, Ind. Eng. Chem. Res. 2007, 46, 481-491
[3] Singhal, Ashish e Seborg, Dale, Data Compression Issues with Pattern Matching in Historical
Data, Proceedings of the American Control Conference, Denver, Colorado June 4-6. 2003
[4] Lynch, Thomas, J., Data Compression Techniques and Applications, Van Nostrand Reinhold,
New York, 1985
[5] Edgar H. Bristol, Data Compression for Display and Storage, Patent number 4669097, May
21, 1987.
[6] Manish Misra and S. Joe Qin, On-Line Data Compression and Error AnalysisUsing Wavelet
Technology, AIChE Journal January 2000 Vol. 46, No. 1
[7] OSI Soft, PI Client – Fundamentals
[8] OSI Soft, Swinging Doors compression, April 1991 (rev Aug. 1999)
[9] Piero P. Bonissome, Goebel Kai, When will it break? A hybrid soft computing model to
Predict time-to-break margins in paper machines, Proc. Of SPIE 47th Annual meeting ,
International symposium on optical science and technology, vol 4787, pp53-64, 2002
[10] Ashish Singhal, Dale E. Seborg, Matching Patterns from Historical Data Using PCA and
Distance Similarity Factors, Proceedings of the American Control Conference, Arlington, VA
June 25-27, 2001
[11] Aspentech, Analysis of Data Storage Technologies for the Management of Real-Time Process
Manufacturing Data, www.aspentech.com/publication_files/White_Paper_for_IP_21.pdf

8
[12] Ivan da Costa Vieira, Thiago Henrique Tavares, Relatório de Projeto prático da disciplina
SDA, UFMG, Departamento de Eng. Eletrônica, Junho 2008
[13] James, Peter A., Data Compression for Process Historians, 1995, disponível em
www.castdiv.org/archive/data_compression.pdf, última consulta em 13 de julho de 2008
[14] M. A. A. S. Choudhury, S. L. Shah, N. F. Thornhill, Detection And Diagnosis Of System
Nonlinearities Using Higher Order Statistics, IFAC World Congress 2002, 21-26 July 2002,
Barcelona, Spain
[15] Singhal, Ashish; Seborg, Dale E. - Matching Patterns from Historical Data Using PCA and
Distance Similarity Factors, Proceedings of the American Control Conference, Arlington, VA
June 25-27, 2001

Você também pode gostar