Você está na página 1de 120

Universidade Federal de Goiás

Escola de Engenharia Elétrica, Mecânica e de Computação

Pedro Henrique da Silva Palhares

Rede Bayesiana para Estimação de Falhas


Incipientes em Transformadores de Potência
Utilizando Dados de Ensaios de Detecção de
Descargas Parciais por Emissão Acústica

Goiânia
3 de outubro de 2012
TERMO DE CIÊNCIA E DE AUTORIZAÇÃO PARA DISPONIBILIZAR AS TESES E
DISSERTAÇÕES ELETRÔNICAS (TEDE) NA BIBLIOTECA DIGITAL DA UFG

Na qualidade de titular dos direitos de autor, autorizo a Universidade Federal de Goiás (UFG) a
disponibilizar, gratuitamente, por meio da Biblioteca Digital de Teses e Dissertações (BDTD/UFG), sem
ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o documento conforme permissões
assinaladas abaixo, para fins de leitura, impressão e/ou download, a título de divulgação da produção
científica brasileira, a partir desta data.

1. Identificação do material bibliográfico: [ X ] Dissertação [ ] Tese

2. Identificação da Tese ou Dissertação


Autor (a): Pedro Henrique da Silva Palhares
E-mail: phpalhares@gmail.com
Seu e-mail pode ser disponibilizado na página? [ X ]Sim [ ] Não
Vínculo empregatício do autor
Agência de fomento: Sigla:
País: UF: CNPJ:
Título: Rede Bayesiana para Estimação de Falhas Incipientes em Transformadores de Potência
Utilizando Dados de Ensaio de Detecção de Descargas Parciais por Emissão Acústica

Palavras-chave: transformadores de potência, redes bayesianas, emissão acústica


Título em outra língua: Bayesian Networks for Estimation of Incipient Faults in Power Trans-
formers Using Data from Partial Discharge Detection by Acoustic
Emission Trials

Palavras-chave em outra língua: power transformers, bayesian networks, acoustic emission

Área de concentração: Engenharia de Computação


Data defesa: (dd/mm/aaaa) 16/08/2012
Programa de Pós-Graduação: Programa de Pós-Graduação em Engenharia Elétrica e de
Computação
Orientador (a): Leonardo da Cunha Brito
E-mail: brito@eeec.ufg.br
Co-orientador (a):*
E-mail:
*Necessita do CPF quando não constar no SisPG

3. Informações de acesso ao documento:

Concorda com a liberação total do documento [ X ] SIM [ ] NÃO1

Havendo concordância com a disponibilização eletrônica, torna-se imprescindível o envio do(s)


arquivo(s) em formato digital PDF ou DOC da tese ou dissertação.
O sistema da Biblioteca Digital de Teses e Dissertações garante aos autores, que os arquivos con-
tendo eletronicamente as teses e ou dissertações, antes de sua disponibilização, receberão procedimen-
tos de segurança, criptografia (para não permitir cópia e extração de conteúdo, permitindo apenas im-
pressão fraca) usando o padrão do Acrobat.

________________________________________ Data: _03_ / _10_ / 2012_


Assinatura do (a) autor (a)

1
Neste caso o documento será embargado por até um ano a partir da data de defesa. A extensão deste prazo suscita
justificativa junto à coordenação do curso. Os dados do documento não serão disponibilizados durante o período de
embargo.
Universidade Federal de Goiás
Escola de Engenharia Elétrica, Mecânica e de Computação

Pedro Henrique da Silva Palhares

Rede Bayesiana para Estimação de Falhas


Incipientes em Transformadores de Potência
Utilizando Dados de Ensaios de Detecção de
Descargas Parciais por Emissão Acústica

Dissertação apresentada à Escola de Enge-


nharia Elétrica, Mecânica e de Computação
da Universidade Federal de Goiás, como
parte dos requisitos para o obtenção do tí-
tulo de Mestre em Engenharia Elétrica e de
Computação.
Área de Concentração: Engenharia de
Computação
Linha de Pesquisa: Sistemas Inteligentes,
Planejamento e Computação Aplicada

Orientador:
Prof. Dr. Leonardo da Cunha Brito

Goiânia
3 de outubro de 2012
Dados Internacionais de Catalogação na Publicação (CIP)
GPT/BC/UFG

Palhares, Pedro Henrique da Silva.


P161r Rede Bayesiana para estimação de falhas incipientes em
transformadores de potência utilizando dados de ensaios de
detecção de descargas parciais por emissão acústica
[manuscrito] / Pedro Henrique da Silva Palhares. – 2012.
xv, 118 f. : il., figs, tabs.

Orientador: Prof. Dr. Leonardo da Cunha Brito.


Dissertação (Mestrado) – Universidade Federal de Goiás,
Escola de Engenharia Elétrica, Mecânica e de Computação,
2012.
Bibliografia.
Inclui lista de figuras, abreviaturas, siglas e tabelas.
Apêndices.

1.
Dedico esta dissertação a Deus, por estar
sempre comigo e me levantar a cada tropeço,
à minha noiva, pelo amor e paciência demonstrados nos
momentos mais difíceis, e a minha mãe, que me deu a
instrução necessária para que eu pudesse caminhar até aqui.
Agradecimentos

Dedico meus sinceros agradecimentos:

– à minha noiva, Simone Nascimento Araújo, cujo suporte emocional e revisão do


texto foram imprescindíveis para a finalização deste trabalho;

– ao meu sogro, Barnabé de Souza Araújo, pela colaboração na revisão do texto;

– ao professor doutor Leonardo da Cunha Brito, orientador, cujo constante apoio,


incentivo, conhecimento, desafios propostos e amizade formada durante o período,
forneceram motivação extra ao longo desta caminhada;

– à professora doutora Cacilda de Jesus Ribeiro e aos colaboradores da CELG D,


M.Eng. André Pereira Marques e M.Eng. Cláudio Henrique B. Azevedo, pelo forneci-
mento de dados e auxílio em diversos momentos de dúvidas;

– à Capes, pelo suporte financeiro.


"Aprender é a única coisa de que
a mente nunca se cansa,
nunca tem medo e nunca se arrepende."
(Leonardo da Vinci)
Resumo

É apresentada nesta dissertação uma metodologia para estimação de falhas incipi-


entes em transformadores de potência, com base em resultados de ensaios de detec-
ção de descargas parciais pelo método de emissão acústica, propiciando às equipes de
engenharia de manutenção uma importante ferramenta de avaliação do estado des-
tes equipamentos sob a ótica desta emergente técnica preditiva. Para esse objetivo, é
proposta uma abordagem utilizando uma Rede Bayesiana associada ao algoritmo Hill-
Climbing para a discretização dos parâmetros da rede. O discretizador trabalha faixas
ajustáveis de intervalos contínuos, associados a valores discretos.
Os resultados mostram que o método é eficaz, apresentando empiricamente uma
precisão de classificação de 89%, enquanto que uma abordagem alternativa, na qual
uma Rede Neural Perceptron de Múltiplas Camadas foi aplicada ao mesmo problema,
ofereceu uma precisão de 83%. A abordagem através da Rede Bayesiana associada a
um discretizador foi planejada de forma a ser adaptável para resolução de problemas
semelhantes, onde têm-se valores contínuos e deseja-se encontrar uma classificação
discreta. O discretizador apresenta a vantagem de otimizar as faixas de valores contí-
nuos e, desta forma, melhorar a classificação.
Abstract

It is presented on this dissertation a methodology for estimating incipient faults


in power transformers, based on tests results for detecting partial discharges by the
acoustic emission method, providing to the maintenance engineering teams an impor-
tant tool for evaluating the state of the equipment from the perspective of this emer-
ging predictive technique. For this purpose, an approach using a Bayesian network
associated with the Hill Climbing algorithm for discretization of network parameters
is proposed. The discretization tool works with adjustable continuous boundaries, as-
sociated with discrete values.
The results show that the method is effective, empirically presenting a classification
accuracy of 89%, while an alternative approach, in which a Multiple Layer Perceptron
Neural Network was applied to the same problem, provided a precision of 83%. The
approach using the Bayesian Network associated with a discretization tool was plan-
ned in order to be adaptable to solve similar problems, which have continuous values
and wishes to find a discrete classification. The discretization tool has the advantage
of optimizing the continuous range of values and, thereby, improve the classification.
Lista de Figuras

1 Transformador Monofásico de Núcleo Envolvido . . . . . . . . . . . . . p. 25

2 Transformador Monofásico de Núcleo Envolvente . . . . . . . . . . . . p. 26

3 Transformador de Potência na subestação Goiânia Leste da Celg . . . . p. 27

4 Sensor utilizado para monitorar o transformador . . . . . . . . . . . . . p. 30

5 Equipamentos de aquisição de dados dos sensores . . . . . . . . . . . . p. 31

6 Tenda que abriga os computadores responsáveis pela coleta de dados . p. 32

7 Forma idealizada do sinal acústico . . . . . . . . . . . . . . . . . . . . . p. 33

8 Distribuição Gaussiana: (a) função de distribuição de probabilidade e


(b) função de densidade de probabilidade . . . . . . . . . . . . . . . . . p. 39

9 Exemplo de Rede Bayesiana com 4 parâmetros . . . . . . . . . . . . . . p. 41

10 Aprendizagem de Parâmetros: (a) Estrutura e (b) base de dados com-


pletos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47

11 Rede Bayesiana do exemplo 3 . . . . . . . . . . . . . . . . . . . . . . . . p. 49

12 Passo E do método EM de aprendizado de parâmetros . . . . . . . . . p. 50

13 Exemplo de maximização: (a) fator a ser maximizado (b) fator maxi-


mizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55

14 Exemplo de uma rede bayesiana dinâmica . . . . . . . . . . . . . . . . . p. 63

15 Estrutura da RB ingênua utilizada no gerador de casos . . . . . . . . . p. 71

16 Desempenho mínimo, médio e máximo dos otimizadores: (a) pontu-


ação rígida e (b) pontuação suave . . . . . . . . . . . . . . . . . . . . . . p. 75

17 Tela de login do sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 93

18 Tela inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 93

19 Tela de consulta de papéis . . . . . . . . . . . . . . . . . . . . . . . . . . p. 94


27 Tela de consulta de ensaio . . . . . . . . . . . . . . . . . . . . . . . . . . p. 95

28 Tela de cadastro de ensaio . . . . . . . . . . . . . . . . . . . . . . . . . . p. 96

29 Tela de upload de arquivos relacionados à AGD . . . . . . . . . . . . . . p. 97

31 Seleção de ensaio para carregamento de arquivos ASCII . . . . . . . . . p. 98

32 Preenchimento dos canais do transformador . . . . . . . . . . . . . . . p. 98

33 Carregamento de arquivos ASCII . . . . . . . . . . . . . . . . . . . . . . p. 99

34 Tela de consulta de tarefas . . . . . . . . . . . . . . . . . . . . . . . . . . p. 99

35 Gráfico Energia x Tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 100

36 Ensaio com indicação de DPs nos canais 6 e 12 . . . . . . . . . . . . . . p. 101

37 Ensaio sem indicação de DPs . . . . . . . . . . . . . . . . . . . . . . . . p. 102

38 Gráfico da figura 38 plotado sem a correção dos valores de acordo com


a fase do hit. Observa-se atividade em torno dos 180◦ para os canais
com indicação de DPs; . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 102

39 Gráfico de Distribuição de Hits (Dispersão) com indicação de DPs . . . p. 103

40 Gráfico de Distribuição de Hits (Dispersão) sem indicação de DPs . . . p. 103

41 Gráfico da figura 47 plotado sem a correção dos valores de acordo com


a fase do hit. Observa-se atividade em torno dos 180◦ . . . . . . . . . . . p. 103

42 Gráfico Ângulo x Tempo com indicação de DPs . . . . . . . . . . . . . . p. 104

43 Gráfico Ângulo x Tempo sem indicação de DPs . . . . . . . . . . . . . . p. 104

44 Gráfico de Amplitude x Fase com indicação de DPs . . . . . . . . . . . p. 105

45 Gráfico de Amplitude x Fase sem indicação de DPs . . . . . . . . . . . p. 105

46 Tela de configuração do sistema . . . . . . . . . . . . . . . . . . . . . . . p. 106

47 Tela de treinamento da RB . . . . . . . . . . . . . . . . . . . . . . . . . . p. 108

48 Resultado do classificador . . . . . . . . . . . . . . . . . . . . . . . . . . p. 110

20 Tela de cadastro de papéis . . . . . . . . . . . . . . . . . . . . . . . . . . p. 112

21 Tela de consulta de usuários . . . . . . . . . . . . . . . . . . . . . . . . . p. 112

22 Tela de cadastro de usuários . . . . . . . . . . . . . . . . . . . . . . . . . p. 113


23 Tela de consulta de fabricantes . . . . . . . . . . . . . . . . . . . . . . . p. 113

24 Tela de cadastro de fabricantes . . . . . . . . . . . . . . . . . . . . . . . p. 114

25 Tela de consulta de transformadores . . . . . . . . . . . . . . . . . . . . p. 115

26 Tela de cadastro de transformadores . . . . . . . . . . . . . . . . . . . . p. 115

30 Tela de upload de arquivos relacionados à EA . . . . . . . . . . . . . . . p. 116


Lista de Tabelas

1 Gases emitidos devido a defeitos . . . . . . . . . . . . . . . . . . . . . . p. 29

2 Dados coletados por meio dos sensores . . . . . . . . . . . . . . . . . . p. 32

3 Base de dados completa . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 41

4 Base de dados incompleta . . . . . . . . . . . . . . . . . . . . . . . . . . p. 42

5 Tabela de Probabilidade Condicional P( B| A) . . . . . . . . . . . . . . . p. 47

6 Tabela com dados incompletos para o exemplo 3 . . . . . . . . . . . . . p. 49

7 Fator f . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 52

8 Fator (∑C f ) ( B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53

9 Fator f 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 58

10 Fator f 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 59

11 Fator f 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 59

12 Fator f 1e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 59

13 Fator f 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 60

14 Nós da Rede Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 65

15 Valores possíveis para classificação . . . . . . . . . . . . . . . . . . . . . p. 66

16 Intervalos de valores de energia . . . . . . . . . . . . . . . . . . . . . . . p. 71

17 Intervalos de Valores de Quantidade de DPs e ruído . . . . . . . . . . . p. 71

18 Valores discretos para valores de energia . . . . . . . . . . . . . . . . . p. 72

19 Valores discretos para valores de DPs e ruído . . . . . . . . . . . . . . . p. 73

20 Faixas de energia ao longo das iterações (suave) . . . . . . . . . . . . . p. 73

21 Faixas das quantidades de DPs e ruído ao longo das iterações (suave) . p. 73

22 Faixas de energia ao longo das iterações (rígida) . . . . . . . . . . . . . p. 73


23 Faixas das quantidades de DPs e ruído ao longo das iterações (rígida) . p. 74

24 Taxa de acerto da Rede Bayesiana . . . . . . . . . . . . . . . . . . . . . . p. 74

25 Saída da RN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 76

26 Transformador 1 da subestação A . . . . . . . . . . . . . . . . . . . . . . p. 85

27 Transformador 2 da subestação A . . . . . . . . . . . . . . . . . . . . . . p. 86

28 Transformador 1 da subestação B . . . . . . . . . . . . . . . . . . . . . . p. 86

29 Transformador 2 da subestação B . . . . . . . . . . . . . . . . . . . . . . p. 87

30 Transformador 1 da subestação C . . . . . . . . . . . . . . . . . . . . . . p. 87

31 Transformador 2 da subestação C . . . . . . . . . . . . . . . . . . . . . . p. 88

32 Transformador 1 da subestação D . . . . . . . . . . . . . . . . . . . . . . p. 88

33 Transformador 2 da subestação D . . . . . . . . . . . . . . . . . . . . . . p. 89

34 Transformador 1 da subestação E . . . . . . . . . . . . . . . . . . . . . . p. 89

35 Transformador 2 da subestação E . . . . . . . . . . . . . . . . . . . . . . p. 90

36 Transformador 1 da subestação F . . . . . . . . . . . . . . . . . . . . . . p. 90

37 Transformador 2 da subestação F . . . . . . . . . . . . . . . . . . . . . . p. 91
Lista de abreviaturas e siglas

AGD Análise de Gases Dissolvidos


BIC Bayesian Information Criterion
DP Descarga Parcial
EM Expectation Maximization
MAP Maximum a Posterior Hypothesis
MLE Maximum Likelihood Estimation
MLP Multilayer Perceptron
MPE Most Probable Explanation
RB Rede Bayesiana
RBD Rede Bayesiana Dinâmica
RN Rede Neural
SEM Structural Expectation Maximization
SGBD Sistema Gerenciador de Banco de Dados
TDC Tabela de Distribuição Conjunta
TPC Tabela de Probabilidade Condicional
Lista de símbolos

π ( ui ) Conjunto de pais do nó ui .
θ Parâmetro de uma Rede Bayesiana.
θmax Estimativa da Máxima Verossimilhança
Amax Valor máximo de DPs e ruído.
D Base de Dados utilizados para treinamento.
Emax Valor máximo de energia.
f ( x) Fator sobre variáveis x
g(i, π (ui )) Pontuação K2 relativa a π (ui ).
M Rede Bayesiana com estrutura S e parâmetro θ
N (X) Quantidade de casos em que a X ocorre.
Ni jk Número de casos na base de treinamento em que a variável
ui é instanciada com o valor vik .
qi Quantidade de instanciações possíveis de π (ui ).
r ui Quantidade de valores possíveis discretos de ui .
S Estrutura de uma Rede Bayesiana.
ui Nó de uma Rede Bayesiana.
vik Valor de uma instância de ui .
var( f ) Variáveis de f
Sumário

1 Introdução p. 20

1.1 Trabalhos Correlatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21

1.2 Organização do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22

2 Transformadores p. 24

2.1 Funcionamento do Transformador Ideal . . . . . . . . . . . . . . . . . . p. 24

2.2 Princípios Construtivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 25

2.2.1 Núcleos Envolvidos e Núcleos Envolventes . . . . . . . . . . . . p. 26

2.2.2 Resfriamento de Transformadores . . . . . . . . . . . . . . . . . p. 26

2.3 Transformadores de Potência . . . . . . . . . . . . . . . . . . . . . . . . p. 27

2.4 Falhas e Defeitos em Transformadores de Potência . . . . . . . . . . . . p. 28

2.5 Manutenção e Técnicas Preditivas . . . . . . . . . . . . . . . . . . . . . p. 28

2.5.1 Análise de Gases Dissolvidos . . . . . . . . . . . . . . . . . . . . p. 29

2.5.2 Emissão Acústica . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 30

3 Fundamentos de Probabilidade p. 34

3.1 Cálculo Probabilístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 34

3.1.1 Axiomas da Probabilidade . . . . . . . . . . . . . . . . . . . . . p. 34

3.1.2 Atribuição de Probabilidade e Probabilidade a Priori . . . . . . p. 35

3.1.3 Probabilidade a Posteriori . . . . . . . . . . . . . . . . . . . . . . p. 35

3.1.4 O Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . p. 36

3.1.5 Função de Distribuição de Probabilidade . . . . . . . . . . . . . p. 38


3.1.6 Função de Densidade de Probabilidade . . . . . . . . . . . . . . p. 38

3.1.7 Distribuição Gaussiana . . . . . . . . . . . . . . . . . . . . . . . p. 38

4 Rede Bayesiana p. 40

4.1 Aprendizado com Dados Completos . . . . . . . . . . . . . . . . . . . . p. 42

4.1.1 Algoritmo K2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 43

4.1.2 Aprendizagem Hill-Climbing . . . . . . . . . . . . . . . . . . . . p. 44

4.1.3 Aprendizado de Parâmetros através da Estimativa da Máxima


Verossimilhança (MLE). . . . . . . . . . . . . . . . . . . . . . . . p. 46

4.2 Aprendizado com Dados Incompletos . . . . . . . . . . . . . . . . . . . p. 48

4.2.1 Aprendizado de Parâmetros com o EM Paramétrico . . . . . . . p. 48

4.2.2 Aprendizado de Estrutura com o EM Estrutural . . . . . . . . . p. 50

4.3 Inferência em Redes Bayesianas pelo método da Eliminação de Variáveis p. 51

4.3.1 Fatores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 51

4.3.1.1 Eliminação de Variáveis . . . . . . . . . . . . . . . . . . p. 52

4.3.1.2 Operação de Multiplicação . . . . . . . . . . . . . . . . p. 53

4.3.1.3 Operação de Maximização . . . . . . . . . . . . . . . . p. 54

4.3.1.4 Ordem das Variáveis . . . . . . . . . . . . . . . . . . . p. 55

4.3.2 Otimizando a Estrutura da Rede . . . . . . . . . . . . . . . . . . p. 56

4.3.2.1 Podas de Nós . . . . . . . . . . . . . . . . . . . . . . . . p. 56

4.3.2.2 Podas de Arestas . . . . . . . . . . . . . . . . . . . . . . p. 57

4.3.3 Respondendo Consultas a Priori . . . . . . . . . . . . . . . . . . p. 58

4.3.4 Respondendo Consultas a Posteriori . . . . . . . . . . . . . . . . p. 59

4.3.5 Most Probable Explanation (Explicação Mais Provável) . . . . . . p. 61

4.3.6 Maximum a Posteriori Hypothesis (Hipótese Máxima a Posteriori) p. 61

4.4 Redes Bayesianas Variantes no Tempo . . . . . . . . . . . . . . . . . . . p. 62

5 Metodologia Proposta p. 64
5.1 Construção da Rede Bayesiana . . . . . . . . . . . . . . . . . . . . . . . p. 64

5.1.1 Escolha dos Nós . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 64

5.1.2 Estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 66

5.1.3 Aprendizagem de Paramêtros . . . . . . . . . . . . . . . . . . . p. 67

5.1.4 Discretização dos Parâmetros da Rede Bayesiana . . . . . . . . p. 67

5.2 Geração de Casos de Treinamento e Validação . . . . . . . . . . . . . . p. 69

5.3 Estimação de Falhas Incipientes em Transformadores de Potência . . . p. 70

6 Resultados e Discussão p. 72

6.1 Comparação com Rede Neural . . . . . . . . . . . . . . . . . . . . . . . p. 76

6.2 Considerações sobre os Resultados . . . . . . . . . . . . . . . . . . . . . p. 77

7 Conclusão p. 79

7.1 Perspectivas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 80

Publicações p. 81

Referências Bibliográficas p. 82

Apêndice A -- Tabelas com Dados dos Ensaios de Emissão Acústica p. 85

Apêndice B -- Sistema DPTrafo p. 92

B.1 Tela de Login . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 92

B.2 Tela Inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 92

B.3 Tela de Papéis (Permissões ao usuário) . . . . . . . . . . . . . . . . . . . p. 93

B.4 Cadastro de Usuários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 94

B.5 Cadastro de Fabricantes e Projetos . . . . . . . . . . . . . . . . . . . . . p. 94

B.6 Cadastro de Transformadores . . . . . . . . . . . . . . . . . . . . . . . . p. 94

B.7 Cadastro de Ensaios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 95


B.8 Carregamento de arquivos de ensaios AGD . . . . . . . . . . . . . . . . p. 96

B.9 Carregamento de arquivos de ensaios de EA . . . . . . . . . . . . . . . p. 97

B.10 Arquivo Ascii gerado pelo AEWIN . . . . . . . . . . . . . . . . . . . . . p. 97

B.11 Tela de consulta de tarefas (linhas de execução ou threads) . . . . . . . . p. 99

B.12 Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 99

B.12.1 Gráfico de Energia x Tempo . . . . . . . . . . . . . . . . . . . . . p. 100

B.12.2 Gráfico polar de distribuição de hits . . . . . . . . . . . . . . . . p. 101

B.12.3 Gráfico de dispersão de distribuição de hits . . . . . . . . . . . . p. 103

B.12.4 Gráfico Ângulo x Tempo . . . . . . . . . . . . . . . . . . . . . . . p. 104

B.12.5 Gráfico Amplitude x Fase . . . . . . . . . . . . . . . . . . . . . . p. 104

B.13 Configurador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 105

B.13.1 Estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 106

B.13.2 Tipo de Classificador . . . . . . . . . . . . . . . . . . . . . . . . . p. 106

B.13.2.1 Pior Caso . . . . . . . . . . . . . . . . . . . . . . . . . . p. 106

B.13.2.2 Canal a Canal . . . . . . . . . . . . . . . . . . . . . . . p. 107

B.13.3 Otimizador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 107

B.13.4 Quantidade de Hits com 180◦ para considerar DP . . . . . . . . p. 107

B.14 Treinamento da Rede Bayesiana . . . . . . . . . . . . . . . . . . . . . . . p. 108

B.15 Classificador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 109

B.16 Relatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 110

Anexo A -- Relatório Geral p. 117

Anexo B -- Relatório Específico p. 118


20

1 Introdução

A energia elétrica é uma das formas de energia mais utilizadas pelo homem. É
possível afirmar que, na sociedade moderna, é virtualmente impossível separar a vida
humana da eletricidade. Esta forma de energia possibilita o funcionamento de inúme-
ros dispositivos, como computadores, aparelhos médicos e telefones.

Para que a energia elétrica produzida nas usinas chegue ao consumidor final com o
mínimo de perda possível, seja em residências ou indústrias, a alta tensão é empregada
através da utilização de transformadores de potência. Os transformadores de potência
são responsáveis pela elevação da tensão e diminuição da corrente, reduzindo as per-
das por efeito Joule nas linhas de transmissão. Ao alcançar o destino, a utilização da
energia elétrica em alta tensão torna-se inviável e perigosa. É necessária então a utiliza-
ção de transformadores, presentes em subestações, que diminuem consideravelmente
a tensão. Ainda assim a tensão distribuída pelas subestações não é suficientemente
baixa para o consumo nas residências, que utilizam transformadores menores e mais
baratos para tornar a tensão apropriada para o consumo residencial.

De fundamental importância para a transmissão e para a distribuição de energia


elétrica, os transformadores de potência são equipamentos de custo elevado. Durante
sua operação, podem surgir defeitos em sua isolação, provocando uma diminuição de
sua capacidade dielétrica (1). Segundo a referência (2), a diminuição desta capacidade
pode provocar o surgimento de descargas parciais (DPs) dentro do transformador de
forma inesperada e de difícil detecção. Detectar defeitos incipientes de funcionamento
nesses transformadores é de interesse econômico e operacional, uma vez que permite
intervenções preventivas que evitem danos graves ao equipamento o que, por con-
sequência, garante maior continuidade e eleva a confiabilidade do fornecimento de
energia elétrica aos - cada vez mais exigentes - consumidores.

Atualmente, têm-se utilizado vários métodos de detecção de descargas parciais


como o elétrico, o químico (análise de gases dissolvidos ou AGD) e o acústico. Neste
trabalho, destaca-se o método de detecção por emissão acústica que apresenta a van-
21

tagem de localização da descarga dentro do equipamento sem que haja a necessidade


de se retirá-lo de operação (2), evitando-se descontinuidade no fornecimento da ener-
gia elétrica. A aplicação de métodos de inteligência artificial nos permitem analisar os
dados colhidos e então classificar o transformador de acordo com a possibilidade de
falha do equipamento.

Na seção 1.1 são apresentados algumas abordagens para classificação de transfor-


madores de potência. Nestes trabalhos, apresentam-se métodos computacionais diri-
gidos à identificação dos possíveis defeitos no interior dos transformadores, aplicando
métodos de Inteligência Artificial. Diferentemente dos trabalhos referenciados, este
propõe fornecer, ao engenheiro de manutenção, uma metodologia capaz de auxiliá-lo
na tomada de decisões quanto à manutenção preventiva dos transformadores, indi-
cando provável severidade de degradação da isolação do mesmo e, consequentemente,
sugerindo uma ação preventiva. Neste caso, a tomada de decisão subjetiva, caracte-
rizada como um processo de inferência probabilística, é realizada por meio de uma
Rede de Crença Bayesiana, a qual apresenta as seguintes vantagens qualitativas frente
à abordagem por RN:

1. uma RN tem uma representação limitada, mapeando entrada-saída unidireci-


onalmente na forma de uma "caixa-preta", impossibilitando a identificação de
correlações entre as variáveis do problema de decisão;

2. uma RB permite constatar essas correlações diretamente, além de explicitamente


trabalhar com probabilidades (graus de crença) reais.

A desvantagem clara de uma RB em relação à RN é a sua dificuldade em traba-


lhar com valores contínuos. Neste trabalho também é apresentado um algoritmo para
discretização de valores contínuos para alimentação da RB.

Investiga-se também o desempenho quantitativo da RB frente a uma RN.

1.1 Trabalhos Correlatos

Vários trabalhos na literatura abordam o problema de estimação de falhas em


transformadores de potência. Dentre eles, destacam-se aqueles que tomam os resul-
tados obtidos pela técnica AGD, conforme as referências (3), (4), (5) e (6).

Em (3) é apresentada uma metodologia baseada em Redes Bayesianas utilizando


22

dados de ensaios AGD. Utiliza-se uma tabela de valores fixos para conversão entre
valores contínuos e discretos da Rede Bayesiana, indicando falhas térmicas e descargas
parciais.

Também utilizando a análise de gases dissolvidos, a referência (4) apresenta uma


abordagem baseada em uma Rede Imunológica Artificial, utilizando 720 casos de trans-
formadores defeituosos e, assim como o trabalho (3), indicando possíveis falhas térmi-
cas e descargas parciais.

O trabalho (5) apresenta uma metodologia baseada em um otimizador por enxame


de partículas (PSO) associado a uma Rede Neural de múltiplas camadas. Possui a
vantagem de indicar o elemento causador da descarga parcial.

O artigo (6) apresenta abordagem semelhante ao artigo (3), utilizando uma Rede
Neural para a classificação.

1.2 Organização do Texto

No segundo capítulo é introduzido o conceito de transformador, assim como con-


ceitos de defeito, descarga parcial, falha e falha incipiente.

No terceito capítulo são apresentados conceitos de teoria de probabilidade neces-


sários para entendimento do funcionamento das Redes Bayesianas. Inclui axiomas
da probabilidade, probabilidades a priori e a posteriori, conceito do Teorema de Bayes,
função de distribuição de probabilidade, função de densidade de probabilidade e dis-
tribuição gaussiana.

No quarto capítulo é descrita a teoria de Rede Bayesiana necessária para enten-


dindo da metodologia proposta. É descrito, inicialmente, o conceito de Rede Baye-
siana, seguido pelos processos de aprendizagem de estrutura da rede, aprendizagem
dos parâmetros e inferência. Para aprendizagem de estrutura, são descritos dois algo-
ritmos, o K2 e o Hill-Climbing. Para aprendizagem de parâmetros, o método do MLE.
Por fim, é apresentado um método para inferência em Redes Bayesianas. Neste ca-
pítulo também são descritos algoritmos para aprendizagem com dados incompletos,
porém sem muita ênfase, visto que não é utilizado na metodologia proposta.

No quinto capítulo é proposta a metodologia para estimação de falhas incipientes


em transformadores de potência. Neste capítulo é tratada a escolha dos nós e apren-
dizagem de uma RB capaz de classificar os equipamentos. Posteriormente é descrito
23

um algoritmo para discretização dos nós contínuos da RB. Em seguida, é mostrado


um algoritmo para geração de casos de treinamento e validação da RB e, por fim, a
metodologia para classificação dos transformadores de potência.

No capítulo seis são expostos os resultados da aplicação da metodologia e discute-


se a eficácia da mesma. É feita uma comparação a uma Rede Neural de Múltiplas
Camadas (MLP) também.

Finalmente, no sétimo capítulo, são apresentadas as conclusões do trabalho reali-


zado, destacando-se as perspectivas futuras.
24

2 Transformadores

Exigências de cunho técnico e econômico resultam na necessidade construção de


usinas elétricas, que, no Brasil, é, em sua maioria, suprida por usinas hidrelétricas.
Tais usinas utilizam o potencial energético armazenado em rios e lagos localizados em
lugares de altitude elevada. A energia hidráulica, dentro de uma usina, é convertida
em energia elétrica.

Devido à localização restrita das usinas, torna-se necessária o transporte da ener-


gia elétrica à longas distâncias. As seções dos condutores são limitadas por restrições
construtivas e econômicas, o que torna limitada a intensidade de corrente nas mes-
mas (7). Torna-se necessário a utilização de tensões elevadas, que em determinadas
circunstâncias, atingem centenas de milhares de volts.

Os equipamentos que elevam e reduzem a tensão são chamados de transformado-


res. A seguir, é apresentada uma introdução sobre o funcionamento básico de transfor-
madores monofásicos ideais, seus aspectos construtivos e metodologias para detecção
de falhas através de descargas parciais.

2.1 Funcionamento do Transformador Ideal

Os transformadores operam através do princípio da indução magnética, consis-


tindo de dois ou mais enrolamentos sobre um núcleo magnético de pequena relutân-
cia (7), ilustrada pela Figura 1.
25

Figura 1: Transformador Monofásico de Núcleo Envolvido

Aplica-se a tensão alternada V1 nos terminais de entrada (enrolamento primário),


que produzirá um fluxo alternado cuja amplitude dependerá da tensão V1 , da frequên-
cia e do número de espiras N1 (8). O fluxo magnético induz uma tensão V2 no outro
enrolamento (secundário), cujo valor depende do número de espiras N2 , da magnitude
do fluxo e da frequência. O enrolamento com maior quantidade de espiras é chamado
de enrolamento de alta tensão e o de menor espiras, enrolamento de baixa tensão. Sa-
bendo que a transformação de tensão é reversível (7), o transformador atuará como
elevador de tensão quando a tensão for aplicada no enrolamento de baixa tensão e atu-
ará como redutor, quando for aplicada no enrolamento de alta tensão. A relação entre
V1 e V2 em um núcleo a vazio (sem carga) é (7):

V1 N
= 1 (2.1)
V2 N2

2.2 Princípios Construtivos

A seguir serão introduzidos alguns conceitos sobre a construção de transformado-


res.
26

2.2.1 Núcleos Envolvidos e Núcleos Envolventes

Segundo a referência (7), existem dois tipos de circuitos magnéticos: com núcleo
envolvido e com núcleo envolvente. O primeiro é mostrado na Figura 1, em que os
enrolamentos não são envolvidos pelo circuito magnético. O segundo é representado
pela Figura 2, em que o circuito magnético envolve os enrolamentos.

Figura 2: Transformador Monofásico de Núcleo Envolvente

2.2.2 Resfriamento de Transformadores

Durante sua operação, os transformadores perdem energia em forma de calor. A


imobilidade torna difícil a dispersão do calor, aumentando a necessidade de um meca-
nismo de resfriamento. Um meio conveniente de resfriar o núcleo é através da utiliza-
ção de um líquido refrigerante, sendo mais eficaz do que o ar, onde o transformador é
imergido em um recipiente com líquido. O refrigerante mais utilizado atualmente é o
óleo mineral, que, além de ter uma capacidade térmica superior ao ar, possui uma ri-
gidez elétrica superior, permitindo redução considerável do volume do transformador
(exige uma superfície de resfriamento menor). Para que sua utilização seja efetiva, é
necessário que se tenha ausência de umidade e que o mesmo esteja em contato direto
com o núcleo.
27

2.3 Transformadores de Potência

Os transformadores de potência (Figura 3) são equipamentos associados à trans-


ferência de energia entre um circuito e outro, normalmente localizados em grandes
distâncias. Sua função é diminuir as perdas nos condutores, alterando os valores de
corrente e tensão, fixando a frequência.

Figura 3: Transformador de Potência na subestação Goiânia Leste da Celg

As principais partes que compõem um transformador de potência, segundo (9),


são:

a) Parte ativa composta por enrolamento e núcleo;

b) Buchas;

c) Comutador;

d) Sistema de refrigeração;

e) Sistema de proteção e controle;

f) Tanque e acessórios;
28

g) Sistema isolante (óleo).

2.4 Falhas e Defeitos em Transformadores de Potência

Em conformidade com a referência (9), esta dissertação utilizará os seguintes con-


ceitos de falha e defeitos em transformadores:

1. Defeito é o estado do transformador que o leva a falhar a médio ou a curto prazo.


Assim, é dito que um transformador possui defeito(s) quando surge a neces-
sidade de remoção do mesmo para manutenção a fim de evitar uma falha no
mesmo. Alguns defeitos são:

(a) Descargas elétricas incipientes;

(b) Aquecimento acima do normal;

(c) Gotejamento do líquido isolante.

2. A falha ocorre quando o funcionamento do equipamento é interrompido devido


a alguma anomalia, tendo como motivo fenômenos elétricos e mecânicos como
o rompimento da rigidez dielétrica do sistema isolante. A falha incipiente usu-
almente se desenvolve lentamente, não estando sempre presente, e na forma de
uma deterioração gradual do sistema isolante (10). Quando a condição do equi-
pamento se degrada decorrente de efeitos elétricos, térmicos ou químicos, falhas
incipientes começam a persistir no sistema. Se não detectadas, podem levar a
uma falha catastrófica (10), causando interrupção do serviço, que só poderá ser
restaurado caso a falha seja reparada. Caso a falha incipiente seja detectada an-
tes da ocorrência de um dano maior, os reparos podem, geralmente, ser feitos de
forma mais rápida e o serviço pode ser restaurado sem demora.

2.5 Manutenção e Técnicas Preditivas

Existem dois tipos de manutenção a serem observados em transformadores de po-


tência: corretiva e preventiva. A corretiva visa eliminar falhas e defeitos no transfor-
mador. Pode acontecer de forma programada, em um ambiente controlado, ou em
situações de emergência, em que uma falha ocorre ou está na eminência de ocorrer.
A preventiva por sua vez trata de reduzir ou evitar defeitos e desgastes naturais do
29

aparelho. É este tipo de manutenção a desejada, uma vez que é mais barata e prolonga
a vida útil do equipamento.

Segundo a referência (6), as manutenções preventivas em transformadores de po-


tência consistiam em inspeções de rotina com intervalos de tempo sugeridas pelo fa-
bricante ou pela experiência da prática. Esta medida, apesar de evitar muitas falhas,
provoca a interrupção desnecessária do equipamento. Neste contexto, com consumi-
dores cada vez mais exigentes e subestações cada vez mais complexas, surgiram técni-
cas que tentam antecipar a ocorrência de defeitos e falhas, indicando ao engenheiro de
manutenção a necessidade da intervenção.

A seguir, são apresentadas duas técnicas preditivas utilizadas em transformado-


res de potência. Ambas detectam descargas parciais que, conforme (11), tratam-se de
descargas elétrica localizadas, cujo caminho percorrido não une duas superfícies con-
dutoras submetidas a uma diferença de potencial. A detecção de descargas parciais é
muito importante como técnica preditiva, ou seja, na antecipação da ocorrência (seja
defeito ou falha incipiente), devido a indicação de que algum processo químico, mecâ-
nico ou térmico possa ter causado defeitos na isolação do equipamento (12).

2.5.1 Análise de Gases Dissolvidos

Em condições naturais, a degradação e decomposição do óleo e papel presentes


no núcleo do transformador geram uma pequena quantidade de gases que se dissol-
vem no óleo (13). A alteração desta taxa de gases dissolvidos é frequentemente uma
indicação do mau funcionamento do equipamento (6).

A cromatografia é uma técnica de separação e análise de misturas de compostos


voláteis (14). Alguns gases predominantes estão associados a ocorrência de defeitos e
falhas no transformador (15):

Gás Chave Característica do Defeito


Hidrogênio H2 Descarga Parcial
Etano C2 H6 Falha Térmica < 300 ◦ C
Etileno C2 H4 300 C ≤ Falha Térmica < 700 ◦ C

Acetileno C2 H2 e Etileno C2 H4 Falha Térmica ≥ 700 ◦ C


Acetileno C2 H2 e Hidrogênio H2 Descarga de Energia

Tabela 1: Gases emitidos devido a defeitos


30

2.5.2 Emissão Acústica

Devido à grande dificuldade e custo da interrupção do funcionamento dos trans-


formadores, tornou-se necessário o desenvolvimento de um método que fosse capaz
de detectar descargas parciais (DPs) sem que houvesse o desligamento dos transforma-
dores. O método da AGD, discutido na subseçao 2.5.1, permite que isso seja alcançado,
porém não permite a localização de onde a falha incipiente está ocorrendo. Para agra-
var a situação, segundo (12), o método de análise de gases dissolvidos é pouco sensível
para a detecção de descargas parciais. Tais fatos aumentaram a necessidade de desen-
volvimento de um método que fosse capaz de indicar a possível localização da falha
incipiente, com um maior grau de sensibilidade.

Surgiu então o método da Emissão Acústica (EA), não invasivo, no qual são utiliza-
dos sensores acústicos (Figura 4) posicionados estrategicamente na superfície externa
do transformador (levando em consideração, entre outros fatores, o projeto do trans-
formador), com o intuito de monitorar todo o interior do equipamento.

Figura 4: Sensor utilizado para monitorar o transformador

Cada DP age como uma fonte de ondas acústicas, as quais propagam no interior
do transformador, através do óleo, e podem ser detectadas nas paredes exteriores do
tanque do equipamento (2). Como são utilizados diversos sensores (neste trabalho
31

foram utilizados quatorze para cada transformador monitorado), é possível realizar a


triangulação dos sinais de forma a localizar a fonte de emissões.

Para capturar os dados coletados pelos sensores é necessário a utilização de um


microcomputador posicionado próximo ao transformador, pois os sensores se comu-
nicam com o computador através de cabos. Os computadores são abrigados por uma
tenda, para que estejam protegidos caso chova. A Figura 5 mostra o arranjo utilizado
para aquisição dos dados oriundos dos sensores e a Figura 6, a localização da tenda
em relação ao transformador.

Figura 5: Equipamentos de aquisição de dados dos sensores

Os parâmetros mais importantes coletados pelo instrumento de ensaio que regis-


tra os sinais acústicos gerados por DPs (captados pelos sensores) são apresentados na
tabela 2, com ilustração na Figura 7. Todos eles são medidos com referência ao limiar
de recepção dos sensores.

De posse desses dados, é necessário estabelecer uma maneira de diferenciar os ruí-


dos emitidos pela operação do transformador e as DPs. As descargas mais intensas
ocorrem nos picos e vales de tensão, ou seja, a 90◦ e a 270◦ da tensão senoidal (inici-
ada em zero) de fornecimento de energia elétrica, respectivamente. Sabendo-se que a
frequência da tensão é de 60Hz e que t1 e t2 são os tempos de ocorrência do primeiro e
32

Figura 6: Tenda que abriga os computadores responsáveis pela coleta de dados

Grandeza Descrição
Tempo(s) Instante de tempo em que o evento foi detectado pelo sensor
Amplitude (dB) A amplitude máxima do sinal durante a detecção do evento
Energia (J) Energia acumulada durante a detecção
Duração (µs) Duração do evento
Tempo de Subida (µs) Tempo entre o início do evento e o pico da amplitude

Tabela 2: Dados coletados por meio dos sensores


33

Figura 7: Forma idealizada do sinal acústico

do segundo evento, a diferença angular entre estes dois eventos consecutivos pode ser
calculada por:

∆t = (t2 − t1 ) · 360◦ · 60 (2.2)


 
∆t
θ = ∆t − ◦
· 360◦ (2.3)
360

Sabendo-se que as descargas parciais ocorrem nos picos e vales de 90o e 270o , res-
pectivamente, pode-se ajustar o ângulo correto utilizando 180 − θ /2 para θ ≤ 180◦ e
θ /2 + 180◦ para θ > 180◦ . Desta forma, para que duas descargas sejam consideradas
indícios de DP, é necessário estarem afastadas por 180◦ .

Tendo-se a quantidade de descargas ocorridas, o nível de ruído e o montante de


energia, é possível então criar um método para identificação dos transformadores em
melhor estado e os de estado mais precário, sob a ótica das descargas parciais.
34

3 Fundamentos de Probabilidade

Para a compreensão do funcionamento de Redes Bayesianas, se faz necessário co-


nhecer a teoria da probabilidade, por se tratar de uma forma de raciocínio probabilís-
tica. O objetivo deste capítulo é introduzir os conceitos da teoria da probabilidade e
variáveis aleatórias, que servirão como base para o estudo de Redes Bayesianas, que é
o método de raciocínio automatizado utilizado para a criação do classificador utilizado
na metodologia proposta.

3.1 Cálculo Probabilístico

Na teoria da probabilidade, considera-se a utilização de experimentos, chamados


de aleatórios, cujos resultados não podem ser preditos com certeza. Assume-se que
podem ser reproduzidos diversas vezes nas mesmas condições e todos os valores pos-
síveis são conhecidos e chamados de espaço amostral (16). Cada resultado possível
para o experimento é chamado de ponto de amostragem. Subconjuntos do espaço
amostral com um ou mais pontos de amostragem são denominados eventos.

Segundo a referência (16), o espaço amostral varia com o ponto de vista adotado.
Um exemplo disso são resistores de 100Ω produzidos por um determinado fabricante.
Seus valores reais, devido à imprecisões inerentes ao processo de fabricação, variam
de 99Ω a 101Ω. Para o cliente A, seus valores variam de 99 a 100,2Ω. Para o cliente B,
seus valores variam de 99,5 a 101Ω. Tem-se então um espaço amostral diferente para
cada cliente e que diferem do espaço amostral do fabricante.

3.1.1 Axiomas da Probabilidade

Dado um evento A contido em um espaço amostral S, define-se a função P( A)


como sendo a medida de probabilidade de A. A função P possui os seguintes axio-
mas (16):
35

- P( A) ≥ 0 (não negativo);

- P( S) = 1 (normalizado);

- Sendo An um conjunto de eventos disjuntos em S, a equação (3.1) representa a


propriedade aditiva.
!
n n
P ( A1 ∪ A2 ∪ ... ∪ An ) = P ∑ An = ∑ P ( An ) (3.1)
i =1 i =1

Os três postulados definem a função P.

3.1.2 Atribuição de Probabilidade e Probabilidade a Priori

Os axiomas da probabilidade não definem a maneira com que se atribui uma pro-
babilidade aos eventos. Uma maneira natural é através do cálculo de sua frequência
relativa (16). Levando-se em consideração que um experimento tenha sido realizado n
vezes e n a a quantidade de vezes em que o evento A foi observado, tem-se n a /n como
sendo a frequência relativa de A. Em condições normais esta frequência tende a um
único limite, à medida que n aumenta.

Uma outra maneira de se atribuir uma probabilidade, quando não é viável ou pos-
sível a repetição do experimento por uma quantidade suficientemente grande de vezes,
é a utilização da verossimilhança relativa, utilizando-se de um conhecimento subjetivo
do assunto. Um exemplo seria: "existe uma probabilidade de 40% de chover ama-
nhã" (16). Em ambos os casos, a probabilidade de ocorrência do evento A no experi-
mento, P( A), é chamada de probabilidade a priori do evento A, uma vez que não se
leva em consideração nenhum conhecimento sobre o experimento.

3.1.3 Probabilidade a Posteriori

A probabilidade a priori não permite a atualização da probabilidade à medida em


que aparecem novas evidências. Esse cálculo é realizado através da probabilidade con-
dicional, ou a posteriori. Sendo A e B eventos de um experimento aleatório, a probabili-
dade P( A| B) define a probabilidade a posteriori, de A, dado que B já ocorreu e P( B| A)
define a verossimilhança de A dado B . Sabendo-se que P ( A, B) = P ( A ∩ B):

P ( A, B)
P ( A| B) = (3.2)
P ( B)
36

A equação (3.2) pode ser reescrita de forma a se obter o teorema fundamental do


cálculo probabilístico (17):

P ( A| B) · P( B) = P ( A, B) (3.3)

O teorema fundamental permite que se calcule a probabilidade de dois eventos acon-


tecerem simultaneamente (A e B), sabendo a probabilidade de A dado B e a probabili-
dade de B. A aplicação deste teorema sucessivas vezes leva a regra da cadeia:

P ( A1 , A2 , . . . , An ) = P ( A1 | A2 , . . . , An ) P ( A2 | A3 , . . . , An ) . . . P ( An ) (3.4)

3.1.4 O Teorema de Bayes

O Teorema de Bayes provê um método para atualização da crença em um determi-


nado evento, A, quando se há informação sobre um outro evento, B, isto é, calcular a
probabilidade a posteriori dada uma evidência (18). Ele mostra a relação entre uma pro-
babilidade condicional e a sua verossimilhança. O Teorema de Bayes, conforme (18), é:

Teorema 3.1 (Teorema de Bayes) Sejam A e B dois eventos arbitrários em que P( A) 6= 0 e


P( B) 6= 0. Então:

P ( B| A) · P ( A)
P ( A| B) = (3.5)
P ( B)

Exemplo 1 Sabe-se que um paciente teve um resultado positivo em um exame para uma deter-
minada doença. Uma em cada quinhentas pessoas tem a doença. É conhecido que o teste também
não é confiável: ele possui uma taxa de falsos positivos de 3% e falsos negativos de 6%. Sabendo
que P( D ) é a probabilidade a priori do paciente ter a doença, P(E) a probabilidade a priori do
resultado do exame ser positivo, calcule P( D | E) (exemplo adaptado da referência (18)):

1
= 0, 002
P (D) =
500
Como o número de falsos positivos é de 3%, tem-se que:

P ( E|¬ D ) = 0, 03
P (¬ E|¬ D ) = 1, 00 − P ( E|¬ D )
= 0, 97
37

O número de falsos negativos de 6% leva a:

P (¬ E| D ) = 0, 06
P ( E| D ) = 1, 00 − P (¬ E| D )
= 0, 94

A probabilidade de um exame ser positivo, P( E), pode ser computada através da regra
da cadeia:

P ( E) = P ( E| D ) P ( D ) + P ( E|¬ D ) P (¬ D )
94 1 3 499
= · + ·
100 500 100 500
= 0, 00188 + 0, 02994 = 0, 03182 ≈ 3, 2%

Logo, através do teorema de Bayes:

P ( E| D ) · P ( D )
P ( D | E) =
P ( E)
0, 94 · 0, 002
= ≈ 5, 87%
0, 032
P (¬ D | E) = 1, 00 − P ( D | E)
= 94, 13%

O resultado demonstra que existe uma probabilidade de 94,13% de que o paciente


não tenha a doença, dado um exame positivo. É possível que a resposta intuitiva neste
caso sugerisse uma maior chance do paciente estar doente. Isto acontece porque fre-
quentemente as probabilidades a priori são ignoradas (a fração original das pessoas
que possuem a doença e a fração das pessoas que não tem a doença e recebem falsos
positivos) focando apenas na porção das amostras que recebem resultados positivos.

O exemplo 1 demonstra a utilização do teorema de Bayes para a atualização de


crenças. A inserção de novas informações, o exame neste exemplo, não substitui a
informação inicial. Neste caso, um resultado positivo aumenta a probabilidade e um
resultado negativo, diminui. O senso comum induz a substituição da probabilidade
inicial pela probabilidade de uma evidência, ao invés de utilizarem o raciocínio do
Teorema de Bayes para atualizá-la. A probabilidade de um paciente com exame posi-
tivo ter a doença, P( D | E), não é a mesma de um paciente com a doença ter um exame
positivo, P( E| D ).
38

3.1.5 Função de Distribuição de Probabilidade

Dado um experimento aleatório associado a uma variável X e sendo a probabili-


dade P( X ≤ x), onde x é um número real. A função de distribuição de probabilidade,
ou função de distribuição cumulativa é definida (16):

Fx ( x) = P( X ≤ x) (3.6)

A Equação (3.6) mostra que a função de distribuição de probabilidade é a probabi-


lidade de X assumir um valor igual ou a esquerda de x, aumentando até o valor 1 (ou
100%) (16).

3.1.6 Função de Densidade de Probabilidade

Seja Fx ( x) a função de distribuição de probabilidade de uma variável contínua x, a


função de densidade de probabilidade, função não negativa, é definida por (16):

dFx ( x)
f x ( x) = (3.7)
dx

Tanto a função de densidade de probabilidade quanto a função de distribuição


de probabilidade descrevem totalmente o comportamento de uma variável randô-
mica (16). A função f x ( x) mostra as regiões com maior ou menor probabilidade da
variável X assumir um determinado valor em um intervalo. Observa-se que somente
existe em variáveis contínuas, uma vez que Fx ( x) não é diferenciável nos pontos de
descontinuidade.

3.1.7 Distribuição Gaussiana

A distribuição Normal ou Gaussiana (figura 8) é a distribuição mais importante


da teoria da probabilidade. Uma variável aleatória X é gaussiana, ou normal, se sua
função de distribuição de probabilidade é (16):
" #
(u − µ )2
Z x
1
Fx ( x) = exp − du (3.8)
(2π )1/2 σ −∞ 2σ 2
39

e sua função de densidade de probabilidade:


" #
1 ( x − µ )2
f x ( x) = exp − (3.9)
(2π )1/2 σ 2σ 2

sendo σ e µ o desvio padrão e a média respectivamente. O desvio padrão e a média


caracterizam completamente uma distribuição normal, sendo normalmente represen-
tada pela notação N (µ,σ 2 ).

(a)

(b)

Figura 8: Distribuição Gaussiana: (a) função de distribuição de probabilidade e (b)


função de densidade de probabilidade
40

4 Rede Bayesiana

Segundo (17), Redes Bayesianas (RB) são grafos acíclicos direcionais (GAD) com-
postos por:

- Um conjunto de variáveis (nós do grafo);

- Cada variável possui um conjunto exclusivo e finito de estados;

- Para cada nó A com pais B1 ,...,Bn , existe uma tabela de probabilidade condicio-
nal(TPC).

A Figura 9 exemplifica uma rede bayesiana, RB, com quatro nós: A, B, C e D. O pa-
râmetro A não possui pai, apenas dois nós filho B e C, enquanto que o nó D é filho de B
e C. Desta forma, os parâmetros são compostos por θ A , θ B| A , θC| A , θ D| BC que respresen-
tam, respectivamente, as probabilidades a posteriori P( A), P( B| A), P(C | A) e P( D | BC ).
O conjunto de nós e arestas que formam o grafo é denominado de estrutura e a tabela
de probabilidade condicional associada a cada nó é chamada de parâmetro. Quando as
variáveis de uma rede recebem valores, são nomeadas de instâncias. Quando todas as
variáveis de uma rede bayesiana são instanciadas, é chamado de instância da rede (19).
Uma instância de um conjunto vazio de variáveis é chamada de trivial.
41

A B θ B| A
A θA V V 0,30
V 0,75 V F 0,70
F 0,25 F V 0,60
F F 0,40
B C D θ D| BC
V V V 0,90
A C θC | A V V F 0,10
V V 0,80 V F V 0,85
V F 0,20 V F F 0,15
F V 0,05 F V V 0,95
F F 0,95 F V F 0,05
F F V 0,00
F F F 1,00

Figura 9: Exemplo de Rede Bayesiana com 4 parâmetros

Com uma base de dados de tamanho razoável é possível aprender tanto a estru-
tura, quanto os parâmetros de uma RB, dependendo apenas da completude dos dados.
Quando todos os casos na base de dados estão completos, isto é, os valores de todas
as variáveis são conhecidos, é chamada de base de dados completa, de acordo com a
tabela 3. Se um ou mais casos não estiverem completos, a base de dados é chamada de
incompleta (19), como mostrado na tabela 4.

Caso Gripe? Febre? Garganta Inflamada? Dor de Cabeça?


1 Verdadeiro Verdadeiro Verdadeiro Falso
2 Verdadeiro Falso Verdadeiro Falso
3 Verdadeiro Falso Verdadeiro Falso
4 Falso Verdadeiro Falso Verdadeiro
5 Falso Verdadeiro Verdadeiro Verdadeiro
6 Falso Falso Falso Verdadeiro
7 Falso Falso Verdadeiro Verdadeiro
8 Falso Verdadeiro Falso Verdadeiro
.. .. .. .. ..
. . . . .

Tabela 3: Base de dados completa


42

Caso Gripe? Febre? Dor de Cabeça? Administrou Remédio?


1 Verdadeiro Verdadeiro Falso Verdadeiro
2 Verdadeiro Falso Falso ?
3 Verdadeiro Falso Falso ?
4 Falso ? Verdadeiro Falso
5 ? Verdadeiro Verdadeiro Falso
6 Falso ? Verdadeiro Verdadeiro
7 Falso Falso Verdadeiro ?
8 Falso Verdadeiro Verdadeiro Verdadeiro
.. .. .. .. ..
. . . . .

Tabela 4: Base de dados incompleta

4.1 Aprendizado com Dados Completos

Na ausência de um especialista para definição da RB, é necessário estabelecer uma


estrutura e parâmetros que se aproximem do ideal. A princípio, isso pode ser feito
através do aprendizado de parâmetros em todas as possíveis estruturas e escolhendo
aquela que se encaixe mais no conjunto de dados utilizado, isto é, aquela que possuir
maior pontuação na função de avaliação. A dificuldade desta abordagem por força
bruta é a quantidade de estruturas a serem comparadas, uma vez que a quantidade
f (n) de estruturas possíveis, cresce super-exponencialmente (exponencial iterada) com
o número de nós n (17):
n
n!
f (n) = ∑ (−1)i+1 (n − 1)!n! 2i(n−i) f (n − 1) (4.1)
i =1

Na tentativa de contornar este problema, alguns algoritmos foram desenvolvidos,


como o K2 e o Hill-Climbing, para aprendizado de estrutura com dados completos.
Ambos tentam otimizar a estrutura através de uma busca gulosa sobre as possíveis
estruturas da rede.

Ao contrário do aprendizado de estrutura, o aprendizado de parâmetros com da-


dos completos é um processo simples, que se reduz a uma tarefa de contagem. O
método utilizado por este trabalho foi o MLE (Maximum Likelihood Estimation ou Esti-
mativa da Máxima Verossimilhança), apresentado na subseção 4.1.3.
43

4.1.1 Algoritmo K2

O algoritmo K2 é um algoritmo de busca gulosa em que a ordem dos nós é conhe-


cida (17) e a quantidade de pais para cada nó é limitada, reduzindo a execução a tempo
polinomial. Sendo Ni jk o número de casos na base de treinamento em que a variável
ui é instanciada com o valor vik , π (ui ) os pais de ui , qi a quantidade de instanciações
possíveis de π (ui ) e rui a quantidade de valores possíveis discretos de ui , a equação
(4.3) como método de pontuação da busca heurística:
r ui
Ni j = ∑ Ni jk (4.2)
k=1
qi r
ui
(r ui − 1 ) !
g(i, π (ui )) = ∏ Ni jk ! (4.3)
j=1
( Ni j + rui − 1)! k∏
=1

O algoritmo K2 está incluído abaixo (20).


Algoritmo 1: K2 para aprendizado de estruturas em redes bayesianas
Input: Conjunto U de nós ordenados da rede, lista de casos para treinamento,
limite p de pais para cada nó.
Output: Grafo Acíclico Direcional.
1 foreach ui ∈ U do
2 π (ui0 ) = ∅;
3 Pantigo = g(i, π (ui ));
4 FLAG = verdadeiro;
5 while FLAG ≡ verdadeiro e π (ui ) < p do
6 [ x, y] = argmax( g(i, π (ui ) ∪ { y}));
7 y = y − π ( u i );
8 Pnovo = g(i, π (ui ) ∪ { y});
9 if Pnovo > Pantigo then
10 Pantigo = Pnovo ;
11 π ( u i ) = π ( u i ) ∪ { y };
12 else
13 FLAG = f also;
14 end
15 end
16 end
44

4.1.2 Aprendizagem Hill-Climbing

O hill-climbing é um método de busca local, guloso, que se utiliza de uma técnica


iterativa de otimização (21). A técnica é aplicada ao ponto corrente e, a cada iteração,
um novo ponto, um vizinho, é selecionado para ser o ponto corrente. O conjunto de
todos os pontos próximos ao ponto corrente é chamado de vizinhança e cada membro
da vinhança é um vizinho, que pode ser gerado através de pequenas pertubações no
ponto atual. Para que seja possível a comparação de dois vizinhos diferentes, é ne-
cessário um método que possa quantificar a qualidade de cada ponto. Este método é
chamado de pontuação.

Para que um vizinho seja selecionado como o ponto corrente, é necessário:

- Que o novo ponto corrente leve o algoritmo para uma posição melhor que a atual;

- Que ele tenha a maior pontuação da vizinhança.

Os pontos acima decorrem da otimização gulosa, que sempre progride para o ponto
com maior ganho imediato. Essa abordagem leva a uma implementação facil e rápida,
mas que não garante um resultado ótimo global. O que se pode garantir é que a solução
final é equivalente ou melhor do que a inicial.

O método de pontuação varia de acordo com o problema, uma vez que a pontuação
depende do tipo de solução a ser avaliada. Neste trabalho, em que se deseja otimizar a
estrutura da Rede Bayesiana, o método de pontuação utilizado foi o Bayesian Informa-
tion Criterion (BIC), que mede quão bem a base de dados se encaixa no modelo, além
de penalizar a complexidade da estrutura (17).
n qi ri Ni jk log2 N n
 
BIC( G | D ) = ∑ ∑ ∑ Ni jk log2 − qi (ri − 1 ) , (4.4)
i =1 j=1 k=1
Ni j 2 i∑ =1

onde n é a quantidade de nós, N a quantidade de casos na base de dados, D a base


de dados, G o GAD a ser pontuado e as demais variáveis assumem o mesmo valor
das variáveis declaradas na subseção 4.1.1. A pontuação BIC é uma boa maneira de
se comparar duas estruturas, pois além de levar em consideração a adequação do mo-
delo aos dados e a complexidade da estrutura, leva em consideração a equivalência
da estrutura, isto é, se apesar de diferentes, possuem a mesma verossimilhança (22).
Além disso, pode ser decomposta, o que permite o cálculo de apenas uma mudança
na estrutura da rede. Por exemplo, se for inserido um arco de Xi para X j na estrutura
45

D, então apenas a pontuação de X j irá mudar, o que permite que seja feita apenas a
avaliação do ganho de pontuação (17):

∆( Xi → X j ) = score( X j , pa( X j ) ∪ { Xi }, D ) − score( X j , pa( X j ), D ) (4.5)

onde pa( X j ) é o conjunto dos pais de X j .

As operações válidas para geração dos vizinhos no método do Hill-Climbing, desde


que gerem grafos acíclicos, são:

- Adicionar um arco;

- Remover um arco;

- Inverter a direção de um arco.

A utilização do Hill-Climbing para aprendizado de estruturas em Redes Bayesianas,


descrito por (17) e (23), é:
Algoritmo 2: Hill-Climbing utilizado para aprendizado de estruturas em Redes
Bayesianas
Input: Estrutura Inicial S (caso não exista, consideram-se todos os nós
desconexos), base de dados D.
Output: Grafo Acíclico Direcional.
1 repeat
2 foreach operação legal em A do
3 ∆( A) = BIC( S, D );
4 end
5 ∆∗ = max ∆( A);
6 A∗ = argmax ∆( A);
7 if ∆∗ > 0 then
8 S = op( S, A∗ );
9 end
10 until ∆∗ ≤ 0;

A execução do algoritmo prossegue até que não seja possível melhorar a estru-
tura. Usualmente leva a bons resultados, porém a sua natureza gulosa pode levar o
algoritmo à convergir prematuramente. Por se tratar de um método heurístico, não há
como prever esta ocorrência.
46

4.1.3 Aprendizado de Parâmetros através da Estimativa da Máxima


Verossimilhança (MLE).

O aprendizado de parâmetros com dados completos é o caso mais simples de


aprendizado em uma rede bayesiana (24). Este trabalho apresenta o cálculo da esti-
mativa da máxima verossimilhança como método de aprendizado de parâmetros para
dados completos que, de acordo com (17), trata-se apenas de um caso de contagem.

Para cada caso de aprendizagem d ∈ D, a probabilidade P(d| M) é chamada de ve-


rossimilhança de M dado d, sendo M o modelo. Assumindo-se que D é é independente
do modelo, a verossimilhança de M em relação a D é (17):

L( M| D ) = ∏ P(d| M) (4.6)
d∈ D

De forma semelhante, a log-verossimilhança:

LL( M| D ) = ∑ log2 P(d| M) (4.7)


d∈ D

O princípio da máxima verossimilhança permite que seja escolhido o modelo que


melhor se encaixe à base de dados:

θmax = argmax( L( Mθ | D )) = argmax( LL( Mθ | D )) (4.8)

Segundo (17) e (19), obtêm-se a máxima verossimilhança calculando-se a relação


entre número de casos que satisfazem a instanciação e número de casos no banco de
dados. A equação abaixo calcula a probabilidade condicional P( A = a, B = b|C = c, D =
d ):
N ( A = a, B = b, C = c, D = d)
P( A = a, B = b|C = c, D = d) = (4.9)
N (C = c, D = d)
onde N ( X ) é a quantidade de casos em que a X ocorre.

Exemplo 2 Aprenda o parâmetro P( B| A) da Rede Bayesiana da Figura 10.

De acordo com a base de dados, os nós A, B e C podem assumir dois valores: V


ou F. Para calcular a tabela de probabilidade condicional P( B| A), é suficiente aplicar a
47

Caso A B C
1 V V V
2 V F V
3 F F F
4 V V F
5 V V V
6 V V F
7 F F F
8 F V F
9 V V F
10 F V V
(a) (b)

Figura 10: Aprendizagem de Parâmetros: (a) Estrutura e (b) base de dados completos

equação (4.9) para cada possível instância de A e B:

N ( A = V, B = V ) 5
P( B = V | A = V ) = = ≈ 83, 33%,
N( A = V) 6
N ( A = V, B = V ) 1
P( B = F | A = V ) = = ≈ 16, 67%,
N( A = V) 6
N ( A = V, B = V ) 2
P( B = V | A = F ) = = = 50, 00%,
N( A = V) 4
N ( A = V, B = V ) 2
P( B = F | A = F ) = = = 50, 00%
N( A = V) 4

Logo, a tabela de probabilidade condicional é:

A B θ B| A
V V 83,33%
V F 16,67%
F V 50,00%
F F 50,00%

Tabela 5: Tabela de Probabilidade Condicional P( B| A)

Através do cálculo observa-se que o resultado obtido é normalizado, ou seja, P( B =


V | A = V ) + P( B = F | A = V ) = 1 e P( B = V | A = F ) + P( B = F | A = F ) = 1.

A utilização do método MLE para aprendizado de parâmetros é extremamente útil


quando se tem uma base de dados disponível. O método é capaz de detectar cada
alteração (inserção, remoção, alteração) feita na base de dados e assim atualizar os
48

parâmetros da Rede Bayesiana. Como se trata de apenas um método de contagem, a


implementação computacional é simples e a execução é rápida.

4.2 Aprendizado com Dados Incompletos

O aprendizado com dados incompletos se trata de uma tarefa mais difícil como a
apresentada anteriormente, cujos dados eram completos, pois deve-se estimar os da-
dos que estão faltando. Nesta seção, será demonstrado inicialmente o algoritmo EM
(Expectation Maximization) para aprendizado de parâmetros, conhecido também como
EM paramétrico. Após a compreensão do algoritmo EM para aprendizado de parâ-
metros, o algoritmo EM será utilizado para aprendizado de estruturas, EM estrutural
(Structure EM).

Por tratarem de algoritmos aplicados quando os dados estão incompletos, de maior


complexidade por envolver estimativa de dados, existe uma menor abordagem por
parte da literatura em relação aos algoritmos de aprendizagem com dados completos.

4.2.1 Aprendizado de Parâmetros com o EM Paramétrico

O algoritmo EM é uma ferramenta para estimar parâmetros de um modelo quando


os dados são incompletos (25). O algoritmo é dividido em dois passos:

1. Passo E: São utilizadas as estimativas atuais dos parâmetros para calcular espec-
tativas para os valores futuros. É neste passo onde os valores incompletos são
preenchidos.

2. Passo M: Neste passo é calculado o MLE para os parâmetros. Essa estimativas são
utilizadas então na próxima iteração do algoritmo, no passo E, para completar os
valores faltantes.

O algoritmo é executado até que o número máximo de iterações seja alcançado, ou o


algoritmo tenha convergido.

Definição 4.2.1 O passo E é calculado por (19):

de f 1 N
P D,θk (α ) = Pθk (ci |di ) (4.10)
N i∑
=1
49

onde α é um evento, θ k é a tabela de probabilidade condicional na iteração k e ci são


as variáveis faltantes de di , N é a quantidade de casos na base de treinamento e Pθk a
probabilidade calculada sobre os dados completos.

Exemplo 3 Calcule P D,θ1 (c1 | a2 ) da rede representada na Figura 11, utilizando os dados da
tabela 6 (retirados da referência (19)):

A B θb0|a A C θc0|a B D θd0|b


A θ a0 a1 b1 0, 75 a1 c1 0, 50 b1 d1 0, 20
a1 0, 20 a1 b2 0, 25 a1 c2 0, 50 b1 d2 0, 80
a2 0, 80 a2 b1 0, 10 a2 c1 0, 25 b2 d1 0, 70
a2 b2 0, 90 a2 c2 0, 75 b2 d2 0, 30

(a) (b) (c) (d) (e)

Figura 11: Rede Bayesiana do exemplo 3

D A B C D
d1 ? b1 c2 ?
d2 ? b1 ? d2
d3 ? b2 c1 d1
d4 ? b2 c1 d1
d5 ? b1 ? d2

Tabela 6: Tabela com dados incompletos para o exemplo 3

Para o cálculo θc1 |a , é necessário conhecer todos os casos em que A = a2 . Como os


1 2
dados estão incompletos, é necessário completá-los. O cálculo do passo E é mostrado
na Figura 12.

A Figura 12 (b) mostra os dados completados. Para terminar a iteração é necessário


executar o passo M, de Maximização, onde utiliza-se o método MLE para aprendizado
de parâmetros:

P D,θ0 (c1 , a2 ) 0, 035 + 0, 351


θ 1 (c1 | a2 ) = = ≈ 0, 666
P D,θ0 ( a2 ) 0, 035 + 0, 018 + 0, 176 + 0, 351

Este exemplo demonstra os passos E e M do método EM para aprendizado de pa-


râmetros com dados incompletos. O método EM não é tão eficiente como o MLE, de-
50

di A B C D Pθ0 (ci |di )


d1 ? b1 c2 ?
a2 b1 c2 d1 0,089
A B C D PD,θ0
a2 b1 c2 d2 0,356
a2 b1 c1 d1 0
d2 ? b1 ? d2
a2 b1 c1 d2 0,035
a2 b1 c1 d2 0,087
a2 b1 c2 d1 0,018
a2 b1 c2 d2 0,261
a2 b1 c2 d2 0,176
d3 ? b1 ? d2
a2 b2 c1 d1 0,351
a2 b2 c1 d1 0,878
a2 b2 c1 d2 0
d4 ? b1 ? d2
a2 b2 c2 d1 0
a2 b2 c1 d1 0,878
a2 b2 c2 d2 0
d5 ? b1 ? d2
a2 b1 c1 d2 0,087
a2 b1 c2 d2 0,261
(a) (b)

Figura 12: Passo E do método EM de aprendizado de parâmetros

monstrado na subseção 4.1.3, pois além do passo de maximização, necessita do passo


E, onde os dados faltantes são completados. A implementação do método é itera-
tiva, isto é, repete-se até que os parâmetros calculados sejam satisfatórios. Usualmente
utiliza-se a diferença entre θ k e θ k−1 como critério de parada. O algoritmo EM nunca
piora os parâmetros aprendidos, conforme equação (4.11), em que D é a base de dados,
θ k os parâmetros na iteração k e θ k+1 os parâmetros na iteração k + 1:

LL(θ k+1 | D ) ≥ LL(θ k | D ) (4.11)

4.2.2 Aprendizado de Estrutura com o EM Estrutural

Trata-se do caso mais difícil do aprendizado de Redes Bayesianas, já que para se


aprender a estrutura, é necessário que os dados estejam completos. Atualmente é o
que mais carece de algoritmos de aprendizado e não é muito comentado na literatura,
tendo no algoritmo EM estrutural (26) o método mais comum para aprendizado de
estruturas com dados incompletos. Conforme a referência (22), os passos do algoritmo
SEM são:

1. Inicia-se o algoritmo com um modelo aleatório (estrutura e parâmetros aleató-


rios), que será o modelo corrente;

2. Aplica-se o passo E do algoritmo EM para complemento dos dados faltantes;


51

3. Para o passo M utiliza-se as estatísticas calculadas no passo E para aprendizado


de um novo modelo;

4. Para este novo modelo, calcula-se os parâmetros θ;

5. Repete-se o procedimento de busca e pontuação até que não haja melhora no


modelo.

O modelo final terá uma pontuação maior do que o modelo inicial, indicando maior
ajuste dos dados ao modelo.

4.3 Inferência em Redes Bayesianas pelo método da Eli-


minação de Variáveis

Após o aprendizado de uma Rede Bayesiana, é importante ter em mãos um bom


método para inferências. A inferência é o processo em que são feitas consultas à rede e
uma resposta, baseada na probabilidade, é dada ao usuário. A inferência, ou raciocínio,
desencarrega o usuário de calcular as probabilidades manualmente, respondendo as
consultas à rede de forma automatizada (19). É importante ressaltar que, em muitos
casos, o processo de inferência torna-se impossível sem o uso de um computador, pois
podem envolver uma quantidade muito grande de variáveis.

Existem duas classes de algoritmos para inferência: exatos e aproximados. Os algo-


ritmos exatos garantem uma resposta correta e exata para cada consulta, demandando
mais recursos computacionais. Os algoritmos aproximados demandam menos recur-
sos computacionais, a resposta pode, porém, não ser exata. Por se tratar de um assunto
extenso, esta dissertação se limita a descrever o método de inferência por eliminação
de variáveis, por ser um dos métodos mais simples. É capaz de responder consultas de
probabilidades a priori, a posteriori, MPE (Most Probable Explanation) e MAP (Maximum
a Posterior Hypothesis). As definições, algoritmos e exemplos a seguir foram retirados
e/ou adaptados da referência (19).

4.3.1 Fatores

Fatores são ferramentas chave no processo de eliminação de variáveis. Inicialmente


os fatores são inicializados com a probabilidade da instanciação e, conforme as opera-
ções são realizadas sobre ele, o valor é atualizado.
52

Definição 4.3.1 O fator f de variáveis X é uma função que mapeia cada instanciação x de X à
um valor não negativo, f ( x).

B C f
Verdadeiro Verdadeiro 0,35
Verdadeiro Falso 0,05
Falso Verdadeiro 0,40
Falso Verdadeiro 0,20

Tabela 7: Fator f

Existem algumas operações que podem ser realizadas em fatores e que viabilizam
o processo de inferência. A seguir, serão definidas as operações, assim como exemplos
e algoritmos, conforme (19).

4.3.1.1 Eliminação de Variáveis

A primeira operação a ser definida é a eliminação de variáveis:

Definição 4.3.2 Seja f um fator sobre variáveis X e x é uma variável em X. O resultado de


eliminar x de f é um fator ∑ x sobre variáveis Y = X − x, sendo y instância de Y, definido por:
 
de f
∑ f ( y) = ∑ f (x, y) (4.12)
x x

Algoritmo 3: Eliminação de Variáveis


Input: Fator f ( X ) sobre variáveis X, variáveis Z a serem eliminadas
Output: Fator ∑ z f
1 Y = X - Z;
2 foreach instanciação de Y = y do
3 f 0 ( y) = 0;
4 foreach instanciação de z do
5 f 0 ( y) = f 0 ( y) + f ( yz);
6 end
7 end
8 return f 0

Através de sucessivas eliminações de variáveis, é facilmente calculado a distribui-


ção marginal de variáveis e, a partir dela, resolve-se consultas a priori e a posteriori.
53

Definição 4.3.3 A distribuição marginal P( x1 , x2 , ..., xm ) é definida por:

P( x1 , x2 , ..., xm |e) = ∑ P( x1 , x2 , ..., xn |e), (4.13)


xm+1 ,...xn

em que m ≤ n.

Seguindo a definição 4.3.2, é possível aplicar a operação ∑C f ( B, C ) no fator f da


tabela 7. O fator resultante, também distribuição marginal P(C ), é:

B f
Verdadeiro 0,40
Falso 0,60

Tabela 8: Fator (∑C f ) ( B)

A operação de eliminação de variáveis, também conhecida por marginalização,


mostra-se útil para o cálculo da distribuição de marginais. Porém, para que seja feita,
é necessário o conhecimento da tabela de distribuição conjunta da rede bayesiana (ins-
tâncias da rede com sua probabilidade correspondente), que pode ser obtida através
da regra da cadeia, conforme equação (3.4).

4.3.1.2 Operação de Multiplicação

A operação de multiplicação surge como uma alternativa mais rápida para cálculo
da tabela de distribuição conjunta. Pode-se entender cada parâmetro como sendo um
fator e então aplicar a operação de multiplicação, conforme será mostrado a seguir.

Definição 4.3.4 A operação de multiplicação de dois fatores, f 1 ( x) e f 2 ( y), resulta em um


terceiro fator f 1 f 2 :
de f
( f 1 f 2 )( z) = f 1 ( x) f 2 ( y), (4.14)

em que z = x ∪ y.
54

Algoritmo 4: Multiplicação de Fatores


Input: f 1 ( X1 ),..., f m ( Xm )
Output: Fator f 0
Sm
1 Z= i =1 Xi ;
2 foreach instanciação z de Z do
3 f ( z) = 1;
4 for i = 1 to m do
5 xi = Instancia de Xi consistente com z;
6 f ( z ) = f ( z ) f i ( x i );
7 end
8 end

Logo, para calcular a TDC da rede da Figura 11:

P( A, B, C, D ) = θ D| B · θ B| A · θC| A · θ A

4.3.1.3 Operação de Maximização

Para o cálculo de probabilidades MPE e MAP, é necessária a definição da operação


de maximização. Similar à operação de eliminação de variáveis, a maximização tam-
bém elimina variáveis, porém, ao invés de somar os fatores, o maior fator permanece.

Definição 4.3.5 Seja Z um conjunto de variáveis e X uma variável contida em Z. O resultado


de maximizar a variável X do fator f ( Z ) é um novo fator f 2 (Y ), em que Y = Z − X.
 
de f
max f ( y) = max f ( x, y) (4.15)
X X
55

Algoritmo 5: Maximizar Fator


Input: Fator f ( X ) sobre variáveis X, variáveis Z a serem eliminadas
Output: Fator (max X f ) ( y)
1 Y = X - Z;
2 foreach instanciação de y do
3 f 0 ( y) = 0;
4 foreach instanciação de z do
5 if f 0 ( y) < f ( yz) then
6 f 0 ( y) = f ( yz);
7 end
8 end
9 end
10 return f 0

O algoritmo resulta na operação de maximização. Uma importante extensão do


método é armazenar a instância removida a cada operação. Desta forma, a operação é
capaz de fornecer a instância maximizada, além da probabilidade.

Exemplo 4 Calcular (max X f ) ( y).

A Figura 13 mostra a operação de maximização no fator f . Em (a), o fator f antes


da maximização. Em (b), depois da maximização, guardando em f ext a instância cuja
probabilidade é máxima.

X Y f
V V 0,15
Y f f ext
V F 0,50
V 0,50 X=V
F V 0,15
F F 0,20
(a) (b)

Figura 13: Exemplo de maximização: (a) fator a ser maximizado (b) fator maximizado

4.3.1.4 Ordem das Variáveis

Todas as operações definidas acima são comutativas, isto é, independente da or-


dem das variáveis, o resultado será o mesmo. Porém a ordem das variáveis a serem
56

eliminadas altera a quantidade de operações necessárias para se chegar ao resultado.


Sabe-se que escolher a melhor alternativa é um problema NP-difícil (difícil de se resol-
ver de forma eficiente, não possuíndo um algoritmo de tempo polinomial conhecido),
tornando a escolha da ordem, desafiadora. Descreve-se, em (19), algumas estratégias
para otimização da ordem dos nós, que não serão descritas pois não foram aplicadas
durante a execução do projeto.

4.3.2 Otimizando a Estrutura da Rede

Em geral, uma consulta à rede bayesiana recebe dois parâmetros: o conjunto de


variáveis Q e a evidência e. Dependendo destes parâmetros, frequentemente é possível
reduzir a quantidade de nós e arestas, de modo à tornar a consulta mais rápida, sem
prejuízo no resultado. Este processo é chamado de poda da rede, composto pela poda
de nós e pela poda de arestas.

4.3.2.1 Podas de Nós

Dada uma rede bayesiana N e uma consulta P(Q, e), é possível eliminar qualquer
nó folha (nó que não possui filhos) desde que não pertença as variáveis do conjunto
Q ∪ E, sendo executada iterativamente, até que não existam nós a serem removidos.

Teorema 4.1 Seja N uma rede bayesiana. Se N0 = podarNos(N, Q ∪ E), então P(Q, e) =
P0 (Q, e), onde P e P0 são as distribuições marginais inferidas em N e N’, respectivamente.
57

Algoritmo 6: Podas de Nós


Input: Rede Bayesiana N, consulta P(Q, e)
Output: Rede Bayesiana N’
1 Seja N’ uma rede com a mesma estrutura e parâmetros de N;
2 remover = VERDADEIRO;
3 while remover ≡ VERDADEIRO do
4 remover = FALSO;
5 L ← conjunto de nós folha de N’;
6 foreach X ∈ L do
7 if X ∈
/ (Q ∪ E) then
8 Remover X de N’;
9 remover = VERDADEIRO;
10 end
11 end
12 end
13 return N 0

4.3.2.2 Podas de Arestas

Dada uma rede bayesiana N e uma consulta P(Q, e), é possível eliminar algumas
arestas da rede, sem afetar o resultado da consulta.

Teorema 4.2 Seja N uma rede bayesiana. Se N0 = podarArestas(N, e), então P(Q, e) =
P0 (Q, e), onde P e P0 são as distribuições marginais inferidas em N e N’, respectivamente.

Algoritmo 7: Podas de Arestas


Input: Rede Bayesiana N, consulta P(Q, e)
Output: Rede Bayesiana N’
1 Seja N’ uma rede com a mesma estrutura e parâmetros de N;
2 Seja U → X uma aresta que parte de U até X onde X ∈ E;
3 foreach U → X em N’ do
4 Remover U → X;
5 Remover de θ X |U as instâncias em que U diverge do valor u da instância e;
6 Trocar θ X |U por ∑U θ X |U ;
7 end
8 return N 0
58

4.3.3 Respondendo Consultas a Priori

As duas operações (eliminação e multiplicação), utilizadas em conjunto, são capa-


zes de responder consultas de probabilidade a priori, sendo suficiente calcular a tabela
de distribuição conjunta e então aplicar sucessivas eliminações de variáveis. Abaixo
será mostrado um teorema importante para diminuir a quantidade de multiplicações
necessárias (19) e um exemplo de como é feita a reposta de consultas a priori em uma
rede bayesiana. Posteriormente, será definido um algoritmo genérico, capaz de calcu-
lar TDC sem evidências(destinada a probabilidades a priori) e com evidência(a posteri-
ori).

Teorema 4.3 Sejam f 1 e f 2 são fatores e X aparece apenas em f 2 , então:

∑ f1 f2 = f1 ∑ f2 (4.16)
X X

Exemplo 5 Calcular P( B = b1 ) da rede representada na Figura 11.

Para calcular a probabilidade a priori utilizaremos as operações de eliminação e


multiplicação. Inicialmente é necessário calcular a TDC:

f 1 = θ B| A · θ A

A B f
a1 b1 0,15
a1 b2 0,05
a2 b1 0,08
a2 b2 0,72

Tabela 9: Fator f 1

Utilizando da multiplicação foi calculado o fator f 1 , contendo P( A, B). Para calcu-


lar P( B) é suficiente eliminar a variável A do fator:

f2 = ∑ f1
A

Através do fator f 2 é possível se obter a probabilidade P( B = b1 ) = 0, 23.


59

B f
b1 0,23
b2 0,77

Tabela 10: Fator f 2

4.3.4 Respondendo Consultas a Posteriori

Consultas a posteriori, P(V, e), recebem dois parâmetros como entrada: conjunto de
variáveis V e a instância e que funciona como evidência. É possível ver distribuições
marginais a priori como sendo distribuições a posteriori cuja evidência e é uma instância
trivial. Logo, é possível criar um único procedimento para calcular ambos, o que será
apresentado a seguir.

Exemplo 6 Calcular P(C = c1 | A = a1 ) para a rede representada na Figura 11.

Para calcular P(C = c1 | A = a1 ), é necessário conhecermos P(A, C):

f 1 = θC | A · θ A

A C f1
a1 c1 0,10
a1 c2 0,10
a2 c1 0,20
a2 c2 0,60

Tabela 11: Fator f 1

O fator resultante, f 2 , contém as informações necessárias para terminarmos o pro-


cessamento da consulta. Neste exemplo, é dado uma única evidência, a instância
A = a1 , que utilizaremos para continuar o processo. É então eliminada as instâncias
dos fatores que contradizem a evidência, isto é, A 6= a1 . O fator resultante f 1e representa
o fator f 1 dada a evidência e.

A C f 1e
a1 c1 0,10
a1 c2 0,10

Tabela 12: Fator f 1e


60

Elimina-se a variável A:
f 2 = ∑ f 1e
A

C f
c1 0,10
c2 0,10

Tabela 13: Fator f 2

A tabela 13 apresenta as probabilidades P(C = c1 , A = a1 ) e P(C = c2 , A = a1 ). Para


calcular a probabilidade a posteriori P(C = c1 | A = a1 ) é preciso normalizar o fator f 2 :

P(C = c1 | A = a1 ) = P(C = c2 | A = a1 )
P(C = c1 | A = a1 )
=
P(C = c1 | A = a1 ) + P(C = c2 | A = a1 )
= 0, 50 = 50%

Logo, a probabilidade P(C = c1 | A = a1 ) = 50%, conforme parâmetro θC| A .

Como foi mostrado, as operações de multiplicação e soma podem, em conjunto,


responder consultas a posteriori e, consequentemente, a priori. A seguir é apresentado
um algoritmo para cálculo de distribuições marginais a posteriori, conforme de (19).

Algoritmo 8: Cálculo de Distribuições Marginais


Input: Rede Bayesiana N, Variáveis Q, evidência e;
Output: Fator contendo P(Q, e);
1 N’ = podarRede(N, Q, e);
2 π =ordenação de variáveis ∈
/ Q computadas a partir de N’;
3 S = { f e : f é TPC da Rede Bayesiana N’};
4 for i = 1to quantidade de nós em π do
5 f = ∏k f k , onde f k ∈ S e menciona variável π (i );
6 f i = ∑ π (i ) f ;
7 trocar todos os fatores f k ∈ S por f i ;
8 end
9 return ∏ f ∈ S f
61

4.3.5 Most Probable Explanation (Explicação Mais Provável)

O alvo do cálculo do MPE é identificar qual a instância da rede mais provável, dada
evidência.

Definição 4.3.6 Sendo X1, ..., Xn todas as variáveis de uma rede bayesiana, o conjunto e a
evidência, então:
de f
MPE(e) = max(P( x1 , ..., xn |e)) (4.17)

De acordo com a equação (4.18), o MPE irá calcular a instância com maior probabili-
dade de ocorrência dada a evidência. Conforme (19), o MPE não pode ser obtido dire-
tamente do cálculo de distribuições marginais a posteriori. Suponha que deseja-se maxi-
mizar P( A, B, C |C = C1 ). Instanciando as variáveis A e B de acordo com max(P( A|C =
D1 )) e max(P( B|C = C1 )), é possível que não se encontre uma MPE. É proposto o
algoritmo para cálculo do MPE abaixo (19):

Algoritmo 9: MPE
Input: Variáveis Q, evidência e
Output: P(Q, e)
1 S = { f e f é TPC da Rede Bayesiana};
2 for i = 1to quantidade de nós da rede que não estão em Q do
3 f = ∏k f k , onde f k ∈ S e menciona variável π (i );
4 f i = maxπ (i) f ;
5 trocar todos os fatores f k em S por f i ;
6 end
7 return fator trivial ∏ f ∈ S f

4.3.6 Maximum a Posteriori Hypothesis (Hipótese Máxima a Posteri-


ori)

O MPE se trata de um caso específico do MAP, onde deseja-se saber a instância da


rede. Ao contrário do MPE, o MAP calcula a probabilidade máxima da instanciação
de um conjunto de variáveis, não necessariamente de todas as variáveis como o MPE,
dada alguma evidência. Essa distinção existe, entre MAP e MPE, pois calcular o MPE
é bem mais simples de se calcular do que o MAP.

Definição 4.3.7 Sabendo que Q são variáveis de uma rede bayesiana composta por variáveis
62

N (Q ⊂ N), e e o conjunto de evidências, tem-se:


de f
MAP( X, e) = max(P( x|e)) (4.18)
x

Algoritmo 10: MAP


Input: Rede Bayesiana N, Variáveis Q, evidência e
Output: Fator Trivial contendo o MAP
1 N’ = podarRede(N,Q,e);
2 π = ordem de eliminação de variáveis de N’, em que Q aparece por último.;
3 S = { f e f é TPC da Rede Bayesiana N’};
4 for i = 1to quantidade de variáveis em π do
5 f = ∏k f k , onde f k ∈ S e menciona variável π (i );
6 if π (i ) ∈ Q then
7 f i = maxπ (i) f ;
8 else
9 f i = ∑ π (i ) f ;
10 end
11 trocar todos os fatores f k em S por f i ;
12 end
13 return fator trivial ∏ f ∈ S f

4.4 Redes Bayesianas Variantes no Tempo

Conhecidas por Redes Bayesianas Dinâmicas (RBD), introduzem a idéia de varia-


ção temporal em Redes Bayesianas. São construídas a partir da utilização de múltiplas
cópias da mesma varíavel, em que cada cópia representa diferentes estados assumidos
pelo tempo (19).

A Figura 14 mostra um exemplo de RBD. Para cada instante de tempo i, a rede


possui duas variáveis, Ai e Bi , que possuem 4 cópias cada. Uma RBD possui modelos
repetitivos, isto é, que se repetem em cada instante de tempo.
63

Figura 14: Exemplo de uma rede bayesiana dinâmica


64

5 Metodologia Proposta

Este trabalho propõe a utilização de uma metodologia baseada em rede bayesi-


ana para estimação de falhas incipientes em transformadores de potência, utilizando o
método de detecção de descargas parciais por emissão acústica. A utilização da Rede
Bayesiana é particularmente adequada ao processo de identificação de transformado-
res defeituosos, pois configura-se como uma ferramenta probabilística de representa-
ção do conhecimento, capaz de gerar classificadores que, utilizando dados captados
de ensaios de emissão acústica, permite a identificação de possíveis transformadores
defeituosos.

5.1 Construção da Rede Bayesiana

Será apresentada, a seguir, a construção da Rede Bayesiana da metodologia pro-


posta.

5.1.1 Escolha dos Nós

A escolha dos nós que compõem a rede deve levar em consideração os itens que
influenciam a classificação. Para o classificador proposto, foram analisados relatórios
de ensaios de EA realizados pela empresa Celg D, onde foi identificado a quantidade
de DPs detectadas pelo método de emissão acústica e a energia como indicadores de
falhas nos transformadores. Foi utilizada a quantidade de ruído detectada (atividades
cuja diferença de fase é diferente de 180◦ ) como elemento penalizador da classificação,
em que uma quantidade grande de ruídos atenua uma classificação ruim.

A metodologia leva em consideração o pior caso, isto é, o canal com maior quanti-
dade de DPs, pois deseja-se detectar o pior cenário. Assim, qualquer anormalidade já é
suficiente para indicar ou não possível defeito no transformador. Não foram utilizadas
as informações de todos os sensores, pois necessitariam de uma quantidade de casos
muito grande, para treinamento da RB.
65

Os nós da RB foram selecionados pelos especialista e estão são apresentados na


tabela 24.

Nó Descrição
Quantidade de atividades associadas à DPs detectada no
DPs
canal com maior atividade.
Quantidade de atividades ruído detectado no canal com
Ruído
maior atividade.
Energia acumulada das atividades detectadas pelo pior ca-
Energia
nal.
Avaliação do estado do equipamento sob a ótica da técnica
Classificação preditiva de Emissão Acústica. Indica o nível de atividade
acústica detectada.

Tabela 14: Nós da Rede Bayesiana

É necessária a utilização de um critério para diferenciar uma atividade associada


à ruído de uma associada à DPs. Conforme descrito na subseção 2.5.2, as descargas
parciais ocorrem nas tensões de maior intensidade (picos e vales do sinal). Utilizando
a equação 2.3, é possível calcular a diferença de fase entre duas atividades consecutivas
e, caso a diferença de fase seja aproximadamente 180 ◦ , é associada à DP. Caso não seja,
a atividade é associada a ruído.

O nó de energia assume o valor acumulado da energia de cada atividade detectada


no canal.

O nó de classificação, conforme elencado pelos especialistas, pode assumir os se-


guintes valores apresentados na Tabela 15:
66

Classificação Avaliação Ação Recomendada


A Satisfatório Continuar a operar normalmente.
Continuar a operar normalmente es-
B Dentro da normalidade tando atento à evolução de DPs nos
próximos registros
Dar continuidade na investigação e
realizar outros ensaios o mais breve
C Preocupante
possível para confirmar resultados e
tendências de DPs
Planejar uma retirada do equipa-
mento de operação em caráter de ur-
D Grave
gência para uma inspeção interna, lo-
calização e correção de defeito.

Tabela 15: Valores possíveis para classificação

5.1.2 Estrutura

Percorrer todo o espaço de estruturas possíveis da RB em busca de um modelo


ótimo torna-se impraticável devido à quantidade de estruturas possíveis, conforme
mostrado na seção 4.1. Para o problema de detecção de descargas parciais pelo método
da EA, por se tratar de uma técnica nova, a estrutura da RB é desconhecida. Desta
forma, o aprendizado de estrutura torna-se necessário.

Para aprendizado da estrutura da RB, propõe-se a utilização dos métodos K2 e Hill


Climbing. O método K2 é rápido, porém exige-se o conhecimento da ordem dos nós do
grafo da estrutura da RB. O método do Hill Climbing por sua vez não exige tal conhe-
cimento, entretanto corre-se o risco da convergência prematura a um ótimo local. Na
tentativa de escolha de uma estrutura que represente bem a base de dados, é sugerida
a execução dos dois métodos, selecionando a estrutura que tenha uma pontuação BIC
67

melhor.
Algoritmo 11: Aprendizagem de estrutura
Input: Estrutura Inicial S (caso não exista, consideram-se todos os nós
desconexos), base de dados D.
Output: Grafo Acíclico Direcional.
1 U = conjunto de nós de S;
2 DAGK2 = K2(U, D, 3);
3 DAGHill = HillClimbing(S, D);
4 if BIC( DAGK2 , D) >= BIC( DAGHill , D) then
5 return DAGK2
6 else
7 return DAGHill
8 end

5.1.3 Aprendizagem de Paramêtros

O aprendizado de parâmetros pode ser feito utilizando o método descrito na sub-


seção 4.1.3, por se tratar de dados completos.

5.1.4 Discretização dos Parâmetros da Rede Bayesiana

Conforme elencado na seção 5.1.1, os nós da RB, com exceção da classificação, pos-
suem valores contínuos. As Redes Bayesianas são capazes de trabalhar com valores
discretos e contínuos, mas a utilização de valores contínuos impõem algumas limita-
ções, conforme descrito em (17) e (19).

Esta dissertação propõe a discretização dos parâmetros contínuos através da utili-


zação de intervalos, isto é, a criação de intervalos de valores contínuos associados a um
valor discreto. Os intervalos funcionam como categorias, quando um valor contínuo
estiver entre valores cobertos pelo intervalo, é associado a um valor discreto daquele
nó. Assim pode ser mantida a mesma teoria de RB descrita no capítulo 4, sem as limi-
tações impostas pela utilização de valores contínuos.

O procedimento de discretização dos valores contínuos dos nós levanta a dificul-


dade de se estabelecer intervalos de valores que representem adequadamente o pro-
blema. Para essa tarefa, a utilização de um otimizador Hill-Climbing mostra-se apro-
priada, uma vez que, partindo de um ponto inicial, ajustar-se-ão o número de faixas
68

e seus limites de tal forma que a taxa de classificação correta aumente. Desta forma,
pode-se garantir, por se tratar de um algoritmo de busca gulosa, conforme apresentado
na subseção 4.1.2, que os novos limites serão tão bons ou melhores que o existente. É
descrito em (27) uma regra conhecida como "regra do 1/5 de sucesso", em que é utili-
zada uma distribuição gaussiana com desvio σ que ajusta os valores aleatórios gerados.
Através desta regra, é possível dificultar a convergência prematura do algoritmo, que é
guloso (conforme descrito na subseção 4.1.2). O desvio σ é ajustado a cada k iterações.
O Procedimento Hill-Climbing de otimização dos limites é mostrado a seguir.
Algoritmo 12: Hill-Climbing para discretização dos parâmetros
Input: Limites Atuais L, Número de vizinhos V, Número Máximo de Iterações
Max, Número k de iterações com que σ é ajustado.
Output: Limites quase-ótimos.
1 Patual = pontuacao( L);
2 i = 0;
3 repeat
4 L atual = clonar( L);
5 Para cada intervalo existente, crie uma cópia, divida em 2 intervalos em
proporção aleatória (ajustada por σ) e verifique se a pontuação é melhor que
Patual . Se sim, substitua Patual e L atual ;
6 Para cada intervalo existente, crie uma cópia, remova o intervalo e verifique
sua pontuação. Se melhor ou igual a Patual , substitua Patual e L atual ;
7 Faça uma cópia dos limites e V tentativas aleatórias (ajustada por σ) de
alteração. Se a pontuação de algum deles for melhor que Patual , substitua
Patual e L atual ;
8 Substitua os limites atuais por L atual . A cada k iterações, ajuste σ de acordo
com a regra do 1/5 de sucesso;
9 i + +;
10 until i < Max;

O algoritmo 12 utiliza um método de pontuação para verificar o melhoramento


do algoritmo. É possível a utilização de um método de pontuação suave (soft scoring)
ou de pontuação rígida (hard scoring). Na pontuação rígida, conta-se a quantidade de
acertos de classificação que a RB provê. Cada acerto, pela RB, do nó de classificação,
corresponde a um ponto. O algoritmo converge à medida que a quantidade de acer-
tos aumenta. Na pontuação suave, conta-se com um mecanismo de penalização, que
subtrai, a cada erro, o déficit para o acerto ideal (100%). Assim, a pontuação suave é
69

menos gulosa e evolui à medida que a RB se aproxima da classificação correta.

Para os parâmetros referentes às quantidades de atividades associadas à DPs e


ruído, assumiram-se os mesmos intervalos, uma vez que possuem a mesma ordem de
grandeza e unidade (são contagens feitas a partir de ocorrência de atividades). O nó
de energia possui limites diferentes dos demais, por se tratar de grandezas e unidades
diferentes.

5.2 Geração de Casos de Treinamento e Validação

A maior dificuldade para aprendizado de uma RB é a disposição de uma base de


treinamento suficientemente grande e diversificada para a realização de classificações
confiáveis. Para este caso particular, a obtenção de novos casos é trabalhosa, envol-
vendo uma equipe de técnicos, engenheiros, rotinas da companhia (CELG D), medi-
das de segurança, transporte e instalação de equipamentos (sensores). Para contornar
a dificuldade de obtenção de novos ensaios, foi construído um gerador de casos fictí-
cios, que é subsidiado por casos reais. O funcionamento, mostrado no algoritmo 13, é
basicamente aprender uma Rede Bayesiana com os casos reais e originar novos casos
através das probabilidades presentes na RB.

Algoritmo 13: Gerador de Casos


Input: Casos reais utilizados para treinamento, quantidade de casos a serem
gerados imax .
Output: Casos para a base de treinamento.
1 Treine uma Rede Bayesiana D com os casos reais;
2 repeat
3 Crie instâncias vik das variáveis randômicas ui que possuem π (ui ) = {}
utilizando as probabilidades a priori dessas variáveis da Rede D;
4 Instancie as demais variáveis ui com probabilidades a posteriori de D.
5 until i + + < imax ;
70

5.3 Estimação de Falhas Incipientes em Transformadores


de Potência

Propõe-se então, aplicando-se em conjunto os procedimentos descritos, uma me-


todologia para estimativa de falhas incipientes em transformadores de potência, apre-
sentada no Algoritmo 14.

Algoritmo 14: Metodologia para Estimação


Input: Limites Atuais, Número de vizinhos V, Número Máximo de Iterações
Max, Número k de iterações com que σ é ajustado, quantidade N1 de
casos de treinamento e quantidade N2 de casos para validação.
Output: -
1 Definem-se limites L para treinamento da RB. Caso existam casos suficientes
para treinamento e validação da RB, salte para o passo 4;
2 Cria-se uma RB com amostras reais (utiliza-se a estrutura de um classificador
ingênuo conforme figura 15). Para parâmetros, utiliza-se o método do MLE
(subseção 4.1.3) para aprendê-los;
3 Utiliza-se o Gerador de Casos (Algoritmo 13) para criação de N1 casos para
treinamento da RB e criação de casos que, em conjunto com os casos reais,
formarão N2 casos que serão utilizados para validação;
4 Utiliza-se o método o algoritmo 11 para aprender a estrutura da RB. A ordem
dos nós definidas para o K2 é: classificação, descarga parcial, ruído e energia. A
quantidade máxima de pais para K2 é 3. Para o Hill Climbing, são considerados
todos os nós desconectados. Utiliza-se o método MLE (subseção 4.1.3) para
aprender os parâmetros da RB;
5 Mede-se a quantidade de acertos utilizando os casos para validação;
6 Definem-se os limites de acordo com as Tabelas 16 e 17;
7 Utiliza-se o algoritmo para otimização dos limites 12, utilizando a pontuação
rígida e a pontuação suave, utilizando V vizinhos, Imax iterações e k iterações
para redefinição do valor do desvio (regra do 1/5 de sucesso). Repete-se este
passo Ni vezes, a fim de encontrar limites quase-ótimos;
8 Verifica-se o desempenho da rede com os limites criados;
71

Figura 15: Estrutura da RB ingênua utilizada no gerador de casos

Valor Intervalo
1 0 - Emax

Tabela 16: Intervalos de valores de energia

Valor Intervalo
1 0 - Amax

Tabela 17: Intervalos de Valores de Quantidade de DPs e ruído

Onde Emax é valor máximo de energia e Amax é o valor máximo de DPs e ruído.
72

6 Resultados e Discussão

Para se construir o classificador, foram utilizados resultados de seis ensaios reali-


zados em transformadores (todos os ensaios que se tinham até então), sendo que, em
cada ensaio, foram monitorados dois transformadores simultaneamente. Têm-se doze
amostras para se construir a RB, cujos valores de classificação, energia, quantidade
de DPs e ruído estão listados no Apêndice A. Foi aplicada a metodologia descrita no
algoritmo 14 para a verificação do seu desempenho utilizando os limites L das Tabe-
las 18 e 19, N1 = 100, N2 = 100, V = 5, Imax = 100, Ni = 2, k = 5, Emax = 999999999
e Amax = 999999999. Para fins de associação com descargas parciais, utilizou-se va-
lores entre 179 ◦ e 181 ◦ (180◦ ±1◦ ) para a diferença angular entre dois hits consecutivos
(equação 2.3). Os valores de N1 , N2 , V, Imax , Ni e k foram encontrados através de várias
execuções do algoritmo e forneceram melhores resultados.

A execução algoritmo 14 com os parâmetros acima resulta na criação de 188 casos,


que em conjunto com as doze amostras, formam 200. Destes, 100 são utilizados para
treinamento e os demais para validação, sendo que os doze casos reais pertencem ao
conjunto de validação.

Os limites encontrados através do algoritmo 12, utilizando a pontuação suave e


rígida são apresentados nas Tabelas 20 a 23. As linhas correspondem aos índices das
faixas e as colunas às iterações do algoritmo 12.

Valor Intervalo
1 0 - 50.000
2 50.001 - 7.000.000
3 7.000.001 - Emax

Tabela 18: Valores discretos para valores de energia


73

Valor Intervalo
1 0 - 1.000
2 1.001 - 5.000
3 5.001 - 100.000
4 100.001 - Amax

Tabela 19: Valores discretos para valores de DPs e ruído

0 100 200
1 0 - Emax 0 - 50.269 0 - 50.269
2 50.270 - 1.826.677 50.270 - 238.793
3 1.826.678 - Emax 238.794 - 1.826.677
4 1.826.678 - 6.737.032
5 6.737.033 - Emax

Tabela 20: Faixas de energia ao longo das iterações (suave)

0 100 200
1 0 - Amax 0 - 10 0 - 10
2 11 - 5.115 11 - 5.115
3 5.116 - 729.902 5.116 - 729.902
4 729.903 - 131.863.007 729.903 - 131.863.007
5 131.863.008 - Amax 131.863.008 - Amax

Tabela 21: Faixas das quantidades de DPs e ruído ao longo das iterações (suave)

0 100 200
1 0 - Emax 0 - 851.400 0 - 321.179
2 851.401 - Emax 321.180 - Emax

Tabela 22: Faixas de energia ao longo das iterações (rígida)


74

0 100 200
1 0 - Amax 0 - 17 0 - 17
2 18 - 4.772 18 - 4.772
3 4.773 - 257.013 4773 - 49.333
4 257.014 - Amax 49.334 - 257.013
5 257.014 - Amax

Tabela 23: Faixas das quantidades de DPs e ruído ao longo das iterações (rígida)

A Tabela 11 compara as taxas de acerto da base de validação da Rede Bayesiana


utilizando cada limite:

Limite Taxa
L 83%
Pontuação Rígida 89%
Pontuação Suave 89%

Tabela 24: Taxa de acerto da Rede Bayesiana

O Algoritmo 14, proposto no capítulo 5, foi executado 60 vezes, metade utilizando


pontuação suave e metade utilizando pontuação rígida, sendo o melhor caso detalhado
acima. Com a pontuação rígida se obteve uma média de acertos de 86,5% e um desvio
padrão de 1,14%. A pontuação suave obteve uma media de 86,57% e um desvio padrão
de 1,48%. Na Figura 6 é mostrado o desempenho mínimo, médio e máximo, utilizando
a pontuação rígida (esquerda) e suave (direita).

Foi também testado o mesmo algoritmo utilizando o parâmetro Ni = 3, totalizando


300 iterações no algoritmo de otimização Hill-Climbing. Verificou-se que, a partir de 200
iterações, não houve progresso no processo de otimização.
75

(a)

(b)

Figura 16: Desempenho mínimo, médio e máximo dos otimizadores: (a) pontuação
rígida e (b) pontuação suave
76

6.1 Comparação com Rede Neural

Para o propósito de comparação, foi implementada uma Rede Neural (RN) Per-
ceptron de Múltiplas Camadas (MLP), feed-forward (sem realimentação) e com backpro-
pagation (retropropagação do erro), conforme (21) e (28). Como função de ativação,
utilizou-se a função tangente hiperbólica para as camadas ocultas e a função linear
para a camada de neurônios de saída.

Como entrada da Rede Neural, foram utilizadas as mesmas informações fornecidas


à Rede Bayesiana (energia, quantidade de DPs, ruído), porém aplicando logaritmo
de base 10. A camada de neurônios de saída, a classificação, está representada na
tabela 25:

Valor Significado
1 Irrelevante
2 Baixo
3 Médio
4 Alto

Tabela 25: Saída da RN

O pré-processamento do vetor de entrada (aplicação de log10 em seus valores) se


mostrou eficaz para o aumento da precisão da RN, visto que a ordem de grandeza das
entradas do conjunto de treinamento da RN varia consideravelmente. Treinou-se a RN
com 100 exemplos, validou-se com mais 50 e testou-se com outros 50. Variaram-se o
número de neurônios sigmoidais da camadas ocultas de um a dez e a quantidade de ca-
madas ocultas de uma a três, executando-se 100 treinamentos independentes para cada
configuração da RN, sendo aplicado o algoritmo de otimização Levenberg-Marquardt.
Obteve-se um máximo de 83% de classificações corretas com cinco neurônios na ca-
mada oculta, sendo esta, inferior à abordagem por Rede Bayesiana proposta neste tra-
balho.

O mesmo pré-processamento aplicado à Rede Bayesiana (aplicação de log10 em


seus valores) não apresentou melhoria.
77

6.2 Considerações sobre os Resultados

Os seguintes pontos foram observados durante a execução do método:

- O mesmo pré-processamento aplicado à MLP, quando aplicado à Rede Bayesi-


ana, não levou à melhorias no resultado. Isto deve-se ao fato dos valores contí-
nuos passarem pelo algoritmo otimizador-discretizador Hill-Climbing (subseção
5.1.4), que, de acordo com os valores encontrados, divide em intervalos otimiza-
dos;

- Para melhores resultados, os valores Emax e Amax devem ser iguais ao valor má-
ximo de energia e ruído, respectivamente, obtidos nos ensaios envolvidos. Isto
assegura que todos os valores possíveis sejam considerados pelo otimizador. Es-
tipular valores desnecessariamente altos para Emax e Amax torna o espaço de
busca maior que o suficiente, o que diminui a qualidade do otimizador;

- Quanto maior e mais diversificada for a amostra utilizada para treinamento, me-
lhor será a classificação, pois a Rede Bayesiana utiliza-se de ocorrências e pro-
babilidades para aprendizado dos padrões (A, B, C e D). Com a utilização do
gerador de casos, a quantidade de casos é aumentada, mas não conhecimento
sobre o assunto não é aumentado, pois o gerador de casos utiliza o conhecimento
contido nos casos reais e replica-o em novos casos;

- A pontuação suave não se mostrou superior a pontuação rígida. Indica-se, por-


tanto, a utilização da pontuação rígida, pois provoca a criação de menos interva-
los que a pontuação suave (um novo intervalo apenas é criado caso haja melhora
na classificação), o que leva a uma otimização mais rápida e uma Rede Bayesiana
com menos valores discretos. Quanto menos valores discretos, mais rápida é a
inferência na RB;

- Valores em que Ni > 2 não resultaram em melhora na classificação realizada pela


Rede Bayesiana;

- Verifica-se que não houve progresso na otimização para valores de I (iteração)


entre 70-100 e 120-200;

- O único critério de parada utilizado pelo otimizador é o número de iterações;

- Não há indicação de que a RN MLP apresentada na seção 6.1 seja a mais recomen-
dada para o problema de classificação de transformadores de potência segundo
78

a ótica do ensaio acústico, apenas de que ela é adequada ao problema. Portanto,


a comparação entre a RN (MLP) e a RB seguem os critérios estabelecidos anteri-
ormente (comparar a RB proposta a uma RN).
79

7 Conclusão

Nesta dissertação, apresentou-se uma metodologia capaz de criar uma Rede Baye-
siana adequada à classificação de níveis de falhas incipientes em transformadores de
potência. A RB é capaz de indicar não somente o estado do transformador, mas tam-
bém qual a porcentagem de crença no resultado, dadas as evidências apresentadas.
Foi proposto um método de otimização dos limites dos parâmetros usados pela Rede
Bayesiana, em que um exemplo ilustrou a capacidade do algoritmo de aumentar a taxa
de classificações corretas da Rede. Foram dadas duas alternativas de pontuação a se-
rem usadas no otimizador: pontuação suave e pontuação rígida. Obteve-se, com a
pontuação suave, um desempenho equivalente ao da pontuação rígida. A metodolo-
gia proposta foi comparada à uma abordagem por Rede Neural, tendo-se obtido um
melhor desempenho por parte da primeira.

Uma comparação quantitativa com os trabalhos apresentados na seção 1.1 não é


possível, pois utilizam diferentes fontes de dados e uma quantidade diferente de amos-
tras para treinamento. Qualitativamente é possível verificar as seguintes vantagens:

1. Utilização de um discretizador em alternativa a utilização de faixas com valores


fixos;

2. Classificação do grau de severidade de possível degradação do equipamento;

3. Informação da probabilidade de ocorrência de cada classificação.

As desvantagens são:

1. Não indica o tipo de defeito existente;

2. Não indica o elemento causador da descarga parcial;

3. Quantidade inferior de amostras para treinamento.


80

7.1 Perspectivas Futuras

Uma melhoria que já foi implementada, apresentada no apêndice B, mas ainda


carece de ensaios para testes, é a utilização de todos os canais na classificação. Desta
forma, será possível dar um tratamento diferenciado a cada canal, por parte da RB. Esta
abordagem é importante, pois permite que determinados canais sejam privilegiados
em detrimento de outros (o comutador, por exemplo, pode ser ignorado por se tratar
de uma parte mecânica). A dificuldade encontra-se na quantidade de casos necessários
para o treinamento da Rede Bayesiana.

Outra melhoria ainda não implementada seria a adição de informações da AGD


dentro da Rede Bayesiana para aumentar a taxa de acerto das classificações. Por se tra-
tar de um método bastante conhecido e com muitos ensaios realizados, pode auxiliar
na correta classificação da Rede Bayesiana.

Novos ensaios em transformadores de potência estão sendo programados para se-


rem realizados na concessionária de energia, os quais servirão para alimentar a Rede
Bayesiana. A contínua adição de novos casos é de alta relevância, pois:

- Permite a consolidação do treinamento da Rede Bayesiana, tornando-a cada vez


mais eficaz em classificar transformadores de potência;

- Possibilitará ao especialista a agregação de novas informações ao processo de


classificação;

- É possível que, na medida em que novas informações forem agregadas ao pro-


cesso de classificação, a metodologia seja ampliada para, não somente indicar o
estado do equipamento, mas também identificar o tipo de defeito no transforma-
dor.

À medida com que se popularizem os sensores acústicos utilizados e se torne viá-


vel o monitoramento em tempo integral do transformador, a metodologia poderá ser
modificada para gerar classificações em tempo real, aumentando a possibilidade de
resposta do engenheiro de manutenção na prevenção de falhas no equipamento.
81

Publicações

1 PALHARES, P. H. da S. et al. Rede bayesiana para estimação de falhas incipientes


em transformadores de potência utilizando detecção de descargas parciais. In: VIII
CONPEEX - CONGRESSO DE PESQUISA, ENSINO E EXTENSãO. [S.l.], 2011.
Resumo Extendido.

2 PALHARES, P. H. da S. et al. Metodologia para apoio à decisão baseada em rede


bayesiana para estimação de grau de degradação de transformadores de potência. In:
XLIII SBPO - SIMPóSIO BRASILEIRO DE PESQUISA OPERACIONAL. Ubatuba, SP,
2011.

3 PALHARES, P. H. da S. et al. Rede bayesiana para suporte à decisão no processo


de manutenção preventiva de transformadores de distribuição de energia elétrica. In:
SBAI 2011 - X SIMPóSIO BRASILEIRO DE AUTOMAçãO INTELIGENTE. São João
Del Rei, MG, 2011.

4 PALHARES, P. H. da S. et al. Rede bayesiana para estimação de falhas incipientes


em transformadores de potência utilizando detecção de descargas parciais por
emissão acústica. In: CBIC 2011 - X CONGRESSO BRASILEIRO DE INTELIGêNCIA
COMPUTACIONAL. Fortaleza, CE, 2011.

5 PALHARES, P. H. da S. et al. Classificador bayesiano associado à técnica de ensaios


de emissão acústica para a análise de descargas parciais em transformadores de
potência. In: IV SBSE - SIMPóSIO BRASILEIRO DE SISTEMAS ELéTRICOS. Goiânia,
GO, 2012.
82

Referências Bibliográficas

1 AZEVEDO, C. H.; RIBEIRO, C. J.; MARQUES, A. P. Methodology for the


detection of partial discharges in power transformers using the acoustic method. In:
EUROCON. San Petersburg, 2009.

2 MOHAMMADI, E. et al. Partial discharge localization and classification using


acoustic emission analysis in power transformer. In: 31st INTERNATIONAL
TELECOMMUNICATIONS ENERGY CONFERENCE - INTELEC. San Petersburg,
2009.

3 TANG, W. H.; LU, Z.; WU, Q. H. A bayesian network approach to power


system asset management for transformer dissolved gas analysis. In: THIRD
INTERNATIONAL CONFERENCE ON ELECTRIC UTILITY DEREGULATION AND
RESTRUCTURING AND POWER TECHNOLOGIES. [S.l.], 2008.

4 HAO, X.; CAI-XIN, S. Artificial immune network classification algorithm for fault
diagnosis of power transformer. IEEE TRANSACTIONS ON POWER DELIVERY, v. 22,
n. 2, 2007.

5 KUO, C. Artificial recognition system for defective types of transformer by acoustic


emission. Expert Systems with Applications, v. 36, n. 7, 2009.

6 MORAIS, D. R.; ROLIM, J. G. A neural network for detection of incipient faults in


transformers based on the dissolved gas analysis of insulating oil. In: VI INDUSCON.
Joinville, 2004.

7 MARTIGNONI, A. Transformadores. 8. ed. [S.l.]: Globo, 1991. 307 p.

8 FITZGERALD, A. E.; KINGSLEY, J. C.; UMANS, S. D. Máquinas Elétricas. 6. ed.


[S.l.]: Bookman, 2003. 651 p.

9 SOUZA, D. C. P. Falhas e defeitos ocorridos em transformadores de potência do sistema


elétrico da Celg, nos últimos 28 anos: um estudo de caso. 101 f. Dissertação (Mestrado
em Engenharia Elétrica e de Computação) — Escola de Engenharia Elétrica e de
Computação da Universidade Federal de Goiás, Goiânia, 2008.

10 BUTLER-PURRY, K. L.; BAGRIYANIK, M. Identifying transformer incipient


events for maintaining distribution system reliability. In: Proceedings of the 36t h Hawaii
International Confererence on System Sciences. [S.l.: s.n.], 2003.

11 AZEVEDO, C. H. B. Metodologia para a Eficácia da Detecção de Descargas Parciais por


Emissão Acústica como Técnica Preditiva de Manutenção em Transformador de Potência. 89 f.
Dissertação (Mestrado em Engenharia Elétrica e de Computação) — Universidade
Federal de Goiás, Goiânia, 2009.
83

12 AZEVEDO, C. H.; RIBEIRO, C. J.; MARQUES, A. P. Requisitos e procedimentos


para a melhoria na detecção de descargas parciais em transformadores de potência
pelo método de emissão acústica. In: XX SNPTEE SEMINÁRIO NACIONAL DE
PRODUÇÃO E TRANSMISSÃO DE ENERGIA ELÉTRICA. Recife, 2009.

13 LEE, J. P. et al. Dissolved gas analysis of power transformer using fuzzy clustering
and radial basis function neural network. Journal of Electrical Engineering & Technology,
v. 2, n. 2, p. 157–164, 2007.

14 ARANTES, J. G. Diagnóstico de Falhas em Transformadores de Potência pela Análise de


Gases Dissolvidos em Óleo Isolante Através de Redes Neurais. 115 f. Dissertação (Mestrado
em Ciências) — Universidade Federal de Itajubá, Itajubá, 2005.

15 JúNIOR, A. L. Manutenção pré-corretiva em transformadores de potência - um novo


conceito de manutenção. 186 f. Tese (Doutorado em Engenharia Elétrica) — Escola de
Engenharia de São Carlos, Universidade de São Paulo, São Carlos, 2009.

16 SOONG, T. T. Fundamentals of Probability and Statistics for Engineers. 1. ed. [S.l.]:


Wiley, 2004. 391 p.

17 JENSEN, F. V.; NIELSEN, T. D. Bayesian Networks and Decision Graphs. 2. ed. [S.l.]:
Springer, 2007. 447 p.

18 MITCHELL, T. M. Machine Learning. 1. ed. [S.l.]: McGraw-Hill, 1997. 432 p.

19 DARWICHE, A. Modeling and Reasoning with Bayesian Networks. 1. ed. [S.l.]:


Cambridge University Press, 2009. 548 p.

20 COOPER, G. F.; HERSKOVITS, E. A bayesian method for the induction of


probabilistic networks from data. In: Machine Learning. [S.l.: s.n.], 1992. p. 309–347.

21 MICHALEWICS, Z.; FOGEL, D. B. How to Solve It: Modern Heuristics. 1. ed. [S.l.]:
Springer, 2000. 467 p.

22 RIGGELSEN, C. Approximation Methods For Efficient Learning of Bayesian Networks.


160 f. Tese (Doutorado em Ciências da Computação) — Department of Information
and Computing Sciences, Utrecht University, Holanda, 2006.

23 ALCOBé, J. R. a. 140 f. Tese (Doutorado) — Escola Universitària Politècnica de


Mataró, Av. Puig i Cadafalch 101-111, 08303 Mataró, Catalonia, Spain, 2006.

24 HECKERMAN, D. A Tutorial on Learning With Bayesian Networks. Redmond, WA


98052, 1996. 57 p.

25 TSURUOKA, Y.; TSUJII, J. Training a naive bayes classifier via the em algorithm
with a class distribution constraint. In: Proceedings of the seventh conference on Natural
language learning at HLT-NAACL 2003 - Volume 4. Stroudsburg, PA, USA: Association
for Computational Linguistics, 2003. (CONLL ’03), p. 127–134. Disponível em:
<http://dx.doi.org/10.3115/1119176.1119193>. Acesso em: 14 maio 2011.
26 FRIEDMAN, N. The bayesian structural em algorithm. In: Proceedings of the
Fourteenth Conference Annual Conference on Uncertainty in Artificial Intelligence (UAI-98).
San Francisco, CA: Morgan Kaufmann, 1998. p. 129–13.
84

27 EIBEN, A. E.; SMITH, J. E. Introduction to Evolutionary Computing. [S.l.]: Springer,


2003. 293 p.

28 HAYKIN, S. Redes Neurais - Princípios e Prática. 2. ed. [S.l.]: Bookman, 2000. 906 p.
85

APÊNDICE A -- Tabelas com Dados dos Ensaios


de Emissão Acústica

As tabelas abaixo mostram o resultado do pré-processamento dos dados adquiri-


dos pelos sensores acústicos dos ensaios de EA realizados. As colunas representam os
nós da RB conforme a subseção 5.1.1.

Classificação Canal Ruído DPs Energia Acumulada


01 5721 102 188514
02 8168 138 351271
03 6245 101 249322
04 16816 294 745499
05 9253 158 320351
06 7125 125 550169
07 10341 188 333298
B
08 17372 321 830454
09 8515 161 172975
10 34498 6566 411489
11 12145 205 180486
12 6543 131 213528
13 6397 112 281738
14 22013 388 573317

Tabela 26: Transformador 1 da subestação A


86

Classificação Canal Ruído DPs Energia Acumulada


15 12710 254 324852
16 22180 411 644702
17 27227 679 689243
18 81617 2970 2227879
19 80364 3633 1650470
20 60870 2106 2021603
21 31450 845 695704
B
22 65584 2323 1914216
23 11556 212 235998
24 24326 446 543696
25 24992 479 315926
26 11573 239 292984
27 31384 775 732914
28 215948 13137 3943731

Tabela 27: Transformador 2 da subestação A

Classificação Canal Ruído DPs Energia Acumulada


1 383 8 103492
2 1156 37 133383
3 655 12 161973
4 3180 112 314209
5 2602 81 256992
6 472759 27490 527440
7 498 2 174261
C
8 29681 1290 206223
9 378 5 75450
10 770 17 158246
11 1143 33 85862
12 153 3 42037
13 9040 380 187638
14 2107 41 343638

Tabela 28: Transformador 1 da subestação B


87

Classificação Canal Ruído DPs Energia Acumulada


15 154 3 70915
16 241 5 147228
17 270 8 148578
18 428 8 370893
19 4823 1061 177462
20 4090 180 680578
21 432 14 141406
B
22 4075 107 557157
23 915 21 78729
24 972 31 233548
25 732 35 52696
26 146 2 51079
27 327 6 237075
28 616 14 352633

Tabela 29: Transformador 2 da subestação B

Classificação Canal Ruído DPs Energia Acumulada


1 73 0 27111
2 91 0 53713
3 56 0 19945
4 64 1 54279
5 52 0 152784
6 105 0 388153
7 85 1 195003
A
8 130 0 330265
9 52 1 170937
10 68 2 359265
11 67 1 28206
12 69 1 28240
13 64 1 66170
14 58 1 130123

Tabela 30: Transformador 1 da subestação C


88

Classificação Canal Ruído DPs Energia Acumulada


15 86 3 42069
16 151 21 60353
17 61 1 31293
18 63 2 45601
19 78 0 177113
20 122 5 392685
21 137 3 186472
B
22 721 24 533158
23 85 4 201928
24 118 1 358912
25 58 1 24306
26 80 0 34129
27 99 1 52743
28 125 3 103737

Tabela 31: Transformador 2 da subestação C

Classificação Canal Ruído DPs Energia Acumulada


1 5 0 11
2 12 0 80
3 3 0 32
4 5 0 169
5 4 0 47
6 1 0 134
7 0 0 11
A
8 3 0 143
9 4 0 21
10 0 0 0
11 4 0 14
12 1 0 32
13 1 0 10
14 3 0 84

Tabela 32: Transformador 1 da subestação D


89

Classificação Canal Ruído DPs Energia Acumulada


15 23 0 52
16 545 777238 6153097
17 3 0 78
18 356 8 3109
19 449 7 2183
20 70997 668754 62423
21 111 2 862
D
22 24662 14703 3081
23 408 9 2099
24 9 0 103
25 477 777310 248890
26 333628 444156 5299257
27 36 0 49
28 411 777554 16101057

Tabela 33: Transformador 2 da subestação D

Classificação Canal Ruído DPs Energia Acumulada


1 2997 57 142662
2 4844 109 325373
3 23258 17296 139847
4 1679 28 216609
5 3328 50 822162
6 5248 92 1534586
7 7419 118 1016586
C
8 11420 148 1540636
9 2153 43 942512
10 3240 63 1659481
11 2213 41 122924
12 2174 45 164999
13 17183 301 362782
14 13962 234 579521

Tabela 34: Transformador 1 da subestação E


90

Classificação Canal Ruído DPs Energia Acumulada


15 23 0 52
16 545 777238 6153097
17 3 0 78
18 356 8 3109
19 449 7 2183
20 70997 668754 62423
21 111 2 862
B
22 24662 14703 3081
23 408 9 2099
24 9 0 103
25 477 777310 248890
26 333628 444156 5299257
27 36 0 49
28 411 777554 16101057

Tabela 35: Transformador 2 da subestação E

Classificação Canal Ruído DPs Energia Acumulada


1 3592 68 142920
2 2495 43 246489
3 1315 29 92899
4 4859 95 1747823
5 4709 95 760312
6 6079 109 1498817
7 1400 17 197288
B
8 5106 80 1281562
9 1758 28 58167
10 2040 21 83456
11 4803 295 424546
12 3313 54 115567
13 4505 94 943996
14 5722 106 1018297

Tabela 36: Transformador 1 da subestação F


91

Classificação Canal Ruído DPs Energia Acumulada


15 2851 42 103671
16 1236 23 107455
17 1051 25 61376
18 5121 928 2172025
19 7613 738 1140658
20 9171 1109 2357190
21 4144 123 764381
B
22 8791 696 1594738
23 1234 21 49020
24 3411 50 182697
25 4864 87 517076
26 3323 59 82161
27 4938 84 1593205
28 8020 1046 1206076

Tabela 37: Transformador 2 da subestação F


92

APÊNDICE B -- Sistema DPTrafo

Durante a elaboração da metodologia proposta, foi desenvolvido um sistema, DP-


Trafo, que, entre outras funções, inclui a metodologia apresentada. Utiliza-se de um
banco de dados gerenciado por um SGBD, Postgre, para armazenamento dos dados
recolhidos pelos ensaios de EA, dos transformadores e de seus fabricantes. O sistema
possibilita o cadastro e atualização destes dados, geração de gráficos e, principalmente,
a classificação dos transformadores de acordo com a metodologia apresentada.

Todos os dados utilizados a seguir são fictícios, criados apenas para demonstração
das funcionalidades do software.

B.1 Tela de Login

Na tela de login, o cliente deverá entrar com seu usuário e senha previamente ca-
dastrados. Caso algum dos dois esteja incorreto, o sistema informará o erro ao cliente.

B.2 Tela Inicial

É a tela inicial do sistema. É composta por uma barra superior contendo o nome
do usuário, o botão sair, o menu com as telas do sistema e um quadro inferior onde
são carregadas as telas do sistema. Inicialmente, é carregada uma tela com os usuários
conectados no sistema.
93

Figura 17: Tela de login do sistema

Figura 18: Tela inicial

B.3 Tela de Papéis (Permissões ao usuário)

Os papéis definem as permissões de cada tipo de usuário no sistema. Desta forma,


é possível separar cada classe de usuários (Administradores do Sistema, Engenheiros
e Técnicos) e suas permissões. Inicialmente é listado cada papel cadastrado e, caso o
usuário tenha permissão, é dada a opção de cadastrar novos papéis, editá-los e excluí-
los. É localizado no menu "Controle de Acesso" e no item "Papel".
94

Figura 19: Tela de consulta de papéis

B.4 Cadastro de Usuários

A figura 21 mostra a tela de consulta de usuários cadastrados. Caso o usuário


tenha permissão, será disponibilizado a opção de excluir, editar e incluir um novo
usuário no sistema. Na figura 22, é mostrada a tela de cadastro de um novo usuário.
Para cadastrar um novo usuário é necessário preencher os campos, selecionar os papéis
(pelo menos um papel é requerido) e selecionar permissões individuais para o usuário.
É localizado no menu "Controle de Acesso" e no item "Usuário".

B.5 Cadastro de Fabricantes e Projetos

A tela de consulta de fabricantes é mostrada na figura 23. Clicando em novo,


pode-se cadastrar um novo fabricante, assim como seus projetos, como é mostrado
na figura 24. É necessário o preenchimento das informações, adição de projetos e o sal-
vamento através do clique no botão verde. É localizado no menu "Tabelas" e no item
"Fabricantes e Projetos".

B.6 Cadastro de Transformadores

O cadastro de transformadores é feito como os demais cadastros do sistema. Con-


forme mostrado na figura 26, é possível informar a tensão de até três enrolamentos,
potência, número de série, número identificador da CELG D, ano de fabricação, co-
mutador, fabricante, projeto, se é ou não um autotransformador e se é trifásico ou
monofásico. Após preenchidas as informações, pode ser salvo através do botão verde.
É localizado no menu "Tabelas" e no item "Transformadores".
95

B.7 Cadastro de Ensaios

Após ter sido cadastrado fabricante, família e transformadores, é possível cadastrar


o ensaio. A figura 28 mostra a tela de cadastro do mesmo. É possível inserir quaisquer
transformadores ou autotransformadores no ensaio. Durante o cadastro do ensaio,
o usuário é obrigado a informar a classificação do transformador pelo método AGD,
além das demais informações sobre o ensaio. É localizado no menu "Ensaio" e no item
"Cadastro".

Figura 27: Tela de consulta de ensaio


96

Figura 28: Tela de cadastro de ensaio

B.8 Carregamento de arquivos de ensaios AGD

Permite upload de arquivos relacionados à análise de gases dissolvidos. Escolhe-se


o transformador, o tipo de arquivo e então adiciona-se os arquivos. Após adicionar
todos os arquivos, clica-se no botão Upload, que realizará o salvamento dos arquivos
no banco de dados. O limite do tamanho do arquivo é o disponível na memória do
servidor, uma vez que o arquivo precisa estar na memória para ser persistido no banco
de dados. É localizado no menu "Ensaio" e no item "Arquivos AGD".
97

Figura 29: Tela de upload de arquivos relacionados à AGD

B.9 Carregamento de arquivos de ensaios de EA

A rotina para carregamento de arquivos de ensaios de EA funciona de maneira


idêntica ao de arquivos AGD. É localizado no menu "Ensaio" e no item "Arquivos EA".

B.10 Arquivo Ascii gerado pelo AEWIN

O sistema para coleta de dados dos sensores é o AEWIN. Para trabalhar com os
dados coletados é necessário uma forma de exportação de dados, que é feita através
de um arquivo ASCII. O DPTRAFO permite a importação desse arquivo. Para que
isso fosse possível, foi implementada uma rotina de multithreading (múltiplas linhas de
execução em concorrência com o software principal), que é responsável por processar,
em plano de fundo, os arquivos. É localizado no menu "Ensaio" e no item "Carregar
Arquivos ASCII".

Antes da importação devemos escolher o ensaio e definir quais os canais envolvi-


dos em cada transformador, para que o sistema possa vincular cada dado importado
ao seu devido transformador.

A rotina fez-se necessária por causa do crescimento exponencial do arquivo gerado


98

por ensaios onde existem transformadores com suspeita de defeito. Um exemplo é o


ensaio realizado em A, onde o arquivo é de cerca de 400kb, que é processado em cerca
de segundos. Já o arquivo do ensaio B tem cerca de 220mb, com aproximadamente três
milhões e 900 mil hits. O processamento deste arquivo, após múltiplas otimizações no
código, demora cerca de 40 minutos em um Core i5 de 2.53GHz e 4gb de RAM DDR3.

O arquivo, além de importado, também é persistido de forma compactadada (zip).

Figura 31: Seleção de ensaio para carregamento de arquivos ASCII

Figura 32: Preenchimento dos canais do transformador


99

Figura 33: Carregamento de arquivos ASCII

B.11 Tela de consulta de tarefas (linhas de execução ou


threads)

Quando importamos um arquivo ASCII, o sistema gera uma tarefa que pode ser
consultada na tela de consulta de tarefas.

Figura 34: Tela de consulta de tarefas

B.12 Gráficos

Os gráficos a seguir estão localizados no menu "Gráficos". Todos são gerados a


partir de um transformador, podendo-se escolher vários ensaios através de um sistema
de abas. Todos os ensaios possuem filtragem por tempo (em segundos e milisegundos).
Todos, com excessão do gráfico descrito em B.12.1, possuem as opções a seguir:
100

- Deslocamento do gráfico em graus;

- Resolução do ângulo (quantos pontos considerar entre um ângulo e outro);

- Escolha de canais;

- Corrigir valores de acordo com a fase do Hit, ou seja, tentar adequar em torno de
90◦ e 270◦ , os hits com indicação de DPs;

- Filtro de canais com indicação de DPs, que plota o gráfico do canal apenas se a
quantidade de hits, com diferença de fase aproximada de 180◦ , atingir o limiar
configurado na tela de configuração do classificador.

B.12.1 Gráfico de Energia x Tempo

O gráfico de Energia x Tempo traz o tempo no eixo horizontal em segundos e a


devida energia de cada hit. Para que gráficos com quantidade muito grande de hits
fossem possíveis de serem plotados, o sistema faz sampling (amostragem) dos hits.
São colhidos 2000 pontos a serem plotados no gráfico.

Figura 35: Gráfico Energia x Tempo


101

B.12.2 Gráfico polar de distribuição de hits

O relatório de distribuição polar de hits analisa a diferença de ângulo entre dois


hits consecutivos e então plota, em um gráfico polar, a quantidade de hits com aquela
defasagem. Existe a opção de correção de valores de acordo com a fase do hit, que irá
ajustar o ângulo do hit em torno dos 180◦ . Caso esteja desmarcada, o sistema levará
em consideração apenas a diferença de fase e não a fase do hit em si. Vale ressaltar que
diferenças de 180◦ indicam presença de descargas parciais.

Figura 36: Ensaio com indicação de DPs nos canais 6 e 12


102

Figura 37: Ensaio sem indicação de DPs

Figura 38: Gráfico da figura 38 plotado sem a correção dos valores de acordo com a
fase do hit. Observa-se atividade em torno dos 180◦ para os canais com indicação de
DPs;
103

B.12.3 Gráfico de dispersão de distribuição de hits

Similar ao gráfico polar, contendo os mesmos dados, porém em forma de um grá-


fico de dispersão.

Figura 39: Gráfico de Distribuição de Hits (Dispersão) com indicação de DPs

Figura 40: Gráfico de Distribuição de Hits (Dispersão) sem indicação de DPs

Figura 41: Gráfico da figura 47 plotado sem a correção dos valores de acordo com a
fase do hit. Observa-se atividade em torno dos 180◦ .
104

B.12.4 Gráfico Ângulo x Tempo

Este gráfico traz as defasagens dos hits pelo tempo em que eles ocorrem. Nova-
mente, como no gráfico Energia x Tempo, o sistema faz sampling (amostragem) dos
valores, plotando no total de 2000 pontos.

Figura 42: Gráfico Ângulo x Tempo com indicação de DPs

Figura 43: Gráfico Ângulo x Tempo sem indicação de DPs

B.12.5 Gráfico Amplitude x Fase

Este gráfico plota a amplitude dos pontos pela fase em que ocorreram. Também é
feito uma amostragem com 2000 pontos.
105

Figura 44: Gráfico de Amplitude x Fase com indicação de DPs

Figura 45: Gráfico de Amplitude x Fase sem indicação de DPs

B.13 Configurador

Esta tela é responsável por configurar as principais funções do sistema. Deve ser
utilizada com cautela, pois altera funções de extrema importância para o classificador.
Localiza-se no menu "Classificação" e no item "Configurador".
106

Figura 46: Tela de configuração do sistema

B.13.1 Estrutura

O sistema fornece dois mecanismos a serem utilizados na estrutura da Rede Baye-


siana. O primeiro utiliza o algoritmo apresentado em 5.1.2, onde utiliza-se de um
mecanismo de escolha entre o método Hill-Climbing e o o método do K2. o segundo
utiliza-se da estrutura de um classificador ingênuo, semelhante ao Gerador de Casos,
ilustrado na figura 15.

O mecanismo preferido é o de aprendizagem, pois consegue captar a estrutura,


baseado nos dados do treinamento. Porém sugere-se que seja utilizado a estrutura
ingênua enquanto não houver casos suficientes para aprendizado da mesma. Deter-
minar uma quantidade aproximada de casos necessários não é possível, pois varia de
acordo com a quantidade de nós da Rede Bayesiana.

B.13.2 Tipo de Classificador

B.13.2.1 Pior Caso

O classificador atuará no canal com maior atividade com indicação de DP, con-
forme apresentado na metodologia do capítulo 5. Difere, porém, no nó energia, que foi
dividido em dois: energia acumulada associada a DP e energia acumulada associada a
ruído.
107

B.13.2.2 Canal a Canal

O classificador irá utilizar as informações de todos os canais para estruturar a Rede


Bayesiana. Os seguintes nós serão adicionados, canal a canal:

- Hits associados à DPs.

- Hits associados à ruído.

- Energia acumulada associada à DPs.

- Energia acumulada associada à ruído.

Desta forma, é possível priorizar certos canais, em detrimento de outros, para se cal-
cular a classificação, porém necessita-se de uma quantidade maior de casos para trei-
namento, por possuir mais nós que a RB utilizada no pior caso.

B.13.3 Otimizador

Conforme apresentado na subseção 5.1.4, a metodologia utiliza um otimizador


Hill-Climbing para discretizar os valores contínuos dos nós da RB. O configurador exibe
duas configurações relacionadas ao otimizador:

- Iterações do Otimizador;

- Repetições.

O primeiro item representa a quantidade de iterações realizadas no laço do Hill-Climbing,


afim de encontrar o valor ótimo. O segundo item representa quantas vezes o otimiza-
dor será executado(reiniciado). Logo, sendo X iterações e N repetições, o otimizador
será executado X · N vezes.

B.13.4 Quantidade de Hits com 180◦ para considerar DP

Esta configuração alimenta o filtro de canais associados à DPs nos gráficos do sis-
tema.
108

B.14 Treinamento da Rede Bayesiana

Localizada no menu "Classificação" e no item "Manual (Treinamento)", é a tela uti-


lizada pelo especialista para informar manualmente a classificação do sistema. Além
da classificação, é possível informar a quantidade de clusters, a região, interpretação
do resultado, observação e responsável pelo treinamento, informações que serão utili-
zadas em relatórios. Um ensaio que possui uma classificação manual não deverá ser
classificado pela RB, pois considera-se a classificação manual no treinamento da rede.
A alteração de um treinamento deve ser feita adicionando um novo treinamento.

Figura 47: Tela de treinamento da RB


109

B.15 Classificador

A tela do classificador, localizada no menu "Classificação", item "Classificador", é


responsável por realizar a classificação dos transformadores. Possui três opções para
treinamento da Rede Bayesiana:

• Utilizar informações exclusivamente do transformador selecionado;

• Utilizar informações de ensaios de transformadores com o mesmo projeto;

• Utilizar informações de todos os ensaios.

Após selecionar uma das opções, o sistema verificará a necessidade de execução


do otimizador. Esta verificação é automática e, caso seja necessário, o otimizador será
executado. Em seguida, a Rede Bayesiana será construída e o sistema realizará a clas-
sificação de acordo com as configurações do sistema. Será apresentada a classificação
anterior e dada a opção do preenchimento de informações utilizadas no relatório espe-
cífico: quantidade de clusters, região, interpretação, observação e responsável.
110

Figura 48: Resultado do classificador

B.16 Relatórios

O sistema disponibiliza duas formas de relatório, geradas a partir de um modelo


criado por engenheiros da Celg e localizados no menu "Relatórios". Seus dados são
preenchidos por:

- Cadastro dos transformadores, fabricantes e projetos;

- Cadastro do ensaio, onde são informadas as temperaturas inicial e final, umidade


inicial e final, subestação, instrumento de medição, duração do ensaio e classifi-
cação do transformador pelo método AGD;
111

- Durante o treinamento ou classificação, onde são informadas a quantidade e lo-


calização de clusters, interpretação dos resultados, conclusão, observações e res-
ponsável técnico;

- Durante a geração do relatório geral, é solicitada as observações e o nome do


responsável técnico.

Os modelos dos relatórios, propostos neste trabalho, estão no Anexo A e Anexo B.


112

Figura 20: Tela de cadastro de papéis

Figura 21: Tela de consulta de usuários


113

Figura 22: Tela de cadastro de usuários

Figura 23: Tela de consulta de fabricantes


114

Figura 24: Tela de cadastro de fabricantes


115

Figura 25: Tela de consulta de transformadores

Figura 26: Tela de cadastro de transformadores


116

Figura 30: Tela de upload de arquivos relacionados à EA


Projeto de Relatório Geral - Ensaio de Detecção de Descargas Parciais
P&D263
em Transformador de Potência

Equipamento TD0000089 Número total de Ensaio do Equipamento 03


Potência Tensão
Fabricante Toshiba 33,33 138/13,8
(MVA) (kV)

Quantidade de sinais-hits associados às DPs/hora


Data *C (Energia acumulada associada às DPs/hora) nos Canais
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
20/09/2011 AA 100 0
Nível 1 (500)
25/02/2012 BA 200 0
Nível 2 (600)
28/07/2013 CB 300 0
Nível 1 (800)
13/09/2014 DC 1000 0
Nível 4 (2000)
ANEXO A -- Relatório Geral

* C: Classificação atual dos resultados associados entre as técnicas preditivas de emissão acústica e de análise de gases dissolvidos.

Observações:

Data: 27/09/2011

___________________________________

Nome do Responsável Técnico


117
118

ANEXO B -- Relatório Específico

Projeto de Relatório de Ensaio de Detecção de Descargas Parciais


P&D-263
em Transformador de Potência

Data do Número do Ensaio


Equipamento: TD0000089 05/07/2011 1/1
Ensaio: do Equipamento:
Potência:
Fabricante: Toshiba 33,33 Tensão (kV) 138/13,8
(MVA)

Subestação AER-S Instrumento de Medição: DISP -28


Duração do ensaio o
24:00:00 Temperatura ( C) Umidade do ar (%)
(hh:mm:ss)

Canais Quantidade
com sinais de cluster no
Região de localização dos
associado à gráfico de Interpretação dos resultados
clusters no equipamento
descargas três
parciais dimensões
3, 5, 9 4 1. Buchas de AT e BT; 1. Descargas parciais nas buchas
2. Região do CDC; de AT e BT;
3. Parte superior do núcleo 2. Ruído no CDC;
3. Descargas parciais na parte
superior do núcleo

Classificação do resultado
Conclusão da
Emissão Análise de gases Ação Recomendada
Geral
Acústica dissolvidos
B A BA Continuar a operar normalmente

Dentro da Satisfatório Nível 1


normalidade

Nota Técnica e Observações:


Continuar a operar o equipamento normalmente. Realizar novo ensaio de EA e AGD daqui a 12 meses.

Data: 29/09/2011

Nome do Responsável Técnico