Você está na página 1de 12

Aplicao da minerao de dados anlise das condies de operao de transformadores

Luciana Gomes Castanheira (UEMG) lugcastanheira@yahoo.com.br

Aplicao da minerao de dados anlise das condies de operao de transformadores

RESUMO O processo de descoberta de conhecimento em bases de dados (Knowledge Discovery in Databases KDD) vem sendo amplamente utilizado como ferramenta para auxiliar a tomada de deciso. Neste trabalho, esse processo estudado tendo como objetivo avaliar a utilizao de mtodos de minerao de dados aplicados em reas da Engenharia Eltrica, sendo a sua abordagem sobre uma base de dados oriunda de testes de cromatografia de transformadores de potncia. A minerao de dados aplicada para obter a classificao de tipos de defeitos dos transformadores. As tcnicas abordadas so redes neurais e rvores de deciso. As estruturas de algoritmos escolhidas nessas tcnicas foram, respectivamente, a rede MLP com treinamento atravs do algoritmo de retropropagao resiliente e a rvore gerada pelo algoritmo J4.8, simulada no aplicativo weka. O melhor resultado foi com a utilizao da rvore de deciso, em que foram conseguidos resultados com acerto entre 75 e 90%. Atravs dos resultados, viu-se que o processo de minerao de dados pode ser aplicado em problemas na rea da Engenharia Eltrica. Entretanto, devem ser feitos estudos sobre o domnio de cada base de dados a ser tratada. Palavras-chave: Redes neurais, rvores de deciso, minerao de dados, tomada de deciso e transformadores.

Application of data mining to the analysis of the conditions of operation of transformers


ABSTRACT The Knowledge Discovery in Databases process (KDD), have been widely used as a tool to assist in decisionmaking. In this work this process is studied with the objective of estimate the data mining methods use is applied in areas of electrical engineering, and the approach made on the data bases from chromatographys tests of power transformers. The data mining is applied for a classification of the types of transformerss defects. The techniques broached are neural networks and decision trees. The algorithms chosen in these techniques were, respectively, MLPs network with resilient backpropagation algorithm training, and the tree generated by the J4.8 algorithm, simulated in weka. The best result was using the decision tree in wich results were reached with accuracy between 75 and 90%. With the results it is seen that the data mining can be applied to problems in the electrical engineering area, however studies should be made in each database area to be treated. Keywords : Neural networks, decision tree, data mining, decision making and transformer .

12

Revista Eletrnica Produo & Engenharia, v. 2, n. 1, p. 12-23, jan./jul. 2009

Luciana Gomes Castanheira

1. Introduo
Durante os ltimos anos, tem-se verificado crescimento substancial da quantidade de dados armazenados em meios magnticos. Segundo Fayyad et al. (1997), esses dados, produzidos e armazenados em larga escala, so inviveis de serem lidos ou analisados por especialistas atravs de mtodos, como planilhas de dados e relatrios informativos operacionais, em que o especialista testa sua hiptese contra a base de dados. Ou seja, as informaes contidas nos dados no esto caracterizadas explicitamente, uma vez que, sendo dados operacionais, no interessam quando estudados individualmente. Logo, no bastava armazen-los; era preciso transform-los em informaes. Essas informaes se tornaram essenciais para as empresas, j que as bases de dados deixaram de ser apenas repositrios de informaes, passando a ser tratadas como patrimnio destas. Segundo Cova e Cruz (2007), o dado um elemento puro, quantificvel sobre determinado evento. J a informao o dado analisado e contextualizado e envolve a interpretao de um conjunto de dados, ou seja, a informao constituda por padres, associaes ou relaes que todos aqueles dados acumulados podem proporcionar. Diante das diversas aplicaes da minerao de dados, para o desenvolvimento deste trabalho foi proposta uma forma de utiliz-la para auxiliar em reas da Engenharia Eltrica. O objetivo utilizar ferramentas de minerao de dados, eficientes para extrao do conhecimento implcito, em auxlio tomada de decises em reas da Engenharia Eltrica, mais especificamente para diagnstico de falhas em transformadores de potncia. Para isso, foram compreendidas, analisadas e comparadas as tcnicas de redes neurais e rvores de deciso, aplicadas a problemas de minerao de dados oriundos de testes de cromatografia de transformadores de potncia. Segundo Costa e Brando (2001), durante muitos anos os programas de manuteno preventiva em transformadores consistiram em inspees, testes e aes peridicas em intervalos de tempo normalmente sugeridos pelo fabricante ou determinados atravs da experincia prtica. Incluem-se nesses programas os testes de rotina e a execuo de servios como medio de perdas dieltricas; de resistncia de isolao e dos enrolamentos; anlise fsico-qumica e cromatogrfica do leo; monitoramento manual ou automtico da temperatura e

do carregamento; tratamento, troca ou a regenerao do leo isolante; limpeza dos terminais; e outros. Com a demanda crescente por energia e sobrecarga dos sistemas de potncia, a eficincia na distribuio da energia torna-se ponto crucial para as empresas do setor. Com os resultados de anlises como as propostas neste trabalho em mos, as empresas poderiam partir para uma manuteno preventiva, vistoriando os transformadores de forma mais tendenciosa, diminuindo, assim, o custo com manuteno corretiva, aumentando a confiabilidade dos sistemas e equipamentos eltricos, reduzindo o nmero de paradas programadas e eventuais e otimizando o fornecimento e uso das instalaes eltricas. A escolha do uso de minerao de dados para auxiliar a tomada de deciso, atravs da tarefa de classificao e do uso das tcnicas que envolvem redes neurais e rvores de deciso, se deve a algumas vantagens que a minerao de dados proporciona, como o fato de serem de fcil compreenso e de as variveis envolvidas poderem ser usadas na forma original, como aparecem nas bases de dados, no necessitando, pois, de normalizao. O fato de serem de fcil compreenso possibilita s pessoas sem conhecimento estatstico interpretarem os modelos. A aplicao do trabalho aos transformadores de potncia se justifica pelo fato de este ser um dos maiores aparelhos em sistemas de potncia, tornando-se vital para a operao dos sistemas. Logo, as tcnicas para diagnstico e deteco de suas falhas so valiosas. A anlise de gs dissolvido no leo do transformador ferramenta poderosa. Neste trabalho foi utilizada essa anlise, baseada na pesquisa do Duval (2002), em que proposto um mtodo para identificao da falha considerando-se os teores de formao dos gases etileno (C2H4), metano (CH4), acetileno (C2H2), hidrognio (H2) e etano (C2H6). A aplicao dos mtodos para elaborao de classificadores de falhas baseadas em concentraes de gases no leo dos transformadores foi escolhida pelo fato de o problema no possuir funo matemtica que descreva o comportamento da taxa de evoluo das concentraes em funo das falhas. Assim, justificado o uso de dados histricos aplicados em mtodos heursticos como redes neurais e rvores de deciso. O trabalho tem algumas limitaes inerentes situao. As mais claras so as atividades de prprocessamento que exigem a participao de especialistas do domnio de aplicao das bases de dados.

Revista Eletrnica Produo & Engenharia, v. 2, n. 1, p. 12-23, jan./jul. 2009

13

Aplicao da minerao de dados anlise das condies de operao de transformadores

Essas atividades foram escolhidas, ento, de forma a no precisar desse requisito, ou seja, foram realizados os prprocessamentos que no dependiam do domnio de aplicao das bases de dados. Alm disso, o processo de KDD apresenta melhor resultado quando submetido a anlises de grandes bases de dados. No caso do trabalho proposto, as bases de dados no so muito extensas, devido dificuldade de obteno de dados de cromatografia confiveis. A tomada de deciso realizada com o auxlio da minerao de dados vem sendo usada para diversas aplicaes. So encontrados na bibliografia trabalhos dos mais variados assuntos, por exemplo: auxlio em diagnsticos mdicos, analisando-se o histrico dos pacientes; avaliao de riscos de inadimplncia em empresas de grande porte; ajuste de variveis em processos de siderurgia; e precificao de opes no mercado de aes.

desse momento que se chega fase de minerao de dados especificamente, que comea com a escolha das ferramentas (algoritmos) a serem utilizadas. Essa escolha depende fundamentalmente do objetivo do processo de KDD: classificao, agrupamento, regras associativas ou desvio. De acordo com o algoritmo utilizado ser gerado um arquivo de descobertas (que pode ser um relatrio ou um grfico, por exemplo). Esse arquivo deve ser interpretado, gerando-se as concluses que fornecem o conhecimento da base de dados estudada.

2. Mtodos utilizados 2.1. Processo de descoberta de conhecimento


O processo capaz de descobrir conhecimento em bancos de dados chamado de Knowledge Discovery Database KDD. Segundo Fayyad et al. (1997), esse processo foi proposto em 1989 para se referir s etapas que produzem conhecimentos a partir dos dados. Dentro desse processo, a etapa de minerao de dados a fase que transforma dados em informao. Seu objetivo principal extrair conhecimento a partir de grandes bases de dados. Para isso, ele envolve diversos conceitos, como: estatstica, matemtica, inteligncia artificial e reconhecimento de padres, alm de bancos de dados e tcnicas de visualizao dos dados. Para iniciar um processo de KDD, preciso ter o entendimento do domnio da aplicao e dos objetivos finais a serem atingidos. Segundo Fayyad et al. (1997), o processo de KDD composto basicamente por cinco etapas, relacionadas na Figura 1. A primeira etapa um agrupamento de forma organizada dos dados (seleo). A etapa da limpeza dos dados vem a seguir, atravs de um pr-processamento dos dados, visando adequ-los aos algoritmos que sero utilizados. Para facilitar o uso das tcnicas de minerao de dados, os dados ainda podem passar por uma transformao que os armazena adequadamente em arquivos para serem lidos pelos algoritmos. a partir

Figura 1- Fases do KDD.


Fonte: FAYYAD et al., 1997.

A minerao de dados a etapa mais importante do processo de KDD. Segundo Possa et al. (1998), o crebro humano, comprovadamente, consegue fazer at oito comparaes ao mesmo tempo. A funo da minerao de dados justamente ampliar essa comparao para infinito e tornar isso visvel ao olho humano. Pode-se concluir que a minerao de dados se caracteriza pela existncia de um algoritmo que, diante da tarefa proposta, ser eficiente em extrair conhecimento implcito e til de um banco de dados. Pode-se dizer que minerao de dados a fase que transforma dados puros em informaes teis. A tarefa que ser aplicada no estudo a de classificao, dentro da etapa de minerao de dados. A classificao pode ser considerada como uma funo de aprendizado que mapeia dados de entrada, ou conjuntos de dados de entrada, em um nmero finito de classes. Nela, cada exemplo pertence a uma classe, entre um conjunto pr-definido de classes. O objetivo de um algoritmo de classificao encontrar alguma correlao entre os atributos e uma classe, de modo que o processo de classificao possa us-la para predizer a classe de um exemplo novo e desconhecido. Para efetuar essa classificao sero utilizadas duas tcnicas: redes neurais e rvores de deciso.

14

Revista Eletrnica Produo & Engenharia, v. 2, n. 1, p. 12-23, jan./jul. 2009

Luciana Gomes Castanheira

2.2. Redes neurais


Rede neural artificial (RNA) uma tcnica que constri um modelo matemtico, de um sistema neural biolgico simplificado, com capacidade de aprendizado, generalizao, associao e abstrao. Assim como no crebro humano, as redes neurais apresentam estrutura altamente paralelizada, composta por processadores simples (neurnios artificiais) conectados entre si. De acordo com Haykin (2001), uma propriedade importante das redes neurais a sua habilidade para aprender a partir do ambiente na qual esto inseridas, ou ambiente de aprendizado, e melhorar seu desempenho atravs da aprendizagem. As RNAs tentam aprender por experincia, ou seja, diretamente dos dados, atravs de um processo de repetidas apresentaes dos dados rede. Uma rede neural artificial composta por vrias unidades de processamento, que geralmente so conectadas por canais de comunicao que esto associados a determinados pesos. Os pesos nada mais so do que um modelo para simular os dendritos. So os pesos que, alterando os seus valores representativos durante os estmulos, influenciam o resultado do sinal de sada, segundo Tafner (1998). As entradas, simulando uma rea de captao de estmulos, podem ser conectadas em muitos neurnios, resultando em uma srie de sadas, em que cada neurnio representa uma sada. Essas conexes, em comparao com o sistema biolgico, representam o contato dos dendritos com outros neurnios, formando, assim, as sinapses. A funo da conexo em si tornar o sinal de sada de um neurnio em um sinal de entrada de outro ou, ainda, orientar o sinal de sada para o mundo externo (mundo real). Ainda segundo Tafner (1998), as diferentes possibilidades de conexes entre as camadas de neurnios podem ter, em geral, n nmeros de estruturas diferentes. Usualmente, trabalha-se com trs camadas, que so classificadas em: Camada de entrada: onde os padres so apresentados rede. Camadas intermedirias ou ocultas: onde feita a maior parte do processamento, atravs das conexes ponderadas. Estas podem ser consideradas como extratoras de caractersticas. Camada de sada: onde o resultado final concludo e apresentado. O primeiro trabalho a ter ligao direta com o aprendizado de redes artificiais foi apresentado por

Donald Hebb, em 1949. Hebb mostrou como a plasticidade da aprendizagem de redes neurais conseguida atravs da variao dos pesos de entrada dos neurnios. Ele props uma teoria para explicar o aprendizado em neurnios biolgicos baseada no reforo das ligaes sinpticas entre neurnios excitados. Mais tarde, Widrow e Hoff (1960) sugeriram uma regra de aprendizado, conhecida como regra de delta. Esta, por sua vez, baseada no mtodo do gradiente descendente para minimizao do erro na sada de um neurnio com resposta linear. O mtodo do gradiente uma tcnica numrica para a minimizao de funes como uma funo f (x(n)) contnua, em dada iterao n, atravs de suas derivadas. A direo de pesquisa em busca do mnimo da funo ser a direo negativa do gradiente. Ou seja: x(n + 1) = x(n) (x(n)) (4.5)

em que uma constante que determina a amplitude do passo na direo de descida da funo, e o operador matemtico que representa o gradiente de uma funo escalar multivarivel. A convergncia ser acelerada se for utilizado um valor de grande, porm isso dificultar o encontro do mnimo apropriado. No entanto, ocorre lentido considervel na convergncia quando o valor de for muito pequeno. O ideal que para cada iterao se conhea o timo. Em 1958, Rosenblatt (1958) demonstrou com o perceptron que, se fossem acrescidas de sinapses ajustveis, as redes com neurnios MCP poderiam ser treinadas para classificar certos tipos de padres. Rosenblatt descreveu uma topologia de rede com estruturas de ligao entre os neurnios e props um algoritmo para treinar a rede para executar determinados tipos de funes. Em 1986, Rumelhart et al. publicaram um trabalho em que foi desenvolvido o algoritmo de retropropagao para treinamento de redes MLP (multi layer perceptron), que so redes perceptron multicamadas.

2.3. Redes perceptron multicamadas


As redes perceptron multicamadas tm como unidade bsica o perceptron descrito por Mcculloch e Pitts (1943). Segundo Passos (2006), essas unidades so distribudas em camadas onde cada uma est conectada a todas as unidades da camada anterior. Nesse modelo, calculado o produto interno das entradas aplicadas, xi,
15

Revista Eletrnica Produo & Engenharia, v. 2, n. 1, p. 12-23, jan./jul. 2009

Aplicao da minerao de dados anlise das condies de operao de transformadores

com os pesos, w ji, e tambm incorporada uma polarizao, x0, aplicada externamente. Ainda de acordo com Passos (2006), a soma resultante, considerada como nvel de atividade interna ou potencial de ativao, aplicada, ento, a uma funo de ativao, (.), que pode ser a sada final da rede, ou a entrada de outros perceptrons da camada seguinte. A Figura 2 apresenta a configurao do perceptron.

(RPROP), utilizado neste trabalho, e que foi proposto por Riedmiller e Braun (1993). A ideia bsica do algoritmo RPROP eliminar a influncia do valor das derivadas parciais na atualizao dos pesos. Como consequncia, s considerada a indicao do sinal da derivada parcial. A atualizao dos pesos determinada, de acordo com Riedmiller e Braun (1993), exclusivamente por um valor de atualizao ji(n), conforme (1).

( Q Q  VH > ML Z ML ( Q Q Z ML Q = + ML  VH < Z ML   GHPDLV FDVRV


Figura 2 - Modelo do perceptron utilizado nas redes MLPs.
Fonte: PASSOS, 2006.

(1)

em que ji(n) aumentado ou diminudo segundo o procedimento dado em (2).

O princpio do algoritmo de retropropagao , utilizando-se o mtodo do gradiente descendente, minimizar o erro das camadas intermedirias por meio de uma estimativa do efeito que estas causam ao erro da camada de sada. Assim, o erro de sada da rede calculado e retroalimentado para as camadas intermedirias, possibilitando o ajuste dos pesos proporcionalmente aos valores das conexes entre camadas. A utilizao do gradiente descendente requer o uso de funo de ativao contnua e diferencivel. Esse algoritmo, contudo, apresenta convergncia lenta, causada pelo tamanho das derivadas parciais nos pesos. Jacobs (1987) identificou causas fundamentais para esse fato. Segundo ele, quando a superfcie de erro ( E) apresentar variao pequena em relao a dado peso, sua derivada ter magnitude pequena e, consequentemente, o ajuste ser pequeno, requerendo muitas iteraes para a convergncia. Se a variao for elevada, o gradiente e o ajuste tambm sero elevados acarretando uma passagem pelo mnimo da superfcie de erro. Logo, para uma boa convergncia no modelo de retropropagao, deve-se ter uma boa escolha da taxa de aprendizado . Uma tcnica aplicada para essa escolha o uso do algoritmo de retropropagao resiliente

+ Q ( Q ( Q   VH > ML Z ML Z ML ( Q ( Q Q  VH < ML Q = ML Z ML Z ML Q  GHPDLV FDVRV ML

(2)

em (1) e (2), E(n) a funo erro quadrtica, + = 1,2 e = 0,5 so constantes escolhidas empiricamente. Segundo Riedmiller e Braun (1993), a regra de adaptao dos pesos trabalha do seguinte modo: cada vez que a derivada parcial do erro correspondente muda de sinal, ela indica que a ltima atualizao foi muito grande (o algoritmo saltou o mnimo local). Assim, o valor de adaptao diminudo pelo fator - . Se o sinal da derivada permanece o mesmo, isso indica que o valor de adaptao deve ser aumentado, acelerando a convergncia mesmo em regies suaves da superfcie de erro. Uma vez que os valores de atualizao para cada peso so adaptados, a atualizao dos pesos segue uma regra muito simples:

16

Revista Eletrnica Produo & Engenharia, v. 2, n. 1, p. 12-23, jan./jul. 2009

Luciana Gomes Castanheira

Se a derivada trocar de sinal (erro de incremento), o peso diminudo. Se a derivada mantiver o sinal, o peso aumentado. Um problema que a rede neural pode apresentar denominado overfitting . Nesse caso ocorre generalizao pobre da rede, ou seja, ela aprende os dados de treinamento (apresentando erro pequeno no treinamento), mas apresenta erro elevado quando apresentados os dados de validao. A generalizao da rede pode ser melhorada quando a base de dados utilizada for grande o suficiente para garantir ajuste adequado. Quanto mais dados forem apresentados rede, mais complexas so as funes que a ela pode criar. Logo, encontrar o nmero de parmetros ideal para a rede um dos objetivos do treinamento, mas estimar esse nmero normalmente no tarefa fcil e requer conhecimento sobre a complexidade do problema, que geralmente no se tem, pois muitas vezes esse conhecimento que se deseja obter por meio do processo de modelagem (BRAGA et al., 2003). Para evitar o overfitting, tornando a rede capaz de generalizar, podem-se usar os mtodos de early stopping (parada antecipada) ou da regularizao. A tcnica de parada antecipada pra o treinamento quando as diferenas entre erro de treinamento e erro de validao comeam a crescer. Ela consiste em treinar a rede neural com determinada amostra (que no caso seria o conjunto de treinamento) e em validar seu desempenho periodicamente, empregando outra amostra (conjunto de validao). Se os dados obtidos com a validao atingirem nvel satisfatrio, o treinamento interrompido, independentemente do nmero de iteraes realizado. Haveria a necessidade da criao de um terceiro grupo (denominado conjunto de teste), em que a tcnica seria aplicada para confirmar a eficincia. J a regularizao (tambm conhecida como reduo de pesos) tem o objetivo de limitar a complexidade da rede. A regularizao envolve a modificao da funo-objetivo, que normalmente escolhida para ser a mdia dos erros quadrados da rede no conjunto de treinamento. Uma regularizao muito utilizada a regularizao bayesiana. Pode-se dizer que, na fase de treinamento, o erro da rede na n-sima iterao (i.e., na apresentao do nsimo exemplo de treinamento) calculado tomando-se a diferena entre o valor desejado dk(n) (i.e., valor de sada conhecido para o k-simo neurnio ) e o valor de sada da rede z k(n) (i.e., valor de sada da rede para o k-simo neurnio), conforme a equao 3.

ek(n) = dk (n) zk (n)

(3)

O valor instantneo da energia do erro para a k sima sada definido como H Q   . Para avaliar a
N

energia instantnea total do erro, somam-se as contribuies de todas as sadas, conforme mostrado na equao a seguir:
( Q

 N =

H Q
N

1V

(4)

A mdia dos erros quadrados de todo o conjunto de treinamento Z utilizada para uma anlise geral do treinamento. Ela avaliada conforme a equao 5.
(PHG

= Q =

( Q

(5)

O treinamento todo realizado com o objetivo de ajustar os pesos da rede, tal que a mdia dos erros quadrados seja minimizada. De acordo com Demuth e Beale (2002), no algoritmo de regularizao bayesiana a funo-objetivo assume a forma descrita na equao 6. Assumindo F como a funo-objetivo: F = .SSE + .SSW em que: SSE = somatrio dos erros quadrados; SSW = somatrios do quadrado dos pesos e bias; e e = parmetros da funo objetivo. Segundo Hagan e Foresse (1997), os parmetros de regularizao so obtidos com a estrutura de Bayesian , que estima esses parmetros usando-se tcnicas estatsticas. Para aplicar a regularizao, o algoritmo de treinamento utilizado deve ser o LevembergMarquardt, j que a tcnica requer o clculo da matriz de Hessian. O algoritmo de Levemberg-Marquardt tem a caracterstica de fornecer estimativa de quantos parmetros da rede (pesos e bias) estiverem efetivamente sendo usados por ela. Esse nmero efetivo de parmetros permanece aproximadamente constante, no importando quo grande o nmero total de parmetros da rede. Para aplicao desse algoritmo, deve-se tomar o cuidado de ter uma rede com dimenses suficientes para representar adequadamente a funo real. (6)

Revista Eletrnica Produo & Engenharia, v. 2, n. 1, p. 12-23, jan./jul. 2009

17

Aplicao da minerao de dados anlise das condies de operao de transformadores

2.4. rvore de deciso


As rvores de deciso so representaes simples do conhecimento e um meio eficiente de construir classificadores que predizem classes baseadas nos valores de atributos de um conjunto de dados. Uma rvore de deciso tem a funo de particionar recursivamente um conjunto de treinamento at que cada subconjunto obtido contenha casos de uma nica classe. Elas so construdas baseadas no modelo Top-Down, ou seja, utilizam a tcnica de dividir para conquistar, baseando-se na sucessiva diviso do problema em vrios subproblemas de menores dimenses at que uma soluo para cada um dos problemas mais simples seja encontrada. Para atingir essa meta, o algoritmo escolhido para a rvore de deciso examina e compara a distribuio de classes durante a construo da rvore. Segundo Quinlan (1993), os resultados obtidos aps a construo de uma rvore de deciso so dados organizados de maneira compacta, com a rvore podendo ser utilizada para classificar novos casos. Uma questo-chave para a construo de uma rvore de deciso consiste na estratgia para a escolha dos atributos que estaro mais prximos da raiz da rvore (ou seja, os atributos que so inicialmente avaliados para determinar a classe a qual uma observao pertence). O algoritmo J4.8, escolhido para gerao da rvore de classificao com a tcnica de rvores de deciso, utiliza os conceitos de entropia e ganho de informao para a implementao de sua rvore. O conceito de entropia uma medida de informao calculada pelas probabilidades de ocorrncia de eventos individuais ou combinados. Pode-se dizer que a entropia dada como medida da impureza em um conjunto arbitrrio de amostras de treinamento. Pode ser considerada a medida da quantidade de desordem de um conjunto de amostras. Dado um atributo classe A, de um conjunto de amostras S, em que A pode assumir vi valores de classes diferentes, ento a entropia de A relativa a essa classificao definida na equao 7. P (QWURSLD( $) = SL log 2 SL (7) L =1 em que m o nmero total de classes e pi = p(A = vi) a probabilidade de o atributo classe A ser igual classe cujo ndice i (i.e., a proporo do nmero de amostras com valor vi em relao ao nmero total de amostras de S).

J o ganho de informao definido como uma soma das entropias individuais menos a entropia conjunta, sendo uma medida de correlao entre duas variveis. uma propriedade estatstica que mede como determinado atributo separa as amostras de treinamento de acordo com sua classificao. Ele mede a eficcia de um atributo em classificar os dados de treinamento. Um dos objetivos da construo de rvores de deciso diminuir o valor da entropia. A medida do ganho de informao representa a reduo esperada na entropia de um atributo preditivo, considerando que um atributo classe j tenha sido determinado. Ou seja, o valor do ganho de informao fornece reduo esperada na entropia causada pela partio das amostras de acordo com esse atributo-classe conhecido previamente. No processo de construo da rvore de deciso, o atributo preditivo que possuir o maior ganho de informao deve ser colocado como raiz da rvore, pois esse atributo que fornecer a maior reduo na entropia, classificando os dados de forma mais rpida. Para conhecer o valor do ganho de informao, devem ser feitos dois clculos: A entropia conjunta, ou seja, para todo o conjunto de dados nesse caso, levando-se em considerao os subconjuntos referentes s classificaes existentes. A entropia individual de cada atributo do conjunto de dados. Considere um conjunto de amostras, contendo um atributo-classe definido como A e um dos atributos preditivos definido como B. O ganho de informao (GI) do atributo preditivo B definido como a diferena entre a entropia do atributo classe A ( Entropia(A)) menos a entropia condicional do atributo preditivo B, tendo sido definido o valor do atributo classe A (Entropia(B|A)). Matematicamente, o ganho de informao dado pela equao 8.
*, %  $

(QWURSLD $

(QWURSLD % _ $

(8)

A entropia condicional, definida como a entropia de um atributo preditivo B, sendo conhecido o atributo classe A, dada por (9): P (QWURSLD( % | $) = SL .(QWURSLD( % | $ = YL ) (9) L =1 em que m o nmero total de classes do conjunto de amostras, B o atributo preditivo que est sendo considerado. A o atributo-classe assumindo o valor vi.

18

Revista Eletrnica Produo & Engenharia, v. 2, n. 1, p. 12-23, jan./jul. 2009

Luciana Gomes Castanheira

Alm disso, pi como definido antes, i.e., pi = p(A = i), a proporo dada pela razo entre o nmero de amostras com valor vi e o nmero total de amostras de S. O termo Entropia (B | A = i) a entropia do atributo preditivo B, sendo dado o valor do atributo classe A = vi , como definido na equao 10.
(QWURSLD ( % | $ = YL ) = S( % | $ = Y L ) log L
=1

S( % | $ = Y L )

(10)

considerao apenas a concentrao percentual relativa dos gases acetileno, etano e metano. Em um tringulo, como na Figura 3, representada a evoluo de gases gerados para algumas falhas. feita uma relao percentual de cada gs em relao ao total dos gases gerados para definir as coordenadas. Dessa forma, podem ser identificadas trs falhas de origem eltrica e trs falhas de origem trmica, utilizando-se os cdigos apresentados na Figura 3, cuja legenda vem a seguir.

em que m o nmero de classes que o atributo classe A pode assumir, S( % | $ = Y ) a probabilidade


L

condicional do atributo B, i.e., a proporo dada pela razo entre o nmero de exemplos de B com A = vi e o nmero total de amostras na classe A = vi . O algoritmo J4.8 utiliza a razo do ganho para escolha do atributo que ser o n-raiz. O atributo que apresentar o maior valor dessa razo ser escolhido como n-raiz, j que esse atributo que faz a classificao dos outros atributos de forma mais direta. A partir da o algoritmo repete os mesmos clculos, mas agora apenas com os filhos desse n-pai. Esses passos so realizados de forma recursiva at que no existam mais possibilidades ou exista um dos ns que apresente clara maioria. A razo do ganho a razo entre o ganho de informao (GI) e a informao dividida. Os clculos desses valores so realizados de acordo com as equaes 11, 8 e 12.

*, 5D]mR _ *DQKR = ,QIRUPDomR_ 'LYLGLGD


,QIRUPDomR 'LYLGLGD = S log 2 S
M M Q M

Figura 3 - Tringulo de Duval. (11)


Fonte: DUVAL, 2002.

=1

(12)

em que m o nmero de classes que o atributo classe A pode assumir, pi = p(A=vi) a probabilidade de o atributo classe A ser igual classe cujo ndice i , a probabilidade condicional do atributo B, i.e., a proporo dada pela razo entre o nmero de exemplos de B com A = vi e o nmero total de amostras na classe A = vi.

em que: PD = descargas parciais; T1 = falha trmica com temperatura T < 300 C; T2 = falha trmica com temperatura: 300 C < T < 700 C; T3 = falha trmica com temperatura T > 700 C; D1 = descargas de baixa energia; D2 = descargas de alta energia; e DT = mistura de falhas. Para aplicao dos algoritmos estudados, foram utilizadas trs bases de dados contendo os diagnsticos de defeitos e as concentraes de gases diludos no leo isolante dos transformadores. As bases de dados so compostas, ento, por concentraes de cinco dos gases mais importantes encontrados no leo dos transformadores de potncia e utilizados no tringulo de Duval. So eles: hidrognio (H 2), metano (CH4), etileno
19

2.5. Descrio das bases de dados


A classificao dos dados utilizados neste trabalho foi feita baseada em um mtodo proposto por Duval (2002). Ele props o mtodo para identificao da falha baseado nos cinco gases citados, criando o chamado triangulo de Duval. O mtodo proposto leva em

Revista Eletrnica Produo & Engenharia, v. 2, n. 1, p. 12-23, jan./jul. 2009

Aplicao da minerao de dados anlise das condies de operao de transformadores

(C2H4), etano (C2H6) e acetileno (C2H2). A produo de alguns desses gases se d por: - Hidrognio: grandes quantidades associadas com condies de descarga parcial. - Hidrognio, etano, metano e etileno: resultados da decomposio trmica do leo, ou seja, contato do leo isolante com partes quentes. - Acetileno: associado com arco eltrico no leo. A primeira base de dados descrita foi denominada IEC. Ela contempla parte da base de dados da norma IEC TC 10 (DUVAL; PABLO, 2001). uma base composta por 53 amostras com diagnsticos determinados atravs de medies especficas e inspees visuais feitas por especialistas, com 16 amostras com diagnstico de normalidade, 22 apresentando falha eltrica e 14, falha trmica. A segunda base de dados foi denominada Base 1 e contempla dados fornecidos pelo centro de pesquisas do setor eltrico (CEPEL), composta por amostras com diagnsticos determinados atravs de medies especficas e inspees visuais, feitas por especialistas, considerando-se transformadores de vrios nveis de tenso. A base de dados totaliza 224 amostras, divididas em 83 amostras com diagnstico de normalidade, 61 com falha eltrica e 80 com falha trmica. Por fim, a terceira base de dados descrita foi denominada Base 2. Essa base contempla dados histricos de transformadores (MORAIS, 2004), composta por amostras com diagnsticos determinados atravs de medies especficas e feitas por especialistas, num total de 212 amostras, divididas em 180 delas com diagnstico de normalidade, 10 com falha eltrica e 22 com falha trmica. A partir dessas trs bases de dados, foram constitudos dois grupos para simulaes: Na primeira anlise, os dados foram treinados com 70% dos dados da base IEC e validados com os 30% dos dados restantes. Isso tanto para a rede neural quanto para a rvore de deciso. A rede neural e a rvore de deciso geradas foram utilizadas para classificar as bases de dados Base 1 e Base 2. Realizou-se o mesmo procedimento considerando as bases de dados de gerao e utilizao das tcnicas balanceadas. Na segunda anlise, os dados das bases IEC e Base 1 foram agrupados, sendo o treinamento feito com 70% deles e a validao, com os 30% dos dados restantes (tambm das duas bases); isso tanto para rede neural quanto para rvore de deciso. A rede neural e a rvore
20

de deciso geradas foram utilizadas para classificar os dados da Base 2. Realizou-se o mesmo procedimento considerando as bases de dados de gerao e utilizao das tcnicas balanceadas. Dessa forma est sendo aplicado o mtodo de avaliao cruzada, realizando-se a construo do classificador com uma base de dados e usando-o em outra base de dados. Os diagnsticos de normalidade, falha eltrica e falha trmica foram agrupados em trs falhas e codificados da seguinte forma: Classificao A: transformador com diagnstico de normalidade. Classificao B: transformador com diagnstico de falha eltrica (que agrupou as falhas com legenda PD, D1 e D2 na Figura X). Classificao C: transformador com diagnstico de falha trmica (que agrupou as falhas com legenda T1, T2 e T3 na Figura X). Esses dados foram simulados com a rede neural, utilizando-se o software MatLab, e a rvore de deciso o foi com o uso do algoritmo J4.8, do software weka. Nas redes neurais, as simulaes foram realizadas com variaes da quantidade de neurnios e da funo de ativao, que tm o papel de mapear a camada de sada de acordo com as entradas da rede. Foram realizadas simulaes com as trs funes de ativao mais utilizadas, sendo elas a tangente hiperblica, a sigmoide e a linear. A funo de ativao linear foi utilizada apenas para a sada. Para cada uma dessas funes de ativao as bases de dados foram submetidas aos diferentes parmetros: Quantidade de iteraes (ou ciclos): em cada conjunto de teste, o conjunto utilizado para treinamento da rede foi submetido s seguintes quantidades de iteraes: 1.000, 4.000 e 8.000. Quantidade de neurnios intermedirios (ou escondidos) da rede: a rede foi treinada variando-se o nmero dos neurnios da camada escondida. Foram realizados testes com 4, 6, 8 e 10 neurnios. Na tcnica de rvore de deciso, as simulaes foram feitas variando-se os parmetros de poda ou no da rvore e do fator de confiana (CF). O fator de confiana uma forma simples de avaliar a preciso das regras obtidas nos dados de treinamento. Esse fator calculado pela razo X/Y, em que X o nmero de registros que satisfazem o antecedente e o consequente da regra e Y o nmero total de registros que satisfazem o antecedente da regra.

Revista Eletrnica Produo & Engenharia, v. 2, n. 1, p. 12-23, jan./jul. 2009

Luciana Gomes Castanheira

2.6. Simulaes e resultados


As bases de dados foram aplicadas da forma como descrita anteriormente (as trs bases de dados agrupadas em dois conjuntos primeira e segunda anlises). As simulaes foram feitas com os conjuntos da forma original e, posteriormente, com os conjuntos balanceados. Para o balanceamento, foi utilizada a tcnica de replicao dos dados em menor quantidade. Tambm foram realizadas simulaes das bases de dados, considerando-se a concentrao de cada tipo de gs dividida pelo TGC. Para construo dessa nova base de dados, cada concentrao de determinado gs foi dividida pela soma de todas as concentraes para esse mesmo gs. Nesse caso, as simulaes foram realizadas apenas

para as bases de dados balanceadas, j que os resultados delas so melhores que quando utilizadas as bases desbalanceadas. Os resultados dessas simulaes esto apresentados nas tabelas seguintes, em que: - Na Tabela 1 esto representados os ndices de concordncia percentual dos dados das bases desbalanceadas, separados por diagnsticos (normalidade, defeito eltrico e defeito trmico). - Na Tabela 2 esto representados os mesmos dados, mas das bases balanceadas. - Na Tabela 3 esto representados os ndices de concordncia percentual dos dados utilizando o TGC, com a base balanceada.

Tabela 1- ndice de concordncia percentual discriminado por tipo de defeito para as bases desbalanceadas

Qvrvh hiyvr qvhtyvp


Normal Def Eltrico Def Trmico

Srqrrhy qvprqrppqkpvh
Gerao da Rede (IEC) Trein. Valid. 98,8 98,6 90,5 46,8 99,0 98,0 Gerao da Rede (IEC + Base 1) Trein. Valid. 93,5 86,2 96,2 87,3 84,3 41,1 Diagnstico Base 1 Base 2 42,8 51,1 49,9 71,5 65,6 61,1 Diagnstico Base 2 78,1 48,3 3,8

rqrqrpvm qvprqrppqkpvh
Montagem da rvore (IEC) Trein. Valid. 100,0 100,0 93,3 42,9 100,0 100,0 Montagem da rvore (IEC + Base 1) Trein. Valid. 91,2 90,3 93,1 92,0 75,8 64,3 Diagnstico Base 1 Base 2 59,1 46,9 67,2 80,0 77,5 72,7 Diagnstico Base 2 83,3 53,9 11,0

Trtqh 6iyvr 9vhtyvp

Normal Def Eltrico Def Trmico

Tabela 2 - ndice de concordncia percentual discriminado por tipo de defeito para a base balanceada

Qvrvh hiyvr qvhtyvp


Normal Def Eltrico Def Trmico

Srqrrhy qvprqrppqkpvh
Gerao da Rede (IEC) Trein. Valid. 100,0 100,0 86,7 57,2 100,0 85,8 Gerao da Rede (IEC + Base 1) Trein. Valid. 91,2 68,0 97,1 83,6 96,6 90,3 Diagnstico Base 1 Base 2 45,8 68,2 63,9 52,6 69,9 60,9 Diagnstico Base 2 89,0 62,6 83,3

rqrqrpvm qvprqrppqkpvh
Montagem da rvore (IEC) Trein. Valid. 100,0 100,0 93,4 57,2 100,0 100,0 Montagem da rvore (IEC + Base 1) Trein. Valid. 92,7 90,3 97,1 93,6 96,9 96,8 Diagnstico Base 1 Base 2 65,9 88,8 86,1 60,7 77,0 63,3 Diagnstico Base 2 92,2 79,9 82,1

Trtqh hiyvr qvhtyvp

Normal Def Eltrico Def Trmico

Revista Eletrnica Produo & Engenharia, v. 2, n. 1, p. 12-23, jan./jul. 2009

21

Aplicao da minerao de dados anlise das condies de operao de transformadores

Tabela 3 - ndice de concordncia percentual discriminado por tipo de defeito para a base balanceada, considerando o TGC

Qvrvh hiyvr qvhtyvp


Normal Def Eltrico Def Trmico

Trtqh hiyvr qvhtyvp

Normal Def Eltrico Def Trmico

Gerao da Rede (IEC) Trein. Valid. 100,0 100,0 92,2 57,4 100,0 85,7 Gerao da Rede (IEC + Base 1) Trein. Valid. 94,1 80,6 98,5 83,8 97,1 93,5

Srqrrhy qvprqrppqkpvh

Diagnstico

Montagem da rvore (IEC) Trein. Valid. 100,0 100,0 94,0 57,3 100,0 100,0 Montagem da rvore (IEC + Base 1) Trein. Valid. 94,1 90,6 97,8 93,8 96,9 96,8

rqrqrpvm qvprqrppqkpvh

Diagnstico

Base 1 Base 2 63,8 79,5 66,2 54,9 71,2 70,7 Diagnstico Base 2 89,9 70,5 83,3

Base 1 Base 2 67,4 78,3 86,7 57,3 75,9 74,8 Diagnstico Base 2 92,8 82,8 84,0

3. Discusses e concluses
Em todas as anlises com redes neurais foram feitas 36 configuraes para simulaes, variando-se os parmetros de acordo com o relatado anteriormente. Foram, ento, realizadas 12 simulaes com a funo de ativao, para a camada de sada, sendo a logsig, 12 sendo a tansig e 12 com a purelin. Nessas 12 simulaes foram variados os nmeros de neurnios e de iteraes. Os resultados apresentados nas tabelas anteriormente citadas so correspondentes aos melhores resultados de cada conjunto dessas configuraes de simulaes. Os melhores resultados de cada anlise foram obtidos com a base de dados balanceada (Tabela 2) ou utilizando o fator TGC (que correlaciona os prprios dados das bases). O fato de a base de dados ser balanceada evita alguns dos problemas como overfitting, que causado quando a rede neural ou a rvore de deciso tem bons resultados para o treinamento, mas apresentam generalizao pobre, tendo resultados ruins para a validao. Isso significa que a rede piorou seu desempenho em vez de melhorar, a partir de certo ponto de treinamento. O resultado mais eficiente encontrado foi na segunda anlise com o algoritmo J4.8 (Tabela 3). Tambm foi nessa anlise que a rede neural obteve os melhores resultados. A base de dados utilizada para gerar o classificador, ou seja, a rede neural ou a rvore de deciso possua variao maior nos dados, j que foi constituda pelo agrupamento da base IEC com a Base 1. Esse resultado era esperado, j que o processo de KDD mais eficiente para grandes bases de dados. Quando a base de dados foi considerada utilizandose o clculo com o TGC, a tcnica de redes neurais

melhorou um pouco os resultados e, na rvore de deciso, no foi significante a modificao. Os resultados apresentados nas trs tabelas so considerados satisfatrios, com acerto entre 75 e 90%. Esse resultado ainda pode ser melhorado se o prprocessamento realizado nas bases de dados for realizado com especialistas no conhecimento do domnio de aplicao. Outra sugesto para um trabalho futuro utilizar a tcnica de eraly stop como critrio de parada do algoritmo de rede neural. Um fato pertinente a se discutir a dificuldade de obteno de dados cromatogrficos organizados e com diagnsticos confirmados por medies especficas. No se devem levar em considerao apenas os teores de concentraes instantneos; o mais confivel seria um estudo da taxa de variao desses teores, sendo essa taxa essencial para a deciso de diagnstico ou no de determinado transformador. Com a disponibilidade de um banco de dados adequado para treinamento, tambm possvel aumentar o nmero de sadas da rede neural, por exemplo dividindo os casos de falha eltrica em alta energia e baixa energia. Outros fatores tambm precisam ser considerados, por exemplo a migrao de gases entre a celulose e o leo do transformador de acordo com a temperatura do meio. Esse fato proporciona, para o mesmo transformador, valores diferentes de teor de concentraes dos gases, de acordo com a temperatura ambiente. As diferenas entre os transformadores, como: volume do leo isolante, aspectos construtivos, classes de tenses e fatores ambientais envolvidos, aliados incerteza nos processos de cromatografia dos transformadores, impossibilitam a obteno de um

22

Revista Eletrnica Produo & Engenharia, v. 2, n. 1, p. 12-23, jan./jul. 2009

Luciana Gomes Castanheira

classificador com 100% de diagnsticos corretos. Mas a combinao dos resultados com os mtodos apresentados e a experincia dos especialistas aumentam a confiabilidade dos diagnsticos.

IEC 60599. Mineral oil-impregnated electrical equipment in service Guide to the interpretation of dissolved and free gases analysis. [S.l.]: International Electrotechnical Commission, 1999. JACOBS, R. A. Increased rates of convergence through learning rate adaptation. Massachusetts: University of , 1987. p. 295-307. (Technical Reprt number 1). MCCULLOCH, W. S.; PITTS, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, n. 5, p. 115-133, 1943. MORAIS, D. R. Ferramenta inteligente para deteco de falhas incipientes em transformadores baseada na anlise de gases dissolvidos no leo isolante . Florianpolis: UFSC, 2004. PASSOS, M. G. Modelos de dispositivos de microondas e pticos atravs de redes neurais artificiais de alimentao direta. Natal: UFRGN, 2006. POSSA, B. A. V.; CARVALHO, M. L. B. de; REZENDE, R. S. F.; MEIRA JR., W. Data mining: tcnicas para explorao de dados. Belo Horizonte: UFMG, 1998. QUINLAN, J. C. C4.5: programs for machine learning. San Mateo: Morgan Kaufmann, 1993. 302 p. RIEDMILLER, M.; BRAUN, H. A direct adaptive mMethod for faster backpropagation learning: the RPROP algorithm. In: IEEE INTERNATIONAL CONFERENCE ON NEURAL NETWORKS, 1993. Proceedings... [S.l. : s.n.], 1993. v. 1, p. 586-591. ROSENBLATT, F. The perceptron: a probabilistic model for information storage and organization in the brain. Psychological Review, n. 65, p. 386-408, 1958. TAFNER, M. A. Redes neurais artificiais: aprendizado e plasticidade. Revista Crebro e Mente, Campinas, UNICAMP, mar./maio 1998. WIDROW, B.; HOFF, M. E. Adaptative switching circuit. New York: IRE WESCON Convention Record, 1960. p. 96-104.

Referncias
BRAGA, A. P.; CARVALHO, A. C. P. L. F.; LUDERMIR, T. B. Redes neurais artificiais. In: REZENDE, Solange Oliveira (Org.). Sistemas inteligentes. 1. ed. Barueri, SP: Manole, 2003. v. 1, p. 141-168. COVA, C. J. G.; CRUZ, E. A. Teoria das decises: um estudo do mtodo lexicogrfico. Revista Pensamento Contemporneo em Administrao, v. 1, p. 3-4, 2007. DUVAL, M.; de PABLO, A. Interpretation of gas-in-oil analysis using IEC publication 60599 and IEC TC 10 databases.IEEE Electrical Insulation Magazine, v. 17, n. 2, mar./abr. 2001. DEMUTH, H.; BEALE, M. Neural network toolbox users guide for use with MATLAB. Verso 4, 2002. DUVAL, M. A Review of faults detectable by gas-in-oil analysis in transformers. IEEE Electrical Insulation Magazine, v. 18, n.3, p. 8-17, maio/jun. 2002. FAYYAD, U.; SHAPIRO, G.P.; SMYTH, P. From data mining to knowledge discovery in databases. In: SCIENTIFIC AND STATISTICAL DATABASE MANAGEMENT CONFERENCE, 9., 1997. Proceedings... [S.l. : s.n.], 1997. p. 2-11. HAGAN, M. T.; FORESSE, F. D. Gauss-Newton Approximation to Bayesian Learning . In: INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, 1997. Proceedings... [S.l. : s.n.], 1997. v. 3, p. 1930-1935. HAYKIN, S. Redes Neurais Princpios e prtica. 1. ed. Bookman, 2001. 898 p.

Recebido em 05/02/2009 Publicado em 02/10/2009


Revista Eletrnica Produo & Engenharia, v. 2, n. 1, p. 12-23, jan./jul. 2009 23