RESUMO O processo de descoberta de conhecimento em bases de dados (Knowledge Discovery in Databases KDD) vem sendo amplamente utilizado como ferramenta para auxiliar a tomada de deciso. Neste trabalho, esse processo estudado tendo como objetivo avaliar a utilizao de mtodos de minerao de dados aplicados em reas da Engenharia Eltrica, sendo a sua abordagem sobre uma base de dados oriunda de testes de cromatografia de transformadores de potncia. A minerao de dados aplicada para obter a classificao de tipos de defeitos dos transformadores. As tcnicas abordadas so redes neurais e rvores de deciso. As estruturas de algoritmos escolhidas nessas tcnicas foram, respectivamente, a rede MLP com treinamento atravs do algoritmo de retropropagao resiliente e a rvore gerada pelo algoritmo J4.8, simulada no aplicativo weka. O melhor resultado foi com a utilizao da rvore de deciso, em que foram conseguidos resultados com acerto entre 75 e 90%. Atravs dos resultados, viu-se que o processo de minerao de dados pode ser aplicado em problemas na rea da Engenharia Eltrica. Entretanto, devem ser feitos estudos sobre o domnio de cada base de dados a ser tratada. Palavras-chave: Redes neurais, rvores de deciso, minerao de dados, tomada de deciso e transformadores.
12
1. Introduo
Durante os ltimos anos, tem-se verificado crescimento substancial da quantidade de dados armazenados em meios magnticos. Segundo Fayyad et al. (1997), esses dados, produzidos e armazenados em larga escala, so inviveis de serem lidos ou analisados por especialistas atravs de mtodos, como planilhas de dados e relatrios informativos operacionais, em que o especialista testa sua hiptese contra a base de dados. Ou seja, as informaes contidas nos dados no esto caracterizadas explicitamente, uma vez que, sendo dados operacionais, no interessam quando estudados individualmente. Logo, no bastava armazen-los; era preciso transform-los em informaes. Essas informaes se tornaram essenciais para as empresas, j que as bases de dados deixaram de ser apenas repositrios de informaes, passando a ser tratadas como patrimnio destas. Segundo Cova e Cruz (2007), o dado um elemento puro, quantificvel sobre determinado evento. J a informao o dado analisado e contextualizado e envolve a interpretao de um conjunto de dados, ou seja, a informao constituda por padres, associaes ou relaes que todos aqueles dados acumulados podem proporcionar. Diante das diversas aplicaes da minerao de dados, para o desenvolvimento deste trabalho foi proposta uma forma de utiliz-la para auxiliar em reas da Engenharia Eltrica. O objetivo utilizar ferramentas de minerao de dados, eficientes para extrao do conhecimento implcito, em auxlio tomada de decises em reas da Engenharia Eltrica, mais especificamente para diagnstico de falhas em transformadores de potncia. Para isso, foram compreendidas, analisadas e comparadas as tcnicas de redes neurais e rvores de deciso, aplicadas a problemas de minerao de dados oriundos de testes de cromatografia de transformadores de potncia. Segundo Costa e Brando (2001), durante muitos anos os programas de manuteno preventiva em transformadores consistiram em inspees, testes e aes peridicas em intervalos de tempo normalmente sugeridos pelo fabricante ou determinados atravs da experincia prtica. Incluem-se nesses programas os testes de rotina e a execuo de servios como medio de perdas dieltricas; de resistncia de isolao e dos enrolamentos; anlise fsico-qumica e cromatogrfica do leo; monitoramento manual ou automtico da temperatura e
do carregamento; tratamento, troca ou a regenerao do leo isolante; limpeza dos terminais; e outros. Com a demanda crescente por energia e sobrecarga dos sistemas de potncia, a eficincia na distribuio da energia torna-se ponto crucial para as empresas do setor. Com os resultados de anlises como as propostas neste trabalho em mos, as empresas poderiam partir para uma manuteno preventiva, vistoriando os transformadores de forma mais tendenciosa, diminuindo, assim, o custo com manuteno corretiva, aumentando a confiabilidade dos sistemas e equipamentos eltricos, reduzindo o nmero de paradas programadas e eventuais e otimizando o fornecimento e uso das instalaes eltricas. A escolha do uso de minerao de dados para auxiliar a tomada de deciso, atravs da tarefa de classificao e do uso das tcnicas que envolvem redes neurais e rvores de deciso, se deve a algumas vantagens que a minerao de dados proporciona, como o fato de serem de fcil compreenso e de as variveis envolvidas poderem ser usadas na forma original, como aparecem nas bases de dados, no necessitando, pois, de normalizao. O fato de serem de fcil compreenso possibilita s pessoas sem conhecimento estatstico interpretarem os modelos. A aplicao do trabalho aos transformadores de potncia se justifica pelo fato de este ser um dos maiores aparelhos em sistemas de potncia, tornando-se vital para a operao dos sistemas. Logo, as tcnicas para diagnstico e deteco de suas falhas so valiosas. A anlise de gs dissolvido no leo do transformador ferramenta poderosa. Neste trabalho foi utilizada essa anlise, baseada na pesquisa do Duval (2002), em que proposto um mtodo para identificao da falha considerando-se os teores de formao dos gases etileno (C2H4), metano (CH4), acetileno (C2H2), hidrognio (H2) e etano (C2H6). A aplicao dos mtodos para elaborao de classificadores de falhas baseadas em concentraes de gases no leo dos transformadores foi escolhida pelo fato de o problema no possuir funo matemtica que descreva o comportamento da taxa de evoluo das concentraes em funo das falhas. Assim, justificado o uso de dados histricos aplicados em mtodos heursticos como redes neurais e rvores de deciso. O trabalho tem algumas limitaes inerentes situao. As mais claras so as atividades de prprocessamento que exigem a participao de especialistas do domnio de aplicao das bases de dados.
13
Essas atividades foram escolhidas, ento, de forma a no precisar desse requisito, ou seja, foram realizados os prprocessamentos que no dependiam do domnio de aplicao das bases de dados. Alm disso, o processo de KDD apresenta melhor resultado quando submetido a anlises de grandes bases de dados. No caso do trabalho proposto, as bases de dados no so muito extensas, devido dificuldade de obteno de dados de cromatografia confiveis. A tomada de deciso realizada com o auxlio da minerao de dados vem sendo usada para diversas aplicaes. So encontrados na bibliografia trabalhos dos mais variados assuntos, por exemplo: auxlio em diagnsticos mdicos, analisando-se o histrico dos pacientes; avaliao de riscos de inadimplncia em empresas de grande porte; ajuste de variveis em processos de siderurgia; e precificao de opes no mercado de aes.
desse momento que se chega fase de minerao de dados especificamente, que comea com a escolha das ferramentas (algoritmos) a serem utilizadas. Essa escolha depende fundamentalmente do objetivo do processo de KDD: classificao, agrupamento, regras associativas ou desvio. De acordo com o algoritmo utilizado ser gerado um arquivo de descobertas (que pode ser um relatrio ou um grfico, por exemplo). Esse arquivo deve ser interpretado, gerando-se as concluses que fornecem o conhecimento da base de dados estudada.
A minerao de dados a etapa mais importante do processo de KDD. Segundo Possa et al. (1998), o crebro humano, comprovadamente, consegue fazer at oito comparaes ao mesmo tempo. A funo da minerao de dados justamente ampliar essa comparao para infinito e tornar isso visvel ao olho humano. Pode-se concluir que a minerao de dados se caracteriza pela existncia de um algoritmo que, diante da tarefa proposta, ser eficiente em extrair conhecimento implcito e til de um banco de dados. Pode-se dizer que minerao de dados a fase que transforma dados puros em informaes teis. A tarefa que ser aplicada no estudo a de classificao, dentro da etapa de minerao de dados. A classificao pode ser considerada como uma funo de aprendizado que mapeia dados de entrada, ou conjuntos de dados de entrada, em um nmero finito de classes. Nela, cada exemplo pertence a uma classe, entre um conjunto pr-definido de classes. O objetivo de um algoritmo de classificao encontrar alguma correlao entre os atributos e uma classe, de modo que o processo de classificao possa us-la para predizer a classe de um exemplo novo e desconhecido. Para efetuar essa classificao sero utilizadas duas tcnicas: redes neurais e rvores de deciso.
14
Donald Hebb, em 1949. Hebb mostrou como a plasticidade da aprendizagem de redes neurais conseguida atravs da variao dos pesos de entrada dos neurnios. Ele props uma teoria para explicar o aprendizado em neurnios biolgicos baseada no reforo das ligaes sinpticas entre neurnios excitados. Mais tarde, Widrow e Hoff (1960) sugeriram uma regra de aprendizado, conhecida como regra de delta. Esta, por sua vez, baseada no mtodo do gradiente descendente para minimizao do erro na sada de um neurnio com resposta linear. O mtodo do gradiente uma tcnica numrica para a minimizao de funes como uma funo f (x(n)) contnua, em dada iterao n, atravs de suas derivadas. A direo de pesquisa em busca do mnimo da funo ser a direo negativa do gradiente. Ou seja: x(n + 1) = x(n) (x(n)) (4.5)
em que uma constante que determina a amplitude do passo na direo de descida da funo, e o operador matemtico que representa o gradiente de uma funo escalar multivarivel. A convergncia ser acelerada se for utilizado um valor de grande, porm isso dificultar o encontro do mnimo apropriado. No entanto, ocorre lentido considervel na convergncia quando o valor de for muito pequeno. O ideal que para cada iterao se conhea o timo. Em 1958, Rosenblatt (1958) demonstrou com o perceptron que, se fossem acrescidas de sinapses ajustveis, as redes com neurnios MCP poderiam ser treinadas para classificar certos tipos de padres. Rosenblatt descreveu uma topologia de rede com estruturas de ligao entre os neurnios e props um algoritmo para treinar a rede para executar determinados tipos de funes. Em 1986, Rumelhart et al. publicaram um trabalho em que foi desenvolvido o algoritmo de retropropagao para treinamento de redes MLP (multi layer perceptron), que so redes perceptron multicamadas.
com os pesos, w ji, e tambm incorporada uma polarizao, x0, aplicada externamente. Ainda de acordo com Passos (2006), a soma resultante, considerada como nvel de atividade interna ou potencial de ativao, aplicada, ento, a uma funo de ativao, (.), que pode ser a sada final da rede, ou a entrada de outros perceptrons da camada seguinte. A Figura 2 apresenta a configurao do perceptron.
(RPROP), utilizado neste trabalho, e que foi proposto por Riedmiller e Braun (1993). A ideia bsica do algoritmo RPROP eliminar a influncia do valor das derivadas parciais na atualizao dos pesos. Como consequncia, s considerada a indicao do sinal da derivada parcial. A atualizao dos pesos determinada, de acordo com Riedmiller e Braun (1993), exclusivamente por um valor de atualizao ji(n), conforme (1).
(1)
O princpio do algoritmo de retropropagao , utilizando-se o mtodo do gradiente descendente, minimizar o erro das camadas intermedirias por meio de uma estimativa do efeito que estas causam ao erro da camada de sada. Assim, o erro de sada da rede calculado e retroalimentado para as camadas intermedirias, possibilitando o ajuste dos pesos proporcionalmente aos valores das conexes entre camadas. A utilizao do gradiente descendente requer o uso de funo de ativao contnua e diferencivel. Esse algoritmo, contudo, apresenta convergncia lenta, causada pelo tamanho das derivadas parciais nos pesos. Jacobs (1987) identificou causas fundamentais para esse fato. Segundo ele, quando a superfcie de erro ( E) apresentar variao pequena em relao a dado peso, sua derivada ter magnitude pequena e, consequentemente, o ajuste ser pequeno, requerendo muitas iteraes para a convergncia. Se a variao for elevada, o gradiente e o ajuste tambm sero elevados acarretando uma passagem pelo mnimo da superfcie de erro. Logo, para uma boa convergncia no modelo de retropropagao, deve-se ter uma boa escolha da taxa de aprendizado . Uma tcnica aplicada para essa escolha o uso do algoritmo de retropropagao resiliente
(2)
em (1) e (2), E(n) a funo erro quadrtica, + = 1,2 e = 0,5 so constantes escolhidas empiricamente. Segundo Riedmiller e Braun (1993), a regra de adaptao dos pesos trabalha do seguinte modo: cada vez que a derivada parcial do erro correspondente muda de sinal, ela indica que a ltima atualizao foi muito grande (o algoritmo saltou o mnimo local). Assim, o valor de adaptao diminudo pelo fator - . Se o sinal da derivada permanece o mesmo, isso indica que o valor de adaptao deve ser aumentado, acelerando a convergncia mesmo em regies suaves da superfcie de erro. Uma vez que os valores de atualizao para cada peso so adaptados, a atualizao dos pesos segue uma regra muito simples:
16
Se a derivada trocar de sinal (erro de incremento), o peso diminudo. Se a derivada mantiver o sinal, o peso aumentado. Um problema que a rede neural pode apresentar denominado overfitting . Nesse caso ocorre generalizao pobre da rede, ou seja, ela aprende os dados de treinamento (apresentando erro pequeno no treinamento), mas apresenta erro elevado quando apresentados os dados de validao. A generalizao da rede pode ser melhorada quando a base de dados utilizada for grande o suficiente para garantir ajuste adequado. Quanto mais dados forem apresentados rede, mais complexas so as funes que a ela pode criar. Logo, encontrar o nmero de parmetros ideal para a rede um dos objetivos do treinamento, mas estimar esse nmero normalmente no tarefa fcil e requer conhecimento sobre a complexidade do problema, que geralmente no se tem, pois muitas vezes esse conhecimento que se deseja obter por meio do processo de modelagem (BRAGA et al., 2003). Para evitar o overfitting, tornando a rede capaz de generalizar, podem-se usar os mtodos de early stopping (parada antecipada) ou da regularizao. A tcnica de parada antecipada pra o treinamento quando as diferenas entre erro de treinamento e erro de validao comeam a crescer. Ela consiste em treinar a rede neural com determinada amostra (que no caso seria o conjunto de treinamento) e em validar seu desempenho periodicamente, empregando outra amostra (conjunto de validao). Se os dados obtidos com a validao atingirem nvel satisfatrio, o treinamento interrompido, independentemente do nmero de iteraes realizado. Haveria a necessidade da criao de um terceiro grupo (denominado conjunto de teste), em que a tcnica seria aplicada para confirmar a eficincia. J a regularizao (tambm conhecida como reduo de pesos) tem o objetivo de limitar a complexidade da rede. A regularizao envolve a modificao da funo-objetivo, que normalmente escolhida para ser a mdia dos erros quadrados da rede no conjunto de treinamento. Uma regularizao muito utilizada a regularizao bayesiana. Pode-se dizer que, na fase de treinamento, o erro da rede na n-sima iterao (i.e., na apresentao do nsimo exemplo de treinamento) calculado tomando-se a diferena entre o valor desejado dk(n) (i.e., valor de sada conhecido para o k-simo neurnio ) e o valor de sada da rede z k(n) (i.e., valor de sada da rede para o k-simo neurnio), conforme a equao 3.
(3)
O valor instantneo da energia do erro para a k sima sada definido como H Q . Para avaliar a
N
energia instantnea total do erro, somam-se as contribuies de todas as sadas, conforme mostrado na equao a seguir:
( Q
N =
H Q
N
1V
(4)
A mdia dos erros quadrados de todo o conjunto de treinamento Z utilizada para uma anlise geral do treinamento. Ela avaliada conforme a equao 5.
(PHG
= Q =
( Q
(5)
O treinamento todo realizado com o objetivo de ajustar os pesos da rede, tal que a mdia dos erros quadrados seja minimizada. De acordo com Demuth e Beale (2002), no algoritmo de regularizao bayesiana a funo-objetivo assume a forma descrita na equao 6. Assumindo F como a funo-objetivo: F = .SSE + .SSW em que: SSE = somatrio dos erros quadrados; SSW = somatrios do quadrado dos pesos e bias; e e = parmetros da funo objetivo. Segundo Hagan e Foresse (1997), os parmetros de regularizao so obtidos com a estrutura de Bayesian , que estima esses parmetros usando-se tcnicas estatsticas. Para aplicar a regularizao, o algoritmo de treinamento utilizado deve ser o LevembergMarquardt, j que a tcnica requer o clculo da matriz de Hessian. O algoritmo de Levemberg-Marquardt tem a caracterstica de fornecer estimativa de quantos parmetros da rede (pesos e bias) estiverem efetivamente sendo usados por ela. Esse nmero efetivo de parmetros permanece aproximadamente constante, no importando quo grande o nmero total de parmetros da rede. Para aplicao desse algoritmo, deve-se tomar o cuidado de ter uma rede com dimenses suficientes para representar adequadamente a funo real. (6)
17
J o ganho de informao definido como uma soma das entropias individuais menos a entropia conjunta, sendo uma medida de correlao entre duas variveis. uma propriedade estatstica que mede como determinado atributo separa as amostras de treinamento de acordo com sua classificao. Ele mede a eficcia de um atributo em classificar os dados de treinamento. Um dos objetivos da construo de rvores de deciso diminuir o valor da entropia. A medida do ganho de informao representa a reduo esperada na entropia de um atributo preditivo, considerando que um atributo classe j tenha sido determinado. Ou seja, o valor do ganho de informao fornece reduo esperada na entropia causada pela partio das amostras de acordo com esse atributo-classe conhecido previamente. No processo de construo da rvore de deciso, o atributo preditivo que possuir o maior ganho de informao deve ser colocado como raiz da rvore, pois esse atributo que fornecer a maior reduo na entropia, classificando os dados de forma mais rpida. Para conhecer o valor do ganho de informao, devem ser feitos dois clculos: A entropia conjunta, ou seja, para todo o conjunto de dados nesse caso, levando-se em considerao os subconjuntos referentes s classificaes existentes. A entropia individual de cada atributo do conjunto de dados. Considere um conjunto de amostras, contendo um atributo-classe definido como A e um dos atributos preditivos definido como B. O ganho de informao (GI) do atributo preditivo B definido como a diferena entre a entropia do atributo classe A ( Entropia(A)) menos a entropia condicional do atributo preditivo B, tendo sido definido o valor do atributo classe A (Entropia(B|A)). Matematicamente, o ganho de informao dado pela equao 8.
*, % $
(QWURSLD $
(QWURSLD % _ $
(8)
A entropia condicional, definida como a entropia de um atributo preditivo B, sendo conhecido o atributo classe A, dada por (9): P (QWURSLD( % | $) = SL .(QWURSLD( % | $ = YL ) (9) L =1 em que m o nmero total de classes do conjunto de amostras, B o atributo preditivo que est sendo considerado. A o atributo-classe assumindo o valor vi.
18
Alm disso, pi como definido antes, i.e., pi = p(A = i), a proporo dada pela razo entre o nmero de amostras com valor vi e o nmero total de amostras de S. O termo Entropia (B | A = i) a entropia do atributo preditivo B, sendo dado o valor do atributo classe A = vi , como definido na equao 10.
(QWURSLD ( % | $ = YL ) = S( % | $ = Y L ) log L
=1
S( % | $ = Y L )
(10)
considerao apenas a concentrao percentual relativa dos gases acetileno, etano e metano. Em um tringulo, como na Figura 3, representada a evoluo de gases gerados para algumas falhas. feita uma relao percentual de cada gs em relao ao total dos gases gerados para definir as coordenadas. Dessa forma, podem ser identificadas trs falhas de origem eltrica e trs falhas de origem trmica, utilizando-se os cdigos apresentados na Figura 3, cuja legenda vem a seguir.
condicional do atributo B, i.e., a proporo dada pela razo entre o nmero de exemplos de B com A = vi e o nmero total de amostras na classe A = vi . O algoritmo J4.8 utiliza a razo do ganho para escolha do atributo que ser o n-raiz. O atributo que apresentar o maior valor dessa razo ser escolhido como n-raiz, j que esse atributo que faz a classificao dos outros atributos de forma mais direta. A partir da o algoritmo repete os mesmos clculos, mas agora apenas com os filhos desse n-pai. Esses passos so realizados de forma recursiva at que no existam mais possibilidades ou exista um dos ns que apresente clara maioria. A razo do ganho a razo entre o ganho de informao (GI) e a informao dividida. Os clculos desses valores so realizados de acordo com as equaes 11, 8 e 12.
=1
(12)
em que m o nmero de classes que o atributo classe A pode assumir, pi = p(A=vi) a probabilidade de o atributo classe A ser igual classe cujo ndice i , a probabilidade condicional do atributo B, i.e., a proporo dada pela razo entre o nmero de exemplos de B com A = vi e o nmero total de amostras na classe A = vi.
em que: PD = descargas parciais; T1 = falha trmica com temperatura T < 300 C; T2 = falha trmica com temperatura: 300 C < T < 700 C; T3 = falha trmica com temperatura T > 700 C; D1 = descargas de baixa energia; D2 = descargas de alta energia; e DT = mistura de falhas. Para aplicao dos algoritmos estudados, foram utilizadas trs bases de dados contendo os diagnsticos de defeitos e as concentraes de gases diludos no leo isolante dos transformadores. As bases de dados so compostas, ento, por concentraes de cinco dos gases mais importantes encontrados no leo dos transformadores de potncia e utilizados no tringulo de Duval. So eles: hidrognio (H 2), metano (CH4), etileno
19
(C2H4), etano (C2H6) e acetileno (C2H2). A produo de alguns desses gases se d por: - Hidrognio: grandes quantidades associadas com condies de descarga parcial. - Hidrognio, etano, metano e etileno: resultados da decomposio trmica do leo, ou seja, contato do leo isolante com partes quentes. - Acetileno: associado com arco eltrico no leo. A primeira base de dados descrita foi denominada IEC. Ela contempla parte da base de dados da norma IEC TC 10 (DUVAL; PABLO, 2001). uma base composta por 53 amostras com diagnsticos determinados atravs de medies especficas e inspees visuais feitas por especialistas, com 16 amostras com diagnstico de normalidade, 22 apresentando falha eltrica e 14, falha trmica. A segunda base de dados foi denominada Base 1 e contempla dados fornecidos pelo centro de pesquisas do setor eltrico (CEPEL), composta por amostras com diagnsticos determinados atravs de medies especficas e inspees visuais, feitas por especialistas, considerando-se transformadores de vrios nveis de tenso. A base de dados totaliza 224 amostras, divididas em 83 amostras com diagnstico de normalidade, 61 com falha eltrica e 80 com falha trmica. Por fim, a terceira base de dados descrita foi denominada Base 2. Essa base contempla dados histricos de transformadores (MORAIS, 2004), composta por amostras com diagnsticos determinados atravs de medies especficas e feitas por especialistas, num total de 212 amostras, divididas em 180 delas com diagnstico de normalidade, 10 com falha eltrica e 22 com falha trmica. A partir dessas trs bases de dados, foram constitudos dois grupos para simulaes: Na primeira anlise, os dados foram treinados com 70% dos dados da base IEC e validados com os 30% dos dados restantes. Isso tanto para a rede neural quanto para a rvore de deciso. A rede neural e a rvore de deciso geradas foram utilizadas para classificar as bases de dados Base 1 e Base 2. Realizou-se o mesmo procedimento considerando as bases de dados de gerao e utilizao das tcnicas balanceadas. Na segunda anlise, os dados das bases IEC e Base 1 foram agrupados, sendo o treinamento feito com 70% deles e a validao, com os 30% dos dados restantes (tambm das duas bases); isso tanto para rede neural quanto para rvore de deciso. A rede neural e a rvore
20
de deciso geradas foram utilizadas para classificar os dados da Base 2. Realizou-se o mesmo procedimento considerando as bases de dados de gerao e utilizao das tcnicas balanceadas. Dessa forma est sendo aplicado o mtodo de avaliao cruzada, realizando-se a construo do classificador com uma base de dados e usando-o em outra base de dados. Os diagnsticos de normalidade, falha eltrica e falha trmica foram agrupados em trs falhas e codificados da seguinte forma: Classificao A: transformador com diagnstico de normalidade. Classificao B: transformador com diagnstico de falha eltrica (que agrupou as falhas com legenda PD, D1 e D2 na Figura X). Classificao C: transformador com diagnstico de falha trmica (que agrupou as falhas com legenda T1, T2 e T3 na Figura X). Esses dados foram simulados com a rede neural, utilizando-se o software MatLab, e a rvore de deciso o foi com o uso do algoritmo J4.8, do software weka. Nas redes neurais, as simulaes foram realizadas com variaes da quantidade de neurnios e da funo de ativao, que tm o papel de mapear a camada de sada de acordo com as entradas da rede. Foram realizadas simulaes com as trs funes de ativao mais utilizadas, sendo elas a tangente hiperblica, a sigmoide e a linear. A funo de ativao linear foi utilizada apenas para a sada. Para cada uma dessas funes de ativao as bases de dados foram submetidas aos diferentes parmetros: Quantidade de iteraes (ou ciclos): em cada conjunto de teste, o conjunto utilizado para treinamento da rede foi submetido s seguintes quantidades de iteraes: 1.000, 4.000 e 8.000. Quantidade de neurnios intermedirios (ou escondidos) da rede: a rede foi treinada variando-se o nmero dos neurnios da camada escondida. Foram realizados testes com 4, 6, 8 e 10 neurnios. Na tcnica de rvore de deciso, as simulaes foram feitas variando-se os parmetros de poda ou no da rvore e do fator de confiana (CF). O fator de confiana uma forma simples de avaliar a preciso das regras obtidas nos dados de treinamento. Esse fator calculado pela razo X/Y, em que X o nmero de registros que satisfazem o antecedente e o consequente da regra e Y o nmero total de registros que satisfazem o antecedente da regra.
para as bases de dados balanceadas, j que os resultados delas so melhores que quando utilizadas as bases desbalanceadas. Os resultados dessas simulaes esto apresentados nas tabelas seguintes, em que: - Na Tabela 1 esto representados os ndices de concordncia percentual dos dados das bases desbalanceadas, separados por diagnsticos (normalidade, defeito eltrico e defeito trmico). - Na Tabela 2 esto representados os mesmos dados, mas das bases balanceadas. - Na Tabela 3 esto representados os ndices de concordncia percentual dos dados utilizando o TGC, com a base balanceada.
Tabela 1- ndice de concordncia percentual discriminado por tipo de defeito para as bases desbalanceadas
Srqrrhy qvprqrppqkpvh
Gerao da Rede (IEC) Trein. Valid. 98,8 98,6 90,5 46,8 99,0 98,0 Gerao da Rede (IEC + Base 1) Trein. Valid. 93,5 86,2 96,2 87,3 84,3 41,1 Diagnstico Base 1 Base 2 42,8 51,1 49,9 71,5 65,6 61,1 Diagnstico Base 2 78,1 48,3 3,8
rqrqrpvm qvprqrppqkpvh
Montagem da rvore (IEC) Trein. Valid. 100,0 100,0 93,3 42,9 100,0 100,0 Montagem da rvore (IEC + Base 1) Trein. Valid. 91,2 90,3 93,1 92,0 75,8 64,3 Diagnstico Base 1 Base 2 59,1 46,9 67,2 80,0 77,5 72,7 Diagnstico Base 2 83,3 53,9 11,0
Tabela 2 - ndice de concordncia percentual discriminado por tipo de defeito para a base balanceada
Srqrrhy qvprqrppqkpvh
Gerao da Rede (IEC) Trein. Valid. 100,0 100,0 86,7 57,2 100,0 85,8 Gerao da Rede (IEC + Base 1) Trein. Valid. 91,2 68,0 97,1 83,6 96,6 90,3 Diagnstico Base 1 Base 2 45,8 68,2 63,9 52,6 69,9 60,9 Diagnstico Base 2 89,0 62,6 83,3
rqrqrpvm qvprqrppqkpvh
Montagem da rvore (IEC) Trein. Valid. 100,0 100,0 93,4 57,2 100,0 100,0 Montagem da rvore (IEC + Base 1) Trein. Valid. 92,7 90,3 97,1 93,6 96,9 96,8 Diagnstico Base 1 Base 2 65,9 88,8 86,1 60,7 77,0 63,3 Diagnstico Base 2 92,2 79,9 82,1
21
Tabela 3 - ndice de concordncia percentual discriminado por tipo de defeito para a base balanceada, considerando o TGC
Gerao da Rede (IEC) Trein. Valid. 100,0 100,0 92,2 57,4 100,0 85,7 Gerao da Rede (IEC + Base 1) Trein. Valid. 94,1 80,6 98,5 83,8 97,1 93,5
Srqrrhy qvprqrppqkpvh
Diagnstico
Montagem da rvore (IEC) Trein. Valid. 100,0 100,0 94,0 57,3 100,0 100,0 Montagem da rvore (IEC + Base 1) Trein. Valid. 94,1 90,6 97,8 93,8 96,9 96,8
rqrqrpvm qvprqrppqkpvh
Diagnstico
Base 1 Base 2 63,8 79,5 66,2 54,9 71,2 70,7 Diagnstico Base 2 89,9 70,5 83,3
Base 1 Base 2 67,4 78,3 86,7 57,3 75,9 74,8 Diagnstico Base 2 92,8 82,8 84,0
3. Discusses e concluses
Em todas as anlises com redes neurais foram feitas 36 configuraes para simulaes, variando-se os parmetros de acordo com o relatado anteriormente. Foram, ento, realizadas 12 simulaes com a funo de ativao, para a camada de sada, sendo a logsig, 12 sendo a tansig e 12 com a purelin. Nessas 12 simulaes foram variados os nmeros de neurnios e de iteraes. Os resultados apresentados nas tabelas anteriormente citadas so correspondentes aos melhores resultados de cada conjunto dessas configuraes de simulaes. Os melhores resultados de cada anlise foram obtidos com a base de dados balanceada (Tabela 2) ou utilizando o fator TGC (que correlaciona os prprios dados das bases). O fato de a base de dados ser balanceada evita alguns dos problemas como overfitting, que causado quando a rede neural ou a rvore de deciso tem bons resultados para o treinamento, mas apresentam generalizao pobre, tendo resultados ruins para a validao. Isso significa que a rede piorou seu desempenho em vez de melhorar, a partir de certo ponto de treinamento. O resultado mais eficiente encontrado foi na segunda anlise com o algoritmo J4.8 (Tabela 3). Tambm foi nessa anlise que a rede neural obteve os melhores resultados. A base de dados utilizada para gerar o classificador, ou seja, a rede neural ou a rvore de deciso possua variao maior nos dados, j que foi constituda pelo agrupamento da base IEC com a Base 1. Esse resultado era esperado, j que o processo de KDD mais eficiente para grandes bases de dados. Quando a base de dados foi considerada utilizandose o clculo com o TGC, a tcnica de redes neurais
melhorou um pouco os resultados e, na rvore de deciso, no foi significante a modificao. Os resultados apresentados nas trs tabelas so considerados satisfatrios, com acerto entre 75 e 90%. Esse resultado ainda pode ser melhorado se o prprocessamento realizado nas bases de dados for realizado com especialistas no conhecimento do domnio de aplicao. Outra sugesto para um trabalho futuro utilizar a tcnica de eraly stop como critrio de parada do algoritmo de rede neural. Um fato pertinente a se discutir a dificuldade de obteno de dados cromatogrficos organizados e com diagnsticos confirmados por medies especficas. No se devem levar em considerao apenas os teores de concentraes instantneos; o mais confivel seria um estudo da taxa de variao desses teores, sendo essa taxa essencial para a deciso de diagnstico ou no de determinado transformador. Com a disponibilidade de um banco de dados adequado para treinamento, tambm possvel aumentar o nmero de sadas da rede neural, por exemplo dividindo os casos de falha eltrica em alta energia e baixa energia. Outros fatores tambm precisam ser considerados, por exemplo a migrao de gases entre a celulose e o leo do transformador de acordo com a temperatura do meio. Esse fato proporciona, para o mesmo transformador, valores diferentes de teor de concentraes dos gases, de acordo com a temperatura ambiente. As diferenas entre os transformadores, como: volume do leo isolante, aspectos construtivos, classes de tenses e fatores ambientais envolvidos, aliados incerteza nos processos de cromatografia dos transformadores, impossibilitam a obteno de um
22
classificador com 100% de diagnsticos corretos. Mas a combinao dos resultados com os mtodos apresentados e a experincia dos especialistas aumentam a confiabilidade dos diagnsticos.
IEC 60599. Mineral oil-impregnated electrical equipment in service Guide to the interpretation of dissolved and free gases analysis. [S.l.]: International Electrotechnical Commission, 1999. JACOBS, R. A. Increased rates of convergence through learning rate adaptation. Massachusetts: University of , 1987. p. 295-307. (Technical Reprt number 1). MCCULLOCH, W. S.; PITTS, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, n. 5, p. 115-133, 1943. MORAIS, D. R. Ferramenta inteligente para deteco de falhas incipientes em transformadores baseada na anlise de gases dissolvidos no leo isolante . Florianpolis: UFSC, 2004. PASSOS, M. G. Modelos de dispositivos de microondas e pticos atravs de redes neurais artificiais de alimentao direta. Natal: UFRGN, 2006. POSSA, B. A. V.; CARVALHO, M. L. B. de; REZENDE, R. S. F.; MEIRA JR., W. Data mining: tcnicas para explorao de dados. Belo Horizonte: UFMG, 1998. QUINLAN, J. C. C4.5: programs for machine learning. San Mateo: Morgan Kaufmann, 1993. 302 p. RIEDMILLER, M.; BRAUN, H. A direct adaptive mMethod for faster backpropagation learning: the RPROP algorithm. In: IEEE INTERNATIONAL CONFERENCE ON NEURAL NETWORKS, 1993. Proceedings... [S.l. : s.n.], 1993. v. 1, p. 586-591. ROSENBLATT, F. The perceptron: a probabilistic model for information storage and organization in the brain. Psychological Review, n. 65, p. 386-408, 1958. TAFNER, M. A. Redes neurais artificiais: aprendizado e plasticidade. Revista Crebro e Mente, Campinas, UNICAMP, mar./maio 1998. WIDROW, B.; HOFF, M. E. Adaptative switching circuit. New York: IRE WESCON Convention Record, 1960. p. 96-104.
Referncias
BRAGA, A. P.; CARVALHO, A. C. P. L. F.; LUDERMIR, T. B. Redes neurais artificiais. In: REZENDE, Solange Oliveira (Org.). Sistemas inteligentes. 1. ed. Barueri, SP: Manole, 2003. v. 1, p. 141-168. COVA, C. J. G.; CRUZ, E. A. Teoria das decises: um estudo do mtodo lexicogrfico. Revista Pensamento Contemporneo em Administrao, v. 1, p. 3-4, 2007. DUVAL, M.; de PABLO, A. Interpretation of gas-in-oil analysis using IEC publication 60599 and IEC TC 10 databases.IEEE Electrical Insulation Magazine, v. 17, n. 2, mar./abr. 2001. DEMUTH, H.; BEALE, M. Neural network toolbox users guide for use with MATLAB. Verso 4, 2002. DUVAL, M. A Review of faults detectable by gas-in-oil analysis in transformers. IEEE Electrical Insulation Magazine, v. 18, n.3, p. 8-17, maio/jun. 2002. FAYYAD, U.; SHAPIRO, G.P.; SMYTH, P. From data mining to knowledge discovery in databases. In: SCIENTIFIC AND STATISTICAL DATABASE MANAGEMENT CONFERENCE, 9., 1997. Proceedings... [S.l. : s.n.], 1997. p. 2-11. HAGAN, M. T.; FORESSE, F. D. Gauss-Newton Approximation to Bayesian Learning . In: INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, 1997. Proceedings... [S.l. : s.n.], 1997. v. 3, p. 1930-1935. HAYKIN, S. Redes Neurais Princpios e prtica. 1. ed. Bookman, 2001. 898 p.