Você está na página 1de 22

Redes Neurais Articiais

Andr Ricardo Gonalves e c


andreric [at] dca.fee.unicamp.br www.dca.fee.unicamp.br/~andreric

Sumrio a

1 Redes Neurais Articiais 1.1 1.2 1.3 Inspirao Biolgica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ca o Modelo Matemtico do Neurnio Biolgico . . . . . . . . . . . . . . . . . . a o o Redes Neurais Articiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 1.3.2 1.3.3 1.3.4 1.4 Topologias das Redes Neurais . . . . . . . . . . . . . . . . . . . . . Processo de Aprendizagem . . . . . . . . . . . . . . . . . . . . . .

p. 3 p. 3 p. 4 p. 6 p. 7 p. 9

Redes Multilayer Perceptron . . . . . . . . . . . . . . . . . . . . . . p. 10 Diculdades de implementao da rede MLP . . . . . . . . . . . . . p. 12 ca

Outros Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 14 1.4.1 1.4.2 1.4.3 Redes de Funo de Base Radial . . . . . . . . . . . . . . . . . . . p. 14 ca Mapas Auto-Organizveis . . . . . . . . . . . . . . . . . . . . . . . p. 14 a Rede de Hopeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17

1.5 1.6

Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18 co Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 19 a p. 21

Referncias e

Redes Neurais Articiais

O crebro humano uma mquina altamente poderosa e complexa capaz de e e a processar uma grande quantidade de informaes em tempo m co nimo. As unidades principais do crebro so os neurnios e por meio deles que as informaes so transmitidas e processadas. e a o e co a As tarefas realizadas pelo crebro intrigam os pesquisadores, como por exeme plo, o crebro apto a reconhecer um rosto familiar dentre uma multido, em tempo da ordem e e a de milsimos de segundo. As respostas sobre alguns enigmas do funcionamento do crebro se e e perpetuam at os dias de hoje. e O que conhecido sobre o funcionamento do crebro que o mesmo dee e e senvolve suas regras atravs da experincia adquirida em situaoes vividas anteriormente. e e c Segundo (HAYKIN, 1999) o desenvolvimento do crebro humano d-se principalmente nos dois e a primeiros anos de vida, mas se arrasta por toda a vida. Inspirando-se neste modelo, diversos pesquisadores tentaram simular o funcionamento do crebro, principalmente o processo de aprendizagem por experincia, a m de e e criar sistemas inteligentes capazes de realizar tarefas como classicao, reconhecimento de ca padres, processamento de imagens entre outras. o Como resultados destas pesquisas surgiram o modelo do neurnio articial e o posteriormente um sistema com vrios neurnios interconectados, a chamada Rede Neural. a o

1.1

Inspirao Biolgica ca o

Como dito anteriormente, o neurnio a unidade bsica do crebro humano. o e a e Uma clula especializada na transmisso de informaoes, pois nelas esto introduzidas proprie a c a edades de excitabilidade e conduo de mensagens nervosas. ca De acordo com (ARBIB, 2002) o neurnio constitu por trs partes prino e do e cipais: a soma ou corpo celular, do qual emanam algumas ramicaes denominadas de co dendritos, e por m outra ramicao descendente da soma, porm mais extensa chamada ca e de axnio. Nas extremidades dos axnios esto os nervos terminais, que pelos quais realio o a e zada a transmisso das informaoes para outros neurnios, esta transmisso conhecida como a c o a e sinapse. Arbib (2002) observa que a soma e os dendritos formam a superf de cie entrada do neurnio e o axnio a superf de sa do uxo de informao. A gura 1 o o cie da ca identica as partes principais do neurnio e as setas mostram o uxo da informao o ca A informao transmitida pelos neurnios na realidade so impulsos eltricos, ca o a e

1.2 Modelo Matemtico do Neurnio Biolgico a o o

Figura 1: Modelo abstrato do neurnio biolgico. [Adaptado de (ARBIB, 2002)] o o que segundo (REIS, 2008) o impulso eltrico a mensagem que os neurnios transmitem uns aos e e o outros, ou seja, a propagao de um est e ca mulo ao longo dos neurnios que pode ser qualquer o sinal captado pelos receptores nervosos. O est mulo resulta na capacidade dos neurnios se o excitarem atravs da ao de um est e ca mulo.

1.2

Modelo Matemtico do Neurnio Biolgico a o o

A partir da estrutura e funcionamento do neurnio biolgico, pesquisadores o o tentaram simular este sistema em computador. O modelo mais bem aceito foi proposto por McCulloch e Pitts (1943), conhecido como Perceptron, o qual implementa de maneira simplicada os componentes e o funcionamento de um neurnio biolgico. o o Neste modelo, os impulsos eltricos provenientes de outros neurnios so e o a representados pelos chamados sinais de entrada, (xj ), dentre os vrios est a mulos recebidos, alguns excitaro mais e outros menos o neurnio receptor, essa medida de quo excitatrio o a o a o e est mulo representada no modelo de McCulloch e Pitts atravs dos pesos sinpticos, quanto e e a maior o valor do peso, mais excitatrio o est o e mulo. Os pesos sinpticos so representados por a a wkj , onde k representa o ndice do neurnio em questo e j se refere ao terminal de entrada o a da sinapse ` qual o peso sinptico se refere. a a A soma representada por uma composio de dois mdulos, o primeiro e ca o e uma juno aditiva, somatrio dos est ca o mulos (sinais de entrada) multiplicado pelo seu fator excitatrio (pesos sinpticos), e posteriormente uma funo de ativao, que denir com base o a ca ca a nas entradas e pesos sinpticos, qual ser a sa do neurnio. O axnio aqui representado a a da o o e pela sa (yk ) obtida pela aplicao da funo de ativao. da ca ca ca Assim como no modelo biolgico, o est o mulo pode ser excitatrio ou inio bitrio, representado pelo peso sinptico positivo ou negativo respectivamente. A gura 2 o a

1.2 Modelo Matemtico do Neurnio Biolgico a o o

apresenta o modelo de neurnio articial proposto por McCulloch e Pitts (1943). o

Figura 2: Modelo de neurnio articial proposto por McCulloch e Pitts o O modelo proposto possui uma natureza binria, tanto os sinais de entrada a quanto a sa so valores binrios. McCulloch acreditava que o funcionamento do sistema da a a nervoso central possu um carter binrio, ou seja, um neurnio inuencia ou no outro a a a o a neurnio, mas posteriormente mostrou-se que no era dessa forma. Esta caracter o a stica do modelo de McCulloch e Pitts foi referenciada como propriedade do tudo ou nada (HAYKIN, 1999). Em termos matemticos o neurnio articial i pode ser representado como: a o
m

uk =
j=1

wkj xj

(1.1)

onde m o nmero de sinais de entrada incidentes no neurnio k e posterie u o ormente a aplicao da funo de ativao ca ca ca yk = (uk ) (1.2)

Basicamente a funo de ativao recebe o valor provido pela juno aditiva, ca ca ca denominado por (HAYKIN, 1999) como campo local induzido atribuindo 1, se o campo local , induzido daquele neurnio for no-negativo e 0 caso contrrio. A funo de ativao adotada o a a ca ca no modelo uma funo degrau denida como segue: e ca (u) = 1 , se u 0 0 , se u < 0 (1.3)

Outras funes de ativao foram apresentadas na literatura, dentre elas co ca a funo sigmide, a qual segundo (HAYKIN, 1999) de longe a forma mais utilizada na ca o e construo de redes neurais articiais, tem um comportamento estritamente crescente que ca exibe um balanceamento entre comportamento linear e no-linear. a

1.3 Redes Neurais Articiais

Um exemplo de funo sigmide a funo log ca o e ca stica denida por (u) = 1 1 + exp(au) (1.4)

onde a o parmetro de inclinao da funo sigmide. Outro fator relevante e a ca ca o desta funo, como observado por (HAYKIN, 1999) que esta funo diferencivel, que ca e ca e a e uma caracter stica importante da teoria das redes neurais. McCulloch e Pitts mostraram que o Perceptron era capaz de computar funoes lgicas e aritmticas, como funoes lgicas do tipo or e and (BASHEER; HAJMEER, c o e c o 2000). Rosenblatt (1958) props o Perceptron como o primeiro modelo para apreno dizagem supervisionada, chamada de Rede Perceptron ou Perceptron de Camada Unica. Esta e a forma mais simples de rede neural, usada para classicao de padres linearmente separveis ca o a (HAYKIN, 1999).

1.3

Redes Neurais Articiais

Uma rede neural t pica constitu por um conjunto de neurnios interlie da o gados, inuenciando uns aos outros formando um sistema maior capaz de armazenar conhecimento adquirido por meio de exemplos apresentados e assim podendo realizar inferncias sobre e novos exemplos (novas situaoes) desconhecidos. c As redes neurais so comumente apresentadas como um grafo orientado, a onde os vrtices so os neurnios e as arestas as sinapses, a direo das arestas informa o e a o ca tipo de alimentao, ou seja, como os neurnios so alimentados (recebem sinais de entrada), ca o a Alimentao de redes neurais discutida na seo 1.3.1. Um exemplo de uma rede neural ca e ca como um grafo orientado mostrado na gura 3. e

Figura 3: Rede Neural representada como um grafo orientado De acordo com (ACHARYA et al., 2003) as redes neurais derivam seu poder devido a sua estrutura massiva e paralela e a habilidade de aprender por experincia. Essa e experincia transmitida por meio de exemplos obtidos do mundo real, denidos como um e e conjunto de caracter sticas que levam a uma determinada situao. Se a situao gerada pela ca ca combinao de caracter ca sticas for informada a rede, a aprendizagem dita ser supervisionada e e no-supervisionada caso contrrio. a a

1.3 Redes Neurais Articiais

O conhecimento obtido pela rede atravs dos exemplos armazenado na e e forma de pesos das conexes, os quais sero ajustados a m de tomar decises corretas a o a o partir de novas entradas, ou seja, novas situaoes do mundo real no conhecidas pela rede. c a O processo de ajuste dos pesos sinpticos realizado pelo algoritmo de a e aprendizagem, responsvel em armazenar na rede o conhecimento do mundo real obtido atravs a e de exemplos. Na literatura so relatados vrios algoritmos de aprendizagem, dentre eles o a a backpropagation que o algoritmo mais utilizado (BASHEER; HAJMEER, 2000). e Acharya et al. (2003) identica trs decises importantes no processo de e o construo de uma rede neural: (i) a topologia da rede, a topologia de redes neurais sero ca a discutidas na seo 1.3.1; (ii) algoritmo de aprendizagem e (iii) funo de ativao. ca ca ca

1.3.1

Topologias das Redes Neurais

A Topologia de uma rede neural diz respeito ` disposio dos neurnios na a ca o rede, como so estruturados. A topologia da rede est diretamente ligada ao tipo de algoritmo a a de aprendizagem utilizado. Em geral poss identicar trs classes de topologias de rede: e vel e 1. Redes alimentadas adiante (Feed-forward networks) Alguns tipos de redes so estruturados em forma de camadas, os neurnios so dispostos a o a em conjuntos distintos e ordenados seqencialmente, conjuntos esses denominados de u camadas. Nas redes alimentadas adiante, o uxo de informao sempre da camada de ca e entrada para a camada de sa da. Haykin (1999) distingue as redes alimentadas adiante em Redes de Camada Unica e Redes de Mltiplas Camadas, apenas diferenciando do u nmero de camadas, mas o conceito de alimentao adiante ou direta o mesmo. A u ca e gura 4 apresenta um modelo de rede alimentada adiante.

Figura 4: Rede neural alimentada adiante

1.3 Redes Neurais Articiais

Algumas caracter sticas importantes de uma rede alimentada adiante so apresentadas a abaixo: (a) Os neurnios so arranjados em camadas, a camada inicial recebe os sinais de o a entrada e a camada nal obtm as sa e das. As camadas intermedirias so chamadas a a de camadas ocultas. (b) Cada neurnio de uma camada conectado com todos os neurnios da camada o e o seguinte. (c) No h conexes entre neurnios de uma mesma camada. a a o o A informao (alimento) provm da camada de entrada ou neurnios (ns) fonte e ca e o o posteriormente transmitida para as camadas seguintes at a camada de sa e e da. Este tipo de rede tambm conhecido como rede ac e e clica, pois na representao de grafos ca no possui ciclos. a 2. Redes Recorrentes (Feed-backward networks) Nas redes recorrentes h a ocorrncia de realimentao, na qual a sa de um neurnio a e ca da o aplicada como entrada no prprio neurnio e/ou em outros neurnios de camadas e o o o anteriores, ou seja, h a ocorrncia de um ciclo no grafo. A gura 5 mostra uma rede a e neural, na qual alguns neurnios so realimentados. o a

Figura 5: Exemplo de uma rede neural com realimentao ca 3. Redes Competitivas Nesta classe de redes neurais os neurnios esto divididos em duas camadas, a camada o a de entrada ou ns fontes e a camada de sa conhecida como grade Os neurnios o da, . o da grade so forados a competir entre si, com base no n de similaridade entre o a c vel padro de entrada e a grade de neurnios e somente o neurnio vencedor ser disparado a o o a (ativado) a cada iterao (BASHEER; HAJMEER, 2000). Redes desta classe utilizam ca algoritmo de aprendizagem competitivo. A rede mais conhecida desta classe a rede de e Kohonen, tambm conhecida como Mapa Auto-Organizvel. e a

1.3 Redes Neurais Articiais

1.3.2

Processo de Aprendizagem

A principal caracter stica de uma rede neural a sua capacidade de aprender e a partir de um ambiente e de melhorar seu desempenho por meio da aprendizagem. Esta aprendizagem, como observa (BASHEER; HAJMEER, 2000), um processo de atualizao da e ca representao interna do sistema em resposta a um estimulo externo, podendo desempenhar ca uma tarefa espec ca. A atualizao da representao realizada sob a forma de modicao da ca ca e ca arquitetura, ajuste dos pesos das conexes entre os neurnios e ativando regras de neurnios o o o individuais. As regras de aprendizagem denem como a rede deve ajustar os pesos sinpa ticos. Haykin (1999) identica quatro tipos de regras de aprendizagem: 1. Aprendizagem por Correo de Erro ca Utilizado em treinamento supervisionado, esta tcnica ajusta os pesos sinpticos por e a meio do erro, que obtido atravs da diferena entre o valor de sa da rede e o valor e e c da esperado em um ciclo de treinamento. Com isso gradualmente vai diminuindo o erro geral da rede. 2. Aprendizagem Hebbiana Baseado no postulado de aprendizagem de Hebb (HEBB, 1949), que arma: se dois neurnios em ambos os lados de uma sinapse so ativados sincronamente e simultaneo a amente, ento a fora daquela sinapse seletivamente aumentada Este processo de a c e . treinamento feito localmente, ajustando o peso das conexes baseado nas atividades e o dos neurnios. o 3. Aprendizagem de Boltzmann Um mtodo de aprendizagem estocstico derivado das idias enraizadas na mecnica e a e a estat stica (HAYKIN, 1999). Uma rede que implementa o mtodo de aprendizagem de e Boltzmann dita ser uma MB! (MB!). Neste modelo os neurnios so estocsticos, e o a a podendo residir em dois estados poss veis, ligado (+1) e desligado (-1), e ainda so a divididos em dois grupos funcionais, presos e livres, sendo responsveis pela interao a ca com o ambiente e pela explicao das restrioes subjacentes dos padres de entrada ca c o do ambiente, respectivamente. Um ponto importante na MB que seus neurnios e o possuem conexes bidirecionais (HINTON; ACKLEY; SEJNOWSKI, 1985). De acordo com o (HAYKIN, 1999) este modelo pode ser visto como um procedimento de aprendizagem no-supervisionado para modelar uma distribuio de probabilidade, especicada pelos a ca padres presos aos neurnios vis o o veis com probabilidades apropriadas. 4. Aprendizagem Competitiva Neste modelo de aprendizagem os neurnios so forados a competir entre si e somente o a c um ser ativo, em uma dada iterao, o vencedor, ou seja, o que tiver maior similaridade a ca com o padro de entrada. Todos os pesos dos neurnios prximos ao neurnio vencedor a o o o tero seus valores ajustados. a As regras que denem como sero atualizados os pesos sinpticos constia a tuem o algoritmo de aprendizagem. O algoritmo mais utilizado na literatura o algoritmo e backpropagation, baseado na propagao do erro. ca

1.3 Redes Neurais Articiais

10

1.3.3

Redes Multilayer Perceptron

Redes MLP! (MLP!) so redes alimentadas adiante que possuem uma ou a mais camadas de neurnios entre as camadas de entrada e sa chamada de camada oculta o da, (LIPPMANN, 1987). Esta camada adiciona um poder maior em relao `s redes Perceptron ca a de camada unica, que classica apenas padres linearmente separveis, sendo os neurnios o a o ocultos responsveis por capturar a no-linearidade dos dados. a a Neste modelo todos os neurnios so ligados aos neurnios da camada subo a o seqente, no havendo ligao com os neurnios laterais (da mesma camada) e tambm no u a ca o e a ocorre realimentao. ca A aprendizagem de uma rede neural MLP um processo iterativo, conhecido e como aprendizagem por experincia, no qual padres de treinamento (exemplos) so apresene o a tados a rede e com base nos erros obtidos, so realizados ajustes nos pesos sinpticos, com o a a intuito de diminuir o erro nas prximas iteraes. o co O principal algoritmo de treinamento o algoritmo de retropropagao de e ca erro (error backpropagation), baseado na regra de aprendizagem por correo de erro, que ca consiste basicamente de dois passos, um para frente e outro para trs. a O passo para frente chamado de propagao, os valores provindos dos e ca neurnios de entrada (ns fontes) so aplicados aos neurnios ocultos e posteriormente suas o o a o sa das so aplicadas como entradas aos neurnios da camada nal, obtendo a resposta da a o rede. Durante este passo os pesos sinpticos da rede so todos xos (HAYKIN, 1999). a a J o passo para trs incumbido de ajustar os pesos sinpticos, por meio do a a e a clculo do erro realizado na camada de sa os pesos sinpticos entre as camadas antecessoras a da, a so ajustados de acordo com uma regra de correo de erro. A gura 6 mostra uma rede MLP. a ca

Figura 6: Arquitetura da rede MLP O algoritmo backpropagation utiliza a tcnica de busca por gradiente para e minimizar a funo custo. O algoritmo 1 mostra as etapas do backpropagation, baseado em ca (LIPPMANN, 1987). As etapas do backpropagation so melhores discutidas e detalhadas abaixo. a

1.3 Redes Neurais Articiais

11

Algoritmo 1: Algoritmo de treinamento backpropagation 1 begin 2 Atribuio de valores iniciais aos pesos sinpticos; ca a 3 repeat 4 Apresentao ` rede dos padres de entrada e as sa ca a o das desejadas; 5 Clculo dos valores de sa dos neurnios ocultos; a da o 6 Clculo dos valores de sa dos neurnios de sa (resposta real da rede); a da o da 7 Clculo do erro (diferena entre resposta da rede e valor esperado); a c 8 Ajuste dos pesos sinpticos; a 9 until Condio de parada no satisfeita ; ca a 10 end

Linha 2 O processo de atribuio de valores iniciais dos pesos sinpticos comumente realica a e zado de maneira aleatria, atribuindo pequenos valores, geralmente no intervalo {0,1}; o Linha 4 Sendo o treinamento supervisionado necessria a apresentao dos padres de e a ca o entrada juntamente com a sa conhecida previamente; da Linhas 5 e 6 O clculo dos valores de sa so realizados pela aplicao do campo local a da a ca induzido (v) (HAYKIN, 1999) ` uma funo de ativao. De uma maneira matemtica, a ca ca a o campo local induzido para o neurnio j na camada l na iterao n obtido por o ca e
r+1 (l) (l) (l1)

vj (n) =
i=1 (l1)

wji (n)yi

(n)

(1.5)

(n) o sinal de sa do neurnio i na camada anterior l 1, na iterao n, e da o ca onde yi (l) e a o e o wji o peso sinptico do neurnio j da camada l, que alimentado pelo neurnio i da camada l 1 e r o nmero de neurnios na camada anterior (l 1). Observe que ao u o invs de r utilizado r + 1, isto se deve ao fato da incluso de um bias, um neurnio e e a o (l1) adicional com valor +1. O bias equivale a dizer: yr+1 (n) = +1. Denotaremos por j (vj ), sendo ( ) a funo de ativao e vj o campo local induzido ca ca do neurnio j, o valor de sa de um neurnio j da camada l. Assim o valor de sa o da o da do neurnio o yj = (vj (n))
(l)

(1.6)

Valores de sa estaro dentro do intervalo denido pela funo de ativao. As funoes da a ca ca c de ativao geralmente utilizadas podem ser encontradas em (HAYKIN, 1999) ca Linha 7 O sinal de erro da sa da rede, na iterao n calculada por ej (n) = dj (n)yj (n), da ca e onde dj a j-sima resposta desejada e yj a j-sima resposta da rede; e e e e Linha 8 O ajuste dos pesos o ncleo deste algoritmo, sendo realizado da camada oculta e u (l) para a camada de entrada. Em qualquer camada l os valores dos pesos wji na iterao ca n sero ajustados da iterao anterior (n 1) de acordo com: a ca

1.3 Redes Neurais Articiais

12

wji (n) = wji (n 1) + wji (n)

(l)

(l)

(l)

(1.7)

l e ca a ca e onde wji (n) correo aplicada ao peso da conexo. A correo determinada pela regra delta modicada, denida como segue: (l) (l) (l1) (l)

wji (n + 1) = j yi
(l)

+ wji (n)

(1.8)

onde a taxa de aprendizagem, j o gradiente local, a constante de momento e e e (l1) e yi o sinal de sa do neurnio i na camada anterior l 1. e da o A taxa de aprendizagem dene o tamanho do passo de atualizao e a constante de ca momento utilizado para que o mtodo possa fugir do m e e nimo local na superf de cie erro, objetivando o m nimo global. O gradiente local calculado de maneira distinta entre neurnios de sa e ocultos. e o da Sendo L a camada de sa da, o gradiente do neurnio j, na iterao n da camada de o ca sa calculado por: da e j (n) = ej (n) (vj )
(L) (L) (L)

(1.9)

onde ( ) derivada da funo de ativao. Para os neurnios ocultos a correo e ca ca o ca e obtida por
r+1 (l) j (n) (l) (vj ) i=1 (l+1) (l+1)

wij

(1.10)

sendo l uma camada oculta qualquer. Linha 9 Basheer e Hajmeer (2000) identicam alguns critrios de parada, dentre eles (i) erro e de treinamento (e ), (ii) gradiente do erro menor que um ou (iii) utilizando tcnica de validao cruzada. e ca O critrio de parada (iii) geralmente utilizado atravs da anlise grca do compore e e a a tamento do erro, com base na tcnica de validao cruzada (KOHAVI, 1995) e (AMARI e ca et al., 1997).

1.3.4

Diculdades de implementao da rede MLP ca

Para que uma rede Multilayer Perceptron possa obter bons resultados na aplicao em problemas reais, uma boa congurao da mesma deve ser feita. Esta conguca ca rao realizada de maneira distinta dependendo de vrias caracter ca e a sticas do problema, como o tipo dos dados de entrada (inteiro, booleanos, h brido), nmero de padres dispon u o veis para treinamento e teste, a dimensionalidade dos dados de entrada, entre outros. Para isso, valores ideais dos vrios parmetros da rede MLP devem ser utilizados, porm estes valores no so a a e a a de fcil obteno. a ca De acordo com (BASHEER; HAJMEER, 2000) alguns parmetros so determia a nados por tentativa e erro, ou seja, so atribu a dos vrios valores distintos aos parmetros e a a

1.3 Redes Neurais Articiais

13

analisando os resultados obtidos, a melhor congurao escolhida. Dentre esses parmetros, ca e a a taxa de aprendizagem, a constante de momento, o nmero de camadas ocultas e o nmero u u de neurnios nas camadas ocultas, possuem um maior grau de diculdade para o ajuste dos o valores. Algumas soluoes para contornar este problema foram sugeridas, como a c aplicao de outras tcnicas de aprendizagem de mquina, as quais so conhecidas pela alta ca e a a aplicabilidade em problemas de otimizao, como Algoritmos Genticos (HAN; MAY, 1996), ca e Otimizao por Enxame de Part ca culas (ZHANG; SHAO; LI, 2000) e Otimizao por Colnias de ca o Formigas (GON ALVES; CAMARGO-BRUNETO, 2008b). C Outra diculdade a determinao do nmero ideal de ciclos de treinamento e ca u da rede, que de acordo com (BASHEER; HAJMEER, 2000) determinado por tentativa e erro. Se e um nmero muito grande de ciclos de treinamento for aplicado, a rede entra em um processo de u memorizao dos padres a ela apresentados, chamado de super-treinamento (overtraining), ca o perdendo assim a capacidade de generalizao. E se um nmero muito pequeno for aplicado, ca u a rede torna-se incapaz de representar os dados. Este fenmeno mostrado pela gura 7. o e

Figura 7: Nmero de ciclos de treinamento timo. [Fonte: (BASHEER; HAJMEER, 2000)] u o O super-treinamento identicado quando o erro de teste, obtido pela valie dao cruzada, comea a aumentar depois de ter diminu ca c do. Para evitar o super-treinamento a aprendizagem deve ser interrompida quando os erros no variam mais, indicando que a rede a est treinada, ou quando o erro de teste aumentar, depois de ter diminu a do. A tcnica de e visualizao grca dos erros obtidos pela utilizao da tcnica de validao cruzada do tipo ca a ca e ca Holdout comumente utilizada (KOHAVI, 1995) e (AMARI et al., 1997). Porm nesta abore e dagem h a necessidade de executar um nmero grande de ciclos de treinamento antes da a u gerao do grco. Uma maneira de automatizar este procedimento de identicao grca ca a ca a utilizando regresso linear foi proposta por (GON ALVES; CAMARGO-BRUNETO, 2008a). a C

1.4 Outros Modelos

14

1.4

Outros Modelos

Diferentes modelos de redes neurais foram propostos na literatura, com diferentes algoritmos de treinamento, de topologias, de paradigmas de aprendizagem e com aplicaoes diversas. As redes popularmente utilizadas so: Redes de Funo de Base Radial, a c a ca Rede de Kohonen ou Mapas Auto-Organizveis e as Redes de Hopeld, que so apresentadas a a a seguir.

1.4.1

Redes de Funo de Base Radial ca

Diferentemente das Redes Perceptron Multicamadas, as redes de Funo de ca Base Radial, do ingls RBF! (RBF!), trabalham o projeto de uma rede neural como um e problema de ajuste de curvas (aproximao) em um espao de alta dimensionalidade (HAYKIN, ca c 1999). Como observado por (HAYKIN, 1999), a aprendizagem de uma rede RBF! e um processo de busca em uma superf multidimensional, que fornea melhores ajustes para cie c os dados de treinamento, sendo os melhores ajustes uma medida no sentido estocstico e a a generalizao equivale ao uso da superf multidimensional para interpolao dos dados de ca cie ca teste. As redes RBF! diferem das redes MLP! por trs caracter e sticas principais, como observa (VON ZUBEN; ATTUX, 2008): 1. Sempre apresenta uma unica camada intermediria (oculta); a 2. Neurnios da sa so sempre lineares; o da a 3. Os neurnios da camada intermediria tm funes de base radial como funo de o a e co ca ativao, ao invs de funoes sigmoidais ou outras. ca e c Uma rede RBF! em sua forma mais simples uma rede constitu por trs e da e camadas, com papis distintos. A camada inicial ou ns fonte so encarregados de prover e o a informaes do ambiente (dados de entrada), a segunda e unica camada oculta da rede co e responsvel pela transformao no-linear do espao de entrada para o espao oculto, sendo o a ca a c c ultimo um espao de alta dimensionalidade (na maioria das aplicaoes). E por m a camada c c de sa que linear, fornece uma resposta ao est da, e mulo gerado pela aplicao de um padro ca a (dados de entrada), pela camada de entrada. As redes RBF! podem ser aplicadas principalmente em classicao de paca dres e aproximao de funo (GUPTA; JIN; HOMMA, 2003). o ca ca

1.4.2

Mapas Auto-Organizveis a

Os Mapas Auto-Organizveis, do ingls SOM! (SOM!), constituem outra a e classe de redes neurais, as redes com aprendizagem no-supervisionada. Esta rede tambm a e e conhecida como um tipo de Rede de Kohonen, devido ao fato deste modelo ter sido proposto por Kohonen (1982).

1.4 Outros Modelos

15

A base biolgica do SOM! est na forma que os neurnios se organizam, o a o muitas vezes reetem algumas caracter sticas f sicas sentidas pelos est mulos externos (LIPPMANN, 1987). Ou seja, o crebro humano organizado em vrias reas, de modo que entradas e e a a sensoriais diferentes so representadas por mapas computacionais ordenados topologicamente a (HAYKIN, 1999). Utilizando este conhecimento biolgico, a rede de Kohonen utiliza-se de duas o camadas, a camada de entrada e a grade ps-sinptica ou mapa de caracter o a sticas, sendo a ultima um arranjo bi-dimensional de neurnios. A gura 8 mostra um mapa auto-organizvel. o a

Figura 8: Disposio dos neurnios em uma rede de Kohonen. [Adaptado de (LIPPMANN, ca o 1987)] Como pode ser observado pela gura 8, na grade ps-sinptica os neurnios o a o so interligados aos neurnios mais prximos e os neurnios de entrada so ligados com todos a o o o a os neurnios da grade. o O mapa auto-organizvel, como descrito por (LIPPMANN, 1987) treinado a e utilizando uma aprendizagem h brida composta por aprendizagem Hebbiana e competitiva, onde os neurnios da grade ps-sinptica competem entre si, com base em uma medida de o o a similaridade com o sinal de entrada, o neurnio mais similar dito ser o vencedor. O neurnio o e o vencedor por sua vez excita os neurnios prximos a ele. A distncia euclidiana geralmente o o a e utilizada como medida de similaridade. O algoritmo responsvel pela formao do mapa comea pela atribuio de a ca c ca valores iniciais dos pesos sinpticos da grade, que segundo (HAYKIN, 1999) deve ser feito a atribuindo valores pequenos gerados aleatoriamente. Aps esta etapa, Haykin (1999) identica trs processos essenciais envolvidos o e na formao do mapa auto-organizvel: ca a Competio Para cada padro de entrada, os neurnios da grade competem entre si, calcuca a o lando a distncia euclidiana entre seus pesos sinpticos e os valores do padro de entrada, a a a

1.4 Outros Modelos

16

sendo o neurnio com a menor distncia o vencedor (Aprendizagem Competitiva); o a Cooperao O neurnio vencedor determina uma rea, vizinhana topolgica, na qual os ca o a c o neurnios cooperaro entre si (Aprendizagem Hebbiana); o a Adaptao Sinptica Determinada a vizinhana, os neurnios cooperam de modo a atualica a c o zarem seus pesos sinpticos, sendo que os mais prximos do neurnio vencedor sofrem a o o modicaoes mais signicativas do que os neurnios mais distantes. c o A funo Gaussiana utilizada para denir como ser feita a atualizao dos ca e a ca pesos dos neurnios na vizinhana, neste caso o neurnio vencedor est localizado no centro o c o a da vizinhana. A Eq. (1.11) mostra o clculo da excitao de um neurnio j, sendo d a c a ca o distncia entre o neurnio j e o neurnio vencedor i. A distncia euclidiana, denida por a o o a e D(x, y) = x2 y 2 , comumente utilizada. d2 ji hji = exp 2 2

(1.11)

onde a largura efetiva da vizinhana topolgica. Ela mede o grau com o qual neurnios e c o o excitados na vizinhana participam do processo de aprendizagem (HAYKIN, 1999). c O autor supracitado ainda arma que em um sentido qualitativo a vizinhana c topolgica gaussiana mais biologicamente apropriada do que uma vizinhana retangular. o e c

Figura 9: Vizinhana gaussiana c Com o decorrer da execuo do algoritmo, os padres de entrada similares ca o sero mapeados em neurnios topologicamente prximos, formando reas ou clusters. a o o a O SOM! aplicado ` clusterizao de dados, ou seja, agrupamento de e a ca dados intrinsecamente semelhantes, utilizado quando nada conhecido sobre os dados. Os e mapas de Kohonen podem ser aplicados em compresso de dados, uma vez que dados de alta a dimensionalidade so mapeados em um espao de baixa dimenso, preservando seu contedo a c a u (BASHEER; HAJMEER, 2000).

1.4 Outros Modelos

17

1.4.3

Rede de Hopeld

A rede de Hopeld pode ser vista como uma rede totalmente conectada agindo como uma memria associativa, capaz de armazenar padres (HOPFIELD, 1984). De o o acordo com (KOVCS, 1996) uma memria associativa serve para armazenar um conjunto de a o vetores, de tal forma que se for endereada com um vetor arbitrrio y, retornar como sa c a a da aquele vetor mais prximo em algum sentido pr-denido. Geralmente utilizada a distncia de o e e a Hamming, como forma de mensurar a proximidade entre os vetores. A distncia de Hamming a entre dois vetores (strings) de mesmo tamanho denido pelo nmero de posioes que os e u c s mbolos correspondentes so diferentes (LIPPMANN, 1987). a Observando a denio poss concluir que uma memria associativa ca e vel o pode ser interpretada como um classicador de padres, onde as classes so representadas o a pelos vetores armazenados. O modelo proposto por (HOPFIELD, 1982) a implementao de uma meme ca o ria associativa por uma rede recorrente, porm no h auto-relimentao. Como identicado e a a ca na gura 10.

Figura 10: Memria Associativa recorrente de Hopeld. [Fonte: (HAYKIN, 1999)] o Neste modelo os vetores de entrada so normalmente binrios. A rede a a e iniciada por um vetor x(0) e gera y(0) como sa da, sendo y(0) reaplicado como entrada da rede no ciclo posterior. Esse processo realizado at que a rede se estabilize, ou seja, e e y(k + 1) y(k), este processo referido como dinmica da rede (KOVCS, 1996). O estado e a a = no qual a rede se estabilizou dito ser um m e nimo local do problema.

1.5 Aplicaes co

18

Com o intuito de anlise o processo de evoluo da rede, uma funo de a ca ca energia ou de Lyapunov utilizada. De acordo com (KOVCS, 1996) a funo de energia da e a ca rede submetida a sua prpria dinmica, s pode decrescer ou permanecer constante, ou seja, o a o no decorrer da execuo a rede tenta ir para estados melhores ou no m ca nimo iguais ao inicial. Como observado por (LIPPMANN, 1987), a rede de Hopeld mais apropriada e quando uma exata representao binria poss e menos apropriada quando os valores de ca a e vel entrada so cont a nuos. Os principais focos de aplicao so: classicao e reconhecimento de paca a ca dres, quando usada como uma memria associativa; e tambm em otimizao (HOPFIELD; o o e ca TANK, 1986), quando aplicada considerando a funo de energia. ca

1.5

Aplicaes co

Com o grande nmero distinto de redes neurais presentes na literatura e conu siderando a diversidade de tipos de aprendizagem e topologias, as redes neurais de um modo geral so aplicadas em grande parte das reas do conhecimento. Basheer e Hajmeer (2000) a a destacaram sete categorias, as quais as RNAs vem sendo aplicadas com sucesso. 1. Classicao de Padres ca o Dentre as categorias aqui apresentadas, a classicao de padres talvez seja ca o a categoria com maior aplicao das RNAs. Basicamente o problema consiste em classicar ca padres de entrada entre classes previamente conhecidas, tomando como base de conhecio mento algumas caracter sticas do problema aplicado. As redes MLP! e RBF! so comumente a aplicadas a esta classe de problemas. 2. Clusterizao ca A clusterizao pode ser vista como um problema de classicao de padres, ca ca o quando desconhecido previamente quantas e quais so as classes a ser classicadas. A este e a tipo de problema aplicam-se redes que utilizem aprendizagem no-supervisionada, podendo a destacar a Rede de Kohonen. 3. Aproximao de Funo ca ca Quando desejada a aproximao de funoes complexas e com alta noe ca c a linearidade, algoritmos exatos nem sempre obtm boas aproximaoes, com isso as redes neue c rais surgem como uma alternativa para esse problema. As redes MLP! so conhecidas como a aproximadores universais, podendo aproximar qualquer funo em qualquer n de preciso. ca vel a Destaca-se tambm as redes RBF! em que seu processo de aprendizagem nada mais do que e e a interpolao dos dados de entrada em uma superf multidimensional. ca cie 4. Previso a Com base em um histrico de cenrios e as devidas aoes tomadas poss o a c e vel

1.6 Concluso a

19

prever qual ser a ao a ser executada em um novo cenrio. As redes MLP! e RBF! so a ca a a aplicadas a esta categoria de problemas. 5. Otimizao ca Problemas de otimizao consistem em encontrar o valor mximo ou m ca a nimo a partir de uma funo objetivo. Mesmo sendo um campo bem estabelecido na matemtica, as ca a redes neurais principalmente as redes de Hopeld foram aplicadas com sucesso em problemas de otimizao complexos e no-lineares. ca a 6. Associao ca A associao consiste no desenvolvimento de uma rede associadora de paca dres, a qual foi treinada utilizando dados com ru o dos (noise) e posteriormente aplicada a e classicao de padres sem ru ca o dos. Tambm pode ser aplicado na reconstruo de dados e ca corrompidos ou ausentes. Redes de Hopeld so geralmente utilizadas nesta aplicao (LIPPa ca MANN, 1987). 7. Controle Aplicao de redes neurais para auxiliar um sistema de controle adaptativo. ca O objetivo gerar uma entrada de controle, tal que o sistema siga a trajetria determinada e o pelo modelo de referncia (JAIN; MAO; MOHIUDDIN, 1996). e

1.6

Concluso a

As redes neurais so modelos pertencentes ao paradigma de aprendizagem a conexionista indutivo, na qual um conjunto de unidades simples de processamento (neuro nios), so fortemente conectados, formando uma complexa e altamente robusta ferramenta a de aquisio do conhecimento. ca O conhecimento armazenado na forma de pesos das conexes entre os e o neurnios, por pesos entende-se como n de inuncia de um neurnio no neurnio seguinte, o vel e o o n este que pode ser negativo (inibitrio) ou positivo (excitatrio). vel o o A grande aplicabilidade das redes neurais dada pelo fato da diversidade de e modelos presentes na literatura, com diferentes modos, paradigmas e formas de aprendizagem. Destaca-se a rede Multilayer Perceptron, denominada por (BASHEER; HAJMEER, 2000) como o workhorsedas redes neurais, sendo este um dos modelos mais largamente utilizado (BASHEER; HAJMEER, 2000). Algumas de suas caracter sticas principais so: (i) a habilidade de reconhecer a e aprender as relaoes fundamentais entre as entradas e a sa sem levar em considerao a c da, ca dimensionalidade dos dados e a no-linearidade do sistema; (ii) a alta tolerncia para dados a a ruidosos (noise data). Redes neurais possuem suas limitaoes, destacando: (i) sucesso depende da c qualidade e quantidade de dados dispon para treinamento; (ii) ausncia de regras claras vel e

1.6 Concluso a

20

e procedimentos efetivos para determinao da arquitetura tima; (iii) a incapacidade de ca o explicar de forma compreens como so obtidas as repostas, dado um conjunto novo de vel a entrada, caracter stica esta que originou o termo black boxes. Termo este utilizado pelo no a conhecimento do funcionamento interno de uma rede neural. A m de suprimir estas decincias, vrias abordagens foram propostas na e a literatura. Em conjunto com suas caracter sticas positivas, pode-se concluir que as redes neurais constituem um dos mais importantes e ecazes mtodos de aprendizagem de mquina e a presentes na literatura at ento. e a

21

Referncias e
ACHARYA, U. R. et al. Classication of heart rate data using ariticial neural network and fuzzy equivalence relation. Pattern Recognition, v. 36, p. 6168, 2003. AMARI, S. et al. Asymptotic statistical theory of overtraining and cross-validation. In: IEEE Transactions on Neural Networks. New York: [s.n.], 1997. v. 5, n. 8, p. 985996. ARBIB, M. A. The Handbook Of Brain Theory and Neural Networks. 2. ed. London, England: The MIT Press, 2002. BASHEER, I. A.; HAJMEER, M. Articial neural networks: fundamentals, computing, design, and application. Journal of Microbiological Methods, v. 43, p. 331, 2000. GON ALVES, A. R.; CAMARGO-BRUNETO, M. A. de O. Automatizao do processo de C ca determinao do nmero de ciclos de treinamento de uma rede neural articial. In: Aceito ca u para: II Congresso Nacional de Extenso Universitria e XI Encontro de Atividades Cient a a cas da Unopar. Londrina, Paran: [s.n.], 2008. a GON ALVES, A. R.; CAMARGO-BRUNETO, M. A. de O. Um novo modelo h C brido baseado em otimizao por colnia de formigas e redes neurais para identicao de indiv ca o ca duos com dpoc. In: Aceito para: XI Congresso Brasileiro de Informtica Aplicada a Sade. Campos do a u Jordo, So Paulo: [s.n.], 2008. a a GUPTA, M. M.; JIN, L.; HOMMA, N. Static and Dynamic Neural Networks: From Fundamentals to Advanced Theory. [S.l.]: Wiley-IEEE Press, 2003. HAN, S.-S.; MAY, G. S. Optimization of neural network structure and learning parameters using genetic algorithms. In: ICTAI 96: Proceedings of the 8th International Conference on Tools with Articial Intelligence (ICTAI 96). Washington, DC, USA: IEEE Computer Society, 1996. p. 200. HAYKIN, S. Redes Neurais, Princ pios e prtica. 2. ed. [S.l.]: Bookman, 1999. a HEBB, D. O. The Organization of Behavior: a neuropsychological theory. New York: Willey, 1949. HINTON, G. E.; ACKLEY, D. H.; SEJNOWSKI, T. J. A learning algorithm for boltzmann machines. Cognitive Science, v. 9, p. 147169, 1985. HOPFIELD, J. J. Neural networks and physical systems with emergent collective computational abilities. Biophysics, v. 79, p. 25542558, Abril 1982. HOPFIELD, J. J. Neurons with graded response have collecitve computational properties like those of two state neurons. Biophysics, v. 81, p. 30883092, Maio 1984.

Referncias e

22

HOPFIELD, J. J.; TANK, D. W. Computing with a neural circuits: a model. Science, v. 233, n. 4764, p. 625633, Agosto 1986. JAIN, A. K.; MAO, J.; MOHIUDDIN, K. Articial neural networks: A tutorial. IEEE Computer, v. 29, p. 3144, 1996. KOHAVI, R. A study a cross validation a bootstrap for accuracy estimation and a model selection. In: International Joint Conference on Articial Intelligence (IJCAI). [S.l.: s.n.], 1995. KOHONEN, T. Self-organized formation of topologically correct feature maps. Biological Cybernetics, v. 43, p. 5969, 1982. KOVCS, Z. L. Redes Neurais Articiais: fundamentos e aplicaes. So Paulo: Acadmica, a co a e 1996. LIPPMANN, R. An introduction to computing with neural nets. ASSP Magazine, IEEE [see also IEEE Signal Processing Magazine], v. 4, n. 2, p. 422, 1987. MCCULLOCH, W. S.; PITTS, W. H. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, v. 5, p. 115133, 1943. REIS, M. C. A unidade bsica do Sistema Nervoso: Neurnio. 2008. Website. a o ROSENBLATT, F. The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 1958. VON ZUBEN, F.; ATTUX, R. R. Redes Neurais com Funo de Base Radial. 2008. Dispon ca vel em: <ftp://ftp.dca.fee.unicamp.br/pub/docs/vonzuben/ia353 1s07/topico9 07.pdf>. ZHANG, C.; SHAO, H.; LI, Y. Particle swarm optimisation for evolving articial neural network. In: Systems, Man, and Cybernetics, 2000 IEEE International Conference on. [s.n.], 2000. v. 4, p. 24872490 vol.4. Dispon em: <http://dx.doi.org/10.1109/ICSMC.2000.884366>. vel