Escolar Documentos
Profissional Documentos
Cultura Documentos
Agradecimentos
conseguir enganá-la. Neste aspecto ela é muito parecida com a Diana. A Diana foi em
tempos uma mulher muito importante para mim e apesar de tudo ficámos amigos facto
que me deixa feliz.
Nestes dois anos tenho também de referir e agradecer todo o companheirismo dos meus
colegas de laboratório o Rui, o Rodrigo e o Doutor Pedro. O Rodrigo, presente apenas
nos primeiros meses do meu estágio, mostrou sempre a sua disponibilidade para ajudar
no que fosse preciso, contribuindo sempre com a sua boa disposição para o bom ambiente
e espı́rito de camaradagem do laboratório. O Dr. Pedro que apesar de sempre ocupado
com telefonemas constantes, as aulas e a investigação, esteve sempre disponı́vel para me
tirar dúvidas ajudando-me várias vezes. Por último, dos meus colegas de laboratório, de
referir o Rui a quem eu devo muito do que aprendi. Muito do que sei por exemplo de
Fortran 90, sniff, xmgrace, lyx, awk, gimp, xsane etc o devo a ele e ao seu espı́rito de
companheirismo. O Rui é uma pessoa que gosta do que faz e por isso consegue motivar
os outros com o seu entusiasmo tendo-me ajudado durante estes dois anos em inúmeras
ocasiões. Era meu desejo que o grupo pudesse continuar unido por muitos anos tendo em
conta o bom ambiente do laboratório que eu sempre senti desde que cheguei nunca me
sentindo um estranho no grupo mas sim parte dele.
Agradeço, também, ao grupo de Espectrometria de Massa que me forneceu os primeiros
dados para o treino da rede e à Prof. Filomena Camões na parte de quimiometria.
As últimas palavras vão para os meus orientadores, a Prof. Doutora Filomena Freitas e
o Prof. Doutor Fernando Fernandes. A Prof. Filomena sempre me apoiou desde o primeiro
dia em que fui falar com ela, demonstrando o meu interesse para realizar estágio na área da
quı́mica computacional. Durante todo este tempo sempre procurou motivar-me nos meus
momentos de maior desânimo, quando tudo parecia correr mal. Tenho que agradecer todo o
tempo que gastou comigo a rever detalhes de programação, discutir pormenores do trabalho
ou até nos pormenores de impressão do estágio. Por fim, tenho que agradecer ao Professor
Fernando por me ter aceite como seu estagiário quando não tinha qualquer informação sobre
mim e me ter lançado o desafio da aplicação das redes neuronais artificiais à quı́mica. Na
realidade não o conhecia visto que nunca tinha sido meu professor. A única recordação que
tenho dele antes do meu estágio é a de uma sessão numa avaliação de licenciatura em que
ele fez uma intervenção criticando algo e, não sei porquê, gostei desde logo da sua maneira
de ser. Durante o estágio tenho que agradecer a paciência que teve comigo até eu produzir
os meus primeiros resultados e o pouco tempo que dispensei ao estágio durante o primeiro
ano em que tinha mais ocupações. Além disso, tenho de agradecer toda a motivação que
sempre me procurou transmitir e a confiança que depositou em mim. Espero a partir de
agora começar a produzir mais iniciando, já no verão, uma nova investigação. Deixo aqui
as seguintes palavras que penso que se adequam à sua personalidade:
“Pela sua afectividade, pelo modo como tem o coração ao pé da boca e a lágrima ao
canto do olho pela sua integridade e, principalmente pela sua qualidade como homem, como
profissional e como cidadão já não há muita gente assim”
Manuel Alegre
VII
Resumo
termos percentuais foi inferior em ambos os casos. Para o teste da rede treinada com o
conjunto escolhido de forma aleatória obteve-se uma percentagem de 3,3% de ligações mal
classificadas, contra 8.35% da referida bibliografia, havendo assim uma melhoria de cerca
de 5%. Por outro lado, para o teste da rede, treinada com o conjunto escolhido com base
no desenho da experiência a percentagem de ligações mal classificadas foi de 2.7% contra
4% da bibliografia [1], havendo assim uma melhoria de cerca de 1%. É de salientar que
as redes foram testadas com 182 ligações, um número significativamente maior que o da
bibliografia: 85 ligações [1].
IX
A literatura sobre redes neuronais utiliza várias notações o que, por vezes, pode provocar
alguma confusão. A notação utilizada neste trabalho é a mesma que é adoptada por
Gasteiger e Zupan no seu livro sobre redes neuronais em quı́mica [4]. Trata-se de uma
nomenclatura além de consistente bastante usada na literatura sobre este tema.
xi (i = 1, 2,......,m)
outj ou yj (j = 1,2,......,n)
wji
? Quando as matrizes de diferentes nı́veis são comparadas umas com as outras, a matriz
peso do nı́vel l (W l ) tem os ı́ndices i e j. Enquanto que a do nı́vel seguinte (W l+1 )
tem os ı́ndices j e k:
wjk
? Se existir mais que um objecto de input, estes são identificados por um ı́ndice s, tendo
um valor máximo p. Assim o objecto de input é identificado por X s e as componentes
individuais por x si .
X
? Numa rede com várias camadas, estas são identificadas pela letra l em expoente.
Assim o vector de output de uma camada l é Out l e os seus valores individuais são
out lj .
? As iterações que ocorrem ao longo de uma rede neuronal são caracterizadas por
um expoente t entre parêntesis. Assim a matriz peso inicial é W (0) , que muda na
iteração seguinte para W (1) . As iterações sucessivas são indicadas pelos expoentes
“old” e “new”:
W (old) , W (new)
7×3×1
O exemplo dado diz respeito a uma rede neuronal com uma arquitectura com sete
unidades de input, três neurónios na camada oculta e um neurónio na camada de output.
De uma forma geral o número da esquerda diz respeito ao número de unidades de input,
o número da direita diz respeito ao número de neurónios de output e os outros ao número
de neurónios das camadas ocultas.
Abreviaturas
? Qσ - Polaridade
? αb - Polarizabilidade
? CP (“Counter-Propagation”) - Contra-Propagação
? e. u. (“electron units”)
XII
Conteúdo
4 Reactividade Quı́mica 35
4.1 Introdução ao problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Parâmetros Fı́sico-Quı́micos . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 Procedimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4 Arquitectura da Rede Neuronal . . . . . . . . . . . . . . . . . . . . . . . . 38
4.5 Cálculo da Reactividade do Conjunto Alvo . . . . . . . . . . . . . . . . . . 40
4.6 Treino da rede com um conjunto treino escolhido de forma aleatória . . . . 41
XIII
XIV CONTEÚDO
4.7 Treino da rede com um conjunto treino escolhido utilizando o desenho ex-
perimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.8 Comparação dos dois métodos . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.9 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 Considerações finais 55
A Exemplos de Aplicações I
B Algoritmos V
XV
XVI LISTA DE FIGURAS
4.9 Gráfico para o treino da rede com os parâmetros optimizados para um treino
de 5000 ciclos e respectivo zoom. . . . . . . . . . . . . . . . . . . . . . . . 49
4.10 Quebras de ligação previstas pela rede neuronal (esquerda) e comparação
com os valores obtidos na bibliografia [5] (direita) para o 10-Bromo-2-deca-
3,5,7-trieno-2-tiol. As setas indicam para qual átomo o par de electrões vai
após a quebra da ligação e os valores a probabilidade de heterólise. . . . . 52
4.11 Molécula extra (3-ciano-propil-fosfano) e alvo (anisole) do teste da rede . . 52
XVII
XVIII LISTA DE TABELAS
Capı́tulo 1
Começa por apresentar-se, num contexto histórico, a problemática das redes neuronais
artificiais sublinhando a sua evolução no que respeita às aplicações em quı́mica. De seguida,
explica-se o que é uma rede neuronal, qual o seu principal objectivo e capacidades, o que
fazer para resolver um dado problema e quais as suas aplicações.
Apresenta-se, então, o modelo do neurónio, fazendo a analogia entre o neurónio bioló-
gico e o neurónio artificial. Assim, procede-se a um estudo das componentes do neurónio
artificial (pesos e funções de transferência) fazendo igualmente referência à vantagem da
introdução de um parâmetro extra designado bias. Nesta parte, será esclarecido como um
neurónio recebe um dado sinal e o processa gerando uma resposta. Após o estudo das
componentes do neurónio explica-se o modo como os neurónios se agrupam em rede e,
quando agrupados como os sinais de input são processados por esta até gerar o sinal de
output. Para melhor compreender todos estes fenómenos, é necessário definir, também, a
arquitectura da rede. Ao longo deste trabalho o termo “redes neuronais” refere-se sempre
a “redes neuronais artificiais”.
1
2 CAPÍTULO 1. INTRODUÇÃO ÀS REDES NEURONAIS ARTIFICIAIS
dado por Hebb [6,7,10], em 1949, com a publicação do livro “The Organization of Behavior”
onde é apresentada, pela primeira vez, uma regra de aprendizagem para as modificações
das forças sinápticas. Segundo a regra de Hebb a força sináptica de um neurónio varia
proporcionalmente com a actividade na parte anterior e posterior da sinapse.
O aparecimento do computador abriu a possibilidade de resolução de vários problemas
por novos métodos surgindo, então, o termo “inteligência artificial”. Rochester et al [6, 7],
em 1956, fizeram a primeira tentativa de testar a teoria neuronal baseada no postulado de
aprendizagem de Hebb. Esta, é considerada a primeira simulação computacional de redes
neuronais artificiais marcando o aparecimento oficial da inteligência artificial.
Em 1959, Rosenblatt [6,7,10] realizou uma importante investigação desenvolvendo uma
estrutura que designou de perceptrão. Esta estrutura corresponde, essencialmente, a uma
rede neuronal de uma camada que produz um output escalar 1 ou -1. Contudo, o tipo de
problemas que estas estruturas podiam resolver eram muito restritos visto que só conse-
guiam resolver problemas que fossem, naturalmente, linearmente separáveis. A condição
XOR [10, 11] (XOR(x, y) é verdadeira se apenas uma e só uma das variáveis, x ou y, for
verdadeira) é um exemplo de um problema simples que não tem classes linearmente sepa-
ráveis. Como uma das aplicações à quı́mica tem-se o exemplo dado por Cartwright [11] que
constitui uma variante do XOR. Essa aplicação tem como objectivo verificar a presença
dos poluentes etilamina e óxido nitroso em amostras gasosas por espectroscopia de infra-
vermelho. Uma forma de automatizar o problema é utilizar um perceptrão para aprender
a interpretar os espectros avisando o analista quando um poluente for encontrado. No en-
tanto, este falha a classificação em certas situações. Os espectros dos poluentes apresentam
absorvância significativa a 1300 cm-1 num caso e a 800 cm-1 no outro. Durante o treino,
o perceptrão “aprende” que a presença destas bandas implica a presença dos poluentes,
contudo, é incapaz de “aprender” que a presença de ambas as bandas significa a ausência
dos poluentes. O Fréon 22, por exemplo, apresenta ambas as bandas, logo, para o per-
ceptrão, uma amostra que o contenha está contaminada com um dos poluente. Este é um
problema linearmente inseparável, assim, como grande parte dos problemas em quı́mica.
Tendo em conta a baixa eficácia dos modelos dessa época, não é de admirar a diminuição
do entusiasmo inicial no desenvolvimento de métodos de inteligência artificial nos anos 60.
Em 1969, Minsky e Papert [6–8] publicaram um livro onde criticam os modelos de redes
neuronais da época. As suas crı́ticas são baseadas na análise matemática das capacidades
e limitações dos perceptrões mostrando essencialmente o que as funções lógicas da altura
podiam ou não realizar. Além disso, estes autores especularam, também, que o desenvol-
vimento da arquitectura das redes, com um aumento do número de camadas, não traria
vantagens em termos de melhoria de resultados. Como consequência desta e de outras
crı́ticas e, face aos resultados apresentados na altura, a pesquisa em redes neuronais não
sofreu grandes avanços na década seguinte, exceptuando algumas investigações conduzidas
por investigadores como Kohonen (1972), Anderson (1972) e outros [5–7].
É, no entanto, em 1971 que é publicada uma das primeiras aplicações de inteligência
artificial à quı́mica. Jurs e Isenhour [12], implementam uma máquina de aprendizagem
linear para prever as fórmulas moleculares de compostos a partir do seu espectro de massa
1.2 O que é e qual a utilidade de uma Rede Neuronal Artificial? 3
utilizando uma árvore de decisão com 26 decisões binárias. Contudo apesar de resultados
satisfatórios as limitações desta estrutura vêm uma vez mais ao de cima. Os dados têm
de ser linearmente separáveis para aprendizagem ser possı́vel. Então como resolver este
problema e tornar estes métodos capazes de resolver problemas linearmente inseparáveis?
Foi Hopfield [5–8, 11], em 1982, que deu um contributo decisivo demonstrando que os
modelos de redes neuronais de neurónios binários correspondem, formalmente, a sistemas
de spin e podem ser manipulados pelos métodos já desenvolvidos para o tratamento destes.
Além desta importante inovação, Hopfield é, igualmente, o responsável pela introdução de
funções transferência não-lineares dando, assim, um carácter não linear a cada neurónio.
Esta não linearidade veio trazer uma nova flexibilidade às redes que não existia nos modelos
antigos. O modelo desenvolvido passou a chamar-se rede de Hopfield.
Faltava, então, desenvolver um algoritmo de aprendizagem que permitisse o ajuste dos
pesos numa rede com várias camadas. O algoritmo foi desenvolvido independentemente,
por Parker (1985) e por Rumelhart, Hinton e Williams (1986) vindo-se a constatar mais
tarde que este tinha sido descrito muito mais cedo por Werbos, na sua tese de doutora-
mento na Universidade de Harvard, em Agosto de 1974. O algoritmo ficou conhecido como
Retro-Propagação, [4–6,9] devido ao facto dos pesos serem ajustados da camada de output
até à primeira camada, camada a camada, tornando-se em pouco tempo o algoritmo de
aprendizagem mais utilizado e popular no treino de redes neuronais.
Apesar do sucesso no desenvolvimento destes modelos, deve ficar bem claro que se
está, ainda, bem longe de um entendimento do mecanismo do funcionamento do cérebro.
As capacidades das redes neuronais artificiais são, ainda, bastante rudimentares quando
comparadas com as redes biológicas que tentam simular. Contudo, mesmo estes modelos
rudimentares trouxeram novas formas de processamento de informação e de tratamento de
dados. As possibilidades de aplicações que as redes nos trazem, especialmente na área da
quı́mica, são enormes e motivantes.
O número de aplicações de redes neuronais em quı́mica foi bastante reduzido nas pri-
meiras décadas de existência das redes. Contudo, após o aparecimento do algoritmo de
Retro-Propagação o número de aplicações, nas mais diversas áreas e para os mais diversos
problemas, cresceu rapidamente. O número de publicações de aplicações de redes neuronais
em quı́mica foi de 3 em 1988, 5 em 1989, 30 em 1990 e uma centena de publicações (105)
em 1991. Em 1997 foi atingido o número de 927 publicações [4, 5, 9].
Samuel Johnson
Nesta fase inicial, para melhor compreensão considerar-se-à a rede neuronal como uma
“caixa negra” que pode aceitar uma série de sinais de input e produzir a partir destes um
ou mais sinais de output.
Os sinais de input e de output podem ser por exemplo a quantidade de um produto
em stock e a recomendação para a sua compra ou venda ou, então, fazendo uma aplicação
à quı́mica, a partir de um espectro de um composto (sinais de input) fazer a previsão
da sua estrutura (sinal de output). Uma das vantagens das redes neuronais reside no
1.3 O Modelo do Neurónio 5
facto do mesmo algoritmo de aprendizagem poder ser usado para resolver vários problemas
diferentes. Grande parte dos utilizadores de redes neuronais não tem um conhecimento
profundo do que acontece realmente dentro da “caixa negra “, contudo, tal não é impeditivo
da resolução com sucesso dos seus problemas.
Basicamente, numa rede neuronal os inputs passam ao longo de ligações e são distri-
buı́dos, transformados e eventualmente reunidos para gerar outputs. As transformações
que ocorrem nos dados são feitas nas unidades básicas designadas de neurónios artificiais
ou simplesmente neurónios. Como o próprio nome indica as redes neuronais são formadas
por neurónios ligados entre si, formando redes.
Os valores de input e de output podem ser números reais, de preferência no intervalo
compreendido entre 0 e 1, ou -1 e 1. Se estiverem fora destes intervalos os valores de input
devem ser renormalizados até se encontrarem nos intervalos citados. O número de valores
de output é, geralmente, menor que o número de valores de input. Os problemas que
podem ser resolvidos pelas redes neuronais são muito variados dividindo-se em 4 grandes
grupos:
Auto-Associação e Hetero-Associação: Na auto-associação a rede é capaz de re-
construir um padrão correcto se este estiver incompleto ou corrompido. Se o sistema for
capaz de fazer uma auto-associação então é capaz de produzir no output, por exemplo, a
imagem perfeita de uma letra mesmo que esta esteja incompleta ou corrompida.
Na hetero-associação a rede desempenha tarefas associativas, onde um objecto tem uma
relação em particular com outro objecto.
Classificação: Um objecto, caracterizado por um conjunto de propriedades, é clas-
sificado numa dada categoria. A vantagem das redes é que apenas uma pequena porção
de objectos é usada no treino e, depois deste, a rede é capaz de prever a classe de um
objecto desconhecido. É de salientar, ainda, que a classificação pode ser realizada com ou
sem supervisão. Na aprendizagem com supervisão o sistema é forçado a atribuir a cada
objecto uma classe enquanto que na aprendizagem sem supervisão as classes são formadas
naturalmente sem nenhuma informação dada á priori.
Transformação ou mapeamento: Informação complexa é transformada numa repre-
sentação simples (projecção num plano, por exemplo), sendo preservada toda a informação
inicial.
Modelação: Uma das aplicações matemáticas mais usadas em ciência é a procura de
uma função analı́tica, ou um modelo, que permita obter o output especı́fico para quaisquer
valores de input. Uma das vantagens das redes neuronais é não necessitar do conhecimento
da função matemática. A não linearidade de uma transformação unitária e um número
suficientemente grande de parâmetros variáveis (pesos) é suficiente para a adaptação da
rede neuronal a qualquer relação entre os sinais de input e os de output.
Figura 1.1: Neurónio biológico. O número de dendrites é muito maior na realidade. [13]
Os neurónios, que no seu conjunto formam a rede, tentam “simular” as células nervosas
biológicas. É, assim, conveniente realizar uma breve descrição do neurónio biológico e a sua
ligação com outros neurónios fazendo o paralelismo entre o neurónio artificial e aqueles.
O sistema nervoso humano é constituı́do por cerca de 1010 neurónios existindo pelo
menos 5 tipos diferentes destas células. Um neurónio tı́pico é constituı́do pelo corpo de
célula e um núcleo (soma). O corpo de célula tem dois tipos de extensões: as dendrites e
os axónios como é visı́vel na figura 1.1.
As dendrites recebem os sinais e enviam-nos para o soma. Aı́ os sinais são acumulados e
quando um certo valor limite é ultrapassado o neurónio “dispara” e uma excitação eléctrica
é transmitida ao longo do axónio. À parte final de cada axónio, em contacto com as
dendrites do neurónio vizinho, dá-se o nome de sinapse. Os neurónios estão ligados uns aos
outros através destas sinapses. As sinapses têm, ainda, outra função que é constituir uma
barreira que altera a intensidade do sinal durante a sua transmissão. O grau de alteração é
determinado pela força sináptica. Um sinal de input de intensidade si tem uma intensidade
pi após atravessar a sinapse i de força wi . A força sináptica pode mudar mesmo entre dois
impulsos. A adaptação das forças sinápticas a um problema em particular é a essência da
aprendizagem.
Cada neurónio tem um grande número de dendrites e, por isso, recebe muitos sinais
em simultâneo. Todos esses sinais combinam-se num sinal colectivo (Net). Embora não
se saiba, exactamente, como este sinal colectivo tem origem a partir dos sinais individuais
para as redes neuronais considera-se que o valor Net é uma função de todos os sinais que
chegam ao neurónio dentro de um certo intervalo de tempo e de todas as forças sinápticas
correspondentes sendo geralmente definida como a soma dos produtos dos sinais de input
xi (i=1,...,m) e as forças sinápticas (pesos) wi (i=1,...,m) como mostra a expressão 1.1.
A figura 1.2 mostra o modelo do neurónio desenvolvido até este ponto. O sinal Net não
é ainda o sinal que é transmitido porque o seu valor pode ser muito grande e em certos
casos pode mesmo ser negativo. Um neurónio pode disparar ou não mas qual é o significado
de um valor negativo?
Então, após o cálculo do valor Net do neurónio é aplicado sobre este uma transformação
não linear (expressão 1.2) chamada função transferência.
O sinal de output final do neurónio deve ser positivo, continuo e estar confinado a um
intervalo especı́fico. Apesar de existirem muitas funções que satisfaçam estas condições
apenas se descrevem os três tipos mais importantes.
Limite Rı́gido: A função limite rı́gido, hl, só pode ter dois valores, 0 ou 1. O valor de
output desta função depende do valor limiar, ϑ, sendo este valor que decide se o neurónio
dispara ou não. Se o valor Net for maior ou igual a ϑ o output será 1 de outro modo será
0. A expressão da função limite rı́gido, hl é a seguinte (1.3):
(
1 se N et ≥ ϑ
out = hl(N et, ϑ) = (1.3)
0 se N et < ϑ
Para muitas aplicações é conveniente que o output seja dado como +1 e -1. Nesses
casos a função é alterada passando a designar-se função limite rı́gido bipolar (1.4):
(
1 se N et ≥ ϑ
out = hl(N et, ϑ) = (1.4)
−1 se N et < ϑ
8 CAPÍTULO 1. INTRODUÇÃO ÀS REDES NEURONAIS ARTIFICIAIS
Figura 1.3: Comparação entre a função transferência limiar lógico e a sigmóide com os
mesmos parâmetros (α=0.1 e ϑ=0.5). De notar que no caso da tl o intervalo de troca tem
inicio a Net=ϑ enquanto no mesmo ponto a sf tem o seu ponto de inflexão. [4]
Limiar Lógico: A função limiar lógico, tl é similar à anterior mas tem um intervalo de
troca que faz com que o output seja proporcional ao valor Net. A extensão deste intervalo
é determinada pelo parâmetro α. Sendo assim este intervalo começa em ϑ e tem uma
extensão de 1/α dando origem à expressão 1.5:
1
sf (N et, α, ϑ) = (1.7)
{1 + exp [−α (N et − ϑ)]}
1
sf (N et, α, ϑ0 ) = (1.8)
{1 + exp [−(αN et − ϑ0 )]}
A figura 1.3 mostra a comparação entre a função limiar lógico e a sigmóide para os
mesmos parâmetros e os mesmos valores Net. Apesar das duas equações terem compor-
tamento semelhante estas tem respostas diferentes em certas regiões. É claro que alguns
neurónios mostram uma relação linear entre o valor Net e o valor de output contudo é
a não linearidade da função transferência que faz com que as redes neuronais sejam tão
flexı́veis e capazes de se ajustarem a diferentes situações de aprendizagem.
Será importante olhar agora um pouco para a função sigmóide (expressão 4.4). Esta
será escrita na seguinte forma:
1.3 O Modelo do Neurónio 9
1
sf (x) = (1.9)
[1 + exp (−x)]
Derivando a expressão 1.9 obtém-se a expressão 1.10. Esta expressão mostra clara-
mente que onde sf(x)=0 e sf(x)=1 a derivada é zero. A figura 1.4 é esclarecedora desta
situação. Tal será importante mais tarde quando for preciso investigar onde e quando as
redes neuronais aprendem melhor.
d (sf (x))
= sf (x) [1 − sf (x)] (1.10)
dx
A função transferência completa o modelo do neurónio (figura 1.5). Falta apenas falar
da adição de um parâmetro extra chamado bias que ocorre em certos tipos de modelos de
aprendizagem. A adição deste parâmetro tem como objectivo aumentar a adaptabilidade
da estrutura ao problema que se quer resolver.
Até agora para descrever um neurónio é necessário informação sobre dois tipos de
parâmetros: o conjunto de pesos e os parâmetros da função transferência. Existem tantos
pesos como sinais de input sendo estes gerados aleatoriamente no inicio do treino da rede
com valores dentro de um certo intervalo que depende do número de pesos {-1/n; 1/n} onde
n é o número de pesos na camada. Relativamente aos parâmetros da função transferência o
ponto crucial das três funções mostradas é o valor limiar ϑ (ponto onde o neurónio começa
a reagir).
As duas expressões que descrevem o funcionamento do neurónio são como já foi visto
as expressões 1.11 e a 1.12.
1
sf (N et, α, ϑ) = (1.12)
{1 + exp [−α (N et − ϑ)]}
10 CAPÍTULO 1. INTRODUÇÃO ÀS REDES NEURONAIS ARTIFICIAIS
Substituindo em seguida αwi por wi0 e -αϑ por ϑ’ a expressão fica então:
O output produzido pelo neurónio depende apenas do vector peso W de dimensão m+1
e do sinal de input X de dimensão m+1
onde as linhas representam os neurónios. Cada linha j pode ser considerada um vector Wj
que representa o neurónio j e que é constituı́do por m pesos W ji , W j = (wj1 , wj2 , ..., wjm ).
Todos os pesos na mesma coluna i, wji (j=1, 2,..., n) recebem simultaneamente o mesmo
sinal xi . Cada vector de input X =(x1 ,x2 ,...,xi ,...,xm ) é introduzido na rede seguindo-se
o cálculo de todos os produtos wji xi . Os neurónios da mesma camada não estão ligados
entre si, havendo apenas ligação aos neurónios das camadas seguinte e anterior. Numa
rede constituı́da por uma única camada todos os neurónios pertencem essa camada. Cada
neurónio j recebe todos os dados de input X (x1 ,x2 ,...,xi ,...,xm ) e gera a partir destes um
sinal de output especı́fico (outj ). Na figura 1.6, os inputs são mostrados no topo. A ca-
mada de input não conta como camada activa visto que não leva a cabo nenhuma operação
aritmética tı́pica dos neurónios tal como o cálculo do valor Net e a sua transformação num
sinal de output (out) pela aplicação da função transferência. A figura 1.6 mostra uma rede
de uma camada composta por três neurónios cada um com cinco pesos. Como se pode
observar cada neurónio da referida camada obtém o mesmo conjunto de sinais de input
(x1 ,x2 ,...,xi ,...,xm−1 , 1). O peso wji está na posição i do neurónio j, por exemplo, o peso
w23 assinalado na figura é o terceiro peso do segundo neurónio. É de salientar, igualmente,
os cı́rculos a preto em cada neurónio que representam o bias. Numa representação da arqui-
tectura de uma rede geralmente os inputs são representados por quadrados e os neurónios
por cı́rculos.
A função das unidades de input (camada de input) é distribuir os valores de input por
todos os neurónios da camada abaixo. Os valores que chegam ao neurónio são diferentes
porque cada ligação de uma unidade de input i a um neurónio j tem um diferente peso
wji , representando uma força sináptica especı́fica. O valor dos pesos é determinado por um
processo de aprendizagem que será discutido mais adiante. Numa rede de uma camada os
sinais de output, outj , dos neurónios individuais são também os valores de output da rede.
Os valores de input podem ser interpretados como um vector X (x1 ,x2 ,...,xi ,...,x m ) que
é transformado pela matriz de pesos W com elementos wji e pela função transferência num
vector de valores de output, Out (out1 ,out2 ,...,outj ,...,outn ).
12 CAPÍTULO 1. INTRODUÇÃO ÀS REDES NEURONAIS ARTIFICIAIS
Figura 1.7: Rede neuronal com as unidades de input e duas camadas activas de neurónios.
(Imagem adaptada de [4])
l
wji (1.20)
refere-se ao peso i do neurónio j da camada l.
Na notação matricial a matriz peso para a camada de input é designada W 0 , transmite
m sinais e é um vector contendo o valor 1 n vezes:
X l = Outl−1 (1.22)
x1
w11 w12 . . . w1m
x2
w21 w22 . . . w2m
.
w31 w32 . . . w3m
.
. . . . . .
.
. . . . . .
xi
. . . . . . .
= (N et1 , N et2 , ..., N etj , ..., N etn ) = N et (1.24)
.
. . . wji . .
.
. . . . . .
.
. . . . . .
xm−2
. . . . . .
xm−1
wn1 wn2 . . . wnm
1
Ou seja:
m
N etlj l l
X
= wji xi (1.25)
i=1
N etl = W l X l (1.26)
Numa rede de várias camadas as matrizes dos pesos que representam as várias camadas
distinguem-se pelo expoente l. Como o input da camada l geralmente é o output da camada
l-1 tem-se:
O valor de Out l é obtido a partir de Netl pela aplicação de uma das funções transfe-
rência(sigmóide por exemplo):
Outl = sf N etl (1.29)
Capı́tulo 2
Processo de Aprendizagem -
Algoritmo de Retro-Propagação
“There are two ways of construting a software design: one way is to make it so simple that
there are obviously no deficiencies, and the other way is to make it so complicated that
there are no obvious deficiencies. The first method is far more difficult”
C. A. R. Hoare
2.1 Introdução
A propriedade essencial e fundamental numa rede neuronal é a sua capacidade de aprender
a partir de um certo “meio” e melhorar o seu desempenho ao longo da aprendizagem. A
rede neuronal aprende por um processo iterativo de ajuste das forças sinápticas (pesos).
Idealmente a rede torna-se cada vez mais conhecedora do meio após cada iteração do
processo de aprendizagem. A definição de aprendizagem, no contexto das redes neuronais,
dada por Haykin [6], adaptada a partir de Mendel e MacClaren (1970), é a seguinte:
“A aprendizagem é o processo pelo qual os parâmetros livres de uma rede neuronal são
adaptados por um processo de estı́mulo pelo meio em que a rede está inserida. O tipo de
aprendizagem é determinado pela forma como as mudanças nos parâmetros são realizadas.”
15
16 CAPÍTULO 2. PROCESSO DE APRENDIZAGEM...
Têm sido desenvolvidos vários tipos de redes neuronais sendo alguns mais semelhantes
ao modelo biológico do que outros. Cada rede neuronal tem as suas vantagens e desvanta-
gens visto que cada uma está mais ou menos vocacionada para lidar com certas aplicações.
Os três elementos que caracterizam essencialmente uma rede neuronal são a operação
aritmética no neurónio, a arquitectura da rede, e o processo de aprendizagem. Os dois
primeiros já foram discutidos no decorrer deste trabalho faltando apenas estudar o terceiro.
O processo de aprendizagem pode ser com ou sem supervisão. No primeiro os dados de
input X e os respectivos valores alvo Y são dados à rede. Os pesos são então adaptados
até que para qualquer conjunto de objectos conhecidos, os valores de output estejam o mais
próximo possı́vel dos valores alvo Y (figura 2.1).
Na aprendizagem sem supervisão os dados de input são passados repetidamente pela
rede até esta estar estabilizada (após um certo número de iterações). No anexo A é possı́vel
observar duas tabelas com as redes neuronais mais conhecidas, o tipo de aprendizagem que
seguem e quais os problemas que resolvem.
Existem outros tipos de redes com uma menor aplicação a problemas quı́micos, pelo
menos por enquanto. O facto de um algoritmo ser pouco utilizado não implica que não
seja capaz ou adequado para resolver o problema. A verdade é que existem algoritmos
mais populares que colhem a preferência dos investigadores. Como a implementação da
rede neste trabalho utiliza o algoritmo de Retro-Propagação será este o único apresentado
detalhadamente.
Este método foi introduzido, em primeiro lugar por Werbos e, mais tarde, em 1986,
por Rumelhart, Hinton e Williams garantindo, rapidamente, grande popularidade e con-
tribuindo, decisivamente, para a implementação das redes neuronais. Este método tem
a vantagem do ajuste dos pesos poder ser efectuado por equações bem definidas tendo,
no entanto, muito pouco em comum com os processos responsáveis pelo ajustamento das
forças sinápticas nos sistemas biológicos.
O algoritmo de Retro-Propagação é um processo de aprendizagem com supervisão. Os
dados de input processados por uma dada camada vão originar um output, (Out l ) que será
o input da camada seguinte (X l+1 ). O resultado para o input é dado pela última camada
sendo incorrecto no inı́cio do treino. Os valores de output da última camada, Out last ,
são comparados com os valores esperados (Y) sendo, então, o erro determinado. Este erro
é usado para corrigir os pesos na camada de output, segue-se a correcção da penúltima
camada com base no erro da última camada e por ai diante até à primeira camada como
mostra a figura 2.2.
Os erros são portanto calculados em sentido contrário ao da propagação dos valores de
input como pretende traduzir o nome que lhe foi dado. O algoritmo de Retro-Propagação
deve mudar os pesos até que o erro nos valores de output (Out) seja minı́mo.
l l(new) l(old)
∆wji = wji − wji (2.3)
l
O peso wji do neurónio j da camada l é o responsável pelo contributo que o input i
tem para com o output j. Essas duas ligações, uma com a camada acima e outra com a
camada abaixo, faz com que o erro tenha origem quer no lado de input quer no lado de
output. Uma forma de considerar ambas as influências é a regra delta expressa como:
l −k∂εl
∆wji = l
(2.7)
∂wji
Esta função erro representa parte do erro causado por este peso no output da camada
l
l. Como a função erro é uma função indirecta e complexa dos parâmetros w ji , pode-se
l l
calcular a derivada ∂ε /∂wji usando a regra em cadeia:
xli = outl−1
i (2.10)
Se a expressão 2.9 for escrita como a soma de produtos a derivada de N etlj , relativamente
a um peso em particular, é fácil constatar que:
∂N etlj l
∂ wj1 out1l−1 + ... + wji
l
outl−1
i
l
+ ... + wjm outl−1
m
l
= l
= outl−1
i (2.11)
∂wji ∂wji
Inserindo a expressão 2.11 na expressão 2.8, para as correcções dos pesos, vai-se obter:
∂εl ∂outlj
! !
l
∆wji = −k outl−1
i , (2.12)
∂outlj ∂N etlj
que corresponde à expressão:
l
∆wji =η δjl outl−1
i ,
∂εl ∂outlj
! !
δjl = − (2.13)
∂outlj ∂N etlj
∂outl
Derivada ∂N etjl
j
2.5 Regra Delta generalizada 21
Para estudar a relação entre outlj e N etlj é necessário ter em conta a função transferência
utilizada no algoritmo de Retro-Propagação que na maior parte dos casos é uma sigmóide
do tipo:
1
outlj = . (2.14)
1 + exp −N etlJ
Esta função tem como vantagem face à função limite rı́gido e à limiar-lógico, o facto da
sua derivada poder ser obtida analiticamente. Além de ser facilmente diferenciável, a sua
derivada pode ser expressa em termos da própria função:
∂outlj l
l
= out j 1 − out j (2.15)
∂N etlj
∂εl
Derivada ∂out l
j
Relativamente a esta derivada, é necessário distinguir dois casos, dependendo se ε l
é ou não explicitamente conhecida, ou seja, se a correcção está a ser calculada para a
última camada ou para a camada oculta. Para a última camada, o erro pode ser calculado
subtraindo o output outlj de cada neurónio j, da componente yj correspondente, do vector
alvo Y :
n 2
l
yj − outlj
X
ε = (2.16)
j=1
∂εlast
last
= −2 y j − out j ,
∂outlast
j
∂outlast
j last
last
= out j 1 − out j ,
∂N etlast
j
∂N etlast
j
last
= outilast−1 .
∂wji
22 CAPÍTULO 2. PROCESSO DE APRENDIZAGEM...
∂εl r
∂εl+1 ∂N etl+1
! !
k k
X
= (2.20)
∂outj k=1 ∂N etl+1
l
k ∂outlj
A derivada da direita ∂N etl+1 l
k /∂outj é obtida de modo semelhante à derivada descrita
pelas equações 2.9 e 2.11, obtendo-se:
m m
N etl+1 l+1 l+1 l+1
outlj = wk1
l+1
outl1 + ... + wkj
l+1
outlj + ... + wkm
l+1
outlm . (2.21)
X X
k = wkj xj = wkj
j=1 j=1
Assim, tem-se:
∂N etl+1
k l+1
= wkj . (2.22)
∂outlj
Substituindo na expressão 2.20,
∂εl r
∂εl+1
!
k l+1
X
= wkj . (2.23)
∂outlj k=1 ∂N etl+1
k
∂εl+1 l+1
l+1 = δk . (2.25)
∂N etk
2.5 Regra Delta generalizada 23
∂N etlj
l
= outl−1
i ,
∂wji
∂outlj l
l
= out j 1 − out j ,
∂N etlj
r
∂εl
δkl+1 wkj
l+1
X
= .
∂outlj k=1
25
26 CAPÍTULO 3. APLICAÇÕES DE REDES NEURONAIS...
importantes, enquanto que uma rede neuronal especializada trata esse resultado fazendo
um refinamento das classes de compostos. Para o caso do grupo éster, a segunda rede divide
os compostos contendo este grupo em 22 subclasses (ésteres saturados, ésteres aromáticos,
lactonas, anidridos, etc.). Esta ideia pode mostrar-se bastante útil em outras áreas e para
outros problemas.
Além do trabalho de Curry, outro trabalho pioneiro na aplicação das redes neuronais à
espectrometria de massa é o trabalho de Lohninger e Stancl [15]. Estes autores utilizaram
a rede de Kohonen e a rede de Retro-Propagação para a classificação de espectros de massa
de esteróides. Por último é de salientar o trabalho de Eghbaldar, Forrest e Cabrol-Bass [17]
que consistiu na implementação de uma metodologia para o desenvolvimento e optimização
de redes neuronais para o estudo da correlação espectro de massa-estrutura. Ao comparar
os seus resultados com os resultados obtidos por outros autores, que não seguiram uma
metodologia pré-definida para a optimização da rede, foi possı́vel observar uma melhoria
de resultados.
neuronais para uma rápida identificação da adulteração do azeite com outros óleos.
O método consistiu em traçar os espectros de massa de dois conjuntos de amostras.
Um dos conjuntos era constituı́do por 12 amostras de azeite extra virgem e o outro por 12
amostras de azeites adulterados. A rede é composta por uma camada de input constituı́da
pelas intensidades normalizadas de 150 iões de m/z entre 51 e 200 e uma camada oculta
com 8 neurónios. A aprendizagem é feita utilizando o algoritmo de Retro-Propagação. O
sinal de output será zero para os azeites adulterados e um para os azeites virgens. Após
o treino, o teste da rede mostrou que a combinação de Py-MS com as redes neuronais
artificiais constitui um eficaz instrumento de análise da pureza de azeites.
Uma outra aplicação, relacionada com a biologia, foi realizada por Sebastian e Viallon
[21]. Estes autores utilizaram a espectrometria de massa para a caracterização dos tecidos
gordos de cordeiros e as redes neuronais para a sua classificação. Os lı́pidos do tecido gordo
subcutâneo, de 120 cordeiros, foram analisados por Py-MS, após extracção dos lı́pidos com
hexano. Os animais eram provenientes de 6 paı́ses europeus com diferentes sistemas de
produção. A classificação dos tecidos gordos, de acordo com o tipo de alimentação dos
cordeiros, (leite, pasto, ração, cereais) é obtida por análise discriminante e redes neuronais,
permitindo o reconhecimento do tipo de alimentação. Os resultados obtidos com redes
neuronais são de 92% de classificações correctas.
De seguida vai ser apresentada uma aplicação das redes e da espectrometria de massa
3.1 Aplicação à Espectrometria de Massa 29
Também, na microbiologia, está-se a tornar cada vez mais corrente o uso da espectro-
metria de massa. A Py-MS é uma técnica analı́tica cada vez mais utilizada, podendo as
redes neuronais ter um papel importante a desempenhar. Kenyon et al [25] mostraram que
a aplicação de redes neuronais aos dados obtidos por Py-MS oferece novas oportunidades
para a classificação, identificação e comparação de microrganismos em biotecnologia e mi-
crobiologia clı́nica. O uso de redes neuronais para a identificação de membros do grupo de
espécies streptomycete foi alcançado com sucesso.
No trabalho seguinte fica, uma vez mais, mostrada a utilidade das redes neuronais
quando utilizadas conjuntamente com a espectrometria de massa. Cada azeite produz
um espectro de massa diferente, conforme a sua origem geográfica, devido a vários fac-
tores. A aplicação das redes a esses dados permitirá determinar a sua origem geográfica.
Para a realização do trabalho foram recolhidas azeitonas de 5 regiões de Itália, dos mais
variados locais e culturas. Após a colheita é produzido azeite extra virgem. Salter et
30 CAPÍTULO 3. APLICAÇÕES DE REDES NEURONAIS...
Chen e Gasteiger [35], em 1996, utilizaram uma rede neuronal para classificar reacções,
dando especial atenção às reacções onde existia a adição de uma ligação C-H a uma ligação
C=C, tais como a adição de Michael e a alquilação de Friedel-Crafts. A rede neuronal uti-
lizada foi a rede de Kohonen. Após o treino, a rede previu correctamente 95% das reacções
do conjunto teste. Os mesmos autores publicaram em 1997 um trabalho semelhante [36].
Uma vez mais é utilizada a rede de Kohonen e um conjunto unidades de input que des-
crevem os centros reactivos da molécula. Além de classificar as reacções quı́micas, este
trabalho permite, ainda, observar os nı́veis de similaridade entre reacções, sendo possı́vel
obter outras informações quı́micas ao estudar-se as posições das reacções no mapa de Koho-
nen. Os resultados do teste foram um pouco inferiores aos do estudo anterior. Contudo de
salientar a maior complexidade das moléculas e das reacções estudadas neste caso.
uma das redes envolvidas. Redes com poucos outputs são facilmente optimizadas e a sua
performance é melhor do que a de redes de maiores dimensões.
Nos casos referidos, até agora, é obtida a estrutura do composto a partir do espectro de
infra-vermelho. Contudo, também é possı́vel fazer uma simulação do espectro a partir da
estrutura do composto. Um exemplo desta aplicação é o trabalho de Gasteiger et al [41],
publicado em 1997, em que utilizando uma rede de Retro-Propagação foi possı́vel simular
a estrutura a partir de um espectro de IV e vice-versa. Este trabalho é importante visto
que é bastante útil na identificação de estruturas. Em 1999, Hemmer et al [42] publicaram
um trabalho mais desenvolvido com os mesmos objectivos do anterior.
Weigel e Herges [46] também usaram as redes neuronais para simular espectros de
infra-vermelho. Contudo estes autores apenas simularam espectros de compostos orgânicos
-CHO. Neste trabalho são utilizados dois métodos para a simulação ambos usando redes
de Retro-Propagação. No primeiro o input é constituı́do pelas frequências harmónicas e
intensidades calculadas por um método semi-empı́rico e no segundo pelas subestruturas do
composto correspondente. Para o treino da rede é utilizado um conjunto de 840 compostos
-CHO. Ambos os métodos são comparáveis em termos de performance oferecendo uma
boa qualidade de simulação na região 4000-1300 cm-1 falhando contudo na região das
“impressões digitais” (1300-400 cm-1 ).
mento empı́rico PEOE [43–45], cálculo dos pontos do potencial electrostático da superfı́cie
de van der Waals utilizando o potencial clássico de Coulomb e, por fim, escolha aleatória
de 20 000 pontos a partir da superfı́cie de van der Waals que será o conjunto treino da rede
de Kohonen (com arquitectura 100×100). Após o treino da rede de Kohonen os pontos que
estavam próximos na superfı́cie de van der Waals são mapeados no mesmo ou em neurónios
vizinhos. Este trabalho permitiu observar que o potencial electrostático molecular é um
factor crucial na ligação dessa moléculas aos seus receptores. O mapa de Kohonen conserva
a informação essencial do potencial electrostático, permitindo a projecção de propriedades
das superfı́cies moleculares. Pode, assim, ser utilizado no estudo da actividade biológica
de compostos.
Outro trabalho semelhante é o de Goll et al [50] que tem como objectivo a previsão dos
pontos de ebulição de compostos orgânicos a partir da sua estrutura molecular. O input
da rede é um conjunto de descritores seleccionados recorrendo a algoritmos genéticos.
Um segundo exemplo, publicado alguns anos depois, abrange toda a famı́lia de alcanos.
Doucet et al [53] usou a rede de Retro-Propagação em que o input da rede era uma descrição
34 CAPÍTULO 3. APLICAÇÕES DE REDES NEURONAIS...
Reactividade Quı́mica
35
36 CAPÍTULO 4. REACTIVIDADE QUÍMICA
traduzem estes efeitos, são utilizados para correlacionar e prever a reactividade. Outra
hipótese é utilizar métodos estatı́sticos e de reconhecimento de padrões. A utilização
destes métodos apresenta a vantagem de levar em linha de conta um maior número de
efeitos electrónicos e energéticos, contudo, implicam que a relação entre a reactividade
e os parâmetros fı́sico-quı́micos tenha de ser de natureza linear, ou seja, ser facilmente
transformada num problema linear. Porém modelos lineares simples raramente descrevem
problemas complexos de uma forma satisfatória. Outra hipótese consiste em desenvolver
um sistema de memória associativa que garanta a relação de forma implı́cita, em vez de
modelar a relação numa função explı́cita. Por último, tem-se como hipótese as redes neu-
ronais. Estas apresentam como vantagem o facto de seguirem o raciocı́nio do quı́mico para
adquirir conhecimento sobre a reactividade quı́mica. O quı́mico observa quais as ligações
das moléculas que reagem e, baseando-se nessas observações, generaliza aprendendo quais
as que são mais reactivas, para uma dada molécula. Mas, como se poderá transferir este
processo para uma rede neuronal?
O objectivo deste trabalho foi, então, desenvolver uma rede neuronal que, perante
uma molécula, dissesse quais as ligações que se quebram preferencialmente. Para tal,
implementou-se uma rede neuronal treinada com o algoritmo de Retro-Propagação. Este
algoritmo é usado para encontrar uma relação entre os parâmetros electrónicos e energéticos
de cada ligação na molécula e a sua propensão para a heterólise (figura 4.1). Esta modelação
não-linear implı́cita é utilizada para classificar as ligações em reactivas ou não-reactivas.
Foram escolhidos dois conjuntos de ligações por dois métodos diferentes (escolha ale-
atória e escolha baseada no desenho experimental) para o treino da rede, a partir de um
conjunto de 10 moléculas representadas na figura 4.2.
A rede foi testada com um conjunto de 29 moléculas retiradas da literatura [1–3], além
de duas molécula extra [2, 5] e outra designada por alvo (anisole). Dessas 32 moléculas,
foram escolhidas 182 quebras de ligação (figura 4.2).
H
O Cl Br
H H H H
H H
H H H H H H
H H H
H H
H H H H
N
H N H H N
H
H O H H O H H
N
H O H H H H N H
H
H H O
H H H H
H H H H H H H
H H O
H H
H H H P C
H H H H H N
H S
H H H Br H H
H O H
4.3 Procedimento
? Escolha de um conjunto de moléculas para o treino da rede (o conjunto de 10 molé-
culas foi fornecido pelo grupo de Espectrometria de Massa, com vista à resolução de
um problema de reactividade);
? Escolha das ligações que vão constituir o conjunto treino de duas formas diferentes:
– Escolha com base num desenho experimental a 3 nı́veis com 4 parâmetros (48
ligações).
? Implementação de uma rede neuronal artificial com arquitectura 7×3×1 (sete uni-
dades de input, uma para cada variável energética ou electrónica, três neurónios na
camada oculta e um neurónio na camada de output) que classifica a quebra de ligação
como reactiva ou não;
1
sf (N et, α, ϑ0 ) = (4.4)
{1 + exp [−(αN et − ϑ0 )]}
e pode ser escrita como :
0 1
sf (N et, α , β) = (4.5)
{1 + exp [−(N et/α0 − β)]}
0 0
onde 1/α = α e β = ϑ . Esta mudança foi realizada pela simples razão de ser assim que
a função está implementada na rede. Tentou-se então procurar os valores dos parâmetros
da função transferência que produzam um menor erro no treino. Para tal, procedeu-se
ao treino da rede, com 8000 ciclos de treino, para todos os valores dos parâmetros entre
-5 e 15, com passo 0,2. Com base na bibliografia [4, 6], escolheu-se para velocidade de
aprendizagem o valor de 0,49 e para o momento da rede o valor de 0,89. No final cada
42 CAPÍTULO 4. REACTIVIDADE QUÍMICA
Figura 4.4: Gráficos relativos à procura dos valores dos parâmetros da função transferência
que minimizam o erro do treino.
treino calculou-se a respectiva percentagem de erro. Para este feito recorreu-se à expressão:
v
n n
u i X
uX
u
u (ysi − outsi )2
t s=1 i=1
%RM S = × 100, (4.6)
ni n
onde ysi é a componente i do vector alvo Ys , outsi é a componente i do output produzido
pela rede para o vector de input s, ni é o número de inputs e n é o número de variáveis
de output. Fazendo a representação gráfica (figura 4.4) do valor do erro, que não é mais
do que o desvio entre o output da rede para um dado input e o seu valor alvo, em função
0
dos parâmetros α e β, é possı́vel observar as regiões em que o erro é menor. Olhando para
a perspectiva de topo do gráfico, na referida figura, observa-se o que se poderá chamar
de regiões de iso-erro, ou seja, regiões com o mesmo valor de erro. É de salientar que o
gradiente de cor do azul - vermelho corresponde a um aumento do valor da % RMS. Pela
0
figura é possı́vel constatar que a rede apresenta um erro pequeno para valores de α no
intervalo 0 a 15 e valores de β no intervalo -5 a 8. Tendo em conta o baixo valor de %
RMS na referida região, foram escolhidos dois valores para os parâmetros da rede dentro
0
dessa zona, tendo-se seleccionado os valores de α = 0,2 e β=-2,05.
Visto que a % RMS era baixa não se procedeu à busca dos valores para a velocidade
de aprendizagem e momento da rede realizando-se desde logo um treino da rede sob as
condições da tabela 4.1.
O treino da rede, implementada com estes parâmetros, pode ser seguido na figura 4.5,
onde é possı́vel observar a evolução da % RMS ao longo do número de ciclos de treino.
4.6 Treino da rede com um conjunto treino escolhido de forma aleatória 43
Tabela 4.1: Condições de treino da rede neuronal com o conjunto treino escolhido de forma
aleatória.
Arquitectura 7×3×1
Algoritmo de Aprendizagem Retro-Propagação
Número de objectos de treino 53
0
Parâmetro α da função transferência 0.2
Parâmetro β da função transferência -2,05
Velocidade de Aprendizagem 0,49
Momento da rede 0,89
Número de ciclos de treino 8000
25
6
20
% Erro
% Erro
15 4
10
2
0
0
0 2000 4000 6000 8000 0 200 400 600 800 1000 1200
Número de ciclos de treino Número de ciclos de treino
Tabela 4.2: Resultados obtidos para o teste da rede neuronal treinada com um conjunto
de ligações escolhido de forma aleatória.
Resultados Obtidos
Treino - Número de ciclos ' 2000
Treino - Ligações utilizadas 53
Treino - RMS / % 0,05
Teste - Ligações utilizadas 182
Teste - Ligações mal classificadas 6
Teste - % de ligações mal classificadas 3,3
bibliografia [1]. Contudo, existem aspectos que podem ser optimizados para melhorar
ainda mais os resultados da rede. Um dos aspectos refere-se à selecção do conjunto de
dados para o treino da rede. A escolha aleatória das ligações pode originar um conjunto
que não seja representativo do conjunto global de ligações, o que irá influenciar o treino
da rede e originar consequentemente, após a aprendizagem, respostas erradas tendo como
base esse “má aprendizagem”. Uma das hipóteses é proceder à escolha do conjunto treino
recorrendo a uma técnica de desenho experimental.
6 0
5 -0,2
4 -0,4
3
-0,6 -0,4 -0,2 0 0,2 0,4 0,6 -3 -2 -1 0 1 2 3
Diferença de Carga Total / [e. u.] Diferença de Electronegatividade σ / [eV]
Tabela 4.3: Matriz correlação dos parâmetros para todas as ligações disponı́veis para o
treino da rede.
O parâmetro diferença de carga Π (∆qΠ ), não é considerado visto que, para a maior
parte das ligações disponı́veis para o treino e teste da rede, os dois átomos que as cons-
tituem não têm carga Π, ou então, a diferença de carga Π é muito pequena. Apesar do
conjunto treino ter várias moléculas com anéis aromáticos, o conjunto teste é constituı́do
quase, exclusivamente, por moléculas alifáticas logo este parâmetro não é muito impor-
tante, comparativamente com outros, na reactividade de uma ligação. Fica-se, assim, com
seis parâmetros sendo necessário excluir mais dois. A diferença de carga total (∆q tot ) apre-
senta uma correlação relativamente elevada (0,81) com a polaridade (Q σ ) e, sendo assim,
apenas um deles é escolhido, recaindo a escolha sobre a polaridade. Por fim a energia de
dissociação da ligação (BDE) apresenta uma correlação de 0,61 com a polarizabilidade,
αb , sendo escolhida a polarizabilidade para realizar o desenho experimental.
Após efectuar o desenho da experiência, a três nı́veis com quatro parâmetros, com as 84
ligações disponı́veis para o treino da rede constatou-se que as 84 ligações ocupavam apenas
28 dos 81 subespaços do desenho experimental, um número manifestamente pequeno para
o treino da rede neuronal. Tal facto pode dever-se, tal como é possı́vel observar na figura
4.2, ao facto das moléculas fornecidas para o treino da rede serem em número reduzido
e bastante semelhantes. Das 10 moléculas quatro são benzenos monosubstı́tuidos, uma é
uma dicetona cı́clica (benzoquinona) e as cinco restantes são moléculas heterocı́clicas de
oxigénio e de azoto. Das cinco, duas são éteres cı́clicos (1-4,dioxeno e furano) e as outras
três são os azobenzenos (derivados do benzeno onde o átomo de azoto com hibridação sp 2
toma o lugar de um C-H ) piridina (azobenzeno), pirimidina (1,3-diazobenzeno) e piridazina
(1,2-diazobenzeno). Tendo em conta estes factos não é de estranhar que as 84 ligações
ocupassem apenas 28 subespaços. Para tentar colmatar este facto, foram escolhidas mais
20 ligações perfazendo um total de 48 para o treino da rede.
Para o treino da rede, procedeu-se da mesma forma que para o treino com o conjunto
escolhido de forma aleatória, ou seja, determinaram-se os valores dos sete parâmetros
fı́sico-quı́micos, recorrendo ao PETRA, e calculou-se a reactividade utilizando o LoRA.
Em seguida procedeu-se à busca dos valores dos parâmetros da função transferência que
minimizam o erro do treino. Tendo em conta os resultados do estudo do item anterior,
4.7 Treino da rede com um conjunto treino escolhido utilizando o desenho
experimental 47
Figura 4.7: Gráficos referentes à busca dos mı́nimos de erro para os parâmetros alfa e beta
da função transferência.
desta vez procedeu-se ao treino da rede apenas com 5000 ciclos de treino para todos os
valores dos parâmetros de -1 a 1 com passo 0,01. Relativamente aos outros parâmetros,
tendo em conta os bons resultados obtidos no estudo anterior, foram utilizados os mesmos
valores, ou seja, para a velocidade de aprendizagem o valor de 0,49 e para o momento da
rede o valor de 0,89.
Os resultados obtidos podem ser observados na figura 4.7 onde o gráfico da esquerda
0
representa a variação da % RMS em função dos valores dos parâmetros α e β, da função
transferência, e o gráfico, à direita, uma perspectiva de topo do outro sendo possı́vel obser-
var a superfı́cie de erro em função dos valores dos parâmetros. Para valores do parâmetro
0
α , superiores a 0, em intersecção com toda a gama de valores entre 0 e 1 do parâmetro
β, a rede apresenta um erro bastante baixo. Os valores seleccionados para o treino da
0
rede foram 0,04 para o parâmetro α e -0,73 para o parâmetro β. Apesar da % RMS ser
bastante baixa, procedeu-se de forma semelhante numa busca dos valores da velocidade de
aprendizagem e do momento da rede que minimizassem a % RMS. O treino da rede foi
realizado com 5000 ciclos para todos os valores da velocidade e do momento entre 0 e 1 com
passo 0,01. Na figura 4.8 apresentam-se os resultados obtidos e da sua análise verifica-se
que em quase toda a gama de valores estudada a % RMS é bastante baixa, sendo a única
excepção a área que resulta da intersecção dos valores do momento da rede superiores a
0,2 com os valores da velocidade de aprendizagem superiores a 0,8. Os valores selecciona-
dos foram 0,94 para o momento da rede e 0,03 para a velocidade de aprendizagem. Foi
escolhido um dos menores valores para a velocidade de aprendizagem, para observar qual
48 CAPÍTULO 4. REACTIVIDADE QUÍMICA
Figura 4.8: Gráficos referentes à busca dos valores que minimizam o erro do treino para os
parâmetros velocidade de aprendizagem e momento da rede .
Tabela 4.4: Condições de treino da rede neuronal com o conjunto escolhido com base no
desenho da experiência.
Arquitectura 7×3×1
Algoritmo de Aprendizagem Retro-Propagação
Número de objectos de treino 48
0
Parâmetro α da função transferência 0,04
Parâmetro β da função transferência -0,73
Velocidade de Aprendizagem 0,03
Momento da rede 0,98
Número de ciclos de treino 8000
20
2,5
15 2
1,5
% RMS
% RMS
10
5
0,5
0 0
0 2000 4000 6000 8000 500 1000 1500 2000
Número de ciclos de treino Número de ciclos de treino
Figura 4.9: Gráfico para o treino da rede com os parâmetros optimizados para um treino
de 5000 ciclos e respectivo zoom.
Tabela 4.5: Resultados obtidos para o teste da rede neuronal treinada com um conjunto
de ligações escolhido com base no desenho da experiência.
Resultados Obtidos
Treino - Número de ciclos 2100
Treino - Ligações utilizadas 48
Treino - RMS / % 0,07
Teste - Ligações utilizadas 182
Teste - Ligações mal classificadas 5
Teste - % de ligações mal classificadas 2,7
50 CAPÍTULO 4. REACTIVIDADE QUÍMICA
Tabela 4.6: Comparação dos resultados obtidos para os dois métodos utilizados para a
escolha das ligações do conjunto treino
Escolha Desenho
Aleatória Experimental
Treino - Número de ciclos ' 2000 2100
Treino - Ligações utilizadas 53 48
Treino - RMS / % 0,05 0,07
Teste - Ligações utilizadas 182 182
Teste - Ligações mal classificadas 6 5
Teste - % de ligações mal classificadas 3,3 2,7
Tabela 4.7: Comparação dos resultados obtidos com os da bibliografia [1] (treino da rede
com o conjunto escolhido de forma aleatória).
Resultados Resultados da
Obtidos bibliografia [1]
Treino - Número de ciclos ' 2000 1600
Treino - Ligações utilizadas 53 64
Treino - RMS / % 0,05 0,04
Teste - Ligações utilizadas 182 85
Teste - Ligações mal classificadas 6 7.1
Teste - % de ligações mal classificadas 3,3 8,35
cinco ligações para o treino da rede tendo uma % RMS ligeiramente superior (0,02%). A
% RMS é, no entanto, inferior a 0,01% em ambos os casos, ou seja, tem-se em ambos os
casos um erro insignificante após cerca de 2000 ciclos de treino. No entanto ao observar
os gráficos das figuras 4.5 e 4.9 é possı́vel constatar que em ambos os casos a % RMS era
inferior a 1% aos 500 ciclos de treino, indicando que após a optimização dos parâmetros
da rede neuronal esta se adapta facilmente ao problema. Tal é confirmado quando a rede é
testada. O teste foi feito com 182 ligações sendo de 6 o número de ligações mal classificadas,
para o treino realizado com o conjunto escolhido de forma aleatória, e 5 para o conjunto
escolhido tendo como base o desenho da experiência. Foi obtido assim, em ambos os casos,
uma percentagem de quebras de ligação mal classificadas de cerca de 3%, 3,3 e 2,7 %
respectivamente.
Comparando estes resultados (tabelas 4.7 e 4.8) com os da bibliografia é possı́vel cons-
tatar alguns aspectos relevantes. Um deles é o facto do treino da rede ter sido realizado
com um número inferior de quebras de ligação, respectivamente, 53 (escolha aleatória) e 48
(desenho da experiência) contra 64 utilizadas por Simon et al [1] para o treino. É de referir
4.9 Conclusões 51
Tabela 4.8: Comparação dos resultados obtidos com os da bibliografia [1] (treino da rede
com o conjunto escolhido com base no desenho experimental).
Resultados Resultados da
Obtidos bibliografia [1]
Treino - Número de ciclos 2100 1220
Treino - Ligações utilizadas 48 64
Treino - RMS / % 0,07 0,02
Teste - Ligações utilizadas 182 85
Teste - Ligações mal classificadas 5 3,4
Teste - % de ligações mal classificadas 2,7 4
que os resultados da bibliografia não dizem respeito apenas ao treino de uma rede mas à
média dos resultados de 10 treinos. Estes autores, com base no conjunto de ligações dis-
ponı́veis, procederam ao treino da rede com 10 conjuntos diferentes escolhidos, utilizando
um método, e outros 10 conjuntos escolhidos com base no outro método, cada um com
64 quebras de ligação. Contudo, apesar do treino ter sido levado a cabo com um número
inferior de ligações, a percentagem de ligações mal classificadas foi inferior em ambos os
casos. Para o teste da rede treinada com o conjunto escolhido de forma aleatória, obteve-se
um valor 3,3% de ligações mal classificadas contra 8,35% da referida bibliografia [1], ocor-
rendo assim uma melhoria superior a 5%. Quanto ao teste da rede treinada com o outro
método de escolha de ligações, a diferença já não foi tão grande, continuando no entanto a
ser inferior. Foi obtido um valor de 2,7% contra 4% da bibliografia.
É de salientar, o facto da rede ter sido testada com cerca do dobro das ligações, relati-
vamente ao trabalho da bibliografia enquanto que os conjuntos treino são constituı́dos por
um número inferior de quebras de ligação.
4.9 Conclusões
Tendo em conta os resultados obtidos, verifica-se que a capacidade de previsão é de cerca
de 97% de quebras da ligação. Conclui-se, então, que a rede prevê a reactividade de
acordo com a frequência experimental de quebras de ligação. Pode, ainda, concluir-se que
a rede aprendeu a relação entre os parâmetros electrónicos e energéticos e a propensão
para a quebra de ligação. Um facto que apoia esta afirmação foi o teste realizado para as
duas moléculas extra e para molécula alvo do conjunto teste. Os valores obtidos para a
reactividade das ligações destas moléculas são concordantes com os da bibliografia [1, 2, 5].
A previsão da reactividade das ligações destas moléculas vai sofrer uma atenção em especial,
apesar de estarem incluı́das no conjunto teste, devido às suas caracterı́sticas.
A molécula da figura 4.10 possui o grupo tiol que não existe em nenhuma molécula do
conjunto treino, logo a previsão da reactividade desta molécula é outra boa prova de que
52 CAPÍTULO 4. REACTIVIDADE QUÍMICA
Figura 4.10: Quebras de ligação previstas pela rede neuronal (esquerda) e comparação com
os valores obtidos na bibliografia [5] (direita) para o 10-Bromo-2-deca-3,5,7-trieno-2-tiol.
As setas indicam para qual átomo o par de electrões vai após a quebra da ligação e os
valores a probabilidade de heterólise.
H H O
H
H
P C
H H H N
H
benzeno com a carga positiva, a rede prevê uma reactividade de 0,92 enquanto que para a
quebra em sentido oposto uma reactividade de 0. Resta apenas estudar a reactividade do
grupo metilo. Segundo o mecanismo já apresentado, a molécula deveria quebrar segundo
o sentido O-Me, no entanto, para esta quebra de ligação a rede prevê uma reactividade de
0, enquanto para a quebra em sentido contrário a rede prevê uma probabilidade de quebra
de ligação de 0,99. Esta é a única quebra de ligação, das três moléculas estudadas, em
que a previsão da rede apresenta uma reactividade contrária à dos valores da bibliografia.
Além deste erro, existem mais alguns no conjunto teste sendo estes aceitáveis tendo em
conta o pequeno e pouco diversificado conjunto treino utilizado. Estes não serão estudados
visto que o importante e interessante era verificar como a rede reagia na classificação de
tipos de ligações que não estavam contidas no conjunto treino, tendo-se verificado uma boa
resposta por parte dela.
Apesar da rede apresentar já uma capacidade de previsão de cerca de 97%, seria curi-
oso verificar se estes resultados poderiam ser melhorados. Existem várias alterações que
poderiam ser implementadas, para tentar melhorar a capacidade de previsão da rede. A pri-
meira medida a tomar seria aumentar o número de moléculas do conjunto treino dotando-o
de uma maior diversidade de ligações para este se tornar mais representativo de todas as
ligações que podem ocorrer em moléculas orgânicas. Por outro lado, apesar do desenho da
experiência dar já uma certa segurança na escolha das ligações para o conjunto treino não
seria de descurar a implementação de uma rede de Kohonen para realizar o mapeamneto
das ligações. Após o mapeamento das ligações num plano, em principio, este mapeamento
iria conservar todas as propriedades fı́sico-quı́micas das ligações, ficando as mais semelhan-
ças na mesma zona do plano ou em zonas vizinhas. Este método, em relação ao desenho da
experiência, tem a vantagem de levar em linha de conta todos os parâmetros fı́sico-quı́micos
em vez de apenas quatro. Outra alteração que poderia ser feita diz respeito ao algoritmo
de aprendizagem. Apesar do algoritmo de Retro-Propagação ser dos mais utilizados em
aplicações à quı́mica, oferecendo bons resultados, não significa que seja a melhor solução
para o problema. Existem outros algoritmos que podem ser experimentados, tais como o
algoritmo de Contra-Propagação entre outros.
Capı́tulo 5
Considerações finais
“There is nothing more difficult to take in hand, more perilous to conduct, or more uncertain
in its success, than to take the lead in the introduction of a new order of things.”
“One machine can do the work of fifty ordinary men. No machine can do the work of
one extraordinary man.”
Elbert Hubbard
Com o aparecimento de novos algoritmos de aprendizagem torna-se cada vez mais atrac-
tiva a aplicação de redes neuronais em quı́mica. Elas possibilitam a resolução de problemas
de classificação, modelação, associação e mapeamento permitindo assim a resolução de um
grande número de problemas.
É de salientar, que a resolução de alguns dos problemas pode ser realizada recorrendo
a métodos estatı́sticos ou de reconhecimento de padrões, contudo, as redes neuronais apre-
sentam capacidades que ultrapassam as possibilidades dos métodos tradicionais de análise
de dados. É de especial importância o facto de as relações entre os dados de input e os va-
lores de output não precisarem de ser especificadas numa forma matemática, sendo aquelas
relações representadas implicitamente o que permite a modelação de relações não-lineares.
O uso de redes neuronais requer alguma experiência sendo de grande importância, para a
resolução do problema, a estratégia seguida para a representação de dados. Quanto melhor
a informação quı́mica a ser processada for “codificada” mais fácil se tornará a resolução do
problema.
Quer a aplicação das redes neuronais ao problema da reactividade quı́mica quer os
problemas relacionados com a espectrometria de massa são exemplos da capacidade das
redes neuronais para a resolução de problemas de classificação em quı́mica. Em ambos
os casos as redes mais têm arquitecturas de multi-camada treinadas com o algoritmo de
aprendizagem de Retro-Propagação.
55
56 CAPÍTULO 5. CONSIDERAÇÕES FINAIS
[1] Vera Simon, Johann Gasteiger, Jure Zupan, J. Am. Chem. Soc. 1993, 115, 9148-9159
[4] J. Zupan, J. Gasteiger., Neural Networks in Chemistry and Drug Design, WILEY-
VCH, Weinheim, 1999
[5] J. Zupan, J. Gasteiger, Angew. Chem. Int. Ed. Engl. 1993, 32, 503-527
[6] Simon Haykin, Neural Networks - A Comprehensive Foundation, Prentice Hall, New
Jersey, 1999
[7] Dan W. Patterson, Artificial Neural Networks - Theory and Applications, Prentice
Hall, Singapore, 1996
[10] James A. Freeman, Simulating Neural Networks with Mathematica, 1994, Addison
Wesley, USA
[12] Thomas L. Isenhour, Peter C. Jurs, Analytical Chemistry, 1971, 43, 20A-35A
[16] Morton E. Munk, Mark S. Madison, J. Chem. Inf. Comput. Sci., 1996, 36, 231-238
59
60 BIBLIOGRAFIA
[17] A. Eghbaldar, T. P. Forrest, D. Cabrol-Bass, Analytica Chimica Acta, 1998, 359, 283-
301
[18] Goodacre R, Kell DB, Bianchi G, Journal of the Science of Food and Agriculture,
1993, 63 (3), 297 - 307
[20] Bloch HA, Petersen M, Sperotto MM, Kesmir C, Radzikowski L, Jabobsen S, Sonder-
gaard I, Rapid Comunications in Mass Spectrometry, 2001, 440 - 445
[21] Sebastian I, Viallon C, Tournayre P, Berdague JL, Analusis, 2000, 28 (2), 141 -147
[22] Wan CH, Harrington PD, Analytica Chimica Acta, 2000, 408 (1-2), 1 - 12
[23] Tong CS, Cheng KC, Chemometrics and Intelligent Laboratory Systems, 1999, 49 (2),
135 - 150
[24] Basu B, Singh MP, Kapur GS, Ali N, Sastry MIS, Jain SK, Srivastava SP, Bhatnagar
AK, Tribology International, 1998, 31 (4), 159 - 168
[25] Kenyon RGW, Fergusson EV, Ward AC, Zentralblatt Fur Bakteriologie - International
Journal of Medical Microbiology Virology and Infectious Diseases, 1997, 285 (2), 267
- 277
[26] Salter GJ, Lazzari M, Giansante L, Goodacre R, Jones A, Surricchio G, Kell DB,
Bianchi G, Journal of Analytical and Applied Pyrolysis, 1997, 40 - 1, 159 - 170
[27] Jure Zupan, Marjana Novic, Analytica Chimica Acta, 1994, 292, 219-234
[29] James R. Long, Howard T. Mayfield, Michael V. Henley, Anal. Chem., 1991, 63,
1256-1261
[30] A. Bos, M. Bos, W. E. van der Linden, Analytica Chimica Acta, 1993, 277, 289-295
[31] Matevz Pompe, Marko Razinger, Marjana Novic, Marjan Veber, Analytica Chimica
Acta, 1997, 348, 215-221
[32] Gaston Bocaz-Beneventi, Rosa Latorre, Marta Farková, Josef Havel, Analytica Chi-
mica Acta, 2002, 452, 47-63
[33] Davi W. Elrod, Gerald M. Maggiora, J. Chem. Inf. Comput. Sci., 1990, 30, 477-484
[35] Lingran Chen, Johann Gasteiger, Angew. Chem. Int. Ed. Engl., 1996, 35, nž7
[36] Lingran Chen, Johann Gasteiger, J. Am. Chem. Soc., 1997, 119, 4033-4042
[37] Marjana Novic, Jure Zupan, J. Chem. Inf. Comput. Sci, 1995, 35, 454-466
[38] Christoph Klawun, Charles L. Wilkins, J. Chem. Inf. Comput. Sci, 1996, 36, 69-81
[39] Christophe Cleva, Claude Cachet, Daniel Cabrol-Bass, Thomas P. Forrest, Analytica
Chimica Acta, 1997, 348, 255-265
[40] H. J. Luinge, M. H. Langoor, J. H. van der Maas, Analytica Chimica Acta, 1997, 348,
471-480
[41] J. Gasteiger, J. Schuur, P. Selzer, L. Steinhauer, Fresenius J. Anal. Chem., 1997, 359,
50-55
[45] Wilfried J. Mortier, Karin Van Genechten, Johann Gasteiger, J. Am. Chem. Soc.,
1985, 107, 829-835
[47] Michael E. Sigman, Stephen S. Rives, J. Chem. Inf. Comput. Sci., 1994, 34, 617-620
[48] Johann Gasteiger, Xinzhi Li, Angew. Chem. Int. Ed. Engl., 1994, 33
[49] Lowell H. Hall, C. T. Story, J. Chem. Inf. Comput. Sci., 1996, 36, 1004-1014
[50] Eric S. Goll, P. C. Jurs, J. Chem. Inf. Comput. Sci., 1999, 39, 974-983
[51] Brooke E. Mitchell, Peter C. Jurs, J. Chem. Inf. Comput. Sci., 1998, 38, 489-496
[53] J. P. Doucet, A. Panaye, E. Feuilleaubois, P. Lass, J. Chem. Inf. Comput. Sci., 1993,
33, 320-324
[54] Geoffrey M. J. West, J. Chem. Inf. Comput. Sci., 1995, 35, 21-30
[55] Geoffrey M. J. West, J. Chem. Inf. Comput. Sci., 1995, 35, 806-814
[56] Daniel Svozil, Jiri Pospichal, Vladimir Kvasnicka, J. Chem. Inf. Comput. Sci., 1995,
35, 924-928
62 BIBLIOGRAFIA
[57] João Aires de Sousa, Markus C. Hemmer, Johann Gasteiger, Anal. Chem., 2002, 74,
80-90
[62] Research Group of Johann Gasteiger, Techniques for Organic Reactions, Visualization
and Spectroscopy - PETRA (Parameter Estimation for the Treatment of Reactivity
Applications - Version 2.6, 1999, Computer-Chemie-Centrum University of Erlangen-
Nuernberg (http://www2.ccc.uni-erlangen.de)
[70] Johann Gasteiger, Michael G. Hutchings, J. Chem. Soc. Perkin Ttrans. II, 1984, 559-
564
[71] Johann Gasteiger, Michael G. Hutchings, J. Am. Chem. Soc., 106, 1984, 6489-6495
[72] Terrence A. Lee, A Beginner’s Guide to Mass Spectral Interpretation, 1998, Wiley
[73] Thomas N. Sorrell, Interpreting Spectra of Organic Molecules, 1988, University Science
Books
Apêndice A
Exemplos de Aplicações
I
II APÊNDICE A. EXEMPLOS DE APLICAÇÕES
III
Classificação ? ? ? ?
Modelação ? ?
Associação ? ? ? ?
Mapeamento ? ?
Tamanho
Problema Tipo de problema Método
da rede
Classificação
Origem de azeites Médio BPE+KL
Mapeamento
Reactividade de Classificação
ligações Pequeno KL+BPE
Mapeamento
Classificação de
Classificação Médio KL
reacções
Algoritmos
V
VI APÊNDICE B. ALGORITMOS
VII
m
!
outlj = f l
outl−1
X
wji i
i=1
onde f é a função transferência escolhida (na maior parte dos casos é a função sigmóide)
? Calcular o factor de correcção para todos os pesos na camada de output δ jlast usando
o vector de output Out last e o vector alvo Y de acordo com a expressão:
δjlast = yj − outlast
j outlast
j 1 − outlast
j
last last(previous)
∆wji = ηδjlast outilast−1 + µ∆wji
r
!
δjl δkl+1 outl+1 outlj 1 − outlj
X
= j
k=1
l l(previous)
∆wji = ηδjl outl−1
i + µ∆wji
IX
X APÊNDICE C. DETERMINAÇÃO DOS PARÂMETROS...
XI
Polarizabilidade, αb
XV
Polaridade, Qσ
XVII
XIX
XX APÊNDICE D. DETALHES SOBRE O MÉTODO LORA
XXI
A análise por regressão logı́stica, LoRA, estende as técnicas de regressão linear múltipla
a situações onde a resposta a dar é categórica. Estas situações são muito comuns, sendo o
caso da reactividade de ligações um dos casos onde pode ser aplicado este método.
O modelo para a análise por regressão logı́stica assume que a variável de resposta Y
é categórica. Contudo, o LoRA não modela esta a variável de resposta directamente.
Este método baseia-se nas probabilidades associadas com os valores Y . A proporção da
população dos casos para que Y = 1, ligação reactiva, é definida como:
Π = P (Y = 1) (D.1)
e a proporção teórica, dos casos para Y = 0, é:
1 − Π = P (Y = 0). (D.2)
Na ausência de outra informação, Π deve ser estimado pela amostra de proporção de
casos para Y = 1. Contudo, no contexto da regressão assume-se que existe um conjunto
de variáveis preditoras (X = x1 , x2 , ..., xp ), neste caso são os parâmetros fı́sico-quı́micos,
que se relacionam com Y e que dão a informação necessária para fazer a sua previsão.
Sendo assim, a probabilidade da ligação ser reactiva passa a ser:
p
X
!
β0 + βxj
exp j=1 1
P (Y = 1 | x1 , x2 , ..., xp ) = p ! = p ! (D.6)
X X
β0 + βxj − β0 + βxj
1 + exp j=1 1 + exp j=1
dos dados observados em função dos parâmetros desconhecidos. Depois serão obtidos os
estimadores de semelhança desses parâmetros que maximizam a função de semelhança. No
processo são escolhidos os estimadores que fazem a previsão mais próxima da realidade.
Para um conjunto de dados (Xi , yi ),onde Xi é o vector de variáveis preditoras para o
objecto i, a contribuição para a função de semelhança é Π(Xi ), onde yi = 1 e 1 − Π(Xi ),
onde yi = 0. A equação seguinte fornece a contribuição para a função de semelhança para
a observação (Xi , yi ): h i
ζ(Xi ) = Π(Xi )yi 1 − Π(Xi )1−yi (D.7)
Esta equação é apenas para um único conjunto de observações. As observações são
assumidas como sendo independentes umas das outras. Sendo assim, pode-se multiplicar
as suas contribuições para obter a função de semelhança. O resultado é dado por:
n
Y
l (B) = ζ(Xi ) (D.8)
i=1
para β0 e
n
X
xik [yi − Π(Xi )] = 0 para K = 1, 2, ..., j (D.11)
i=1
XXIII
XXIV APÊNDICE E. DETALHES SOBRE O PETRA
XXV
Número de Contribuição
Subestruturas
ocorrências em kJ/mol
H H H
C-H 7 415,97
H C C C H C-C 2 332,82
O-H 1 463,48
H O H O-C 1 326,22
C-C-C 1 9,69
H
O-C-C 2 23,53
O-C-(-C)-C 1 -6,28
Distribuição de carga σ
A noção de cargas parciais nos átomos de uma molécula é bastante usada pelos quı́-
micos. Contudo, recorde-se, que este conceito é reflexo da distribuição electrónica numa
molécula, não tendo fundamentação teórica. Este modelo de atribuição de uma distribuição
electrónica não uniforme nos átomos individuais, conferindo-lhes carga parcial é bastante
útil.
As cargas atómicas parciais são calculadas a partir das electronegatividades orbitais. A
base desta aproximação é o conceito de electronegatividade, χ, definido por Mulliken como
a média do potencial de ionização e da afinidade electrónica:
χ = 0, 5(IP + EA) (E.3)
As várias orbitais de um átomo são consideradas separadamente tendo, cada uma, o
seu valor de electronegatividade, χi . A electronegatividade é, assim, dependente do estado
de hibridação do átomo, não sendo apenas dependente do tipo de orbital que está a ser
considerada mas também da sua ocupação. Os valores da electronegatividade podem ser
obtidos a partir de dados retirados da bibliografia [67–69]. Para o estado neutro (n = 1)
e para o estado com uma carga positiva (n = 0) e negativa (n = 2). A ocupação de uma
orbital pode ser considerada como uma variável contı́nua, ou seja , é permitida uma gama
contı́nua de carga parcial num átomo. Com três valores para a dependência da electrone-
gatividade orbital na carga (n = 0, 1, 2 correspondente a q = +1, 0, −1), um polinómio
de segundo grau pode ser utilizado para mostrar a dependência da electronegatividade de
uma orbital χiA , na carga qA de um átomo.
<n>
∆qAB = ∆qAB + ∆qAB (E.7)
qA<n> = <n>
X
∆qAB (E.8)
qA = qA + qA<n> (E.9)
Distribuição de carga Π
N N N N
C
N N
C C
H O H H O H
O O
C C
Cargas Totais
Os valores das cargas totais são obtidos pela soma dos resultados das cargas σ e Π já
descritas anteriormente. O valor calculado é a diferença de carga total dos átomos A e B,
∆qtot , que formam a ligação.
Efeito de ressonância
A estabilização da carga positiva ou negativa obtida após a quebra polar de uma ligação
polar é calculada a partir dos valores de electronegatividade dos electrões Π e dos pares de
electrões isolados dos átomos que estão conjugados com os átomos que recebem as cargas
[62]. A procura dos átomos que conseguem estabilizar uma carga positiva ou negativa
não começa nos átomos da ligação que é quebrada mas sim nos átomos que têm potencial
para estabilizar cargas por efeito de ressonância (átomos fonte). Os átomos dessa ligações
estão conjugados com os seguintes tipos de átomos fonte: átomos doadores (possuidor
de um par de electrões livres), átomos aceitadores (podem aceitar um par de electrões),
grupos alquilo em ligações múltiplas (efeito de hiperconjugação), grupos alquilo em átomos
doadores (efeito de hiperconjugação).
A estabilização por ressonância é uma propriedade de ligação desde que a ligação que
é quebrada gere cargas. Existem dois sentidos para quebrar a ligação de uma forma polar,
sendo assim, cada ligação e estudada duas vezes:
A − B → B + + : A− (E.13)
A − B → A+ + : B − (E.14)
Uma ligação é caracterizada pelos ı́ndices dos dois átomos A e B. A convenção é que o
primeiro átomo obtém a carga positiva. É calculado um valor R− para a estabilização da
carga negativa e um valor R+ para a estabilização da carga positiva.
XXXI
R− (A − B) = f n χΠ,i
X
(E.15)
i
R± (A − B) = R+ (A − B) + R− (B − A) (E.17)
Efeito da Polarizabilidade
XXXIII
XXXIV APÊNDICE F. REACTIVIDADES OBTIDAS PARA...
XXXV
4 IV 26
I 2
II 5
III 18
20 21 24
15 17
3 13 16 22 25
9 23 28
19
12 10 27
1 6
V VI 8 7 14
11
32 43
VII VIII
29 37 44
30
36 38
31 42
35 39 45
33
50
49 70
34
40
41 XII
IX X XI 62
48 51 56 71
47 53 61 69 74 72
60
46 67 63
65 64 59 73
54 57 68
55 52
58 66
XIII
XIV XV XVI 89
77
81 84
87
XVII 96
80
79 95
82
75 83 86 91 94
92
85 88 93
76 78 XIX XX 90
05
08 XXI
01 04 07 XXII
XVIII 06 09
03 10 18
99 11 14
97 00 XXIII 15
02
XXIV 13
12 17
98 19
24 16
21
22 45 48
XXV 23 XXVIII
20
XXVI XXIX 49
44
27
28 XXVII 42
43
32
26 37 39
36 40 38 46
25 29 31 35
30 33
41 47
34
73
82
XXX XXXI XXXII
72
57 53 81
58
56 55 62 63
59 64 71
61 70
79 80
50 60
51 69 67
54
77 78
52
68 76
75 65
74
66
Figura F.1: Conjunto teste da rede. As quebras de ligação estão numeradas de 1 a 99, a
azul. Da 100 à 182 estão numeradas de 00 a 82, a verde, por falta de espaço.
XXXVI APÊNDICE F. REACTIVIDADES OBTIDAS PARA...
Tabela F.2: Reactividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido de forma aleatória e valores da bibliografia (RB).
Tabela F.3: Reactividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido de forma aleatória e valores da bibliografia (RB).
Ligação RO RB
115 0.1 0
116 1.0 1
117 0.0 0
118 0.0 0 Ligação RO RB
119 1.0 1 153 0.5 1
120 1.0 1 154 1.0 1
121 0.0 0 155 0.5 1
122 0.6 1 156 0 0
123 0.0 0 157 0 0
124 0.6 1 158 0 0
125 0.0 0 159 0 0
126 0.0 0 160 1.0 1
127 0.1 0 161 1.0 1
128 1.0 1 162 0.1 0
129 0.0 0 163 0.7 1
130 1.0 1 164 0.2 0
131 0.0 0 165 0.0 -
132 1.0 1 166 0.0 -
133 0.0 0 167 0.0 -
134 0.0 0 168 0.0 -
135 0.0 0 169 0.0 -
136 0.0 0 170 0.0 -
137 1.0 1 171 0.9 -
138 0.0 0 172 0.0 -
139 0.0 0 173 0.0 -
140 0.0 0 174 0.0 -
141 0.0 0 175 0.8 -
142 0.0 0 176 0.0 -
143 0.0 1 177 0.7 -
144 1.0 1 178 0.0 -
145 1.0 1 179 0.9 -
146 0.0 0 180 0.0 -
147 1.0 1 181 1.0 -
148 0.0 0 182 0.7 -
149 0.0 0
150 0.5 1
151 0.2 0
152 1.0 1
XXXIX
Tabela F.4: Reatividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido com base no desenho da experiência e valores da bibliografia (RB).
Tabela F.5: Reatividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido com base no desenho da experiência e valores da bibliografia (RB).
Ligação RO RB
115 0.0 0
116 1.0 1
117 0.0 0
118 0.0 0 Ligação RO RB
119 1.0 1 153 0.6 1
120 0.6 1 154 1.0 1
121 0.0 0 155 0.5 1
122 0.6 1 156 0.0 0
123 0.0 0 157 0.0 0
124 0.6 1 158 0.0 0
125 0.0 0 159 0.0 0
126 0.0 0 160 1.0 1
127 0.1 0 161 1.0 1
128 1.0 1 162 0.2 0
129 0.0 0 163 0.6 1
130 0.9 1 164 0.1 0
131 0.0 0 165 0.0 -
132 1.0 1 166 0.0 -
133 0.0 0 167 0.2 -
134 0.0 0 168 0.0 -
135 0.0 0 169 0.0 -
136 0.0 0 170 0.0 -
137 1.0 1 171 0.9 -
138 0.0 0 172 0.0 -
139 0.0 0 173 0.0 -
140 0.0 0 174 0.0 -
141 0.0 0 175 0.5 -
142 0.0 0 176 0.0 -
143 0.0 1 177 0.5 -
144 1.0 1 178 0.0 -
145 1.0 1 179 0.6 -
146 0.0 0 180 0.0 -
147 1.0 1 181 1.0 -
148 0.0 0 182 0.5 -
149 0.0 0
150 0.9 1
151 0.3 0
152 0.8 1
Apêndice G
XLI
XLII APÊNDICE G. GRÁFICOS DE CORRELAÇÃO...
XLIII
Energia de Dissociação da Ligação / [kJ / mol]
0
-3
-0,2 -0,1 0 0,1 0,2 -0,2 -0,1 0 0,1 0,2
Diferença de Carga Π / [e. u.] Diferença de Carga Π / [ e. u.]
9
Coeficiente de Correlação: 0,2300
0,4 8
Coeficiente de Correlação: -0.02
Polarizabilidade / [Å ]
3
Polaridade / [e. u.]
0,2 7
0 6
-0,2 5
-0,4 4
3
-0,2 -0,1 0 0,1 0,2 -0,2 -0,1 0 0,1 0,2
Diferença de Carga Π / [e. u.] Diferença de Carga Π / [e. u.]
Energia de Dissociação da Ligação / [kJ / mol]
20 500
Coeficiente de Correlação: -0,0390
Estabilização por Ressonância
400
15
Coeficiente de Correlação: -0.05
300
10
200
5 100
0
0
-0,2 -0,1 0 0,1 0,2 -0,6 -0,4 -0,2 0 0,2 0,4 0,6
Diferença de Carga Pi / [e. u.] Diferença de Carga Total / [e. u.]
XLIV APÊNDICE G. GRÁFICOS DE CORRELAÇÃO...
0,2
Coeficiente de Correlação: 0,4162
Coeficiente de Correlação: 0,8100
Diferença de Carga Π / [ e. u.]
0,4
0,1
0 0
-0,2
-0,1
-0,4
-0,2
-0,6 -0,4 -0,2 0 0,2 0,4 0,6 -0,6 -0,4 -0,2 0 0,2 0,4 0,6
Diferença de Carga Total / [e. u.] Diferença de Carga Total / [e. u.]
20 9
Coeficiente de Correlação: -0,1436
Estabilização por Ressonância
10 6
5
5
4
0 3
-0,6 -0,4 -0,2 0 0,2 0,4 0,6 -3 -2 -1 0 1 2 3
Diferença de Carga Total / [e. u.] Diferença de Electronegatividade sigma / [eV]
3
Diferença de Electronegatividade σ / [eV]
20
Coeficiente de Correlação: -0,4842
2
Estabilização por Ressonância
10 0
-1
5
-2
0 -3
-3 -2 -1 0 1 2 3 -0,6 -0,4 -0,2 0 0,2 0,4 0,6
Diferença de Electronegatividade σ / [e. u.] Diferença de Carga Total / [e. u.]
XLV
500 500
400 400
Coeficiente de Correlação: 0,1697 Coeficiente de Correlação: -0,1293
300 300
200 200
100 100
0 0
-3 -2 -1 0 1 2 3 -0,4 -0,2 0 0,2 0,4
Diferença de Electronegatividade σ / [eV] Polaridade / [e.u.]
9 20
15
3
6 10
5
5
4
3 0
-0,4 -0,2 0 0,2 0,4 -0,4 -0,2 0 0,2 0,4
Polaridade / [e. u.] Polaridade / [e. u.]
Energia de Dissociação da Ligação / [kJ / mol]
500
500
400
400
200 200
100 100
0 0
3 4 5 6 7 8 9 0 5 10 15 20
3
Polarizabilidade / [Å ] Estabilização por Ressonância
XLVI APÊNDICE G. GRÁFICOS DE CORRELAÇÃO...
9
Coeficiente de Correlação: 0.06
Polarizabilidade / [Å ]
3
7
3
0 5 10 15 20
Estabilização por Ressonância