Você está na página 1de 122

V

Agradecimentos

As minhas primeiras palavras de agradecimento têm de ir, forçosamente, para os meus


pais. Sem o amor, carinho e todo o apoio que sempre me deram ao longo dos anos possi-
velmente não estaria aqui. Além, de todo o seu apoio, eles sempre me disponibilizaram o
necessário para que o meu aproveitamento escolar dependesse apenas de mim incutindo-me,
ao mesmo tempo, um grande sentido de responsabilidade desde a mais tenra idade. Se por
um lado me davam liberdade de escolher o meu caminho, simultâneamente, mostraram-me
bem cedo que essa liberdade tinha de acarretar sentido de responsabilidade. Por estas
razões tenho orgulho deles e penso que eles sentem o mesmo por mim porque, penso eu,
nunca os decepcionei.
Em seguida as minhas palavras têm de ir para a pessoa que mais tem sido prejudicada
com a realização deste relatório que é a minha namorada, a Cristina. Devido a este relatório
a verdade é que nas últimas semanas não tenho passado com ela o tempo que gostaria e
que ela merece. No ainda pouco tempo da nossa relação só tenho que lhe agradecer todo o
apoio que me tem dado e toda a sua paciência para comigo nos meus dias de maior stress
e da pouca atenção que lhe tenho dado.
De seguida não posso de deixar passar em claro todos os meus amigos que sempre me
acompanharam e conviveram comigo nos últimos anos. É lógico que não vou falar de todos
mas não posso deixar de dizer umas palavras a alguns. O meu grande amigo Roque foi
a primeira pessoa que conheci nesta faculdade e por coincidência, ou não, iniciámos uma
amizade que se prolonga até hoje. Pelas mais diversas razões não temos convivido tanto
como nos primeiros anos mas sei, no entanto, que posso contar com ele porque é assim que
são os verdadeiros amigos e ele é um verdadeiro amigo, isso tenho eu a certeza. Depois não
posso deixar se referir o meu grande amigo (não é grande apenas na amizade mas também
no tamanho) Chelas. Há já algum tempo que me habituei à nossa cafezada da manhã ou
então à imperial da tarde no Chilgamba, Portugália ou Cova Funda. Além dele não posso
esquecer outro grande amigo, o Resende (tantas festas e outros raides passei com ele que
lhes perdi a conta), o Gordo, o Nuno da Vela, o Paulo Rafael, o David, o Rui e tantos
outros que mais tem convivido comigo nos últimos dois anos. Dos meus primeiros anos
na faculdade perdi um pouco o contacto com muitos mas não posso deixar de recordar
os tempos de convı́vio com o Mota, Sı́lvio, Ortola, Teixeira, Gonçalo, Gameiro e muitos
outros.
Depois dos amigos é agora a vez das amigas. Apesar de conhecer um número razoável
de raparigas a verdade é que não tenho muitas amigas, ou pelo menos daquelas que uma
pessoa sente que são verdadeiras amigas. Conheci a Catarina André no segundo ano e,
a pouco e pouco, a nossa amizade cresceu. São muitas as tardes que passamos juntos a
contar as chatices e as alegrias da nossa vida um ao outro. Ela talvez seja a pessoa que
conhece melhor sabendo muito bem qual á a minha grande fraqueza. Na verdade às vezes
prefiro que ela não saiba alguma coisa mas ela já me conhece suficiente bem para eu não
VI

conseguir enganá-la. Neste aspecto ela é muito parecida com a Diana. A Diana foi em
tempos uma mulher muito importante para mim e apesar de tudo ficámos amigos facto
que me deixa feliz.
Nestes dois anos tenho também de referir e agradecer todo o companheirismo dos meus
colegas de laboratório o Rui, o Rodrigo e o Doutor Pedro. O Rodrigo, presente apenas
nos primeiros meses do meu estágio, mostrou sempre a sua disponibilidade para ajudar
no que fosse preciso, contribuindo sempre com a sua boa disposição para o bom ambiente
e espı́rito de camaradagem do laboratório. O Dr. Pedro que apesar de sempre ocupado
com telefonemas constantes, as aulas e a investigação, esteve sempre disponı́vel para me
tirar dúvidas ajudando-me várias vezes. Por último, dos meus colegas de laboratório, de
referir o Rui a quem eu devo muito do que aprendi. Muito do que sei por exemplo de
Fortran 90, sniff, xmgrace, lyx, awk, gimp, xsane etc o devo a ele e ao seu espı́rito de
companheirismo. O Rui é uma pessoa que gosta do que faz e por isso consegue motivar
os outros com o seu entusiasmo tendo-me ajudado durante estes dois anos em inúmeras
ocasiões. Era meu desejo que o grupo pudesse continuar unido por muitos anos tendo em
conta o bom ambiente do laboratório que eu sempre senti desde que cheguei nunca me
sentindo um estranho no grupo mas sim parte dele.
Agradeço, também, ao grupo de Espectrometria de Massa que me forneceu os primeiros
dados para o treino da rede e à Prof. Filomena Camões na parte de quimiometria.
As últimas palavras vão para os meus orientadores, a Prof. Doutora Filomena Freitas e
o Prof. Doutor Fernando Fernandes. A Prof. Filomena sempre me apoiou desde o primeiro
dia em que fui falar com ela, demonstrando o meu interesse para realizar estágio na área da
quı́mica computacional. Durante todo este tempo sempre procurou motivar-me nos meus
momentos de maior desânimo, quando tudo parecia correr mal. Tenho que agradecer todo o
tempo que gastou comigo a rever detalhes de programação, discutir pormenores do trabalho
ou até nos pormenores de impressão do estágio. Por fim, tenho que agradecer ao Professor
Fernando por me ter aceite como seu estagiário quando não tinha qualquer informação sobre
mim e me ter lançado o desafio da aplicação das redes neuronais artificiais à quı́mica. Na
realidade não o conhecia visto que nunca tinha sido meu professor. A única recordação que
tenho dele antes do meu estágio é a de uma sessão numa avaliação de licenciatura em que
ele fez uma intervenção criticando algo e, não sei porquê, gostei desde logo da sua maneira
de ser. Durante o estágio tenho que agradecer a paciência que teve comigo até eu produzir
os meus primeiros resultados e o pouco tempo que dispensei ao estágio durante o primeiro
ano em que tinha mais ocupações. Além disso, tenho de agradecer toda a motivação que
sempre me procurou transmitir e a confiança que depositou em mim. Espero a partir de
agora começar a produzir mais iniciando, já no verão, uma nova investigação. Deixo aqui
as seguintes palavras que penso que se adequam à sua personalidade:

“Pela sua afectividade, pelo modo como tem o coração ao pé da boca e a lágrima ao
canto do olho pela sua integridade e, principalmente pela sua qualidade como homem, como
profissional e como cidadão já não há muita gente assim”
Manuel Alegre
VII

Resumo

As aplicações de redes neuronais artificiais à quı́mica conheceram nos últimos anos um


aumento surpreendente sendo nos dias de hoje utilizadas na resolução dos mais diversos
problemas. Com o intuito de estudar as redes neuronais e as suas aplicações à quı́mica este
trabalho tem três objectivos.
O primeiro consiste numa introdução às redes neuronais artificiais começando por
estudar-se o neurónio e as estruturas que o constituem e, partindo daı́, estudar as re-
des neuronais artificiais no que respeita à forma como elas se organizam e processam a
informação. Relacionado com este tema faz-se a descrição pormenorizada do algoritmo de
aprendizagem de Retro-Propagação que se utiliza na resolução do problema da previsão da
reactividade de ligações quı́micas.
O segundo objectivo consiste numa pesquisa das aplicações de redes neuronais em quı́-
mica. Constata-se a existência de aplicações nas mais diversas áreas como por exemplo,
quı́mica orgânica, quı́mica inorgânica, quı́mica analı́tica e quı́mica-fı́sica. Após um breve
resumo, em que se mostra alguns exemplos das mais variadas aplicações em cada área,
incide-se a atenção, em particular, na aplicação de redes neuronais artificiais à espectro-
metria de massa. Nos vários exemplos dados fica patente a potencialidade das redes em
resolver problemas relacionados com a espectrometria de massa que vão desde a correlação
espectro de massa-estrutura molecular e vice-versa, classificação de amostras entre outras.
O terceiro objectivo deste trabalho consiste na implementação de uma rede neuronal
com arquitectura 7×3×1 (uma camada de input, uma camada oculta e uma camada de
output), treinada com o algoritmo de Retro-Propagação. Esta rede teve como objectivo
prever a reactividade de ligações quı́micas. A resolução de tal problema utilizando redes
neuronais artificiais é tão importante para a quı́mica orgânica como para a espectrometria
de massa, visto que o conhecimento da probabilidade que uma dada ligação numa molécula
tem de se quebrar de uma forma heterolı́tica permite simplificar o estudo dos mecanismos
de fragmentação em espectrometria de massa. Para a resolução deste problema foram
dados como valores de input sete parâmetros fı́sico-quı́micos cujos valores se relacionam
com a reactividade de uma ligação. O conjunto de treino da rede (conjunto de ligações
quı́micas) foi escolhido de duas formas (escolha aleatória e escolha com base no desenho
da experiência) a partir de um conjunto de 10 moléculas. Após o treino da rede esta foi
testada com um conjunto de 182 ligações com informação sobre a sua reactividade retiradas
da bibliografia [1–4].
Comparando os resultados deste trabalho com os obtidos por Simon, Zupan e Gastei-
ger [1], para a resolução do mesmo problema, conclui-se que para ambos os métodos de
escolha do conjunto treino foi utilizado um número inferior de ligações para treinar a rede.
Respectivamente 53 (escolha aleatória) e 48 (escolha baseada no desenho da experiência)
ligações contra 64 ligações utilizadas pelos referidos autores para ambos os estudos. Ape-
sar de tal facto, quando se procedeu ao teste da rede, o número de respostas erradas em
VIII

termos percentuais foi inferior em ambos os casos. Para o teste da rede treinada com o
conjunto escolhido de forma aleatória obteve-se uma percentagem de 3,3% de ligações mal
classificadas, contra 8.35% da referida bibliografia, havendo assim uma melhoria de cerca
de 5%. Por outro lado, para o teste da rede, treinada com o conjunto escolhido com base
no desenho da experiência a percentagem de ligações mal classificadas foi de 2.7% contra
4% da bibliografia [1], havendo assim uma melhoria de cerca de 1%. É de salientar que
as redes foram testadas com 182 ligações, um número significativamente maior que o da
bibliografia: 85 ligações [1].
IX

Notação, Convenções e Abreviaturas

A literatura sobre redes neuronais utiliza várias notações o que, por vezes, pode provocar
alguma confusão. A notação utilizada neste trabalho é a mesma que é adoptada por
Gasteiger e Zupan no seu livro sobre redes neuronais em quı́mica [4]. Trata-se de uma
nomenclatura além de consistente bastante usada na literatura sobre este tema.

? Designação de valores escalares: letras minúsculas em itálico:

A única excepção é Net que começa com uma letra maiúscula.

? Designação de vectores e matrizes: letras maiúsculas em itálico e a negrito:

? Os valores individuais de um vector de input (X ), de dimensão m, são dados pela


letra minúscula x, com ı́ndice i :

xi (i = 1, 2,......,m)

? Os valores individuais de um vector de output (Out ou Y ), de dimensão n, são dados


pela letra minúscula y, ou out, com ı́ndice j:

outj ou yj (j = 1,2,......,n)

? A matriz peso de uma camada de neurónios (W ) tem valores individuais wji , em


que o primeiro ı́ndice refere-se ao neurónio que está a ser considerado e o segundo
ı́ndice especı́fica a unidade de input (o neurónio precedente que transmite o sinal):

wji

? Quando as matrizes de diferentes nı́veis são comparadas umas com as outras, a matriz
peso do nı́vel l (W l ) tem os ı́ndices i e j. Enquanto que a do nı́vel seguinte (W l+1 )
tem os ı́ndices j e k:

wjk

? Se existir mais que um objecto de input, estes são identificados por um ı́ndice s, tendo
um valor máximo p. Assim o objecto de input é identificado por X s e as componentes
individuais por x si .
X

? Numa rede com várias camadas, estas são identificadas pela letra l em expoente.
Assim o vector de output de uma camada l é Out l e os seus valores individuais são
out lj .

? As iterações que ocorrem ao longo de uma rede neuronal são caracterizadas por
um expoente t entre parêntesis. Assim a matriz peso inicial é W (0) , que muda na
iteração seguinte para W (1) . As iterações sucessivas são indicadas pelos expoentes
“old” e “new”:

W (old) , W (new)

? A arquitectura da rede vem geralmente expressa da seguinte forma:

7×3×1

O exemplo dado diz respeito a uma rede neuronal com uma arquitectura com sete
unidades de input, três neurónios na camada oculta e um neurónio na camada de output.
De uma forma geral o número da esquerda diz respeito ao número de unidades de input,
o número da direita diz respeito ao número de neurónios de output e os outros ao número
de neurónios das camadas ocultas.

Abreviaturas

? sf (“sigmoidal function”) - Função Sigmóide

? hl (“hard-limiter”) - Função Limite Rı́gido

? tl (“threshold logic”) - Função Limiar Lógico

? GC-MS - “Gas Cromatography - Mass Spectrometry”


? Py-MS - “Curie Point Pyrolysis Mass Spectrometry”

? MALDI-TOF-MS -“Matrix-Assisted Laser Desorption/Ionisation Time-Of-Flight Mass


Spectrometry”

? CN (“cetane number”) - Número de Cetanos

? NMR (“Nuclear Magnetic Ressonance”) - Ressonância Magnética Nuclear


? IR-MS - “Infra Red - Mass Spectrometry”

? PETRA (“Parameter Estimation for the Treatment of Reactivity Applications”) -


Cálculo de Parâmetros para o Tratamento de Aplicações de Reactividade

? PEOE (“Partial Equalization of Orbital Electronegativity”) - Equalização Parcial da


Electronegatividade Orbital
XI

? ∆qtot - Diferença de carga total

? ∆qΠ - Diferença de carga Π

? ∆χσ - Diferença de electronegatividade σ

? Qσ - Polaridade

? R± - Estabilização por ressonância das cargas geradas por heterólise

? BDE - Energia de Dissociação da Ligação

? αb - Polarizabilidade

? LoRA (“Logistic Regression Analysis”) - Análise por Regressão Logı́stica

? BPE (“Back-Propagation of Errors”) ou BP (“Back-Propagation”) - Retro-Propagação


de Erros

? KL (“Kohonen Learning”) - Aprendizagem de Kohonen

? CP (“Counter-Propagation”) - Contra-Propagação

? GA (“Genetic Algorithm”) - Algoritmos Genéticos

? QSAR (“Quantitative Struture-Activity Relatioships”) - Relação Quantitativa Estru-


tura Actividade

? MLRA (“Multi-Linear Regression Analysis”) - Análise por Regressão Multilinear

? IP (“Ionization Potential”) - Potencial de Ionização

? EA (“Electronic Affinity”) - Afinidade Electrónica

? PEPE (“Partial Equalization of Π Electronegativity”) - Equalização Parcial da Elec-


tronegatividade Π

? RMS (“Root Mean Square”) - Desvio Quadrático Médio

? e. u. (“electron units”)
XII
Conteúdo

1 Introdução às Redes Neuronais Artificiais 1


1.1 Breve Perspectiva Histórica . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 O que é e qual a utilidade de uma Rede Neuronal Artificial? . . . . . . . . 3
1.3 O Modelo do Neurónio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Formação de Redes Neuronais. . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Arquitecturas e Representação Gráfica das Redes. . . . . . . . . . . . . . . 13

2 Processo de Aprendizagem - Algoritmo de Retro-Propagação 15


2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Retro-Propagação de Erros - Generalidades . . . . . . . . . . . . . . . . . 16
2.3 Arquitectura da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4 Processo de Aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5 Regra Delta generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Aplicações de Redes Neuronais Artificiais em Quı́mica 25


3.1 Aplicação à Espectrometria de Massa . . . . . . . . . . . . . . . . . . . . . 25
3.1.1 Correlação Estrutura Molecular-Espectro de Massa . . . . . . . . . 26
3.1.2 Outros exemplos de aplicações de Redes Neuronais Artificiais à Es-
pectrometria de Massa . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Outras Aplicações em Quı́mica . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1 Aplicação à Quı́mica Orgânica . . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Aplicação à Espectroscopia de Infra-Vermelho . . . . . . . . . . . . 31
3.2.3 Aplicação à Quı́mica-Fı́sica . . . . . . . . . . . . . . . . . . . . . . 32
3.2.4 Aplicação à Ressonância Magnética Nuclear . . . . . . . . . . . . . 33

4 Reactividade Quı́mica 35
4.1 Introdução ao problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Parâmetros Fı́sico-Quı́micos . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 Procedimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4 Arquitectura da Rede Neuronal . . . . . . . . . . . . . . . . . . . . . . . . 38
4.5 Cálculo da Reactividade do Conjunto Alvo . . . . . . . . . . . . . . . . . . 40
4.6 Treino da rede com um conjunto treino escolhido de forma aleatória . . . . 41

XIII
XIV CONTEÚDO

4.7 Treino da rede com um conjunto treino escolhido utilizando o desenho ex-
perimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.8 Comparação dos dois métodos . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.9 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5 Considerações finais 55

A Exemplos de Aplicações I

B Algoritmos V

C Determinação dos Parâmetros Fı́sico-Quı́micos IX

D Detalhes sobre o Método LoRA XIX

E Detalhes sobre o PETRA XXIII

F Reactividades obtidas para o Teste da Rede XXXIII

G Gráficos de Correlação dos Parâmetros Fı́sico-Quı́micos XLI


Lista de Figuras

1.1 Neurónio biológico. O número de dendrites é muito maior na realidade. [13] 6


1.2 Primeira parte do modelo do neurónio. [4] . . . . . . . . . . . . . . . . . . 7
1.3 Comparação entre a função transferência limiar lógico e a sigmóide com os
mesmos parâmetros (α=0.1 e ϑ=0.5). De notar que no caso da tl o intervalo
de troca tem inicio a Net=ϑ enquanto no mesmo ponto a sf tem o seu ponto
de inflexão. [4] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Função sigmóide e respectiva derivada. [4] . . . . . . . . . . . . . . . . . . 9
1.5 Modelo completo do neurónio. [4] . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Rede de uma camada de neurónios. [4] . . . . . . . . . . . . . . . . . . . . 12
1.7 Rede neuronal com as unidades de input e duas camadas activas de neuró-
nios. (Imagem adaptada de [4]) . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1 Aprendizagem com supervisão (imagem adaptada de [4]). . . . . . . . . . . 16


2.2 Processo de aprendizagem do algoritmo de Retro-Propagação. (figura adap-
tada a partir de [4]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Erro ε em função do valor do peso. [4] . . . . . . . . . . . . . . . . . . . . 19

3.1 Hierarquia de redes neuronais. [5] . . . . . . . . . . . . . . . . . . . . . . . 27

4.1 Quebra heterólitica de uma ligação. [5] . . . . . . . . . . . . . . . . . . . . 35


4.2 Conjunto de 10 moléculas para o treino da rede e conjunto de 32 moléculas
para o teste da rede contendo 182 quebras de ligação diferentes [1, 2, 5]. . . 37
4.3 Arquitectura da rede neuronal. [1] . . . . . . . . . . . . . . . . . . . . . . . 39
4.4 Gráficos relativos à procura dos valores dos parâmetros da função transfe-
rência que minimizam o erro do treino. . . . . . . . . . . . . . . . . . . . . 42
4.5 Gráfico para o treino da rede e respectivo zoom. . . . . . . . . . . . . . . . 43
4.6 Gráfico 1-Correlação entre a diferença de carga total e a polarizabilidade;
Gráfico 2-Correlação entre a diferença de electronegatividade σ e a polaridade. 45
4.7 Gráficos referentes à busca dos mı́nimos de erro para os parâmetros alfa e
beta da função transferência. . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.8 Gráficos referentes à busca dos valores que minimizam o erro do treino para
os parâmetros velocidade de aprendizagem e momento da rede . . . . . . . 48

XV
XVI LISTA DE FIGURAS

4.9 Gráfico para o treino da rede com os parâmetros optimizados para um treino
de 5000 ciclos e respectivo zoom. . . . . . . . . . . . . . . . . . . . . . . . 49
4.10 Quebras de ligação previstas pela rede neuronal (esquerda) e comparação
com os valores obtidos na bibliografia [5] (direita) para o 10-Bromo-2-deca-
3,5,7-trieno-2-tiol. As setas indicam para qual átomo o par de electrões vai
após a quebra da ligação e os valores a probabilidade de heterólise. . . . . 52
4.11 Molécula extra (3-ciano-propil-fosfano) e alvo (anisole) do teste da rede . . 52

E.1 Geração da base de dados [62]. . . . . . . . . . . . . . . . . . . . . . . . . . XXVI


E.2 Cálculo da entalpia de formação do 2-propanol [62]. . . . . . . . . . . . . . XXVI
E.3 Procedimento iterativo para o método PEOE [62]. . . . . . . . . . . . . . . XXVIII
E.4 Exemplo da determinação dos pesos topológicos [62]. . . . . . . . . . . . . XXX

F.1 Conjunto teste da rede. As quebras de ligação estão numeradas de 1 a 99, a


azul. Da 100 à 182 estão numeradas de 00 a 82, a verde, por falta de espaço. XXXV
Lista de Tabelas

4.1 Condições de treino da rede neuronal com o conjunto treino escolhido de


forma aleatória. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Resultados obtidos para o teste da rede neuronal treinada com um conjunto
de ligações escolhido de forma aleatória. . . . . . . . . . . . . . . . . . . . 44
4.3 Matriz correlação dos parâmetros para todas as ligações disponı́veis para o
treino da rede. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4 Condições de treino da rede neuronal com o conjunto escolhido com base no
desenho da experiência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.5 Resultados obtidos para o teste da rede neuronal treinada com um conjunto
de ligações escolhido com base no desenho da experiência. . . . . . . . . . . 49
4.6 Comparação dos resultados obtidos para os dois métodos utilizados para a
escolha das ligações do conjunto treino . . . . . . . . . . . . . . . . . . . . 50
4.7 Comparação dos resultados obtidos com os da bibliografia [1] (treino da rede
com o conjunto escolhido de forma aleatória). . . . . . . . . . . . . . . . . 50
4.8 Comparação dos resultados obtidos com os da bibliografia [1] (treino da rede
com o conjunto escolhido com base no desenho experimental). . . . . . . . 51

A.1 Estratégias de aprendizagem de redes neuronais e suas aplicações em dife-


rentes tipos de problemas. [5] . . . . . . . . . . . . . . . . . . . . . . . . . III
A.2 Exemplos de aplicações em quı́mica. BPE: Retro-Propagação of error s, KL:
Kohonen Learning, CP: Counter-Propagation, MW: Moving Window, GA:
Genetic Algorithm, QSAR: Quantitative Struture-Activity Relatioships. [4] . IV

F.1 Conjunto de Moléculas utilizadas para o teste da rede. . . . . . . . . . . . XXXVI


F.2 Reactividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido de forma aleatória e valores da bibliografia (RB). . . . . . . . . . XXXVII
F.3 Reactividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido de forma aleatória e valores da bibliografia (RB). . . . . . . . . . XXXVIII
F.4 Reatividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido com base no desenho da experiência e valores da bibliografia (RB). XXXIX
F.5 Reatividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido com base no desenho da experiência e valores da bibliografia (RB). XL

XVII
XVIII LISTA DE TABELAS
Capı́tulo 1

Introdução às Redes Neuronais


Artificiais

Começa por apresentar-se, num contexto histórico, a problemática das redes neuronais
artificiais sublinhando a sua evolução no que respeita às aplicações em quı́mica. De seguida,
explica-se o que é uma rede neuronal, qual o seu principal objectivo e capacidades, o que
fazer para resolver um dado problema e quais as suas aplicações.
Apresenta-se, então, o modelo do neurónio, fazendo a analogia entre o neurónio bioló-
gico e o neurónio artificial. Assim, procede-se a um estudo das componentes do neurónio
artificial (pesos e funções de transferência) fazendo igualmente referência à vantagem da
introdução de um parâmetro extra designado bias. Nesta parte, será esclarecido como um
neurónio recebe um dado sinal e o processa gerando uma resposta. Após o estudo das
componentes do neurónio explica-se o modo como os neurónios se agrupam em rede e,
quando agrupados como os sinais de input são processados por esta até gerar o sinal de
output. Para melhor compreender todos estes fenómenos, é necessário definir, também, a
arquitectura da rede. Ao longo deste trabalho o termo “redes neuronais” refere-se sempre
a “redes neuronais artificiais”.

1.1 Breve Perspectiva Histórica


As redes neuronais tiveram a sua origem e desenvolvimento, num processo longo e contur-
bado, há mais de 60 anos, apesar de actualmente ser cada vez maior a sua aplicação nas
mais diversas áreas.
A história das redes neuronais começa com o modelo do neurónio biológico apresentado
por McCulloch e Pitts, em 1943 [5–9]. Este modelo descreve o neurónio como uma unidade
de computação linear que pode receber vários sinais originando uma única resposta. A
resposta gerada por esta estrutura pode ter o valor 0, se a “célula nervosa” permanecer
inactiva, ou 1, se a “célula disparar”. A “célula” permanece inactiva se o valor resultante do
processamento dos sinais não ultrapassar um certo valor limiar estabelecido previamente.
Este modelo deixa em aberto a questão de como se realiza a aprendizagem. Tal, foi abor-

1
2 CAPÍTULO 1. INTRODUÇÃO ÀS REDES NEURONAIS ARTIFICIAIS

dado por Hebb [6,7,10], em 1949, com a publicação do livro “The Organization of Behavior”
onde é apresentada, pela primeira vez, uma regra de aprendizagem para as modificações
das forças sinápticas. Segundo a regra de Hebb a força sináptica de um neurónio varia
proporcionalmente com a actividade na parte anterior e posterior da sinapse.
O aparecimento do computador abriu a possibilidade de resolução de vários problemas
por novos métodos surgindo, então, o termo “inteligência artificial”. Rochester et al [6, 7],
em 1956, fizeram a primeira tentativa de testar a teoria neuronal baseada no postulado de
aprendizagem de Hebb. Esta, é considerada a primeira simulação computacional de redes
neuronais artificiais marcando o aparecimento oficial da inteligência artificial.
Em 1959, Rosenblatt [6,7,10] realizou uma importante investigação desenvolvendo uma
estrutura que designou de perceptrão. Esta estrutura corresponde, essencialmente, a uma
rede neuronal de uma camada que produz um output escalar 1 ou -1. Contudo, o tipo de
problemas que estas estruturas podiam resolver eram muito restritos visto que só conse-
guiam resolver problemas que fossem, naturalmente, linearmente separáveis. A condição
XOR [10, 11] (XOR(x, y) é verdadeira se apenas uma e só uma das variáveis, x ou y, for
verdadeira) é um exemplo de um problema simples que não tem classes linearmente sepa-
ráveis. Como uma das aplicações à quı́mica tem-se o exemplo dado por Cartwright [11] que
constitui uma variante do XOR. Essa aplicação tem como objectivo verificar a presença
dos poluentes etilamina e óxido nitroso em amostras gasosas por espectroscopia de infra-
vermelho. Uma forma de automatizar o problema é utilizar um perceptrão para aprender
a interpretar os espectros avisando o analista quando um poluente for encontrado. No en-
tanto, este falha a classificação em certas situações. Os espectros dos poluentes apresentam
absorvância significativa a 1300 cm-1 num caso e a 800 cm-1 no outro. Durante o treino,
o perceptrão “aprende” que a presença destas bandas implica a presença dos poluentes,
contudo, é incapaz de “aprender” que a presença de ambas as bandas significa a ausência
dos poluentes. O Fréon 22, por exemplo, apresenta ambas as bandas, logo, para o per-
ceptrão, uma amostra que o contenha está contaminada com um dos poluente. Este é um
problema linearmente inseparável, assim, como grande parte dos problemas em quı́mica.
Tendo em conta a baixa eficácia dos modelos dessa época, não é de admirar a diminuição
do entusiasmo inicial no desenvolvimento de métodos de inteligência artificial nos anos 60.
Em 1969, Minsky e Papert [6–8] publicaram um livro onde criticam os modelos de redes
neuronais da época. As suas crı́ticas são baseadas na análise matemática das capacidades
e limitações dos perceptrões mostrando essencialmente o que as funções lógicas da altura
podiam ou não realizar. Além disso, estes autores especularam, também, que o desenvol-
vimento da arquitectura das redes, com um aumento do número de camadas, não traria
vantagens em termos de melhoria de resultados. Como consequência desta e de outras
crı́ticas e, face aos resultados apresentados na altura, a pesquisa em redes neuronais não
sofreu grandes avanços na década seguinte, exceptuando algumas investigações conduzidas
por investigadores como Kohonen (1972), Anderson (1972) e outros [5–7].
É, no entanto, em 1971 que é publicada uma das primeiras aplicações de inteligência
artificial à quı́mica. Jurs e Isenhour [12], implementam uma máquina de aprendizagem
linear para prever as fórmulas moleculares de compostos a partir do seu espectro de massa
1.2 O que é e qual a utilidade de uma Rede Neuronal Artificial? 3

utilizando uma árvore de decisão com 26 decisões binárias. Contudo apesar de resultados
satisfatórios as limitações desta estrutura vêm uma vez mais ao de cima. Os dados têm
de ser linearmente separáveis para aprendizagem ser possı́vel. Então como resolver este
problema e tornar estes métodos capazes de resolver problemas linearmente inseparáveis?
Foi Hopfield [5–8, 11], em 1982, que deu um contributo decisivo demonstrando que os
modelos de redes neuronais de neurónios binários correspondem, formalmente, a sistemas
de spin e podem ser manipulados pelos métodos já desenvolvidos para o tratamento destes.
Além desta importante inovação, Hopfield é, igualmente, o responsável pela introdução de
funções transferência não-lineares dando, assim, um carácter não linear a cada neurónio.
Esta não linearidade veio trazer uma nova flexibilidade às redes que não existia nos modelos
antigos. O modelo desenvolvido passou a chamar-se rede de Hopfield.
Faltava, então, desenvolver um algoritmo de aprendizagem que permitisse o ajuste dos
pesos numa rede com várias camadas. O algoritmo foi desenvolvido independentemente,
por Parker (1985) e por Rumelhart, Hinton e Williams (1986) vindo-se a constatar mais
tarde que este tinha sido descrito muito mais cedo por Werbos, na sua tese de doutora-
mento na Universidade de Harvard, em Agosto de 1974. O algoritmo ficou conhecido como
Retro-Propagação, [4–6,9] devido ao facto dos pesos serem ajustados da camada de output
até à primeira camada, camada a camada, tornando-se em pouco tempo o algoritmo de
aprendizagem mais utilizado e popular no treino de redes neuronais.
Apesar do sucesso no desenvolvimento destes modelos, deve ficar bem claro que se
está, ainda, bem longe de um entendimento do mecanismo do funcionamento do cérebro.
As capacidades das redes neuronais artificiais são, ainda, bastante rudimentares quando
comparadas com as redes biológicas que tentam simular. Contudo, mesmo estes modelos
rudimentares trouxeram novas formas de processamento de informação e de tratamento de
dados. As possibilidades de aplicações que as redes nos trazem, especialmente na área da
quı́mica, são enormes e motivantes.
O número de aplicações de redes neuronais em quı́mica foi bastante reduzido nas pri-
meiras décadas de existência das redes. Contudo, após o aparecimento do algoritmo de
Retro-Propagação o número de aplicações, nas mais diversas áreas e para os mais diversos
problemas, cresceu rapidamente. O número de publicações de aplicações de redes neuronais
em quı́mica foi de 3 em 1988, 5 em 1989, 30 em 1990 e uma centena de publicações (105)
em 1991. Em 1997 foi atingido o número de 927 publicações [4, 5, 9].

1.2 O que é e qual a utilidade de uma Rede Neuronal


Artificial?
“The next best thing to knowing something is knowing where to find it”

Samuel Johnson

A disponibilidade de informação é cada vez mais importante no mundo actual. No


entanto, o aumento desenfreado de informação ao dispor do Homem torna difı́cil obter
4 CAPÍTULO 1. INTRODUÇÃO ÀS REDES NEURONAIS ARTIFICIAIS

dados adequados à resolução de um problema. Assim torna-se essencial a análise de dados


disponı́veis para a extracção da informação desejada.
A análise de dados é efectuado há muitos anos fazendo uso de métodos estatı́sticos,
entre outros, percebendo-se há muito que o cérebro humano o faz de uma forma bastante
diferente. A aquisição de conhecimento pelo cérebro não é efectuado por métodos estatı́s-
ticos, por isso, na tentativa de simular a aquisição biológica de conhecimento, procurou-se
desenvolver modelos e algoritmos matemáticos que se designaram por redes neuronais ar-
tificiais.
O cérebro humano possui um poder de processamento fenomenal, fazendo-o de uma
forma totalmente diferente dos computadores convencionais. Estes trabalham passo a
passo, de uma forma sequencial. Contrariamente, o cérebro opera em paralelo, ou seja,
a informação é canalizada simultaneamente por várias unidades de processamento. Tal
pode ser demonstrado pelo paradoxo dos 100 passos. Sabe-se, a partir da neuro-fisiologia,
que uma célula nervosa, ou neurónio demora cerca de um milisegundo a reagir e que
o cérebro humano é capaz de desempenhar processos inteligentes, como reconhecer um
amigo, em cerca de um décimo de segundo, ou seja, consegue desempenhar tarefas difı́ceis
envolvendo cerca 100 reacções neuronais. Se este número fosse interpretado como 100
passos sequenciais dos computadores convencionais então seria claramente insuficiente para
resolver problemas complexos.
As redes neuronais aprendem por treino e experiência, como os seres humanos, segundo
certas regras pré-determinadas. É de salientar, contudo, a dificuldade de reproduzir o
comportamento do cérebro visto que o conhecimento sobre os processos cerebrais são ainda
tão incompletos que não é possı́vel explicar, por exemplo, algo tão simples como guardar e
usar a simples informação de qual o dia da semana em que se está.
A definição de rede neuronal artificial dada por Haykin [6], vista da perspectiva das
redes neuronais como máquinas adaptativas, é a seguinte:

“Uma rede neuronal é um sistema de processamento massivamente paralelo constituı́do


por unidades de processamento simples, que têm uma propensão natural para armazenar
conhecimento experimental e torná-lo disponı́vel para uso. Assemelha-se ao cérebro em
dois aspectos:
1. O conhecimento é adquirido pela rede, a partir do exterior, por um processo de
aprendizagem.
2. As forças de conexão entre neurónios, conhecidas como pesos (pesos sinápticos), são
usadas para armazenar o conhecimento adquirido.”

Nesta fase inicial, para melhor compreensão considerar-se-à a rede neuronal como uma
“caixa negra” que pode aceitar uma série de sinais de input e produzir a partir destes um
ou mais sinais de output.
Os sinais de input e de output podem ser por exemplo a quantidade de um produto
em stock e a recomendação para a sua compra ou venda ou, então, fazendo uma aplicação
à quı́mica, a partir de um espectro de um composto (sinais de input) fazer a previsão
da sua estrutura (sinal de output). Uma das vantagens das redes neuronais reside no
1.3 O Modelo do Neurónio 5

facto do mesmo algoritmo de aprendizagem poder ser usado para resolver vários problemas
diferentes. Grande parte dos utilizadores de redes neuronais não tem um conhecimento
profundo do que acontece realmente dentro da “caixa negra “, contudo, tal não é impeditivo
da resolução com sucesso dos seus problemas.
Basicamente, numa rede neuronal os inputs passam ao longo de ligações e são distri-
buı́dos, transformados e eventualmente reunidos para gerar outputs. As transformações
que ocorrem nos dados são feitas nas unidades básicas designadas de neurónios artificiais
ou simplesmente neurónios. Como o próprio nome indica as redes neuronais são formadas
por neurónios ligados entre si, formando redes.
Os valores de input e de output podem ser números reais, de preferência no intervalo
compreendido entre 0 e 1, ou -1 e 1. Se estiverem fora destes intervalos os valores de input
devem ser renormalizados até se encontrarem nos intervalos citados. O número de valores
de output é, geralmente, menor que o número de valores de input. Os problemas que
podem ser resolvidos pelas redes neuronais são muito variados dividindo-se em 4 grandes
grupos:
Auto-Associação e Hetero-Associação: Na auto-associação a rede é capaz de re-
construir um padrão correcto se este estiver incompleto ou corrompido. Se o sistema for
capaz de fazer uma auto-associação então é capaz de produzir no output, por exemplo, a
imagem perfeita de uma letra mesmo que esta esteja incompleta ou corrompida.
Na hetero-associação a rede desempenha tarefas associativas, onde um objecto tem uma
relação em particular com outro objecto.
Classificação: Um objecto, caracterizado por um conjunto de propriedades, é clas-
sificado numa dada categoria. A vantagem das redes é que apenas uma pequena porção
de objectos é usada no treino e, depois deste, a rede é capaz de prever a classe de um
objecto desconhecido. É de salientar, ainda, que a classificação pode ser realizada com ou
sem supervisão. Na aprendizagem com supervisão o sistema é forçado a atribuir a cada
objecto uma classe enquanto que na aprendizagem sem supervisão as classes são formadas
naturalmente sem nenhuma informação dada á priori.
Transformação ou mapeamento: Informação complexa é transformada numa repre-
sentação simples (projecção num plano, por exemplo), sendo preservada toda a informação
inicial.
Modelação: Uma das aplicações matemáticas mais usadas em ciência é a procura de
uma função analı́tica, ou um modelo, que permita obter o output especı́fico para quaisquer
valores de input. Uma das vantagens das redes neuronais é não necessitar do conhecimento
da função matemática. A não linearidade de uma transformação unitária e um número
suficientemente grande de parâmetros variáveis (pesos) é suficiente para a adaptação da
rede neuronal a qualquer relação entre os sinais de input e os de output.

1.3 O Modelo do Neurónio


As redes neuronais são formadas por sub-elementos, os neurónios. Estes são as unidades
de processamento de informação fundamentais para o funcionamento das redes neuronais.
6 CAPÍTULO 1. INTRODUÇÃO ÀS REDES NEURONAIS ARTIFICIAIS

Figura 1.1: Neurónio biológico. O número de dendrites é muito maior na realidade. [13]

Os neurónios, que no seu conjunto formam a rede, tentam “simular” as células nervosas
biológicas. É, assim, conveniente realizar uma breve descrição do neurónio biológico e a sua
ligação com outros neurónios fazendo o paralelismo entre o neurónio artificial e aqueles.
O sistema nervoso humano é constituı́do por cerca de 1010 neurónios existindo pelo
menos 5 tipos diferentes destas células. Um neurónio tı́pico é constituı́do pelo corpo de
célula e um núcleo (soma). O corpo de célula tem dois tipos de extensões: as dendrites e
os axónios como é visı́vel na figura 1.1.
As dendrites recebem os sinais e enviam-nos para o soma. Aı́ os sinais são acumulados e
quando um certo valor limite é ultrapassado o neurónio “dispara” e uma excitação eléctrica
é transmitida ao longo do axónio. À parte final de cada axónio, em contacto com as
dendrites do neurónio vizinho, dá-se o nome de sinapse. Os neurónios estão ligados uns aos
outros através destas sinapses. As sinapses têm, ainda, outra função que é constituir uma
barreira que altera a intensidade do sinal durante a sua transmissão. O grau de alteração é
determinado pela força sináptica. Um sinal de input de intensidade si tem uma intensidade
pi após atravessar a sinapse i de força wi . A força sináptica pode mudar mesmo entre dois
impulsos. A adaptação das forças sinápticas a um problema em particular é a essência da
aprendizagem.
Cada neurónio tem um grande número de dendrites e, por isso, recebe muitos sinais
em simultâneo. Todos esses sinais combinam-se num sinal colectivo (Net). Embora não
se saiba, exactamente, como este sinal colectivo tem origem a partir dos sinais individuais
para as redes neuronais considera-se que o valor Net é uma função de todos os sinais que
chegam ao neurónio dentro de um certo intervalo de tempo e de todas as forças sinápticas
correspondentes sendo geralmente definida como a soma dos produtos dos sinais de input
xi (i=1,...,m) e as forças sinápticas (pesos) wi (i=1,...,m) como mostra a expressão 1.1.

N et = w1 x1 + ... + wi xi + ... + wm xm = W X (1.1)


1.3 O Modelo do Neurónio 7

Figura 1.2: Primeira parte do modelo do neurónio. [4]

A figura 1.2 mostra o modelo do neurónio desenvolvido até este ponto. O sinal Net não
é ainda o sinal que é transmitido porque o seu valor pode ser muito grande e em certos
casos pode mesmo ser negativo. Um neurónio pode disparar ou não mas qual é o significado
de um valor negativo?
Então, após o cálculo do valor Net do neurónio é aplicado sobre este uma transformação
não linear (expressão 1.2) chamada função transferência.

out = f (N et) (1.2)

O sinal de output final do neurónio deve ser positivo, continuo e estar confinado a um
intervalo especı́fico. Apesar de existirem muitas funções que satisfaçam estas condições
apenas se descrevem os três tipos mais importantes.
Limite Rı́gido: A função limite rı́gido, hl, só pode ter dois valores, 0 ou 1. O valor de
output desta função depende do valor limiar, ϑ, sendo este valor que decide se o neurónio
dispara ou não. Se o valor Net for maior ou igual a ϑ o output será 1 de outro modo será
0. A expressão da função limite rı́gido, hl é a seguinte (1.3):
(
1 se N et ≥ ϑ
out = hl(N et, ϑ) = (1.3)
0 se N et < ϑ
Para muitas aplicações é conveniente que o output seja dado como +1 e -1. Nesses
casos a função é alterada passando a designar-se função limite rı́gido bipolar (1.4):
(
1 se N et ≥ ϑ
out = hl(N et, ϑ) = (1.4)
−1 se N et < ϑ
8 CAPÍTULO 1. INTRODUÇÃO ÀS REDES NEURONAIS ARTIFICIAIS

Figura 1.3: Comparação entre a função transferência limiar lógico e a sigmóide com os
mesmos parâmetros (α=0.1 e ϑ=0.5). De notar que no caso da tl o intervalo de troca tem
inicio a Net=ϑ enquanto no mesmo ponto a sf tem o seu ponto de inflexão. [4]

Limiar Lógico: A função limiar lógico, tl é similar à anterior mas tem um intervalo de
troca que faz com que o output seja proporcional ao valor Net. A extensão deste intervalo
é determinada pelo parâmetro α. Sendo assim este intervalo começa em ϑ e tem uma
extensão de 1/α dando origem à expressão 1.5:

y = max(0, min(1, N et)) (1.5)


Substituindo Net por α(Net-ϑ) a função limiar lógico é obtida numa forma que pode ser
utilizada como função transferência (expressão 1.6). O parâmetro α é designado extensão
recı́proca do intervalo de troca.

out = tl(N et, α, ϑ) = max {0, min [1, α (N et − ϑ)]} (1.6)


Função Sigmóide: A função transferência mais utilizada é a chamada função sig-
móide, sf. A função pode ser por exemplo a dada pela expressão 1.7 ou pela 4.4. De notar
a similaridade entre ambas.

1
sf (N et, α, ϑ) = (1.7)
{1 + exp [−α (N et − ϑ)]}

1
sf (N et, α, ϑ0 ) = (1.8)
{1 + exp [−(αN et − ϑ0 )]}
A figura 1.3 mostra a comparação entre a função limiar lógico e a sigmóide para os
mesmos parâmetros e os mesmos valores Net. Apesar das duas equações terem compor-
tamento semelhante estas tem respostas diferentes em certas regiões. É claro que alguns
neurónios mostram uma relação linear entre o valor Net e o valor de output contudo é
a não linearidade da função transferência que faz com que as redes neuronais sejam tão
flexı́veis e capazes de se ajustarem a diferentes situações de aprendizagem.
Será importante olhar agora um pouco para a função sigmóide (expressão 4.4). Esta
será escrita na seguinte forma:
1.3 O Modelo do Neurónio 9

Figura 1.4: Função sigmóide e respectiva derivada. [4]

1
sf (x) = (1.9)
[1 + exp (−x)]
Derivando a expressão 1.9 obtém-se a expressão 1.10. Esta expressão mostra clara-
mente que onde sf(x)=0 e sf(x)=1 a derivada é zero. A figura 1.4 é esclarecedora desta
situação. Tal será importante mais tarde quando for preciso investigar onde e quando as
redes neuronais aprendem melhor.

d (sf (x))
= sf (x) [1 − sf (x)] (1.10)
dx
A função transferência completa o modelo do neurónio (figura 1.5). Falta apenas falar
da adição de um parâmetro extra chamado bias que ocorre em certos tipos de modelos de
aprendizagem. A adição deste parâmetro tem como objectivo aumentar a adaptabilidade
da estrutura ao problema que se quer resolver.
Até agora para descrever um neurónio é necessário informação sobre dois tipos de
parâmetros: o conjunto de pesos e os parâmetros da função transferência. Existem tantos
pesos como sinais de input sendo estes gerados aleatoriamente no inicio do treino da rede
com valores dentro de um certo intervalo que depende do número de pesos {-1/n; 1/n} onde
n é o número de pesos na camada. Relativamente aos parâmetros da função transferência o
ponto crucial das três funções mostradas é o valor limiar ϑ (ponto onde o neurónio começa
a reagir).
As duas expressões que descrevem o funcionamento do neurónio são como já foi visto
as expressões 1.11 e a 1.12.

N et = w1 x1 + ... + wi xi + ... + wm xm = W X (1.11)

1
sf (N et, α, ϑ) = (1.12)
{1 + exp [−α (N et − ϑ)]}
10 CAPÍTULO 1. INTRODUÇÃO ÀS REDES NEURONAIS ARTIFICIAIS

A função transferência é tão simples que é suficiente considerar αNet-αϑ=arg para


mostrar a seguinte conjectura:

arg = αw1 x1 + αw2 x2 + ... + αwm xm − αϑ (1.13)

Substituindo em seguida αwi por wi0 e -αϑ por ϑ’ a expressão fica então:

arg = w10 x1 + w20 x2 + ... + wm


0
xm + ϑ 0 (1.14)
Se se considerar o valor ϑ’ como o produto de ϑ por uma componente xm+1 (sempre
igual a 1) obtém-se:

arg = w10 x1 + w20 x2 + ... + wm


0
xm + ϑ0 xm+1 (1.15)
0 0
Fazendo ϑ igual a wm+1 cria-se o produto de wm+1 por um sinal xm+1 dado que este é
1. Assim o somatório estende-se a mais um elemento:
m+1
arg = w10 x1 + w20 x2 + ... + wm
0 0
wi0 xi
X
xm + wm+1 xm+1 = (1.16)
i=1

A função transferência fica então:


1
sf (N et, α, ϑ) = ( m+1
!) (1.17)
X
1 + exp − wi0 xi
i=1

O output produzido pelo neurónio depende apenas do vector peso W de dimensão m+1
e do sinal de input X de dimensão m+1

W = (w1 , w2 , ..., wm , wm+1 ) (1.18)

X = (x1 , x2 , ..., xm , 1) (1.19)


O peso extra que deve estar sempre presente nas redes neuronais deste tipo, recebe
sempre o valor de input 1 e designa-se por bias.

1.4 Formação de Redes Neuronais.


Apesar do modelo do neurónio apresentado ser um modelo relativamente simples, a imple-
mentação de modelos mais complexos não provoca uma melhoria do seu desempenho.
Muitos tipos de modelos de rede foram estudados e desenvolvidos mas o que mais se
utiliza é o modelo de várias camadas. No modelo em camadas os neurónios são, como o
próprio nome indica, distribuı́dos em diferentes camadas. Uma camada é um grupo de neu-
rónios todos com o mesmo número (m) de pesos (sinapses) recebendo todos em simultâneo
o mesmo sinal de input de dimensão m. Os pesos são organizados numa matriz de pesos W
1.4 Formação de Redes Neuronais. 11

Figura 1.5: Modelo completo do neurónio. [4]

onde as linhas representam os neurónios. Cada linha j pode ser considerada um vector Wj
que representa o neurónio j e que é constituı́do por m pesos W ji , W j = (wj1 , wj2 , ..., wjm ).
Todos os pesos na mesma coluna i, wji (j=1, 2,..., n) recebem simultaneamente o mesmo
sinal xi . Cada vector de input X =(x1 ,x2 ,...,xi ,...,xm ) é introduzido na rede seguindo-se
o cálculo de todos os produtos wji xi . Os neurónios da mesma camada não estão ligados
entre si, havendo apenas ligação aos neurónios das camadas seguinte e anterior. Numa
rede constituı́da por uma única camada todos os neurónios pertencem essa camada. Cada
neurónio j recebe todos os dados de input X (x1 ,x2 ,...,xi ,...,xm ) e gera a partir destes um
sinal de output especı́fico (outj ). Na figura 1.6, os inputs são mostrados no topo. A ca-
mada de input não conta como camada activa visto que não leva a cabo nenhuma operação
aritmética tı́pica dos neurónios tal como o cálculo do valor Net e a sua transformação num
sinal de output (out) pela aplicação da função transferência. A figura 1.6 mostra uma rede
de uma camada composta por três neurónios cada um com cinco pesos. Como se pode
observar cada neurónio da referida camada obtém o mesmo conjunto de sinais de input
(x1 ,x2 ,...,xi ,...,xm−1 , 1). O peso wji está na posição i do neurónio j, por exemplo, o peso
w23 assinalado na figura é o terceiro peso do segundo neurónio. É de salientar, igualmente,
os cı́rculos a preto em cada neurónio que representam o bias. Numa representação da arqui-
tectura de uma rede geralmente os inputs são representados por quadrados e os neurónios
por cı́rculos.
A função das unidades de input (camada de input) é distribuir os valores de input por
todos os neurónios da camada abaixo. Os valores que chegam ao neurónio são diferentes
porque cada ligação de uma unidade de input i a um neurónio j tem um diferente peso
wji , representando uma força sináptica especı́fica. O valor dos pesos é determinado por um
processo de aprendizagem que será discutido mais adiante. Numa rede de uma camada os
sinais de output, outj , dos neurónios individuais são também os valores de output da rede.
Os valores de input podem ser interpretados como um vector X (x1 ,x2 ,...,xi ,...,x m ) que
é transformado pela matriz de pesos W com elementos wji e pela função transferência num
vector de valores de output, Out (out1 ,out2 ,...,outj ,...,outn ).
12 CAPÍTULO 1. INTRODUÇÃO ÀS REDES NEURONAIS ARTIFICIAIS

Figura 1.6: Rede de uma camada de neurónios. [4]

Figura 1.7: Rede neuronal com as unidades de input e duas camadas activas de neurónios.
(Imagem adaptada de [4])

Cada neurónio é representado por uma coluna na matriz W . A implementação do


modelo de várias camadas em algoritmo é também feito na representação matricial. Numa
rede com várias camadas a arquitectura escolhida geralmente liga os neurónios de uma
camada com todos os neurónios da camada seguinte e da camada anterior como é visı́vel
na figura 1.7.
As camadas abaixo da camada de input são geralmente designadas de camadas ocultas
porque não estão directamente ligadas ao “mundo exterior” como a camada de input e a
camada de output não podendo por isso ser acedidas pelo utilizador. Os valores de output
da primeira camada de neurónios, Out 1 , são os valores de input X 2 da segunda camada
de neurónios. Devido aos diferentes pesos wji nas ligações individuais o mesmo valor de
output tem um efeito diferente em cada neurónio. O resultado da rede neuronal é apenas
dado pela última camada da rede.
1.5 Arquitecturas e Representação Gráfica das Redes. 13

1.5 Arquitecturas e Representação Gráfica das Redes.


Estando já estabelecidas as operações básicas que os neurónios desempenham é necessário
escolher o número de camadas e o número de neurónios em cada camada da rede.
Uma rede neuronal é caracterizada topológicamente pelos seguintes parâmetros: nú-
mero de inputs e de outputs, número de camadas, número de neurónios em cada camada,
número de pesos em cada neurónio, forma como os pesos estão ligados dentro ou entre as
camadas e quais os neurónios que recebem os sinais de correcção
Este conjunto de parâmetros caracteriza a arquitectura da rede. Uma arquitectura
de rede bem definida é fundamental visto tornar mais fácil o estudo dos seus resultados.
o exemplo da figura 1.7 tem uma arquitectura 3×4×2. Nesse exemplo a representação
gráfica da arquitectura da rede é apresentada de forma simplificada. Os sinais de input
são representados por quadrados, os neurónios por cı́rculos enquanto que os pesos são
representados por pontos no arco superior de cada cı́rculo (neurónio). O parâmetro bias
é representado por um quadrado com o número 1 no seu interior, um pouco afastado da
restante arquitectura da rede.
Note-se que apesar deste tipo de arquitectura ser o mais vulgar existem arquitecturas
mais complexas em que os sinais de input e de output não passam para a camada imediata-
mente abaixo mas para outra. Contudo este tipos de arquitectura tornam os algoritmos de
aprendizagem muito mais complexos dificultando a adaptação dos pesos. A representação
das redes como a da figura 1.7 baseia-se no modelo dos neurónios biológicos no entanto
para programação utiliza-se a representação matricial.
Na representação matricial considera-se cada camada de n neurónios com m pesos que
formando a matriz peso (W ) de dimensões n×m. Para uma rede de várias camadas cada
matriz tem um expoente l (l de layer ) que especifica o ı́ndice da camada. A notação

l
wji (1.20)
refere-se ao peso i do neurónio j da camada l.
Na notação matricial a matriz peso para a camada de input é designada W 0 , transmite
m sinais e é um vector contendo o valor 1 n vezes:

W 0 = (1, 1, 1, ..., 1) (1.21)

A primeira camada activa da rede tem expoente 1, W 1 . A notação matricial mostra


claramente que os sinais de input para a camada X l e os sinais de output Out l dessa
camada são vectores de dimensão m e n respectivamente. De relembrar que:

X l = Outl−1 (1.22)

Outl = X l+1 (1.23)


Para introduzir um sinal de input de dimensão m numa rede de uma camada com n
neurónios (cada um com m pesos) faz-se o produto do vector X (x1 , x2 , ...,xm-1 , 1 ) de
14 CAPÍTULO 1. INTRODUÇÃO ÀS REDES NEURONAIS ARTIFICIAIS

dimensão m com a matriz peso W de dimensão n×m. O resultado é o vector Net de


dimensão n:

 
x1
w11 w12 . . . w1m
 
x2
 
w21 w22 . . . w2m  
 
  
.

  
w31 w32 . . . w3m

  
.

   
. . . . . .  
 
 
.
 
  
. . . . . .

  
xi

   
 . . . . . . . 
= (N et1 , N et2 , ..., N etj , ..., N etn ) = N et (1.24)
  .
 
. . . wji . .  
 
  
.

  
. . . . . .

   
  .
 
. . . . . .  
 
  

  xm−2 
. . . . . .

  
xm−1
  
wn1 wn2 . . . wnm  
1

Ou seja:
m
N etlj l l
X
= wji xi (1.25)
i=1

O ı́ndice j percorre os n neurónios e o ı́ndice i os m pesos do neurónio j. O número


de pesos no neurónio é igual ao número de variáveis de input xi mais a variável de input
extra (bias) que é sempre igual a 1. A expressão matricial 1.26 é uma descrição concisa de
todos os valores Net de uma rede com uma camada.

N etl = W l X l (1.26)

Numa rede de várias camadas as matrizes dos pesos que representam as várias camadas
distinguem-se pelo expoente l. Como o input da camada l geralmente é o output da camada
l-1 tem-se:

N etl = W l X l = W l Outl−1 (1.27)


Onde o valor Net para cada neurónio é dado por:
m
N etlj l
outl−1
X
= wji i (1.28)
i=1

O valor de Out l é obtido a partir de Netl pela aplicação de uma das funções transfe-
rência(sigmóide por exemplo):
 
Outl = sf N etl (1.29)
Capı́tulo 2

Processo de Aprendizagem -
Algoritmo de Retro-Propagação

“There are two ways of construting a software design: one way is to make it so simple that
there are obviously no deficiencies, and the other way is to make it so complicated that
there are no obvious deficiencies. The first method is far more difficult”

C. A. R. Hoare

2.1 Introdução
A propriedade essencial e fundamental numa rede neuronal é a sua capacidade de aprender
a partir de um certo “meio” e melhorar o seu desempenho ao longo da aprendizagem. A
rede neuronal aprende por um processo iterativo de ajuste das forças sinápticas (pesos).
Idealmente a rede torna-se cada vez mais conhecedora do meio após cada iteração do
processo de aprendizagem. A definição de aprendizagem, no contexto das redes neuronais,
dada por Haykin [6], adaptada a partir de Mendel e MacClaren (1970), é a seguinte:

“A aprendizagem é o processo pelo qual os parâmetros livres de uma rede neuronal são
adaptados por um processo de estı́mulo pelo meio em que a rede está inserida. O tipo de
aprendizagem é determinado pela forma como as mudanças nos parâmetros são realizadas.”

Esta definição de processo de aprendizagem implica a seguinte sequência de eventos:


1. A rede neuronal é estimulada por um certo meio.
2. A rede neuronal efectua mudanças nos seus parâmetros livres devido a esse estı́mulo.
3. A rede neuronal responde de uma nova forma ao meio devido às mudanças que
ocorreram na sua estrutura interna.
Ao conjunto de regras pré-definidas para a solução do problema de aprendizagem dá-se o
nome de algoritmo de aprendizagem. Existe uma grande variedade de algoritmos diferindo
uns dos outros na forma como o ajuste dos pesos é feito.

15
16 CAPÍTULO 2. PROCESSO DE APRENDIZAGEM...

Figura 2.1: Aprendizagem com supervisão (imagem adaptada de [4]).

Têm sido desenvolvidos vários tipos de redes neuronais sendo alguns mais semelhantes
ao modelo biológico do que outros. Cada rede neuronal tem as suas vantagens e desvanta-
gens visto que cada uma está mais ou menos vocacionada para lidar com certas aplicações.
Os três elementos que caracterizam essencialmente uma rede neuronal são a operação
aritmética no neurónio, a arquitectura da rede, e o processo de aprendizagem. Os dois
primeiros já foram discutidos no decorrer deste trabalho faltando apenas estudar o terceiro.
O processo de aprendizagem pode ser com ou sem supervisão. No primeiro os dados de
input X e os respectivos valores alvo Y são dados à rede. Os pesos são então adaptados
até que para qualquer conjunto de objectos conhecidos, os valores de output estejam o mais
próximo possı́vel dos valores alvo Y (figura 2.1).
Na aprendizagem sem supervisão os dados de input são passados repetidamente pela
rede até esta estar estabilizada (após um certo número de iterações). No anexo A é possı́vel
observar duas tabelas com as redes neuronais mais conhecidas, o tipo de aprendizagem que
seguem e quais os problemas que resolvem.
Existem outros tipos de redes com uma menor aplicação a problemas quı́micos, pelo
menos por enquanto. O facto de um algoritmo ser pouco utilizado não implica que não
seja capaz ou adequado para resolver o problema. A verdade é que existem algoritmos
mais populares que colhem a preferência dos investigadores. Como a implementação da
rede neste trabalho utiliza o algoritmo de Retro-Propagação será este o único apresentado
detalhadamente.

2.2 Retro-Propagação de Erros - Generalidades


A maior parte das aplicações de redes neuronais em quı́mica usa o algoritmo de Retro-
Propagação. Este algoritmo não representa nenhum tipo de arquitectura especial sendo
utilizada geralmente uma rede com várias camadas.
2.3 Arquitectura da Rede 17

Figura 2.2: Processo de aprendizagem do algoritmo de Retro-Propagação. (figura adaptada


a partir de [4])

Este método foi introduzido, em primeiro lugar por Werbos e, mais tarde, em 1986,
por Rumelhart, Hinton e Williams garantindo, rapidamente, grande popularidade e con-
tribuindo, decisivamente, para a implementação das redes neuronais. Este método tem
a vantagem do ajuste dos pesos poder ser efectuado por equações bem definidas tendo,
no entanto, muito pouco em comum com os processos responsáveis pelo ajustamento das
forças sinápticas nos sistemas biológicos.
O algoritmo de Retro-Propagação é um processo de aprendizagem com supervisão. Os
dados de input processados por uma dada camada vão originar um output, (Out l ) que será
o input da camada seguinte (X l+1 ). O resultado para o input é dado pela última camada
sendo incorrecto no inı́cio do treino. Os valores de output da última camada, Out last ,
são comparados com os valores esperados (Y) sendo, então, o erro determinado. Este erro
é usado para corrigir os pesos na camada de output, segue-se a correcção da penúltima
camada com base no erro da última camada e por ai diante até à primeira camada como
mostra a figura 2.2.
Os erros são portanto calculados em sentido contrário ao da propagação dos valores de
input como pretende traduzir o nome que lhe foi dado. O algoritmo de Retro-Propagação
deve mudar os pesos até que o erro nos valores de output (Out) seja minı́mo.

2.3 Arquitectura da Rede


Nas redes que utilizam o algoritmo de Retro-Propagação as camadas de neurónios estão
geralmente totalmente ligadas. A figura 1.7, já referida, é um exemplo de uma rede que
pode utilizar o algoritmo de Retro-Propagação.
18 CAPÍTULO 2. PROCESSO DE APRENDIZAGEM...

Como seria de esperar, o número de camadas, assim como o número de neurónios em


cada camada, depende do problema a resolver. O número de pesos pode ir desde algumas
dezenas até redes com cerca de um milhão. Na maior parte dos casos é utilizada uma rede
com uma camada de input e duas camadas activas, uma oculta e uma de output.
Ao longo do processo de aprendizagem, é realizado um número considerável de ope-
rações, entre as várias camadas, sendo necessário um cuidado especial para saber qual a
camada envolvida em determinada operação. Para tornar as coisas mais fáceis, cada um
dos dados da rede (input, output, pesos, erros, correcções) terá em expoente a camada a
que pertence. Para evitar confusão todos os sinais serão tratados como output desde o
sinal de input inicial que será o Out 0 até ao output final da rede que será o Out last .

2.4 Processo de Aprendizagem


No algoritmo de Retro-Propagação a correcção dos pesos pode ser efectuada após a passa-
gem de um vector de input ou após a passagem de todos os vectores de input do conjunto
treino pela rede. Num caso a correcção é feita logo após o erro ser determinado, sendo
utilizada na maior parte das vezes. No segundo caso os erros de todos os pares de dados
são acumulados e o erro acumulado de todo o conjunto treino é, então, usado na correcção.
Durante a aprendizagem, o vector de input X é introduzido na rede, e o vector de output
Out produzido é comparado com o vector alvo Y (output correcto para X ) permitindo
calcular o erro da rede. O cálculo do erro de cada neurónio é feito de duas formas distin-
tas, consoante o neurónio é da última camada ou não. Note-se que em ambos os casos é
assumido que a função transferência é uma função sigmóide.
Para a última camada de output l=last o erro δ j l é dado pela expressão:
   
δjlast = yj − outlast
j outlast
j 1 − outlast
j (2.1)

Para todas as outras camadas l (l=last-1 a 1) o erro δ j l é calculado pela seguinte


expressão:
r
!
 
δjl δkl+1 wkj
l+1
outlj 1 − outlJ
X
= (2.2)
k=1

onde l é a camada corrente, j é o neurónio corrente e i o ı́ndice do input, ou seja, o ı́ndice


do neurónio da camada superior, δ j l é o erro introduzido pelo neurónio correspondente.

2.5 Regra Delta generalizada


Na aprendizagem por Retro-Propagação os valores de input percorrem a rede num sentido
enquanto que a alteração dos pesos ocorre em sentido contrário. A correcção do peso i, do
neurónio j, na camada l é dado pela expressão:
2.5 Regra Delta generalizada 19

Figura 2.3: Erro ε em função do valor do peso. [4]

l l(new) l(old)
∆wji = wji − wji (2.3)
l
O peso wji do neurónio j da camada l é o responsável pelo contributo que o input i
tem para com o output j. Essas duas ligações, uma com a camada acima e outra com a
camada abaixo, faz com que o erro tenha origem quer no lado de input quer no lado de
output. Uma forma de considerar ambas as influências é a regra delta expressa como:

∆parametro = ηg (erro output) f (input) (2.4)


Na sua forma mais geral a regra delta estabelece que a mudança de qualquer parâmetro
num processo adaptativo deve ser proporcional ao sinal de input e ao erro do output. A
constante η (velocidade de aprendizagem) determina qual a grandeza com que as mudan-
ças devem ser implementadas nos ciclos de iteração. A expressão 2.4 usando a notação
adaptada vem:
l
∆wji = ηδjl outl−1
i (2.5)

No algoritmo de Retro-Propagação a mudança δ j l , necessária na correcção dos pesos,


é obtida usando o método do gradiente descendente. A representação do erro (ε) versus
o parâmetro que o causa tem um mı́nimo. Observando o declive dessa curva é possı́vel
decidir como alterar o parâmetro de forma a haver uma aproximação ao mı́nimo. Na figura
2.3 é possı́vel observar que o valor do peso, a ser mudado, está à direita do mı́nimo.
Se a derivada dε/dw é positiva o novo valor do parâmetro deve ser menor do que o
anterior e vice-versa, ou seja:
−kdε
∆w = w (new) − w (old) = (2.6)
dw
l
Onde k é o factor de escalamento. Para um peso especı́fico wji , na camada l, a equação
correspondente é:
20 CAPÍTULO 2. PROCESSO DE APRENDIZAGEM...

l −k∂εl
∆wji = l
(2.7)
∂wji
Esta função erro representa parte do erro causado por este peso no output da camada
l
l. Como a função erro é uma função indirecta e complexa dos parâmetros w ji , pode-se
l l
calcular a derivada ∂ε /∂wji usando a regra em cadeia:

−k∂εl ∂εl ∂outlj ∂N etlj


! ! !
l
∆wji = l
= −k (2.8)
∂wji ∂outlj ∂N etlj l
∂wji

As derivadas da função erro εl são calculadas, consecutivamente, relativamente aos


valores de outli , N etlj e wji
l
.
∂N etl
Derivada ∂wl j
ji
m
N etlj = l l
X
wji xi (2.9)
i=1

A expressão anterior descreve de um modo exacto a dependência do valor Net (N et lj )


relativamente ao conjunto de pesos do neurónio j, xli são as componentes do vector de input
(X l ) da camada l. Tendo em conta a convenção utilizada:

xli = outl−1
i (2.10)
Se a expressão 2.9 for escrita como a soma de produtos a derivada de N etlj , relativamente
a um peso em particular, é fácil constatar que:
 
∂N etlj l
∂ wj1 out1l−1 + ... + wji
l
outl−1
i
l
+ ... + wjm outl−1
m
l
= l
= outl−1
i (2.11)
∂wji ∂wji
Inserindo a expressão 2.11 na expressão 2.8, para as correcções dos pesos, vai-se obter:

∂εl ∂outlj
! !
l
∆wji = −k outl−1
i , (2.12)
∂outlj ∂N etlj
que corresponde à expressão:

l
∆wji =η δjl outl−1
i ,

onde o termo delta é dado por:

∂εl ∂outlj
! !
δjl = − (2.13)
∂outlj ∂N etlj
∂outl
Derivada ∂N etjl
j
2.5 Regra Delta generalizada 21

Para estudar a relação entre outlj e N etlj é necessário ter em conta a função transferência
utilizada no algoritmo de Retro-Propagação que na maior parte dos casos é uma sigmóide
do tipo:

1
outlj =  . (2.14)
1 + exp −N etlJ
Esta função tem como vantagem face à função limite rı́gido e à limiar-lógico, o facto da
sua derivada poder ser obtida analiticamente. Além de ser facilmente diferenciável, a sua
derivada pode ser expressa em termos da própria função:

∂outlj l

l

= out j 1 − out j (2.15)
∂N etlj
∂εl
Derivada ∂out l
j
Relativamente a esta derivada, é necessário distinguir dois casos, dependendo se ε l
é ou não explicitamente conhecida, ou seja, se a correcção está a ser calculada para a
última camada ou para a camada oculta. Para a última camada, o erro pode ser calculado
subtraindo o output outlj de cada neurónio j, da componente yj correspondente, do vector
alvo Y :
n  2
l
yj − outlj
X
ε = (2.16)
j=1

Assim, a derivada ∂εl /∂outlj pode ser obtida facilmente


 2  2
∂ε l ∂ y1 − outl1 ∂ yj − outlj  
= + ... + + ... = −2 yj − outlj (2.17)
∂outlj ∂outlj ∂outlj
A expressão final para a correcção dos pesos, na última camada da rede, é obtida pelo
conjunto das três derivadas substituindo-se os resultados obtidos na expressão 2.8. Como o
único erro conhecido, exactamente, é o da última camada (εlast ) o expoente l é substituı́do
por ultimo. Além disso, deve ser substituı́do η por 2k:

∂εlast 
last

= −2 y j − out j ,
∂outlast
j

∂outlast
j last

last

= out j 1 − out j ,
∂N etlast
j

∂N etlast
j
last
= outilast−1 .
∂wji
22 CAPÍTULO 2. PROCESSO DE APRENDIZAGEM...

Obtém-se, então, a seguinte expressão, após a substituição:


   
last
wji = η yj − outlast
j outlast
j 1 − outlast
j outilast−1 (2.18)
Na camada oculta l, o erro εl não pode ser calculado directamente visto que os valores
dos outputs desta camada não são conhecidos, por isso a derivada ∂εl /∂outlj só pode ser
calculada se forem feitas certas suposições. Uma delas é que o erro εl produzido numa
camada l, é distribuı́do igualmente por todos os r neurónios da camada seguinte (l+1), ou
seja:
r
εl = εl+1
X
k . (2.19)
k=1
O somatório percorre todos os i neurónios do nı́vel l+1. Assim, o erro no nı́vel l pode
ser obtido pelo conjunto de erros do nı́vel l+1. Tendo em conta a expressão 2.19, a derivada
∂εl /∂outlj não é difı́cil de determinar pela aplicação da regra em cadeia:

∂εl r
∂εl+1 ∂N etl+1
! !
k k
X
= (2.20)
∂outj k=1 ∂N etl+1
l
k ∂outlj
A derivada da direita ∂N etl+1 l
k /∂outj é obtida de modo semelhante à derivada descrita
pelas equações 2.9 e 2.11, obtendo-se:

m m
N etl+1 l+1 l+1 l+1
outlj = wk1
l+1
outl1 + ... + wkj
l+1
outlj + ... + wkm
l+1
outlm . (2.21)
X X
k = wkj xj = wkj
j=1 j=1

Assim, tem-se:

∂N etl+1
k l+1
= wkj . (2.22)
∂outlj
Substituindo na expressão 2.20,

∂εl r
∂εl+1
!
k l+1
X
= wkj . (2.23)
∂outlj k=1 ∂N etl+1
k

Aplicando então a regra em cadeia à derivada ∂εl+1 /∂N etl+1


k vem:

∂εl+1 ∂εl+1 ∂outl+1


! !
k
l+1 = l+1 . (2.24)
∂N etk ∂outk ∂N etl+1
k
Comparando o membro direito da equação 2.24 com as expressões entre parêntesis do
lado direito da expressão 2.12, é fácil deduzir que esta derivada é igual às correcções δ kl+1
no nı́vel l+1. Assim,

∂εl+1 l+1
l+1 = δk . (2.25)
∂N etk
2.5 Regra Delta generalizada 23

Inserindo este resultado na expressão 2.20, obtém-se a seguinte expressão:


r
∂εl
δkl+1 wkj
l+1
X
l
= (2.26)
∂outj k=1
Como na correcção dos pesos da camada de output, as três derivadas são agrupadas a
partir das expressões 2.11, 2.15 e 2.26 e inseridas na expressão 2.8, tem-se:

∂N etlj
l
= outl−1
i ,
∂wji

∂outlj l

l

= out j 1 − out j ,
∂N etlj

r
∂εl
δkl+1 wkj
l+1
X
= .
∂outlj k=1

Resulta então na seguinte expressão:


r
!
 
l
δkl+1 wkj
l
outlj 1 − outlj outl−1
X
∆wji =η i . (2.27)
k=1

A escolha da velocidade de aprendizagem reveste-se de especial importância visto deter-


minar a velocidade a que os pesos mudam. Se mudarem muito rapidamente o procedimento
pode ficar preso num mı́nimo local. Deve ser escolhido um valor que encontre um meio
termo entre a rapidez de aprendizagem e a convergência para o mı́nimo global. A velocidade
de aprendizagem é geralmente obtida por tentativa e erro sendo bons valores iniciais valores
compreendidos entre 0,3 e 0,6. Geralmente, o valor é constante mas pode ser diminuı́do
linearmente ao longo do processo de treino.
O resultado dado pela expressão 2.27 mostra como três camadas estão envolvidos no
cálculo da correcção dos pesos na camada oculta l. Os valores envolvidos são: o output
outl−1
i da camada acima (age como o input i da camada l), o outlj do neurónio j da camada
l+1
l e a correcção δkl+1 do peso wkj da camada l+1.
De salientar que em qualquer aplicação é necessário ter em atenção a representação da
informação que é fornecida à rede e da que é obtida por esta. Bernard Widrow, investigador
de redes neuronais, pronunciou-se uma vez relativamente à importância da representação
de dados:
“Os três aspectos mais importantes que devem ser tratados no desenvolvimento de redes
neuronais são:
1. Representação 2. Representação 3. Representação.”
24 CAPÍTULO 2. PROCESSO DE APRENDIZAGEM...
Capı́tulo 3

Aplicações de Redes Neuronais


Artificiais em Quı́mica

O número de publicações sobre aplicações de redes neuronais para a resolução de problemas


em quı́mica tem aumentado consideravelmente nos últimos anos. Foram estudados vários
problemas, tais como relação espectro/estrutura (massa, IV, NMR), reactividade quı́mica,
previsão de propriedades fı́sico-quı́micas, etc., abrangendo assim várias áreas da quı́mica.
O principal objectivo deste capı́tulo é demonstrar as capacidades das redes neuronais
mostrando a importância que poderão vir a ter no futuro e em particular no que se refere à
quı́mica. Dar-se-à apenas um resumo das aplicações em algumas áreas da quı́mica referindo
os modelos de redes utilizados para a sua resolução destacando as aplicações relacionadas
com a espectrometria de massa. O problema da reactividade quı́mica será estudado, deta-
lhadamente, no capı́tulo seguinte visto que a rede implementada neste trabalho irá tratar
desse assunto.
Em geral, diferentes tipos de problemas requerem diferentes arquitecturas de redes
neuronais e estratégias de aprendizagem. Nas aplicações em quı́mica, grande parte dos
problemas descritos fazem uso de redes neuronais com uma camada oculta recorrendo ao
algoritmo de Retro-Propagação como estratégia de aprendizagem.
Antes de desenhar a estrutura de uma rede neuronal para um dado problema, deve-se
primeiro classificá-lo e, só depois, escolher o tipo de rede e o método de aprendizagem
mais adequado à sua resolução. A tabela A.1 (apêndice A) mostra, os diversos tipos de
problemas e as redes mais apropriadas à resolução de cada um deles tornando, assim mais
fácil, a escolha do método adequado a uma dada tarefa, por sua vez a tabela A.2 (do mesmo
apêndice) resume algumas das aplicações das redes neuronais em quı́mica.

3.1 Aplicação à Espectrometria de Massa


Existem inúmeras aplicações de redes neuronais à espectrometria de massa. Essas aplica-
ções não dizem apenas respeito ao estudo da correlação estrutura molecular-espectro de
massa, estando também relacionadas com outras áreas da quı́mica e de outras ciências.

25
26 CAPÍTULO 3. APLICAÇÕES DE REDES NEURONAIS...

3.1.1 Correlação Estrutura Molecular-Espectro de Massa


A aprendizagem da relação entre espectro de massa e estrutura é uma das mais complexas
para uma rede neuronal. Contudo, apesar da complexidade do problema existem várias
publicações de redes neuronais artificiais sobre este assunto [12, 14–17].
O primeiro trabalho encontrado na literatura sobre este assunto data de 1971, realizado
por Jurs e Isenhour [12]. No entanto, os modelos utilizados na altura possuı́am certas limi-
tações, nomeadamente o facto dos dados necessitarem de ser linearmente separáveis o que
como é lógico afectava os resultados obtidos, tendo em conta a complexidade do problema.
O segundo trabalho encontrado foi realizado por Curry e Rumelhart [14]. Gasteiger e Zu-
pan fazem referência a este trabalho, assim como ao de Lohninger nos seus artigos sobre
redes neuronais em quı́mica [5, 8].
Para a resolução deste problema Curry e Rumelhart utilizaram uma rede multi-camada,
com uma camada oculta, utilizando o algoritmo de Retro-Propagação. Nesse trabalho, o
espectro de massa é descrito por 493 aspectos, estes incluem os logaritmos das intensidades
dos picos entre m/z 40 e 219, os logaritmos das perdas de neutros entre m/z 0 e 179,
somas de auto-correlação, etc. Os valores dessas 493 caracterı́sticas espectrais constituem
o vector de input da rede. A estrutura de um composto orgânico é caracterizada por 36
subestruturas que dizem respeito a 36 grupos funcionais diferentes (álcool primário, éster,
cetona, amina terciária, etc.) que constituem 36 unidades de output. Sendo 80 o número de
neurónios na camada oculta a rede terá então 493×80+80×36=42 320 pesos. É necessário
um grande conjunto de dados para o treino de uma rede desta envergadura. Neste caso
foram utilizados 31 926 espectros de massa para o treino e 12 671 para o teste.
Os resultados obtidos para a rede neuronal treinada, designada MSnet, foram com-
parados com os resultados obtidos com o STIRS. O STIRS, desenvolvido pelo grupo de
McLafferty, é um poderoso sistema para determinar a presença de grupos funcionais nos
espectros de massa.
Os resultados da classificação, obtidos pelo MSnet, são relativamente melhores do que
os obtidos pelo STIRS, oferecendo algumas vantagens. Pode fornecer a probabilidade de
um certo composto pertencer a uma determinada classe, verifica não só a presença mas
também a ausência de um grupo funcional e, por último, o tempo de cálculo é duas ordens
de grandeza menor do que o necessário pelo STIRS. Saliente-se que, mesmo que o treino de
uma rede neuronal necessite de um intervalo de tempo considerável, esta é capaz de fazer
previsões num intervalo de tempo mı́nimo.
Para satisfazer um requisito de aprendizagem sobre a relação entre a estrutura mole-
cular e os dados espectroscópicos, para todo o domı́nio da quı́mica orgânica, é necessário
resolver um problema fundamental que diz respeito à distribuição estatı́stica dos dados.
Por exemplo, os 32 000 compostos, que constituem o conjunto treino, contêm 33 ésteres
ftálicos que originam um pico caracterı́stico a m/z 149. No entanto, muitos espectros têm
um pico a m/z 149 e não são ésteres ftálicos, e por issso, estes não são reconhecidos pela
rede.
A figura 3.1 mostra a hierarquia de redes que permite ultrapassar este problema. Uma
rede preliminar encarrega-se de fazer a partição em termos dos grupos funcionais mais
3.1 Aplicação à Espectrometria de Massa 27

Figura 3.1: Hierarquia de redes neuronais. [5]

importantes, enquanto que uma rede neuronal especializada trata esse resultado fazendo
um refinamento das classes de compostos. Para o caso do grupo éster, a segunda rede divide
os compostos contendo este grupo em 22 subclasses (ésteres saturados, ésteres aromáticos,
lactonas, anidridos, etc.). Esta ideia pode mostrar-se bastante útil em outras áreas e para
outros problemas.
Além do trabalho de Curry, outro trabalho pioneiro na aplicação das redes neuronais à
espectrometria de massa é o trabalho de Lohninger e Stancl [15]. Estes autores utilizaram
a rede de Kohonen e a rede de Retro-Propagação para a classificação de espectros de massa
de esteróides. Por último é de salientar o trabalho de Eghbaldar, Forrest e Cabrol-Bass [17]
que consistiu na implementação de uma metodologia para o desenvolvimento e optimização
de redes neuronais para o estudo da correlação espectro de massa-estrutura. Ao comparar
os seus resultados com os resultados obtidos por outros autores, que não seguiram uma
metodologia pré-definida para a optimização da rede, foi possı́vel observar uma melhoria
de resultados.

3.1.2 Outros exemplos de aplicações de Redes Neuronais Artifi-


ciais à Espectrometria de Massa
Além da aplicação referida anteriormente, existem muitas mais aplicações de redes neuro-
nais à espectrometria de massa. De seguida, irão ser descritos alguns desses trabalhos.
O objectivo da primeira aplicação é verificar se um azeite virgem está adulterado.
Devido ao seu elevado preço torna-se vantajoso, em termos económicos, adulterá-lo com
outros óleos. A fim de o impedir foram propostos vários métodos para a detecção da
adulteração do azeite não tendo nenhum encontrado uma aceitação plena. Para a resolução
deste problema Goodacre, Kell e Bianchi [18] combinaram a técnica Py-MS com redes
28 CAPÍTULO 3. APLICAÇÕES DE REDES NEURONAIS...

neuronais para uma rápida identificação da adulteração do azeite com outros óleos.
O método consistiu em traçar os espectros de massa de dois conjuntos de amostras.
Um dos conjuntos era constituı́do por 12 amostras de azeite extra virgem e o outro por 12
amostras de azeites adulterados. A rede é composta por uma camada de input constituı́da
pelas intensidades normalizadas de 150 iões de m/z entre 51 e 200 e uma camada oculta
com 8 neurónios. A aprendizagem é feita utilizando o algoritmo de Retro-Propagação. O
sinal de output será zero para os azeites adulterados e um para os azeites virgens. Após
o treino, o teste da rede mostrou que a combinação de Py-MS com as redes neuronais
artificiais constitui um eficaz instrumento de análise da pureza de azeites.

A segunda aplicação está relacionada com a industria quı́mica. A rápida determinação


do número de cetanos (CN) e da densidade de combustı́veis, após a sua análise por espec-
trometria de massa, constitui um bom desafio. Yang e seus colaboradores [19] aceitaram-no
e utilizaram as redes neuronais para prever o CN e a densidade de combustı́vel diesel, a
partir da sua composição quı́mica. O CN e a densidade são correlacionados com 12 grupos
hidrocarboneto, no combustı́vel diesel, determinados por cromatografia liquida e GC-MS.
São utilizados 69 combustı́veis diesel, 48 para o treino da rede e 21 para o teste. Este
trabalho demonstrou, uma vez mais, que para problemas complexos não-lineares, como
a correlação de CN com o tipo de caracterização do hidrocarboneto, as redes neuronais
oferecem um modelo melhor para a sua resolução.

Um terceiro exemplo é uma aplicação relacionada com a biologia. Os vários tipos de


cereais são, normalmente, identificados por uma simples análise visual ou através de padrões
electroforéticos das proteı́nas armazenadas no grão do cereal. Bloch et al [20] desenvolveram
um método mais rápido para a análise das variedades de trigo (Triticum aestivum L.) que
combina a análise de proteı́nas de trigo solúveis em álcool, usando MALDI-TOF-MS com
redes neuronais. O mesmo método foi aplicado para a identificação das várias variedades de
cevada (Hordeum vulgare L.) e centeio (Secale cereale L.). Para a cevada 95% dos espectros
de massa são classificados correctamente. Quanto ao centeio, o método não é muito eficaz,
dada a grande semelhança entre os espectros de massa das diferentes variedades desse
cereal.

Uma outra aplicação, relacionada com a biologia, foi realizada por Sebastian e Viallon
[21]. Estes autores utilizaram a espectrometria de massa para a caracterização dos tecidos
gordos de cordeiros e as redes neuronais para a sua classificação. Os lı́pidos do tecido gordo
subcutâneo, de 120 cordeiros, foram analisados por Py-MS, após extracção dos lı́pidos com
hexano. Os animais eram provenientes de 6 paı́ses europeus com diferentes sistemas de
produção. A classificação dos tecidos gordos, de acordo com o tipo de alimentação dos
cordeiros, (leite, pasto, ração, cereais) é obtida por análise discriminante e redes neuronais,
permitindo o reconhecimento do tipo de alimentação. Os resultados obtidos com redes
neuronais são de 92% de classificações correctas.

De seguida vai ser apresentada uma aplicação das redes e da espectrometria de massa
3.1 Aplicação à Espectrometria de Massa 29

à agro-quı́mica. Os pesticidas de carbamátos aromáticos são importantes agro-quı́micos.


Já foram construı́dos vários modelos de classificação para carbamátos e suas subestruturas
utilizando espectros de massa e redes neuronais. Wan et al [22] estudaram os carbamátos
a classificar por GC-MS (os modelos de classificação são construı́dos a partir de espectros
experimentais de referência). Estes autores estudaram diferentes modelos de redes con-
cluindo que uma hierarquia de redes, cada uma com um único output, conduzia a melhores
previsões. As redes hierárquicas classificam correctamente os espectros em 98% dos casos.

Depois de alguns exemplos relacionados com a biologia, agro-quı́mica e industria quı́-


mica o próximo vai mostrar como as redes neuronais, juntamente com a espectrometria
de massa, podem ser úteis à quı́mica forense. Neste exemplo, as redes neuronais artificiais
são utilizadas na implementação de um motor de busca numa biblioteca de espectros de
GC-MS, constituindo uma poderosa e útil ferramenta analı́tica para os quı́micos forenses.
Tong e Cheng [23] escolheram um total de 28 drogas, correntemente sobre controlo em
Hong-Kong para o estudo. Dados forenses, sob a forma de espectros de massa, foram usa-
dos para o treino (355 espectros) e teste (163 espectros) da rede. Todas as redes neuronais
estudadas nunca fizeram um reconhecimento abaixo de 97,5% sendo de 100% o da melhor.

A espectrometria de massa tem sido, igualmente, uma preciosa ajuda na análise de


questões ambientais. Os estudos de biodegrabilidade de óleos são importantes para o
desenvolvimento de lubrificantes “amigos” do ambiente podendo ser realizados através de
um grande número de métodos. O método aceite, a nı́vel mundial, é o teste de 21 dias
desenvolvido pelo “Coordinating European Council” designado por CEC-L-33-A-93. Basu
et al [24] utilizaram as redes neuronais para a previsão da biodegrabilidade dos óleos com
base na sua composição quı́mica, viscosidade e ı́ndice de viscosidade. A composição quı́mica
é determinada por NMR e espectrometria de massa. Foram utilizados 31 óleos base, de
diferentes origens e métodos de processamento, no desenvolvimento de um modelo para
prever a biodegrabilidade utilizando o algoritmo de Retro-Propagação.

Também, na microbiologia, está-se a tornar cada vez mais corrente o uso da espectro-
metria de massa. A Py-MS é uma técnica analı́tica cada vez mais utilizada, podendo as
redes neuronais ter um papel importante a desempenhar. Kenyon et al [25] mostraram que
a aplicação de redes neuronais aos dados obtidos por Py-MS oferece novas oportunidades
para a classificação, identificação e comparação de microrganismos em biotecnologia e mi-
crobiologia clı́nica. O uso de redes neuronais para a identificação de membros do grupo de
espécies streptomycete foi alcançado com sucesso.

No trabalho seguinte fica, uma vez mais, mostrada a utilidade das redes neuronais
quando utilizadas conjuntamente com a espectrometria de massa. Cada azeite produz
um espectro de massa diferente, conforme a sua origem geográfica, devido a vários fac-
tores. A aplicação das redes a esses dados permitirá determinar a sua origem geográfica.
Para a realização do trabalho foram recolhidas azeitonas de 5 regiões de Itália, dos mais
variados locais e culturas. Após a colheita é produzido azeite extra virgem. Salter et
30 CAPÍTULO 3. APLICAÇÕES DE REDES NEURONAIS...

al [26] procederam à análise, em triplicado, por Py-MS. De seguida os espectros obtidos


foram normalizados e agrupados segundo a região, sendo divididos em conjunto de treino
e conjunto teste, numa proporção 2:1 para Abruzzo:Sardinia e Apulia:Sardinia, e numa
proporção 1:1 para Lazio:Sicily. Usando uma rede neuronal de um único output, que dá a
proveniência geográfica como um código numérico, todas as amostras foram correctamente
identificadas. Este foi o primeiro caso onde a precisão e a discriminação de Py-MS foi
mostrada em combinação com redes neuronais para fazer a descrição de tipos de azeite por
regiões. Contudo já em 1994 Zupan e Novic [27] tinham utilizado as redes neuronais para
a classificação de azeites.

O último exemplo mostrado, relativamente a aplicações de redes neuronais em espectro-


metria de massa, será uma aplicação semelhante à anterior. Contudo, em vez da determi-
nação da origem de azeites o objectivo é a determinação da origem de vinhos. Montanarella
e Bassani [28] aplicaram a Py-MS a 33 amostras de vinhos certificados de diferentes regiões
de Espanha, França e Itália. Os espectros de massa obtidos foram divididos em conjunto
de treino e conjunto teste. O treino foi feito utilizando o algoritmo de Retro-Propagação.
Mais de 90% das amostras de vinho foram correctamente identificadas, de acordo com o
seu pais de origem, após o treino da rede. Não foi, contudo encontrada nenhuma relação
entre os espectros de Py-MS e a espécie ou zona de cultivo. Apesar disso a técnica pode
ser aplicada para uma rápida identificação do paı́s de origem de uma amostra de vinho. A
combinação com outras técnicas (IR-MS, NMR) pode dar informação complementar sobre
as regiões de origem da amostra.

3.2 Outras Aplicações em Quı́mica


Além das aplicações à espectrometria de massa, existem outras aplicações relacionadas
com a quı́mica analı́tica, desde a cromatografia gasosa até à electroforese capilar passando
por várias técnicas espectroscópicas [27, 29–32]. Tem-se, como exemplo, o trabalho de
Long et al [29] que utiliza uma rede de Retro-Propagação para reconhecimento de dados
cromatográficos. Os dados, a classificar, referem-se a combustı́veis de avião a jacto obtidos,
por cromatografia gasosa e GC-MS.
Em seguida mostram-se exemplos de aplicação à quı́mica orgânica, quı́mica-fı́sica, à
espectroscopia de infra-vermelho e, por fim, à ressonância magnética nuclear.

3.2.1 Aplicação à Quı́mica Orgânica


A aplicação de redes neuronais à quı́mica orgânica pode efectuar-se de várias formas tendo
em conta o objectivo desejado.
Em 1990 Elrod et al [33] utilizaram as redes neuronais para prever reacções de substi-
tuição electrofı́lica aromática. A estratégia seguida consistiu em treinar uma rede neuronal
com o algoritmo de Retro-Propagação que previsse os produtos de substituição electrofı́lica
3.2 Outras Aplicações em Quı́mica 31

em benzenos substituı́dos. Os resultados obtidos são semelhantes às previsões de outros


métodos teóricos dos experimentalistas.

Outra aplicação encontrada na literatura é o estudo dos produtos da nitração, efectuado


por Kvasnicka et al [34]. Este trabalho tem como objectivo prever o rendimento de reacções
de nitração, na posição meta, para uma série de benzenos mono-substituı́dos.

Chen e Gasteiger [35], em 1996, utilizaram uma rede neuronal para classificar reacções,
dando especial atenção às reacções onde existia a adição de uma ligação C-H a uma ligação
C=C, tais como a adição de Michael e a alquilação de Friedel-Crafts. A rede neuronal uti-
lizada foi a rede de Kohonen. Após o treino, a rede previu correctamente 95% das reacções
do conjunto teste. Os mesmos autores publicaram em 1997 um trabalho semelhante [36].
Uma vez mais é utilizada a rede de Kohonen e um conjunto unidades de input que des-
crevem os centros reactivos da molécula. Além de classificar as reacções quı́micas, este
trabalho permite, ainda, observar os nı́veis de similaridade entre reacções, sendo possı́vel
obter outras informações quı́micas ao estudar-se as posições das reacções no mapa de Koho-
nen. Os resultados do teste foram um pouco inferiores aos do estudo anterior. Contudo de
salientar a maior complexidade das moléculas e das reacções estudadas neste caso.

3.2.2 Aplicação à Espectroscopia de Infra-Vermelho


São várias as aplicações de redes neuronais à espectroscopia de infra-vermelho. A maior
parte dos casos, encontrados na literatura, dizem respeito à correlação espectro de infra-
vermelho estrutura [37–42] e vice-versa [46].
Um dos muitos trabalhos da previsão da estrutura a partir do espectro de infra-vermelho
foi o trabalho desenvolvido por Novic et al [37]. Neste trabalho são utilizados dois tipos
de redes neuronais artificiais para a análise do espectro de infra-vermelho. A rede de
Kohonen, responsável pelo mapeamento dos espectros num plano, e a rede de Contra-
Propagação, para a determinação da estrutura do composto. O mapeamento da rede de
Kohonen permite a escolha do conjunto treino e teste sendo estes constituı́dos por 755 e
2529 espectros, respectivamente. Após o treino, a rede prevê a estrutura dos compostos
correctamente em cerca de 80% dos casos.

Outro exemplo semelhante é o trabalho de Klawun et al [38]. Neste trabalho o output


da rede é constituı́do por 26 grupos funcionais. É fornecida à rede, como input, o espectro
e a rede dará como output a informação sobre a presença ou ausência dos tais 26 grupos
funcionais. Após a optimização da rede, esta responde correctamente a 93,8% dos espectros
relativamente à presença e 95,7% relativamente à ausência. É de salientar, o trabalho de
Cleva et al [39], em que é feita uma abordagem diferente ao problema, utilizando um sistema
hierárquico de redes neuronais para a determinação da estrutura. A primeira rede faz uma
classificação em apenas 5 classes: compostos contendo grupos carbonilo, hidroxilo, amina
etc. Depois, para cada classe, existe uma rede para identificar estruturas mais especificas
de cada um desses tipos de compostos. Uma das vantagens é o pequeno tamanho de cada
32 CAPÍTULO 3. APLICAÇÕES DE REDES NEURONAIS...

uma das redes envolvidas. Redes com poucos outputs são facilmente optimizadas e a sua
performance é melhor do que a de redes de maiores dimensões.

Nos casos referidos, até agora, é obtida a estrutura do composto a partir do espectro de
infra-vermelho. Contudo, também é possı́vel fazer uma simulação do espectro a partir da
estrutura do composto. Um exemplo desta aplicação é o trabalho de Gasteiger et al [41],
publicado em 1997, em que utilizando uma rede de Retro-Propagação foi possı́vel simular
a estrutura a partir de um espectro de IV e vice-versa. Este trabalho é importante visto
que é bastante útil na identificação de estruturas. Em 1999, Hemmer et al [42] publicaram
um trabalho mais desenvolvido com os mesmos objectivos do anterior.

Weigel e Herges [46] também usaram as redes neuronais para simular espectros de
infra-vermelho. Contudo estes autores apenas simularam espectros de compostos orgânicos
-CHO. Neste trabalho são utilizados dois métodos para a simulação ambos usando redes
de Retro-Propagação. No primeiro o input é constituı́do pelas frequências harmónicas e
intensidades calculadas por um método semi-empı́rico e no segundo pelas subestruturas do
composto correspondente. Para o treino da rede é utilizado um conjunto de 840 compostos
-CHO. Ambos os métodos são comparáveis em termos de performance oferecendo uma
boa qualidade de simulação na região 4000-1300 cm-1 falhando contudo na região das
“impressões digitais” (1300-400 cm-1 ).

3.2.3 Aplicação à Quı́mica-Fı́sica


As aplicações das redes neuronais à quı́mica-fı́sica [47–51] permitem prever várias propri-
edades como, por exemplo, potenciais de ionização, pontos de ebulição, solubilidade entre
outras.
O primeiro exemplo a apresentar foi publicado em 1994 por Sigman et al [47], onde
é utilizada uma rede de Retro-Propagação para “aprender ” a relação entre a estrutura
electrónica e os três primeiros potenciais de ionização de 222 átomos e iões cujos valores já
tinham sido calculados experimentalmente. Os resultados do teste da rede mostraram-se
concordantes com os valores experimentais.

Outra aplicação interessante é o mapeamento do potencial electrostático de moléculas


feito por Gasteiger e Li [48]. Os sinais das redes neuronais biológicas são transmitidos ao
longo dos neurónios por substâncias quı́micas, designadas neuro-transmissores. Existem
pelo menos dois tipos de receptores, os receptores muscarı́nicos e os receptores nicotı́nicos.
A investigação do potencial electrostático da molécula é feito para estudar os segredos da
actividade biológica, utilizando para tal a rede de Kohonen. A aplicação é efectuada ma-
peando pontos de uma superfı́cie de van der Waals a 3D numa superfı́cie a duas dimensões.
A metodologia, seguida para o mapeamento das superfı́cies do potencial electrostático,
consistiu nos seguintes passos: cálculo das coordenadas atómicas a 3 dimensões usando o
gerador de estruturas CORINA, cálculo das cargas atómicas parciais utilizando o procedi-
3.2 Outras Aplicações em Quı́mica 33

mento empı́rico PEOE [43–45], cálculo dos pontos do potencial electrostático da superfı́cie
de van der Waals utilizando o potencial clássico de Coulomb e, por fim, escolha aleatória
de 20 000 pontos a partir da superfı́cie de van der Waals que será o conjunto treino da rede
de Kohonen (com arquitectura 100×100). Após o treino da rede de Kohonen os pontos que
estavam próximos na superfı́cie de van der Waals são mapeados no mesmo ou em neurónios
vizinhos. Este trabalho permitiu observar que o potencial electrostático molecular é um
factor crucial na ligação dessa moléculas aos seus receptores. O mapa de Kohonen conserva
a informação essencial do potencial electrostático, permitindo a projecção de propriedades
das superfı́cies moleculares. Pode, assim, ser utilizado no estudo da actividade biológica
de compostos.

Em 1996, Hall e Story [49] aplicaram a rede de Retro-Propagação, com arquitectura


19×5×1, para a previsão do ponto de ebulição e da temperatura crı́tica de compostos or-
gânicos. Para essa previsão foi utilizado um conjunto treino e teste de 268 e 30 compostos,
respectivamente, tendo-se obtido um erro de 1,12% para o teste da rede. Para a determi-
nação das temperaturas crı́ticas, foi utilizada uma rede 9×4×1 e um conjunto treino de
147 compostos e de teste de 18, tendo-se obtido um erro de 0,95%.

Outro trabalho semelhante é o de Goll et al [50] que tem como objectivo a previsão dos
pontos de ebulição de compostos orgânicos a partir da sua estrutura molecular. O input
da rede é um conjunto de descritores seleccionados recorrendo a algoritmos genéticos.

O último exemplo, é a previsão da solubilidade em meio aquoso de compostos orgânicos


a partir da estrutura molecular Mitchell et al [51] utilizam as redes neuronais para o
desenvolvimento de modelos matemáticos que relacionem as estruturas de um conjunto de
332 compostos orgânicos com a sua solubilidade em meio aquoso. Para a escolha do melhor
conjunto de descritores relacionados com a solubilidade em meio aquoso foram utilizados
algoritmos genéticos e “simulated annealing”.

3.2.4 Aplicação à Ressonância Magnética Nuclear


A ressonância magnética nuclear é uma técnica analı́tica fundamental na análise da estru-
tura de compostos orgânicos em combinação com outras técnicas espectroscópicas. Qual-
quer espectro de NMR seja de protão, carbono, fósforo ou outros, requer uma análise
cuidada que pode levar até à estrutura do composto. As redes neuronais, quando aplica-
das à ressonância magnética nuclear [52–57], permitem uma rápida previsão dos desvios
quı́micos do composto a analisar.
O primeiro exemplo, encontrado na literatura, refere-se ao trabalho de Thomsen et
al [52], em 1989, com o objectivo de reconhecer espectros de protão de açucares. A rede
tinha uma arquitectura 400×6×6.

Um segundo exemplo, publicado alguns anos depois, abrange toda a famı́lia de alcanos.
Doucet et al [53] usou a rede de Retro-Propagação em que o input da rede era uma descrição
34 CAPÍTULO 3. APLICAÇÕES DE REDES NEURONAIS...

topológica das moléculas tendo obtido bons resultados.

Outros trabalhos semelhantes são o trabalho de Svozil et al [56] e o de Aires de Sousa


[57]. No primeiro caso, os autores utilizaram uma rede de 3 camadas para a previsão
dos desvios quı́micos dos espectros de carbono 13 de alcanos. Os átomos de carbono nos
alcanos são, neste trabalho, descritos por 13 parâmetros. No segundo caso, Aires de Sousa
utiliza uma rede de Contra-Propagação para a previsão de desvios quı́micos dos espectros
de protão do grupo de compostos orgânicos CHn . O conjunto treino é constituı́do por
744 exemplos de protões que são representados por descritores fı́sico-quı́micos, topológicos
e geométricos, sendo a sua escolha feita com recurso a algoritmos genéticos. O teste da
rede produziu um erro absoluto médio de 0,25 ppm. É importante salientar que esta rede
permitiu prever alguns efeitos estereoquı́micos.
Capı́tulo 4

Reactividade Quı́mica

4.1 Introdução ao problema


Uma reacção quı́mica consiste, fundamentalmente, na quebra de uma ou mais ligações nos
reagentes e na formação de uma ou mais ligações para originar produtos. Para prever como
uma molécula reage é necessária informação sobre as ligações mais reactivas da molécula.
Durante muitos anos foram utilizadas bases de dados de reacções quı́micas para deter-
minar se uma dada reacção podia ou não ocorrer. Seria, contudo, bastante proveitoso se
existissem métodos automáticos que conseguissem aprender e depois generalizar sobre a
reactividade das moléculas.
Os quı́micos baseiam o seu conhecimento sobre a reactividade das ligações numa varie-
dade de efeitos de natureza energética, electrónica e estérica, no entanto, esses efeitos são
usados de uma forma qualitativa e a previsão das reacções continua a ser levada a cabo
por um processo intuitivo. Observando os grupos funcionais de uma molécula, um quı́mico
utiliza a sua experiência, adquirida ao longo dos anos, para prever quais as ligações mais
reactivas. No entanto, se existirem vários grupos funcionais presentes que interferem e com-
petem uns com os outros existem certas ligações que na ausência desses grupos não seriam
reactivas mas na sua presença se poderiam tornar. Como poderá, então, este problema ser
resolvido?
Existem várias hipóteses para a sua resolução. Uma consiste em utilizar métodos em-
pı́ricos para o cálculo dos efeitos energéticos e electrónicos. Depois, os parâmetros, que

Figura 4.1: Quebra heterólitica de uma ligação. [5]

35
36 CAPÍTULO 4. REACTIVIDADE QUÍMICA

traduzem estes efeitos, são utilizados para correlacionar e prever a reactividade. Outra
hipótese é utilizar métodos estatı́sticos e de reconhecimento de padrões. A utilização
destes métodos apresenta a vantagem de levar em linha de conta um maior número de
efeitos electrónicos e energéticos, contudo, implicam que a relação entre a reactividade
e os parâmetros fı́sico-quı́micos tenha de ser de natureza linear, ou seja, ser facilmente
transformada num problema linear. Porém modelos lineares simples raramente descrevem
problemas complexos de uma forma satisfatória. Outra hipótese consiste em desenvolver
um sistema de memória associativa que garanta a relação de forma implı́cita, em vez de
modelar a relação numa função explı́cita. Por último, tem-se como hipótese as redes neu-
ronais. Estas apresentam como vantagem o facto de seguirem o raciocı́nio do quı́mico para
adquirir conhecimento sobre a reactividade quı́mica. O quı́mico observa quais as ligações
das moléculas que reagem e, baseando-se nessas observações, generaliza aprendendo quais
as que são mais reactivas, para uma dada molécula. Mas, como se poderá transferir este
processo para uma rede neuronal?
O objectivo deste trabalho foi, então, desenvolver uma rede neuronal que, perante
uma molécula, dissesse quais as ligações que se quebram preferencialmente. Para tal,
implementou-se uma rede neuronal treinada com o algoritmo de Retro-Propagação. Este
algoritmo é usado para encontrar uma relação entre os parâmetros electrónicos e energéticos
de cada ligação na molécula e a sua propensão para a heterólise (figura 4.1). Esta modelação
não-linear implı́cita é utilizada para classificar as ligações em reactivas ou não-reactivas.
Foram escolhidos dois conjuntos de ligações por dois métodos diferentes (escolha ale-
atória e escolha baseada no desenho experimental) para o treino da rede, a partir de um
conjunto de 10 moléculas representadas na figura 4.2.
A rede foi testada com um conjunto de 29 moléculas retiradas da literatura [1–3], além
de duas molécula extra [2, 5] e outra designada por alvo (anisole). Dessas 32 moléculas,
foram escolhidas 182 quebras de ligação (figura 4.2).

4.2 Parâmetros Fı́sico-Quı́micos


A quebra de uma ligação é influenciada por uma grande variedade de efeitos fı́sico-quı́micos.
Para estudar esses efeitos, e a sua importância relativa, foram calculados os parâmetros
para vários efeitos electrónicos e energéticos utilizando métodos empı́ricos [43, 58–61]. O
significado dos parâmetros, obtidos por estes métodos, foram estabelecidos com base numa
série de cálculos e correlações de dados fı́sicos e quı́micos. As variáveis utilizadas incluem
valores para o efeito de distribuição de carga [43, 58], efeito indutivo [59], efeito de resso-
nância [58], efeito de polarizabilidade [60] e energias de dissociação da ligação [61]. Para
cada ligação é calculada a diferença de carga total (∆qtot ), a diferença de carga Π (∆qΠ ), a
diferença de electronegatividade σ(∆χσ ), a polaridade da ligação (Qσ ), a estabilização por
ressonância das cargas geradas por heterólise (R ± ) e a energia de dissociação da ligação
(BDE), utilizando o PETRA.
O PETRA é um programa que contém vários métodos implementados, todos de natu-
reza empı́rica, desenvolvidos, ao longo dos anos, no grupo de investigação de J. Gasteiger,
4.3 Procedimento 37

H
O Cl Br
H H H H
H H

H H H H H H

H H H
H H

H H H H

N
H N H H N
H

H O H H O H H
N

H O H H H H N H
H

H H O

H H H H
H H H H H H H
H H O
H H
H H H P C
H H H H H N
H S
H H H Br H H
H O H

Figura 4.2: Conjunto de 10 moléculas para o treino da rede e conjunto de 32 moléculas


para o teste da rede contendo 182 quebras de ligação diferentes [1, 2, 5].

para o cálculo de propriedades fı́sico-quı́micas de moléculas orgânicas [62]. Mais detalhes


sobre os métodos empı́ricos encontram-se no apêndice E e na bibliografia indicada.
Os sinais das variáveis ∆qtot , ∆qΠ , ∆χσ , Qσ dependem do sentido da quebra da ligação,
havendo mudança de sinal quando aquele é invertido. A estabilização por ressonância é,
normalmente, diferente não apenas no sinal mas em grandeza para as duas heterólises
possı́veis, visto que o mecanismo para a estabilização de uma carga positiva ou negativa
no mesmo átomo difere. Por fim, a R± e a BDE são independentes do sentido da quebra
da ligação.

4.3 Procedimento
? Escolha de um conjunto de moléculas para o treino da rede (o conjunto de 10 molé-
culas foi fornecido pelo grupo de Espectrometria de Massa, com vista à resolução de
um problema de reactividade);

? Cálculo de sete parâmetros, electrónicos e energéticos, para todas as quebras de


ligação diferentes dos conjuntos de treino e de teste, utilizando o PETRA.
? Cálculo da reactividade das quebras de ligação, utilizando o método LoRA;

? Escolha das ligações que vão constituir o conjunto treino de duas formas diferentes:

– Escolha das ligações de forma aleatória (53 ligações),


38 CAPÍTULO 4. REACTIVIDADE QUÍMICA

– Escolha com base num desenho experimental a 3 nı́veis com 4 parâmetros (48
ligações).

? Para a realização do desenho experimental procedeu-se da seguinte forma:

– Construção da matriz de correlação dos sete parâmetros fı́sico-quı́micos (foram


excluı́dos os três parâmetros que apresentavam maior correlação com os restan-
tes)
– Efectuar o desenho da experiência, a três nı́veis, com os quatro parâmetros
(gerando 81 subespaços) escolhidos no item anterior, para as ligações do conjunto
de 10 moléculas (figura 4.2)
– Escolha de uma ligação de cada subespaço. Se existirem ligações no mesmo
subespaço com reactividades opostas deve ser escolhida uma ligação de cada.

? Implementação de uma rede neuronal artificial com arquitectura 7×3×1 (sete uni-
dades de input, uma para cada variável energética ou electrónica, três neurónios na
camada oculta e um neurónio na camada de output) que classifica a quebra de ligação
como reactiva ou não;

? Aprendizagem, com supervisão da rede neuronal, utilizando o algoritmo de Retro-


Propagação. Foram treinadas duas redes, cada uma com os conjuntos treino referidos;

? Teste das redes utilizando um conjunto de 31 moléculas retiradas da bibliografia e


uma molécula alvo.

4.4 Arquitectura da Rede Neuronal


A quebra de uma ligação foi descrita por sete parâmetros fı́sico-quı́micos logo a rede neu-
ronal teve sete unidades de input, uma para cada parâmetro. Relativamente à camada
de output existem duas respostas possı́veis, ligação reactiva ou não, assim aquela camada
poderia ter um ou dois neurónios. Os estudos sobre casos semelhantes [1] mostram que
utilizando dois neurónios de output a soma dos dois valores de output é igual a um. Então,
a utilização de apenas um neurónio não traz qualquer desvantagem visto que o resultado
vem compreendido entre zero e um.
Resta estabelecer o número de camadas ocultas e o número de neurónios em cada uma
delas. A selecção do número de camadas e do respectivo número de neurónios é, geral-
mente, realizado por tentativa e erro, ou seja, começa-se por experimentar a arquitectura
mais simples partindo-se de seguida para arquitecturas mais complexas (aumentando o
número de camadas e o número de neurónios em cada uma delas) até à resolução do pro-
blema. O objectivo é encontrar uma arquitectura, com um número mı́nimo de camadas
e neurónios, capaz de resolver o problema. Este facto é de salientar visto que pode sur-
gir a pergunta: E porque não utilizar uma arquitectura mais complexa se esta resolver o
problema perfeitamente? A questão é que redes com muitos neurónios podem aprender a
4.4 Arquitectura da Rede Neuronal 39

Figura 4.3: Arquitectura da rede neuronal. [1]

resolver o problema perfeitamente, durante o processo de treino, perdendo no entanto ca-


pacidade de previsão quando deparadas com o conjunto teste. O que acontece é que se cria
uma situação em que a rede fica tão adaptada ao conjunto treino que perde a capacidade
de generalização quando se depara com novos casos, não incluı́dos naquele conjunto.
Após algumas experiências e, tendo em conta os dados encontrados na bibliografia [1],
para a resolução de problemas de reactividade quı́mica, usou-se uma rede neuronal apenas
com uma camada oculta composta por três neurónios. A rede teve, então, uma arquitectura
7×3×1 (sete unidades de input, três neurónios na camada oculta e um neurónio na camada
de output) (figura 4.3). Em termos de número de pesos a rede teve 7×3+3×1+3+1=28
pesos (inclui as ligações ao bias).
O próximo problema a ser resolvido diz respeito à representação dos valores das variá-
veis de input para cada ligação. Aos parâmetros fı́sico-quı́micos correspondem diferentes
intervalos de valores. Para o conjunto de ligações à disposição, para o treino e teste da
rede, a diferença de carga Π, por exemplo, varia entre -0.219 e 0.219 enquanto os valores
da estabilização por ressonância variam entre 0.0 e 37.685. Para uma melhor adaptação da
rede neuronal ao problema os valores de input devem estar compreendidos num intervalo
entre zero e um. Os valores de input foram então escalados para valores entre zero e um.
Cada valor de input, correspondente a um dado parâmetro, foi escalado entre os valores
máximo e mı́nimo desse parâmetro para todas as ligações disponı́veis (conjunto de treino
e de teste).
Continua a existir, contudo, um pequeno problema que diz respeito ainda aos valores
máximos e mı́nimos de cada parâmetro. Apesar do conjunto das ligações disponı́veis ser
representativo das quebras de ligações possı́veis, em compostos orgânicos, qual é a garantia
de que não existem ligações cujos parâmetros tenham valores fora dos intervalos determi-
nados para o conjunto treino e teste? Para tentar evitar que fossem, apresentadas à rede,
após o treino, ligações cujos parâmetros apresentassem valores fora destes intervalos para
cada um parâmetros procedeu-se a um alargamento dos intervalos em 10%. Aos valores
mı́nimos dos parâmetros foram retirados 10% dos seus valores enquanto que para os valores
máximos foram adicionados 10%. Em seguida efectuou-se o escalamento entre zero e um.
40 CAPÍTULO 4. REACTIVIDADE QUÍMICA

Para o treino da rede é necessário, à partida, a informação sobre o valor da reactividade


de cada quebra de ligação. O conjunto dos valores de reactividade para cada ligação vai
constituir assim o conjunto alvo da rede. Devido à falta de informação sobre a reactividade
das ligações do conjunto de treino a determinação desta foi efectuada através do método
LoRA.

4.5 Cálculo da Reactividade do Conjunto Alvo


Neste método usa-se um conjunto de dados com uma classificação binária de objectos para
construir uma função que seja capaz de reproduzir essa classificação o melhor possı́vel.
Neste trabalho, a classificação de uma ligação como reactiva, ou não, é usada para obter
uma função que quantifica a reactividade quı́mica, baseada nos parâmetros electrónicos e
energéticos [2].
A classificação original é considerada como uma probabilidade P0 (reactiva=1,0 e não
reactiva=0,0). Esta classificação é modelada por uma função logı́stica:
1
P = , (4.1)
1 + exp(−f )
como uma probabilidade calculada (P ) onde o expoente (f ) é expandido como uma função
linear nos parâmetros usados (ci ):
f = c0 + c1 x1 + c2 x2 + ... + ci xi . (4.2)
Os coeficientes ci , na equação 4.2, são determinados de forma a minimizar o erro entre
a classificação inicial P0 e a probabilidade calculada P . Mais detalhes sobre este método
podem ser consultados o apêndice D.
O estudo mencionado na bibliografia [2], que teve como base o conjunto teste da rede
implementada, mostra que existem várias combinações de parâmetros que oferecem bons
resultados. A melhor combinação apresentada é a que utiliza seis parâmetros e que classifica
correctamente todas as ligações do conjunto teste desse trabalho. Contudo, este estudo
tem a particularidade da ligação carbono-carbono no ciclopropano ter sido mal classificada
à partida com o intuito de verificar se o modelo conseguia prever correctamente a sua
reactividade, o que não aconteceu. Outro caso é a natureza peculiar da quebra da ligação
carbono-carbono, na acetona, também não ser percebida [2].
Contudo, uma combinação de cinco parâmetros (R± , ∆χσ , ∆qtot , αb , Qσ ) e duas combi-
nações de quatro (∆χσ , ∆qtot , R± , αb e Qσ , R± , ∆χσ , αb ) são as duas únicas combinações
que conseguem distinguir as más “classificações” colocando o ciclopropano na categoria das
ligações não reactivas e classificando a ligação carbono-carbono da acetona como reactiva.
Utilizando, então, a combinação de parâmetros ∆χσ , ∆qtot , R± , αb obtém-se a expressão :

f = −2, 72 − 5, 26∆χσ + 19, 1∆qtot + 0, 354R± − 0, 722αb (4.3)


Substituindo os resultados desta expressão na expressão 4.1, obtém-se a probabilidade
da quebra de uma ligação. Esta foi a expressão utilizada para calcular os valores da
4.6 Treino da rede com um conjunto treino escolhido de forma aleatória 41

reactividade das ligações seleccionadas para constituir o conjunto treino. Os valores da


reactividade são dados em termos da probabilidade de quebra da ligação entre zero e um.

4.6 Treino da rede com um conjunto treino escolhido


de forma aleatória
Como já se referiu a intenção desta parte do trabalho foi desenvolver uma rede neuronal
que conseguisse prever a reactividade de quebras da ligação, numa molécula, dando como
input sete parâmetros fı́sico-quı́micos. O conjunto de dados disponı́vel deve ser dividido
em dois subconjuntos, um para o treino e outro para o teste da rede.
Uma forma de seleccionar o conjunto de treino é escolher as ligações de modo aleatório
a partir do conjunto de ligações disponı́vel. A escolha das ligações é feito a partir do
conjunto de 10 moléculas (figura 4.2). Apesar da escolha de ligações ter sido realizada
de forma aleatória procurou evitar-se que se repetissem muitas ligações semelhantes tendo
sido escolhidas um total de 53 quebras de ligação.
Após, a implementação da rede neuronal, com algoritmo de Retro-Propagação, calculou-
se os valores dos sete parâmetros fı́sico-quı́micos recorrendo ao PETRA, para cada uma
das 53 quebras de ligação escolhidas. A tı́tulo de exemplo o apêndice C contém os valores
dos sete parâmetros para as ligações de uma molécula do conjunto treino, calculados com
o PETRA. Após o cálculo dos parâmetros fı́sico-quı́micos determinou-se a reactividade
das ligações do conjunto utilizando o LoRA. Ficam, assim, estabelecidos os conjuntos de
treino e alvo da rede, podendo o treino ser iniciado. A primeira tarefa a desempenhar,
no inicio do treino, é encontrar os melhores valores para os parâmetros livres da rede
(parâmetros da função transferência, velocidade de aprendizagem e momento da rede). A
primeira aproximação foi feita aos parâmetros da função transferência utilizada (sigmóide).
A função sigmóide utilizada tem a forma da expressão 4.4:

1
sf (N et, α, ϑ0 ) = (4.4)
{1 + exp [−(αN et − ϑ0 )]}
e pode ser escrita como :

0 1
sf (N et, α , β) = (4.5)
{1 + exp [−(N et/α0 − β)]}
0 0
onde 1/α = α e β = ϑ . Esta mudança foi realizada pela simples razão de ser assim que
a função está implementada na rede. Tentou-se então procurar os valores dos parâmetros
da função transferência que produzam um menor erro no treino. Para tal, procedeu-se
ao treino da rede, com 8000 ciclos de treino, para todos os valores dos parâmetros entre
-5 e 15, com passo 0,2. Com base na bibliografia [4, 6], escolheu-se para velocidade de
aprendizagem o valor de 0,49 e para o momento da rede o valor de 0,89. No final cada
42 CAPÍTULO 4. REACTIVIDADE QUÍMICA

Figura 4.4: Gráficos relativos à procura dos valores dos parâmetros da função transferência
que minimizam o erro do treino.

treino calculou-se a respectiva percentagem de erro. Para este feito recorreu-se à expressão:
v
n n
u i X
uX
u
u (ysi − outsi )2
t s=1 i=1
%RM S = × 100, (4.6)
ni n
onde ysi é a componente i do vector alvo Ys , outsi é a componente i do output produzido
pela rede para o vector de input s, ni é o número de inputs e n é o número de variáveis
de output. Fazendo a representação gráfica (figura 4.4) do valor do erro, que não é mais
do que o desvio entre o output da rede para um dado input e o seu valor alvo, em função
0
dos parâmetros α e β, é possı́vel observar as regiões em que o erro é menor. Olhando para
a perspectiva de topo do gráfico, na referida figura, observa-se o que se poderá chamar
de regiões de iso-erro, ou seja, regiões com o mesmo valor de erro. É de salientar que o
gradiente de cor do azul - vermelho corresponde a um aumento do valor da % RMS. Pela
0
figura é possı́vel constatar que a rede apresenta um erro pequeno para valores de α no
intervalo 0 a 15 e valores de β no intervalo -5 a 8. Tendo em conta o baixo valor de %
RMS na referida região, foram escolhidos dois valores para os parâmetros da rede dentro
0
dessa zona, tendo-se seleccionado os valores de α = 0,2 e β=-2,05.
Visto que a % RMS era baixa não se procedeu à busca dos valores para a velocidade
de aprendizagem e momento da rede realizando-se desde logo um treino da rede sob as
condições da tabela 4.1.
O treino da rede, implementada com estes parâmetros, pode ser seguido na figura 4.5,
onde é possı́vel observar a evolução da % RMS ao longo do número de ciclos de treino.
4.6 Treino da rede com um conjunto treino escolhido de forma aleatória 43

Tabela 4.1: Condições de treino da rede neuronal com o conjunto treino escolhido de forma
aleatória.

Arquitectura 7×3×1
Algoritmo de Aprendizagem Retro-Propagação
Número de objectos de treino 53
0
Parâmetro α da função transferência 0.2
Parâmetro β da função transferência -2,05
Velocidade de Aprendizagem 0,49
Momento da rede 0,89
Número de ciclos de treino 8000

25

6
20
% Erro
% Erro

15 4

10
2

0
0
0 2000 4000 6000 8000 0 200 400 600 800 1000 1200
Número de ciclos de treino Número de ciclos de treino

Figura 4.5: Gráfico para o treino da rede e respectivo zoom.

No gráfico à direita, da referida figura, apresenta-se um zoom do inı́cio do treino, onde é


visı́vel que a rede atinge rapidamente uma % RMS de cerca de 1% decorridos apenas cerca
de 100 ciclos de treino, atingindo um valor de cerca de 0.15% por volta dos 1000 ciclos
de treino, ou seja, um treino com 8000 ciclos não traz melhorias significativas, visto que a
rede já está perfeitamente adaptada ao problema por volta dos 1000 ciclos de treino.
A rede foi testada com um conjunto de 29 moléculas, retiradas da bibliografia, o qual
contém 149 quebras de ligação diferentes (figura 4.2). Além destas 149 quebras de ligação
foram utilizadas mais duas moléculas com 15 quebras de ligação além de uma molécula alvo
(anisole) sobre a qual não se possui qualquer informação sobre a reactividade, perfazendo
assim um total de 182 quebras de ligação para o teste da rede. A reactividade obtida para
cada quebra de ligação do conjunto teste poderá ser observada no apêndice F.
Na tabela 4.2 apresenta-se um resumo dos resultados obtidos para o teste da rede.
Esta tabela mostra que 3,3% de quebras de ligação foram mal classificadas. Tal valor
deve ser considerado bastante aceitável, tendo em conta os resultados apresentados na
44 CAPÍTULO 4. REACTIVIDADE QUÍMICA

Tabela 4.2: Resultados obtidos para o teste da rede neuronal treinada com um conjunto
de ligações escolhido de forma aleatória.

Resultados Obtidos
Treino - Número de ciclos ' 2000
Treino - Ligações utilizadas 53
Treino - RMS / % 0,05
Teste - Ligações utilizadas 182
Teste - Ligações mal classificadas 6
Teste - % de ligações mal classificadas 3,3

bibliografia [1]. Contudo, existem aspectos que podem ser optimizados para melhorar
ainda mais os resultados da rede. Um dos aspectos refere-se à selecção do conjunto de
dados para o treino da rede. A escolha aleatória das ligações pode originar um conjunto
que não seja representativo do conjunto global de ligações, o que irá influenciar o treino
da rede e originar consequentemente, após a aprendizagem, respostas erradas tendo como
base esse “má aprendizagem”. Uma das hipóteses é proceder à escolha do conjunto treino
recorrendo a uma técnica de desenho experimental.

4.7 Treino da rede com um conjunto treino escolhido


utilizando o desenho experimental
As técnicas de desenho experimental fornecem uma grande quantidade de informação útil a
partir de um pequeno número de experiências, permitindo a escolha do número mı́nimo de
dados que cobrem o espaço amostral o mais homogeneamente possı́vel. Quando o número
de experiências que pode ser levado a cabo é limitado os desenhos experimentais oferecem
então uma forma eficiente de reduzir o número de experiências necessárias e de obter a
máxima informação a partir destas, tirando conclusões que são válidas em todo o espaço
amostral do problema [1, 63–65].
O desenho experimental permite usar todas as combinações possı́veis de factores, a
todos os nı́veis, envolvidos na experiência. O número de combinações possı́veis, N, a serem
feitas é dado por:
N = nk , (4.7)
onde n é o número de nı́veis e K o número de parâmetros.
Num desenho experimental de nı́vel m cada uma das coordenadas do espaço, neste
caso parâmetros fı́sico-quı́micos, é dividida em m intervalos e a partir de cada intervalo é
escolhido um ponto. Por exemplo, quando três intervalos são escolhidos os objectos são
seleccionados de tal forma que cada variável é representada por um valor baixo, um valor
médio e um valor alto. O caso de um desenho, a três nı́veis, com apenas duas variáveis é
4.7 Treino da rede com um conjunto treino escolhido utilizando o desenho
experimental 45
9
Coeficiente de Correlação: -0,0013
Coeficiente de Correlação: -0,8665
8
0,4
Polarizabilidade / [Å ]
3

Polaridade / [e. u.]


0,2

6 0

5 -0,2

4 -0,4

3
-0,6 -0,4 -0,2 0 0,2 0,4 0,6 -3 -2 -1 0 1 2 3
Diferença de Carga Total / [e. u.] Diferença de Electronegatividade σ / [eV]

Figura 4.6: Gráfico 1-Correlação entre a diferença de carga total e a polarizabilidade;


Gráfico 2-Correlação entre a diferença de electronegatividade σ e a polaridade.

necessário um mı́nimo de 32 = 9 pontos.


As sete variáveis, que caracterizam a quebra da ligação, originam um hiperespaço com
sete dimensões. Se for considerado um desenho de três nı́veis (m=3) são necessários 3 7 =
2187 subespaços para caracterizar o problema. Como o número de ligações disponı́veis
para o conjunto treino é muito menor, 84 ligações, a maior parte dos subespaços não iriam
ser ocupados por quebras de ligação. Sendo assim, o espaço deve ser reduzido a um nı́vel
menor, ou então, não utilizar todas as variáveis fı́sico-quı́micas. Tendo em conta os dados
da bibliografia [1] e tendo sido verificado, que se fossem considerados apenas dois nı́veis em
vez de três, existiriam muitas ligações nos mesmos subespaços, decidiu-se utilizar apenas
quatro dos sete parâmetros fı́sico-quı́micos para realizar o desenho experimental e dividir
as variáveis em três regiões (três nı́veis). Assim, o espaço amostral é dividido em 3 4 = 81
subespaços. Surge, então, o problema de quais os parâmetros escolher? Quais os parâmetros
que influenciam mais a reactividade ou que influenciam da mesma forma? Para resolver
este problema, a escolha dos quatro parâmetros, para efectuar o desenho da experiência, foi
baseada numa matriz de correlação dos parâmetros visto que, em principio, os parâmetros
fı́sico-quı́micos que tiverem uma maior correlação são substituı́dos no desenho experimental
apenas por um. Tal é baseado no facto de que se existir uma variação linear dos valores
dos parâmetros, consoante as ligações, então estes devem ter uma influência semelhante na
reactividade. A tı́tulo exemplificativo são mostrados dois gráficos de correlação na figura
4.6 encontrando-se os restantes gráficos de correlação entre todos os parâmetros fı́sico-
quı́micos no anexo G. Considerando os valores obtidos para os coeficiente de correlação
entre todos os parâmetros foi construı́da a tabela 4.3 que constitui a matriz correlação dos
parâmetros fı́sico-quı́micos.
Tendo como base informação quı́mica e os resultados obtidos na matriz correlação,
escolheram-se as seguintes variáveis: estabilização por ressonância (R ± ), polarizabilidade
(αb ), polaridade (Qσ ) e diferença de electronegatividade σ (∆χσ ).
46 CAPÍTULO 4. REACTIVIDADE QUÍMICA

Tabela 4.3: Matriz correlação dos parâmetros para todas as ligações disponı́veis para o
treino da rede.

∆χσ ∆qΠ R± αb ∆qtot Qσ BDE


∆χσ 1 -0,21 0,08 -0,14 -0,48 -0,86 0,17
∆qΠ - 1 -0,04 -0,02 0,41 0,23 0,01
R± - - 1 0,06 -0,08 -0,09 -0,11
αb - - - 1 -0,00 0,09 -0,61
∆qtot - - - - 1 0,81 -0,05
Qσ - - - - - 1 -0,13
BDE - - - - - - 1

O parâmetro diferença de carga Π (∆qΠ ), não é considerado visto que, para a maior
parte das ligações disponı́veis para o treino e teste da rede, os dois átomos que as cons-
tituem não têm carga Π, ou então, a diferença de carga Π é muito pequena. Apesar do
conjunto treino ter várias moléculas com anéis aromáticos, o conjunto teste é constituı́do
quase, exclusivamente, por moléculas alifáticas logo este parâmetro não é muito impor-
tante, comparativamente com outros, na reactividade de uma ligação. Fica-se, assim, com
seis parâmetros sendo necessário excluir mais dois. A diferença de carga total (∆q tot ) apre-
senta uma correlação relativamente elevada (0,81) com a polaridade (Q σ ) e, sendo assim,
apenas um deles é escolhido, recaindo a escolha sobre a polaridade. Por fim a energia de
dissociação da ligação (BDE) apresenta uma correlação de 0,61 com a polarizabilidade,
αb , sendo escolhida a polarizabilidade para realizar o desenho experimental.
Após efectuar o desenho da experiência, a três nı́veis com quatro parâmetros, com as 84
ligações disponı́veis para o treino da rede constatou-se que as 84 ligações ocupavam apenas
28 dos 81 subespaços do desenho experimental, um número manifestamente pequeno para
o treino da rede neuronal. Tal facto pode dever-se, tal como é possı́vel observar na figura
4.2, ao facto das moléculas fornecidas para o treino da rede serem em número reduzido
e bastante semelhantes. Das 10 moléculas quatro são benzenos monosubstı́tuidos, uma é
uma dicetona cı́clica (benzoquinona) e as cinco restantes são moléculas heterocı́clicas de
oxigénio e de azoto. Das cinco, duas são éteres cı́clicos (1-4,dioxeno e furano) e as outras
três são os azobenzenos (derivados do benzeno onde o átomo de azoto com hibridação sp 2
toma o lugar de um C-H ) piridina (azobenzeno), pirimidina (1,3-diazobenzeno) e piridazina
(1,2-diazobenzeno). Tendo em conta estes factos não é de estranhar que as 84 ligações
ocupassem apenas 28 subespaços. Para tentar colmatar este facto, foram escolhidas mais
20 ligações perfazendo um total de 48 para o treino da rede.
Para o treino da rede, procedeu-se da mesma forma que para o treino com o conjunto
escolhido de forma aleatória, ou seja, determinaram-se os valores dos sete parâmetros
fı́sico-quı́micos, recorrendo ao PETRA, e calculou-se a reactividade utilizando o LoRA.
Em seguida procedeu-se à busca dos valores dos parâmetros da função transferência que
minimizam o erro do treino. Tendo em conta os resultados do estudo do item anterior,
4.7 Treino da rede com um conjunto treino escolhido utilizando o desenho
experimental 47

Figura 4.7: Gráficos referentes à busca dos mı́nimos de erro para os parâmetros alfa e beta
da função transferência.

desta vez procedeu-se ao treino da rede apenas com 5000 ciclos de treino para todos os
valores dos parâmetros de -1 a 1 com passo 0,01. Relativamente aos outros parâmetros,
tendo em conta os bons resultados obtidos no estudo anterior, foram utilizados os mesmos
valores, ou seja, para a velocidade de aprendizagem o valor de 0,49 e para o momento da
rede o valor de 0,89.
Os resultados obtidos podem ser observados na figura 4.7 onde o gráfico da esquerda
0
representa a variação da % RMS em função dos valores dos parâmetros α e β, da função
transferência, e o gráfico, à direita, uma perspectiva de topo do outro sendo possı́vel obser-
var a superfı́cie de erro em função dos valores dos parâmetros. Para valores do parâmetro
0
α , superiores a 0, em intersecção com toda a gama de valores entre 0 e 1 do parâmetro
β, a rede apresenta um erro bastante baixo. Os valores seleccionados para o treino da
0
rede foram 0,04 para o parâmetro α e -0,73 para o parâmetro β. Apesar da % RMS ser
bastante baixa, procedeu-se de forma semelhante numa busca dos valores da velocidade de
aprendizagem e do momento da rede que minimizassem a % RMS. O treino da rede foi
realizado com 5000 ciclos para todos os valores da velocidade e do momento entre 0 e 1 com
passo 0,01. Na figura 4.8 apresentam-se os resultados obtidos e da sua análise verifica-se
que em quase toda a gama de valores estudada a % RMS é bastante baixa, sendo a única
excepção a área que resulta da intersecção dos valores do momento da rede superiores a
0,2 com os valores da velocidade de aprendizagem superiores a 0,8. Os valores selecciona-
dos foram 0,94 para o momento da rede e 0,03 para a velocidade de aprendizagem. Foi
escolhido um dos menores valores para a velocidade de aprendizagem, para observar qual
48 CAPÍTULO 4. REACTIVIDADE QUÍMICA

Figura 4.8: Gráficos referentes à busca dos valores que minimizam o erro do treino para os
parâmetros velocidade de aprendizagem e momento da rede .

o comportamento da rede a esta velocidade, em contraponto com o primeiro estudo onde


foi utilizada uma velocidade de aprendizagem elevada.
O treino da rede, final foi realizado nas condições expressas na tabela 4.4. O treino da
rede implementada, com estes parâmetros, pode ser observado na figura 4.9 onde é visı́vel
a evolução da % RMS ao longo do número de ciclos de treino. Como é possı́vel constatar,
após 500 ciclos de treino, a % RMS já era inferior a 0,5%, ou seja, como no caso anterior,
a rede já está perfeitamente adaptada ao problema após cerca de 1000 ciclos de treino.
A rede vai ser testada com o mesmo conjunto de 182 ligações, utilizado para o teste da
rede treinada com o conjunto escolhido de forma aleatória. O apêndice F contém as reac-
tividades obtidas para cada quebra de ligação do conjunto teste. Será apenas apresentada
tabela 4.5 com o resumo dos resultados obtidos.
Do conjunto de 182 ligações, utilizadas para o teste da rede, houve apenas 5 quebras
de ligação mal classificadas.

4.8 Comparação dos dois métodos


Comparando os dois métodos, pela tabela 4.6, é possı́vel constatar que os resultados são
bastante semelhantes, quer no treino quer no teste. No entanto, os resultados da rede
treinada com o conjunto de ligações escolhidas com base no desenho da experiência são
ligeiramente melhores.
O número de ciclos necessários para o treino da rede foi de cerca de 2000 em ambos os
casos. Contudo é de salientar que no caso do desenho da experiência foram utilizadas menos
4.8 Comparação dos dois métodos 49

Tabela 4.4: Condições de treino da rede neuronal com o conjunto escolhido com base no
desenho da experiência.

Arquitectura 7×3×1
Algoritmo de Aprendizagem Retro-Propagação
Número de objectos de treino 48
0
Parâmetro α da função transferência 0,04
Parâmetro β da função transferência -0,73
Velocidade de Aprendizagem 0,03
Momento da rede 0,98
Número de ciclos de treino 8000

20
2,5

15 2

1,5
% RMS

% RMS

10

5
0,5

0 0
0 2000 4000 6000 8000 500 1000 1500 2000
Número de ciclos de treino Número de ciclos de treino

Figura 4.9: Gráfico para o treino da rede com os parâmetros optimizados para um treino
de 5000 ciclos e respectivo zoom.

Tabela 4.5: Resultados obtidos para o teste da rede neuronal treinada com um conjunto
de ligações escolhido com base no desenho da experiência.

Resultados Obtidos
Treino - Número de ciclos 2100
Treino - Ligações utilizadas 48
Treino - RMS / % 0,07
Teste - Ligações utilizadas 182
Teste - Ligações mal classificadas 5
Teste - % de ligações mal classificadas 2,7
50 CAPÍTULO 4. REACTIVIDADE QUÍMICA

Tabela 4.6: Comparação dos resultados obtidos para os dois métodos utilizados para a
escolha das ligações do conjunto treino

Escolha Desenho
Aleatória Experimental
Treino - Número de ciclos ' 2000 2100
Treino - Ligações utilizadas 53 48
Treino - RMS / % 0,05 0,07
Teste - Ligações utilizadas 182 182
Teste - Ligações mal classificadas 6 5
Teste - % de ligações mal classificadas 3,3 2,7

Tabela 4.7: Comparação dos resultados obtidos com os da bibliografia [1] (treino da rede
com o conjunto escolhido de forma aleatória).

Resultados Resultados da
Obtidos bibliografia [1]
Treino - Número de ciclos ' 2000 1600
Treino - Ligações utilizadas 53 64
Treino - RMS / % 0,05 0,04
Teste - Ligações utilizadas 182 85
Teste - Ligações mal classificadas 6 7.1
Teste - % de ligações mal classificadas 3,3 8,35

cinco ligações para o treino da rede tendo uma % RMS ligeiramente superior (0,02%). A
% RMS é, no entanto, inferior a 0,01% em ambos os casos, ou seja, tem-se em ambos os
casos um erro insignificante após cerca de 2000 ciclos de treino. No entanto ao observar
os gráficos das figuras 4.5 e 4.9 é possı́vel constatar que em ambos os casos a % RMS era
inferior a 1% aos 500 ciclos de treino, indicando que após a optimização dos parâmetros
da rede neuronal esta se adapta facilmente ao problema. Tal é confirmado quando a rede é
testada. O teste foi feito com 182 ligações sendo de 6 o número de ligações mal classificadas,
para o treino realizado com o conjunto escolhido de forma aleatória, e 5 para o conjunto
escolhido tendo como base o desenho da experiência. Foi obtido assim, em ambos os casos,
uma percentagem de quebras de ligação mal classificadas de cerca de 3%, 3,3 e 2,7 %
respectivamente.
Comparando estes resultados (tabelas 4.7 e 4.8) com os da bibliografia é possı́vel cons-
tatar alguns aspectos relevantes. Um deles é o facto do treino da rede ter sido realizado
com um número inferior de quebras de ligação, respectivamente, 53 (escolha aleatória) e 48
(desenho da experiência) contra 64 utilizadas por Simon et al [1] para o treino. É de referir
4.9 Conclusões 51

Tabela 4.8: Comparação dos resultados obtidos com os da bibliografia [1] (treino da rede
com o conjunto escolhido com base no desenho experimental).

Resultados Resultados da
Obtidos bibliografia [1]
Treino - Número de ciclos 2100 1220
Treino - Ligações utilizadas 48 64
Treino - RMS / % 0,07 0,02
Teste - Ligações utilizadas 182 85
Teste - Ligações mal classificadas 5 3,4
Teste - % de ligações mal classificadas 2,7 4

que os resultados da bibliografia não dizem respeito apenas ao treino de uma rede mas à
média dos resultados de 10 treinos. Estes autores, com base no conjunto de ligações dis-
ponı́veis, procederam ao treino da rede com 10 conjuntos diferentes escolhidos, utilizando
um método, e outros 10 conjuntos escolhidos com base no outro método, cada um com
64 quebras de ligação. Contudo, apesar do treino ter sido levado a cabo com um número
inferior de ligações, a percentagem de ligações mal classificadas foi inferior em ambos os
casos. Para o teste da rede treinada com o conjunto escolhido de forma aleatória, obteve-se
um valor 3,3% de ligações mal classificadas contra 8,35% da referida bibliografia [1], ocor-
rendo assim uma melhoria superior a 5%. Quanto ao teste da rede treinada com o outro
método de escolha de ligações, a diferença já não foi tão grande, continuando no entanto a
ser inferior. Foi obtido um valor de 2,7% contra 4% da bibliografia.
É de salientar, o facto da rede ter sido testada com cerca do dobro das ligações, relati-
vamente ao trabalho da bibliografia enquanto que os conjuntos treino são constituı́dos por
um número inferior de quebras de ligação.

4.9 Conclusões
Tendo em conta os resultados obtidos, verifica-se que a capacidade de previsão é de cerca
de 97% de quebras da ligação. Conclui-se, então, que a rede prevê a reactividade de
acordo com a frequência experimental de quebras de ligação. Pode, ainda, concluir-se que
a rede aprendeu a relação entre os parâmetros electrónicos e energéticos e a propensão
para a quebra de ligação. Um facto que apoia esta afirmação foi o teste realizado para as
duas moléculas extra e para molécula alvo do conjunto teste. Os valores obtidos para a
reactividade das ligações destas moléculas são concordantes com os da bibliografia [1, 2, 5].
A previsão da reactividade das ligações destas moléculas vai sofrer uma atenção em especial,
apesar de estarem incluı́das no conjunto teste, devido às suas caracterı́sticas.
A molécula da figura 4.10 possui o grupo tiol que não existe em nenhuma molécula do
conjunto treino, logo a previsão da reactividade desta molécula é outra boa prova de que
52 CAPÍTULO 4. REACTIVIDADE QUÍMICA

Figura 4.10: Quebras de ligação previstas pela rede neuronal (esquerda) e comparação com
os valores obtidos na bibliografia [5] (direita) para o 10-Bromo-2-deca-3,5,7-trieno-2-tiol.
As setas indicam para qual átomo o par de electrões vai após a quebra da ligação e os
valores a probabilidade de heterólise.

H H O
H
H
P C
H H H N
H

Figura 4.11: Molécula extra (3-ciano-propil-fosfano) e alvo (anisole) do teste da rede .

a rede “aprendeu” a relação entre os parâmetros fı́sico-quı́micos e a reactividade de uma


molécula.
A rede considera a dissociação do ião brometo e do grupo tiol, ambos em posições
alilı́cas, especialmente reactiva, com uma probabilidade de heterólise de 1,0 e 0,92, respec-
tivamente assim como o protão na posição alilı́ca central (0,63) e o protão do grupo tiol
(0,77). Por outro lado, a rede neuronal considera que as posições alilı́cas no fim do sistema
são menos acı́dicas. Estes resultados estão concordantes com os resultados esperados, como
é possı́vel constatar na figura 4.10 onde se faz a comparação dos resultados obtidos com os
da bibliografia [5].
Salienta-se o facto da rede neuronal ter previsto correctamente a reactividade do grupo
tiol, tendo em conta que o conjunto treino não possuı́a nenhuma molécula com este grupo
funcional ou quaisquer átomos de enxofre. A rede consegue, assim, generalizar a partir dos
dados de input, percebendo a informação sobre a influência na reactividade, contida nos
parâmetros electrónicos e energéticos usados como input. Assim podem ser submetidas à
rede tipos de átomos e de ligações que não tenham participado no treino.
Presta-se agora atenção à segunda molécula extra, considerada no conjunto treino (fi-
gura 4.11). Esta molécula possui um átomo de fósforo e um grupo nitrilo, ou seja, ligações
que também não foram fornecidas para o treino da rede constituindo assim mais um bom
teste para esta. As fosfinas são ácidos fracos estando a previsão da perda de um protão
como não reactiva concordante com a baixa acidez da ligação P-H. Quanto à quebra de
ligação carbono-carbono do átomo do carbono central ao carbono adjacente ao grupo ni-
trilo a classificação como não reactiva está igualmente correcta, tendo em conta os valores
4.9 Conclusões 53

da bibliografia [2]. A desprotonação de um grupo metileno, adjacente ao grupo nitrilo, é


outra reacção com probabilidade de ocorrer, assim como, a perda do ião cianeto, ambas
concordantes com a informação retirada da bibliografia [2]. Por fim a heterólise de uma li-
gação C-N, no grupo nitrilo, é semelhante à quebra polar no grupo carbonilo. Esta quebra,
classificada como reactiva pela rede, está concordante com os dados experimentais retira-
dos da bibliografia visto que a hidrólise básica do nitrilo mostra que o ataque nucleófilo,
no átomo de carbono do nitrilo, acontece na realidade.
Por fim, é de chamar a atenção para a molécula alvo, o anisole. Não tendo informação
sobre a reactividade desta molécula obtida por via teórica pode-se, mesmo assim, tirar
algumas conclusões sobre os valores obtidos.
O anisole é um benzeno monosubstı́tuido e sendo assim, em principio, as ligações C-C
do anel serão pouco reactivas devido à sua aromaticidade que lhe confere uma estabilidade
adicional. Tal facto é concordante com os resultados obtidos visto que todas as quebras
de ligação C-C são dadas pela rede como não reactivas. Preste-se agora atenção sobre
as possı́veis perdas de protão e de hidreto por parte do anel benzénico. Relativamente
à perda de hidretos todas as possibilidades têm uma reactividade zero visto que não é
favorável a perda de H − por parte da molécula. Quanto à perda de protões, a rede prevê
que este tipo de quebra de ligação ocorra. Contudo, é necessário analisar os resultados
obtidos. A rede prevê uma reactividade de 0,9 para o protão na posição orto, de 0,7
para a posição meta e de cerca de 0,8 para a posição para, ou seja, ela prevê que estes
hidrogénios tenham um caracter acı́dico mas com valores diferentes consoante a posição no
anel. Será que a rede consegue perceber quais os hidrogénios mais acı́dicos na molécula,
interpretando assim a influência que o grupo metóxido possa ter na reactividade do anel
aromático? O grupo metóxido é um grupo aceitador de carga por efeito indutivo, devido à
sua elevada electronegatividade em comparação com os outros átomos da molécula, então
em principio, o protão na posição orto será o mais acı́dico visto que, por efeito indutivo,
ocorre deslocalização de carga para o oxigénio, havendo enfraquecimento da ligação C-H.
Nas posições meta e para, o efeito indutivo já não se faz notar com tanta intensidade, sendo
a sua acidez menor relativamente ao hidrogénio da posição orto. Os resultados obtidos são,
assim, concordantes com esta análise. Em termos de perda de protões é de focar, também,
a perda de protão por parte do grupo metilo que é igualmente influenciada pelo oxigénio. A
electronegatividade do oxigénio provoca, igualmente, um aumento de acidez deste protão,
sendo a quebra desta ligação favorável o que foi prevista pela rede. Falta então estudar as
quebras de ligação que envolvem directamente o grupo metóxido. Para melhor compreender
estes resultados vai-se recorrer a dados da espectrometria de massa para moléculas deste
tipo, ou seja, éteres aromáticos.
Os éteres aromáticos têm, em espectrometria de massa, picos moleculares bastante
caracterı́sticos estando os seus produtos de fragmentação no espectro de massa directamente
relacionados com a presença do anel aromático [72,73]. As quebras de ligações em moléculas
do tipo Ar − O − R, envolvem quebras de ligação C-O ocorrendo a formação de catiões
arilo e arilóxido [72, 73]. Nas reacções do anisole, a carga positiva tende a ficar no anel, ou
seja havendo a formação dos fragmentos Ar + e Ar − O + . No primeiro caso, a rede está
de acordo com este mecanismo visto que para dissociação do grupo metóxido, ficando o
54 CAPÍTULO 4. REACTIVIDADE QUÍMICA

benzeno com a carga positiva, a rede prevê uma reactividade de 0,92 enquanto que para a
quebra em sentido oposto uma reactividade de 0. Resta apenas estudar a reactividade do
grupo metilo. Segundo o mecanismo já apresentado, a molécula deveria quebrar segundo
o sentido O-Me, no entanto, para esta quebra de ligação a rede prevê uma reactividade de
0, enquanto para a quebra em sentido contrário a rede prevê uma probabilidade de quebra
de ligação de 0,99. Esta é a única quebra de ligação, das três moléculas estudadas, em
que a previsão da rede apresenta uma reactividade contrária à dos valores da bibliografia.
Além deste erro, existem mais alguns no conjunto teste sendo estes aceitáveis tendo em
conta o pequeno e pouco diversificado conjunto treino utilizado. Estes não serão estudados
visto que o importante e interessante era verificar como a rede reagia na classificação de
tipos de ligações que não estavam contidas no conjunto treino, tendo-se verificado uma boa
resposta por parte dela.
Apesar da rede apresentar já uma capacidade de previsão de cerca de 97%, seria curi-
oso verificar se estes resultados poderiam ser melhorados. Existem várias alterações que
poderiam ser implementadas, para tentar melhorar a capacidade de previsão da rede. A pri-
meira medida a tomar seria aumentar o número de moléculas do conjunto treino dotando-o
de uma maior diversidade de ligações para este se tornar mais representativo de todas as
ligações que podem ocorrer em moléculas orgânicas. Por outro lado, apesar do desenho da
experiência dar já uma certa segurança na escolha das ligações para o conjunto treino não
seria de descurar a implementação de uma rede de Kohonen para realizar o mapeamneto
das ligações. Após o mapeamento das ligações num plano, em principio, este mapeamento
iria conservar todas as propriedades fı́sico-quı́micas das ligações, ficando as mais semelhan-
ças na mesma zona do plano ou em zonas vizinhas. Este método, em relação ao desenho da
experiência, tem a vantagem de levar em linha de conta todos os parâmetros fı́sico-quı́micos
em vez de apenas quatro. Outra alteração que poderia ser feita diz respeito ao algoritmo
de aprendizagem. Apesar do algoritmo de Retro-Propagação ser dos mais utilizados em
aplicações à quı́mica, oferecendo bons resultados, não significa que seja a melhor solução
para o problema. Existem outros algoritmos que podem ser experimentados, tais como o
algoritmo de Contra-Propagação entre outros.
Capı́tulo 5

Considerações finais

“There is nothing more difficult to take in hand, more perilous to conduct, or more uncertain
in its success, than to take the lead in the introduction of a new order of things.”

Niccolo Machiavelli, The Prince

“One machine can do the work of fifty ordinary men. No machine can do the work of
one extraordinary man.”

Elbert Hubbard

Com o aparecimento de novos algoritmos de aprendizagem torna-se cada vez mais atrac-
tiva a aplicação de redes neuronais em quı́mica. Elas possibilitam a resolução de problemas
de classificação, modelação, associação e mapeamento permitindo assim a resolução de um
grande número de problemas.
É de salientar, que a resolução de alguns dos problemas pode ser realizada recorrendo
a métodos estatı́sticos ou de reconhecimento de padrões, contudo, as redes neuronais apre-
sentam capacidades que ultrapassam as possibilidades dos métodos tradicionais de análise
de dados. É de especial importância o facto de as relações entre os dados de input e os va-
lores de output não precisarem de ser especificadas numa forma matemática, sendo aquelas
relações representadas implicitamente o que permite a modelação de relações não-lineares.
O uso de redes neuronais requer alguma experiência sendo de grande importância, para a
resolução do problema, a estratégia seguida para a representação de dados. Quanto melhor
a informação quı́mica a ser processada for “codificada” mais fácil se tornará a resolução do
problema.
Quer a aplicação das redes neuronais ao problema da reactividade quı́mica quer os
problemas relacionados com a espectrometria de massa são exemplos da capacidade das
redes neuronais para a resolução de problemas de classificação em quı́mica. Em ambos
os casos as redes mais têm arquitecturas de multi-camada treinadas com o algoritmo de
aprendizagem de Retro-Propagação.

55
56 CAPÍTULO 5. CONSIDERAÇÕES FINAIS

A complexidade do problema a resolver, que pode implicar um número de dados de


treino elevado, pode levar a um aumento no tempo de treino. Isto, no entanto, não deve
causar apreensão visto que uma rede para a resolução de um problema em especial só
precisa de ser treinada uma vez. Após o treino as previsões de novos resultados é feita
rapidamente.
O potencial das redes neuronais para o processamento de informação quı́mica está
ainda bem longe de ser totalmente explorado. Em quı́mica, a maior parte das tarefas, diz
respeito à atribuição de objectos a uma certa categoria ou à previsão de caracterı́sticas de
objectos, daı́ a grande aplicação do algoritmo de aprendizagem de Retro-Propagação. Tal
não implica, contudo, que este seja o melhor algoritmo de aprendizagem e que resolva mais
facilmente os problemas. Na verdade, este algoritmo ganhou uma grande popularidade de
inı́cio devido à sua capacidade de resolução de problemas de classificação e a sua facilidade
de implementação relativamente a outros, não sendo assim de estranhar o seu sucesso.
No entanto existem algoritmos mais complexos que começam agora a ser usados para a
resolução dos mais diversos problemas.
Relativamente aos exemplos mostrados, é fácil observar o que as redes neuronais trazem
relativamente a aplicações à espectrometria de massa. Esta é uma técnica analı́tica aplicada
a várias áreas tais como pesquisa ambiental, indústria, medicina, agricultura, biologia e
até no desporto (casos de análises anti-doping, por exemplo) entre outras.
O grande desenvolvimento que a espectrometria de massa conheceu nos últimos anos,
permite uma análise de misturas cada vez mais complexas tornando-a uma técnica analı́tica
cada vez mais poderosa. A aplicação de redes neuronais à espectrometria de massa pode
dar também um contributo. Se pensarmos, por exemplo, nas vantagens das redes de
computadores e o desenvolvimento de software adequado, para a construção e acesso a
extensas bibliotecas de espectros e a respectiva comparação dos espectros obtidos com os
da biblioteca, trouxeram concluir, após observar os exemplos dados, que as redes neuronais
têm muito a oferecer à espectrometria de massa tornando a análise dos resultados muito
mais fácil e rápida.
Os exemplos dados foram escolhidos de forma a mostrar o quanto são variadas as
aplicações das redes neuronais à espectrometria de massa desde a identificação de vários
tipos de cereais, caracterização de vários tipos de vinagres, determinação da origem de
um dado tipo de azeite ou se este está adulterado com outros óleos ou não, análise de
combustı́veis entre muitas outras. Uma análise que após a obtenção do espectro poderia
ser morosa até se chegar a uma conclusão se existir uma rede neuronal, treinada e testada
para a resolução do problema em questão, basta transformar os dados do espectro no
objecto de input introduzi-lo na rede e o resultado é dado quase instantaneamente. É de
referir igualmente a aplicação das redes neuronais artificiais a outras áreas da quı́mica.
Além das aplicações à espectrometria de massa referidas existem muitas mais aplicações
a outras técnicas analı́ticas tais como, por exemplo, a ressonância magnética nuclear e a
espectroscopia de infra-vermelho que foram também abordadas neste trabalho ficando claro
a preciosa ajuda que as redes neuronais podem dar a problemas de análise quı́mica.
Quanto, a aplicações a outras áreas da quı́mica, foram abordadas as aplicações à quı́mica
orgânica, onde as redes mostraram a sua capacidade quando aplicadas a problemas de
57

previsão de ocorrência de reacções quı́micas, e à quı́mica-fı́sica. As aplicações à quı́mica


fı́sica feitas até agora incidiram principalmente sobre a previsão de propriedades fı́sico-
quı́micas de átomos e moléculas tais como potenciais de ionização, pontos de ebulição
e solubilidades entre outras. Contudo, não é de descartar, a possibilidade de existirem
nesta área outras aplicações em que ainda não se aproveitou todo o potencial das redes
neuronais artificiais. Devido ao grande desenvolvimento tecnológico dos últimos 50 anos,
que permite uma velocidade de cálculo impensável há alguns anos, problemas de grande
complexidade que no passado não tinham hipótese de resolução em tempo útil começam
agora a ser resolvidos. No entanto muitos destes problemas são abordados com métodos já
implementados para os casos mais simples. Será que em vez de se apostar em novos métodos
de resolução dos problemas, se apostará cada vez mais no desenvolvimento de tecnologia
que permita a sua resolução cada vez mais rápido pelos métodos antigos? Uma coisa é
certa. As redes neuronais devido à sua grande flexibilidade, garantida pela carácter não
linear da função transferência e um conjunto de pesos que lhe garante graus de liberdade
suficiente para se adaptar ao problema, tem capacidade para resolver problemas complexos
de natureza não linear. As redes neuronais podem assim, com certeza, oferecer uma nova
forma de abordagem a vários problemas da quı́mica-fı́sica dando o seu contributo para
resolução destes.
Relativamente à aplicação das redes neuronais ao estudo da reactividade quı́mica é de
focar o sucesso da presente aplicação tendo sido implementada uma rede que aprendeu a
relação entre um conjunto de parâmetros de natureza energética e electrónica e a reacti-
vidade de ligações quı́micas realizando a previsão para uma grande gama de compostos
orgânicos com um sucesso de cerca de 97%.
Por último, é de salientar que apesar da aplicação de redes neuronais em quı́mica ser
ainda relativamente jovem e longe de estar totalmente explorado, principalmente em Por-
tugal onde estão a ser dados ainda os primeiros passos, existe já um grande número de
publicações nas áreas da espectrometria de massa, , bacteriologia, microbiologia, biotec-
nologia, quı́mica ambiental, controlo de qualidade de alimentos, análise de combustı́veis,
análise de pesticidas, etc. o que reforça a confiança no seu potencial e na sua capacidade
para, num futuro próximo, ser uma ferramenta a utilizar por qualquer quı́mico para uma
mais rápida resolução dos seus problemas.
58 CAPÍTULO 5. CONSIDERAÇÕES FINAIS
Bibliografia

[1] Vera Simon, Johann Gasteiger, Jure Zupan, J. Am. Chem. Soc. 1993, 115, 9148-9159

[2] J. Gasteiger, K. P. Schulz, J. Chem. Inf. Sci, 1993, 33, 385-394

[3] K. P. Schulz, J. Gasteiger, J. Chem. Inf. Sci, 1993, 33, 395-406

[4] J. Zupan, J. Gasteiger., Neural Networks in Chemistry and Drug Design, WILEY-
VCH, Weinheim, 1999

[5] J. Zupan, J. Gasteiger, Angew. Chem. Int. Ed. Engl. 1993, 32, 503-527

[6] Simon Haykin, Neural Networks - A Comprehensive Foundation, Prentice Hall, New
Jersey, 1999

[7] Dan W. Patterson, Artificial Neural Networks - Theory and Applications, Prentice
Hall, Singapore, 1996

[8] J. Zupan, J. Gasteiger, Analytica Chimica Acta, 1991, 248, 1-30

[9] P. R. Schleyer, N. L. Allinger, T. Clark, J. Gasteiger, P. A. Kollman, H. F. Schaefer


III, P. R. Schreiner, Encyclopedia of Computational Chemistry Tomo 3, 1999, John
Wiley & sons, Chichester, UK

[10] James A. Freeman, Simulating Neural Networks with Mathematica, 1994, Addison
Wesley, USA

[11] Hugh M. Cartwright, Aplications of Artificial Intelligence in Chemistry, Oxford, 1993

[12] Thomas L. Isenhour, Peter C. Jurs, Analytical Chemistry, 1971, 43, 20A-35A

[13] http://www.pfizer.com/brain/images/neuron large.gif

[14] B. Curry, D. E. Rumelhart, Tetrahedron Comput. Methodol., 1990, 3, 213-238

[15] H. Lohninger, F. Stancl, Fresenius J. Anal. Chem., 1992, 344, 186-189

[16] Morton E. Munk, Mark S. Madison, J. Chem. Inf. Comput. Sci., 1996, 36, 231-238

59
60 BIBLIOGRAFIA

[17] A. Eghbaldar, T. P. Forrest, D. Cabrol-Bass, Analytica Chimica Acta, 1998, 359, 283-
301

[18] Goodacre R, Kell DB, Bianchi G, Journal of the Science of Food and Agriculture,
1993, 63 (3), 297 - 307

[19] Yang H, Ring Z, Briker Y, McLean N, Friesen W, Fairbridge C, Fuel, 2002, 65 - 74

[20] Bloch HA, Petersen M, Sperotto MM, Kesmir C, Radzikowski L, Jabobsen S, Sonder-
gaard I, Rapid Comunications in Mass Spectrometry, 2001, 440 - 445

[21] Sebastian I, Viallon C, Tournayre P, Berdague JL, Analusis, 2000, 28 (2), 141 -147

[22] Wan CH, Harrington PD, Analytica Chimica Acta, 2000, 408 (1-2), 1 - 12

[23] Tong CS, Cheng KC, Chemometrics and Intelligent Laboratory Systems, 1999, 49 (2),
135 - 150

[24] Basu B, Singh MP, Kapur GS, Ali N, Sastry MIS, Jain SK, Srivastava SP, Bhatnagar
AK, Tribology International, 1998, 31 (4), 159 - 168

[25] Kenyon RGW, Fergusson EV, Ward AC, Zentralblatt Fur Bakteriologie - International
Journal of Medical Microbiology Virology and Infectious Diseases, 1997, 285 (2), 267
- 277

[26] Salter GJ, Lazzari M, Giansante L, Goodacre R, Jones A, Surricchio G, Kell DB,
Bianchi G, Journal of Analytical and Applied Pyrolysis, 1997, 40 - 1, 159 - 170

[27] Jure Zupan, Marjana Novic, Analytica Chimica Acta, 1994, 292, 219-234

[28] Montanarella L, Bassani MR, Breas O, Rapid Communications in Mass Spectrometry,


1995, 9 (5), 1589 - 1593

[29] James R. Long, Howard T. Mayfield, Michael V. Henley, Anal. Chem., 1991, 63,
1256-1261

[30] A. Bos, M. Bos, W. E. van der Linden, Analytica Chimica Acta, 1993, 277, 289-295

[31] Matevz Pompe, Marko Razinger, Marjana Novic, Marjan Veber, Analytica Chimica
Acta, 1997, 348, 215-221

[32] Gaston Bocaz-Beneventi, Rosa Latorre, Marta Farková, Josef Havel, Analytica Chi-
mica Acta, 2002, 452, 47-63

[33] Davi W. Elrod, Gerald M. Maggiora, J. Chem. Inf. Comput. Sci., 1990, 30, 477-484

[34] V. Kvaniscka, J. Pospı́chal, Journal of Molecular Struture (Theochem), 1991, 235,


Elsevier Science Publishers, Amesterdam
BIBLIOGRAFIA 61

[35] Lingran Chen, Johann Gasteiger, Angew. Chem. Int. Ed. Engl., 1996, 35, nž7

[36] Lingran Chen, Johann Gasteiger, J. Am. Chem. Soc., 1997, 119, 4033-4042

[37] Marjana Novic, Jure Zupan, J. Chem. Inf. Comput. Sci, 1995, 35, 454-466

[38] Christoph Klawun, Charles L. Wilkins, J. Chem. Inf. Comput. Sci, 1996, 36, 69-81

[39] Christophe Cleva, Claude Cachet, Daniel Cabrol-Bass, Thomas P. Forrest, Analytica
Chimica Acta, 1997, 348, 255-265

[40] H. J. Luinge, M. H. Langoor, J. H. van der Maas, Analytica Chimica Acta, 1997, 348,
471-480

[41] J. Gasteiger, J. Schuur, P. Selzer, L. Steinhauer, Fresenius J. Anal. Chem., 1997, 359,
50-55

[42] Markus C. Hemmer, Valentin Steinhauer, Johann Gasteiger, Vibrational Spectroscopy,


1999, 19, 151-164

[43] Johann Gasteiger, Mario Marsili, Tetrahedron, 1980, 36, 3219-3228

[44] Maria D. Guillen, J. Gasteiger, Tetrahedron, 1983, 39, 1331-1335

[45] Wilfried J. Mortier, Karin Van Genechten, Johann Gasteiger, J. Am. Chem. Soc.,
1985, 107, 829-835

[46] U. M. Weigel, R. Herges, Analytica Chimica Acta, 1996, 331, 63-74

[47] Michael E. Sigman, Stephen S. Rives, J. Chem. Inf. Comput. Sci., 1994, 34, 617-620

[48] Johann Gasteiger, Xinzhi Li, Angew. Chem. Int. Ed. Engl., 1994, 33

[49] Lowell H. Hall, C. T. Story, J. Chem. Inf. Comput. Sci., 1996, 36, 1004-1014

[50] Eric S. Goll, P. C. Jurs, J. Chem. Inf. Comput. Sci., 1999, 39, 974-983

[51] Brooke E. Mitchell, Peter C. Jurs, J. Chem. Inf. Comput. Sci., 1998, 38, 489-496

[52] J. U. Thomsen, B. Meyer, Journal of Magnetic Ressonance, 1989, 84, 212-217

[53] J. P. Doucet, A. Panaye, E. Feuilleaubois, P. Lass, J. Chem. Inf. Comput. Sci., 1993,
33, 320-324

[54] Geoffrey M. J. West, J. Chem. Inf. Comput. Sci., 1995, 35, 21-30

[55] Geoffrey M. J. West, J. Chem. Inf. Comput. Sci., 1995, 35, 806-814

[56] Daniel Svozil, Jiri Pospichal, Vladimir Kvasnicka, J. Chem. Inf. Comput. Sci., 1995,
35, 924-928
62 BIBLIOGRAFIA

[57] João Aires de Sousa, Markus C. Hemmer, Johann Gasteiger, Anal. Chem., 2002, 74,
80-90

[58] J. Gasteiger, H. Saller, Angew. Chem. 1985, 97, 699-701

[59] M. G. Hutchings, J. Gasteiger, Tetrahedron Lett., 1983, 24, 2541-2544

[60] J. Gasteiger, M. G. Hutchings, J. Chem. Soc., Perkin Trans. 2, 1984, 559-564

[61] J. Gasteiger, Tetrahedron, 1979, 35, 1419-1426

[62] Research Group of Johann Gasteiger, Techniques for Organic Reactions, Visualization
and Spectroscopy - PETRA (Parameter Estimation for the Treatment of Reactivity
Applications - Version 2.6, 1999, Computer-Chemie-Centrum University of Erlangen-
Nuernberg (http://www2.ccc.uni-erlangen.de)

[63] D. L. Massart, B. G. M. Vandeginste, S. N. Deming, Y. Michote, L. Kaufman, Che-


mometrics: a Textbook, 1988, Elsevier

[64] S. Akhnazarov, V. Kafarov, Experiment Optimization in Chemistry and Chemical


Engineering, 1978, MIR Publishers, Moscow

[65] R. Keller, J. M. Mermet, M. Otto, H. M. Widmer, Analytical Chemistry, 1998, Wiley-


VCH

[66] J. Gasteiger, M.Marsili, M. G. Hutchings, H. Saller, P. Low, P. Rose, K. Rafeiner, J.


Chem. Inf. Comput. Sci., 1990, 30, 467-476

[67] Hinze, Jaffe, J. Am. Chem. Soc., 1962, 84, 540

[68] Hinze, Jaffe, J. Am. Chem. Soc., 1963, 85, 148

[69] Hinze, Jaffe, J. Phys. Chem., 1963, 67, 1501

[70] Johann Gasteiger, Michael G. Hutchings, J. Chem. Soc. Perkin Ttrans. II, 1984, 559-
564

[71] Johann Gasteiger, Michael G. Hutchings, J. Am. Chem. Soc., 106, 1984, 6489-6495

[72] Terrence A. Lee, A Beginner’s Guide to Mass Spectral Interpretation, 1998, Wiley

[73] Thomas N. Sorrell, Interpreting Spectra of Organic Molecules, 1988, University Science
Books
Apêndice A

Exemplos de Aplicações

I
II APÊNDICE A. EXEMPLOS DE APLICAÇÕES
III

Tabela A.1: Estratégias de aprendizagem de redes neuronais e suas aplicações em diferentes


tipos de problemas. [5]

Rede de Rede Rede de Back- Counter-


Hopfield ABAM Kohonen Propagation Propagation

Classificação ? ? ? ?

Modelação ? ?

Associação ? ? ? ?

Mapeamento ? ?

Processo Sem Com e sem Sem Com Com


de aprendizagem supervisão supervisão supervisão supervisão supervisão
IV APÊNDICE A. EXEMPLOS DE APLICAÇÕES

Tabela A.2: Exemplos de aplicações em quı́mica. BPE: Retro-Propagação of error s, KL:


Kohonen Learning, CP: Counter-Propagation, MW: Moving Window, GA: Genetic Algo-
rithm, QSAR: Quantitative Struture-Activity Relatioships. [4]

Tamanho
Problema Tipo de problema Método
da rede
Classificação
Origem de azeites Médio BPE+KL
Mapeamento
Reactividade de Classificação
ligações Pequeno KL+BPE
Mapeamento
Classificação de
Classificação Médio KL
reacções

Separação em HPLC Modelação Pequeno BPE

QSAR Modelação Pequeno BPE


Classificação
QSAR Médio KL+BPE
Modelação
Selecção de variáveis
QSAR Médio GA+CP
Modelação
Substituição electrófilica
Modelação Pequeno BPE
aromática

Estudo de tintas Modelação Pequeno BPE


Classificação
Processos de controlo Pequeno BPE+CP+MW
Modelação
Estrutura de proteı́nas Classificação Grande BPE+MW
Correlação espectro
Classificação
Grande BPE+KL
de infravermelho-estrutura Mapeamento
Simulação de espectro de
Classificação
Grande CP
infra-vermelho Modelamento

Superfı́cies moleculares Mapeamento Grande KL


Correlação espectro
Classificação Grande BPE
de massa-estrutura
Apêndice B

Algoritmos

V
VI APÊNDICE B. ALGORITMOS
VII

Algoritmo de Aprendizagem de Retro-Propagação

Basicamente o procedimento de aprendizagem envolve os seguintes passos:

? Introduzir um objecto (input) X (x1 , x2 , ..., xm )na rede


? “Rotular” os componentes xi do objecto de input X como out0i e adicionar uma
componente 1 para o bias. O vector de input fica então Out0 (out01 , out02 , ..., out0m , 1)
? Propagar Outl pelas camadas da rede, por estimativa consecutiva dos vectores de
output Outl . Para tal, usa-se os pesos wji
l
da camada l e o output outl−1
i (da camada
anterior) que funciona como output da camada l

m
!
outlj = f l
outl−1
X
wji i
i=1

onde f é a função transferência escolhida (na maior parte dos casos é a função sigmóide)

? Calcular o factor de correcção para todos os pesos na camada de output δ jlast usando
o vector de output Out last e o vector alvo Y de acordo com a expressão:

   
δjlast = yj − outlast
j outlast
j 1 − outlast
j

? Corrigir todos os pesos da última camada, pela expressão:

last last(previous)
∆wji = ηδjlast outilast−1 + µ∆wji

? Calcular, consecutivamente, camada a camada, os factores de correcção δ jl para as


camadas ocultas desde l=final-1 a l=1

r
!
 
δjl δkl+1 outl+1 outlj 1 − outlj
X
= j
k=1

? Corrigir todos os pesos wji na camada l

l l(previous)
∆wji = ηδjl outl−1
i + µ∆wji

Repetir o procedimento com um novo par input:alvo (O número de dados utilizados


para o treino da rede deve ser, no mı́nimo, tão grande como o número de pesos).
Antes de se iniciar o treino, devem ser cumpridas três etapas: escolha da arquitectura da
rede neuronal, geração aleatória dos pesos iniciais, selecção da velocidade de aprendizagem
e do momento da rede.
VIII APÊNDICE B. ALGORITMOS
Apêndice C

Determinação dos Parâmetros


Fı́sico-Quı́micos

IX
X APÊNDICE C. DETERMINAÇÃO DOS PARÂMETROS...
XI

Diferença de Electronegatividade σ, ∆χσ


XII APÊNDICE C. DETERMINAÇÃO DOS PARÂMETROS...

Diferença de Carga Π, ∆qΠ


XIII

Estabilização por Ressonância, R±


XIV APÊNDICE C. DETERMINAÇÃO DOS PARÂMETROS...

Polarizabilidade, αb
XV

Diferença de Carga Total, ∆qtot


XVI APÊNDICE C. DETERMINAÇÃO DOS PARÂMETROS...

Polaridade, Qσ
XVII

Energia de Dissociação da Ligação, BDE


XVIII APÊNDICE C. DETERMINAÇÃO DOS PARÂMETROS...
Apêndice D

Detalhes sobre o Método LoRA

XIX
XX APÊNDICE D. DETALHES SOBRE O MÉTODO LORA
XXI

A análise por regressão logı́stica, LoRA, estende as técnicas de regressão linear múltipla
a situações onde a resposta a dar é categórica. Estas situações são muito comuns, sendo o
caso da reactividade de ligações um dos casos onde pode ser aplicado este método.
O modelo para a análise por regressão logı́stica assume que a variável de resposta Y
é categórica. Contudo, o LoRA não modela esta a variável de resposta directamente.
Este método baseia-se nas probabilidades associadas com os valores Y . A proporção da
população dos casos para que Y = 1, ligação reactiva, é definida como:

Π = P (Y = 1) (D.1)
e a proporção teórica, dos casos para Y = 0, é:

1 − Π = P (Y = 0). (D.2)
Na ausência de outra informação, Π deve ser estimado pela amostra de proporção de
casos para Y = 1. Contudo, no contexto da regressão assume-se que existe um conjunto
de variáveis preditoras (X = x1 , x2 , ..., xp ), neste caso são os parâmetros fı́sico-quı́micos,
que se relacionam com Y e que dão a informação necessária para fazer a sua previsão.
Sendo assim, a probabilidade da ligação ser reactiva passa a ser:

Π(X) = P (Y = 1 | x1 , x2 , ..., xp ) (D.3)


e a probabilidade da ligação não ser reactiva será:

1 − Π(X) = P (Y = 0 | x1 , x2 , ..., xp ) (D.4)

A expressão para o cálculo da reactividade será:


" # " # p
P (Y = 1 | x1 , x2 , ..., xp ) Π (X) X
ln = ln = β0 + β1 x1 + ... + βp xp = β0 + βj xj
1 − P (Y = 1 | x1 , x2 , ..., xp ) 1 − Π (X) j=1
(D.5)
Note-se que neste modelo Π é uma probabilidade condicional como mostra a expressão
D.3, ou seja, a reactividade depende da combinação de valores das variáveis preditoras. A
expressão D.5 pode ser escrita da seguinte forma:

p
X
!
β0 + βxj
exp j=1 1
P (Y = 1 | x1 , x2 , ..., xp ) = p ! = p ! (D.6)
X X
β0 + βxj − β0 + βxj
1 + exp j=1 1 + exp j=1

Os parâmetros que têm de ser quantificados são a constante β0 e os coeficientes de


regressão logı́stica βj . Devido à natureza do modelo a estimação é baseada no principio da
probabilidade máxima. Constrói-se a função de semelhança que expressa a probabilidade
XXII APÊNDICE D. DETALHES SOBRE O MÉTODO LORA

dos dados observados em função dos parâmetros desconhecidos. Depois serão obtidos os
estimadores de semelhança desses parâmetros que maximizam a função de semelhança. No
processo são escolhidos os estimadores que fazem a previsão mais próxima da realidade.
Para um conjunto de dados (Xi , yi ),onde Xi é o vector de variáveis preditoras para o
objecto i, a contribuição para a função de semelhança é Π(Xi ), onde yi = 1 e 1 − Π(Xi ),
onde yi = 0. A equação seguinte fornece a contribuição para a função de semelhança para
a observação (Xi , yi ): h i
ζ(Xi ) = Π(Xi )yi 1 − Π(Xi )1−yi (D.7)
Esta equação é apenas para um único conjunto de observações. As observações são
assumidas como sendo independentes umas das outras. Sendo assim, pode-se multiplicar
as suas contribuições para obter a função de semelhança. O resultado é dado por:
n
Y
l (B) = ζ(Xi ) (D.8)
i=1

onde B é o conjunto de parâmetros β0 , β1 , ..., βj e l(B) é a função de semelhança de B.


A estimativa por probabilidade máxima pode ser obtida calculando B de forma a ma-
ximizar l(B). Contudo, para simplificar vai ser aplicado logaritmos à expressão D.8, depois
de encontrar o valor de B que maximiza a função de semelhança, obtendo-se a seguinte
expressão:
n
X
L(B) = ln [l(B)] = yi ln [Π(Xi )] + (1 − yi ) ln [1 − Π(xi )] (D.9)
i=1

Para determinar o valor de B que maximiza L(B) faz-se a derivada relativamente a


β0 , β1 , ..., βj e igualam-se as derivadas resultantes a zero. As expressões obtidas vão ser
da forma: n X
[yi − Π(Xi )] = 0 (D.10)
i=1

para β0 e
n
X
xik [yi − Π(Xi )] = 0 para K = 1, 2, ..., j (D.11)
i=1

para as variáveis preditoras β1 , β2 , ..., βj .


Apêndice E

Detalhes sobre o PETRA

XXIII
XXIV APÊNDICE E. DETALHES SOBRE O PETRA
XXV

O PETRA é um programa que contém vários métodos implementados, todos de natu-


reza empı́rica, que têm sido desenvolvidos ao longo dos anos no grupo de investigação de
J. Gasteiger, para o cálculo de propriedades fı́sico-quı́micas em moléculas orgânicas [62].
Mostra-se em seguida como os parâmetros fı́sico-quı́micos são calculados.

Energia de Dissociação da Ligação, BDE

A energia de dissociação da ligação é a energia necessária para a quebra da ligação em


dois radicais (processo homolı́tico).
A − B → A. + B . (E.1)
Esta energia pode ser calculada a partir das entalpias de formação da molécula e dos
dois radicais formados pela quebra da ligação.
BDE(A − B) = ∆Hf0 (A. ) + ∆Hf0 (B . ) − ∆Hf0 (A − B) (E.2)
As entalpias de formação da molécula neutra e dos dois radicais são calculadas pelo
método descrito de seguida.
Exemplo: Cálculo da energia de dissociação de uma ligação de um éter no metiléter:

BDE = (((142, 2 + (−21, 0)) − (−215, 4))kJ/mol = 336, 6kJ/mol

A energia de dissociação da ligação é um factor fundamental para a influência na reac-


tividade quı́mica [62, 66]. No entanto a sua determinação necessita de um cálculo prévio
das entalpias de formação.
A entalpia de formação (∆Hf0 ) é estimada a partir das contribuições aditivas das su-
bestruturas de uma molécula. As subestruturas, e os valores da sua contribuição para a
entalpia de formação, estão guardados numa base de dados no programa. A precisão de
um sistema aditivo, para estimar propriedades moleculares, é fortemente dependente do
número de parâmetros seleccionados, ou seja, do tamanho máximo das subestruturas con-
sideradas para a aproximação. Com o aumento do número de parâmetros, a precisão para
reproduzir valores experimentais aumenta. Contudo, a capacidade de previsão diminui se
as subestruturas estiverem presentes em estruturas com propriedades que não foram ainda
parametrizadas [61,62]. É escolhido um esquema que trabalha com subestruturas com dois,
três e quatro átomos que cobrem a interacção de átomos sobre uma, duas ou três ligações
(interacções 1,2-; 1,3- e 1,4-)
XXVI APÊNDICE E. DETALHES SOBRE O PETRA

Figura E.1: Geração da base de dados [62].

Número de Contribuição
Subestruturas
ocorrências em kJ/mol
H H H
C-H 7 415,97
H C C C H C-C 2 332,82
O-H 1 463,48
H O H O-C 1 326,22
C-C-C 1 9,69
H
O-C-C 2 23,53
O-C-(-C)-C 1 -6,28

(energia da contribuiao de todas as subestruturas)


= 4417, 63kJ/mol
P

(energia de atomizaao dos elementos) = 4146, 10kJ/mol


P

∆Hf0 = (4146, 10 − 4417, 63)kJ/mol = −271, 53kJ/mol

Figura E.2: Cálculo da entalpia de formação do 2-propanol [62].

Para manter o número de parâmetros em limites razoáveis, as subestruturas para as


interacções 1,4 (A − B − C − D) são apenas consideradas quando a ligação central é
uma ligação dupla (B = C). O valor da contribuição de uma subestrutura é obtido
por análise estatı́stica (análise de regressão multi-linear, MLRA) de entalpias de formação
experimentais [62]. Esses dados são guardados numa base de dados podendo o esquema
ser reparametrizado quando novos dados experimentais são adicionados (figura E.1).
As interacções que envolvem átomos de hidrogénio são consideradas apenas para li-
gações (A − H) sendo consideradas zero para subestruturas maiores. Estruturas como
pequenos anéis e sistemas aromáticos, influenciam bastante as entalpias de formação e,
sendo assim, parâmetros adicionais como energias de deslocalização aromática e outros
devem ser considerados. A figura E.2 mostra como é calculada a entalpia de formação da
2-propanona.
XXVII

Distribuição de carga σ
A noção de cargas parciais nos átomos de uma molécula é bastante usada pelos quı́-
micos. Contudo, recorde-se, que este conceito é reflexo da distribuição electrónica numa
molécula, não tendo fundamentação teórica. Este modelo de atribuição de uma distribuição
electrónica não uniforme nos átomos individuais, conferindo-lhes carga parcial é bastante
útil.
As cargas atómicas parciais são calculadas a partir das electronegatividades orbitais. A
base desta aproximação é o conceito de electronegatividade, χ, definido por Mulliken como
a média do potencial de ionização e da afinidade electrónica:
χ = 0, 5(IP + EA) (E.3)
As várias orbitais de um átomo são consideradas separadamente tendo, cada uma, o
seu valor de electronegatividade, χi . A electronegatividade é, assim, dependente do estado
de hibridação do átomo, não sendo apenas dependente do tipo de orbital que está a ser
considerada mas também da sua ocupação. Os valores da electronegatividade podem ser
obtidos a partir de dados retirados da bibliografia [67–69]. Para o estado neutro (n = 1)
e para o estado com uma carga positiva (n = 0) e negativa (n = 2). A ocupação de uma
orbital pode ser considerada como uma variável contı́nua, ou seja , é permitida uma gama
contı́nua de carga parcial num átomo. Com três valores para a dependência da electrone-
gatividade orbital na carga (n = 0, 1, 2 correspondente a q = +1, 0, −1), um polinómio
de segundo grau pode ser utilizado para mostrar a dependência da electronegatividade de
uma orbital χiA , na carga qA de um átomo.

χiA = ai + bi qA + ci qA2 (E.4)


Os três valores χ+ 0 −
i , χi , χi permitem a determinação dos três coeficientes ai , bi , ci da
dependência da electronegatividade orbital na carga.
Na formação de uma ligação a densidade electrónica é transferida do átomo menos elec-
tronegativo, A, para o átomo mais electronegativo, B. Tal confere ao átomo A uma carga
positiva e um aumento da sua electronegatividade enquanto que o átomo B, inicialmente
com maior electronegatividade, adquire uma carga negativa. As electronegatividades dos
átomos que formam uma ligação tendem a igualar-se, mas, isso ocorre apenas parcialmente.
Transferência electrónica cria um potencial electrostático que actua contra ela própria. Tal
constitui a essência do método PEOE [43–45].
O algoritmo do método PEOE é um procedimento iterativo, podendo ser apresentado
da seguinte forma (figura E.3):
? Passo 1: Para cada átomo A e orbital i
χiA = ai + bi qA + ci qA2 (E.5)

? Passo 2: Para cada ligação A − B


0
<n>
∆qAB = (χ+ −1
iA ) (χiA − χiB ) × α
n
(E.6)
XXVIII APÊNDICE E. DETALHES SOBRE O PETRA

Figura E.3: Procedimento iterativo para o método PEOE [62].

<n>
∆qAB = ∆qAB + ∆qAB (E.7)

? Passo 3: Para todas as ligações a um átomo

qA<n> = <n>
X
∆qAB (E.8)

qA = qA + qA<n> (E.9)

Se n < nmax ir para passo 1

Onde α é o factor de amortecimento, com o valor 0,5 e n é a iteração corrente. O método


PEOE permite o cálculo de vários parâmetros sendo a diferença de electronegatividade
entre os átomos A e B de uma ligação, ∆χσ , e a soma das cargas mudadas nas iterações,
Qσ os que foram utilizados no trabalho. A quantidade de carga mudada ao longo de uma
ligação é obtida como um parâmetro adicional que pode ser considerado como uma medida
da polaridade de uma ligação.

Distribuição de carga Π

As cargas atómicas parciais em sistemas Π são calculadas gerando todas as estruturas


de ressonância possı́veis para o sistema [62]. Estas são, então, “pesadas” tendo como base
a electronegatividade orbital Π e considerações formais (PEPE). As várias estruturas de
ressonância são geradas a partir dos átomos aceitadores e doadores de electrões. Um ou
mais “pesos topológicos” são atribuı́dos às várias estruturas de ressonância que dependem
das mudanças da estrutura de valência da ligação e das cargas formais dos átomos das es-
truturas de ressonância. Os “pesos topológicos” foram optimizados a partir de um conjunto
de dados de desvios quı́micos de 13 C de várias moléculas com sistemas Π.

? Mudança da carga: Peso Topológico=1


XXIX

N N N N
C
N N

? Separação de carga: Peso Topológico=0,5

Se a carga positiva e negativa estiverem em átomos adjacentes o factor topológico tem


apenas um valor de 0,25
O OH

C C
H O H H O H

? Recombinação de carga: Peso Topológico=1,0

O O
C C

O factor peso topológico total Wt é constituı́do por três factores:


Wt = f Q f B f A (E.10)
onde fQ é o factor para a separação de carga, fB é um factor a adicionar se o número de
ligações covalentes diminuir e fA = 0, 3 se o sistema aromático for destruı́do.
No próximo passo as estruturas de ressonância são pesadas tendo como base a conside-
ração da sua natureza electrónica. O peso electrónico, We , de cada estrutura de ressonância
é calculado a partir das electronegatividades Π, χΠ , e das influências electrostáticas dos
átomos vizinhos.
We = ∆χΠ + fe ∆qN (E.11)
Onde ∆χΠ é a diferença de electronegatividade Π e o segundo termo representa a
repulsão electrónica do átomo vizinho. A electronegatividade Π é dependente do tipo de
átomo, estado de hibridação e carga σ, aplicando-se a seguinte equação:

χΠ = a + cqσ + cqσ2 (E.12)


Usando o produto do peso topológico e electrónico calcula-se o valor que traduz o efeito
de cada estrutura de ressonância no processo de equalização de carga. A carga é movida ao
longo dos átomos das várias estruturas de ressonância, alterando a sua electronegatividade
e, sendo assim, o processo de “pesar” as estruturas e mudar a densidade electrónica tem de
ser repetido em vários ciclos. O valor calculado é a diferença de carga Π entre os átomos
A e B.
XXX APÊNDICE E. DETALHES SOBRE O PETRA

Tipo de Contribuição Valor


Separação de carga (R1 ) 0,5
Separação de carga dos átomos li-
gados directamente. Diminuição do 0,1625
número de ligações covalentes (R2 )
Separação de carga dos átomos li-
gados directamente. Diminuição do 0.1625
número de ligações covalentes (R3 )

Figura E.4: Exemplo da determinação dos pesos topológicos [62].

Cargas Totais

Os valores das cargas totais são obtidos pela soma dos resultados das cargas σ e Π já
descritas anteriormente. O valor calculado é a diferença de carga total dos átomos A e B,
∆qtot , que formam a ligação.

Efeito de ressonância

A estabilização da carga positiva ou negativa obtida após a quebra polar de uma ligação
polar é calculada a partir dos valores de electronegatividade dos electrões Π e dos pares de
electrões isolados dos átomos que estão conjugados com os átomos que recebem as cargas
[62]. A procura dos átomos que conseguem estabilizar uma carga positiva ou negativa
não começa nos átomos da ligação que é quebrada mas sim nos átomos que têm potencial
para estabilizar cargas por efeito de ressonância (átomos fonte). Os átomos dessa ligações
estão conjugados com os seguintes tipos de átomos fonte: átomos doadores (possuidor
de um par de electrões livres), átomos aceitadores (podem aceitar um par de electrões),
grupos alquilo em ligações múltiplas (efeito de hiperconjugação), grupos alquilo em átomos
doadores (efeito de hiperconjugação).
A estabilização por ressonância é uma propriedade de ligação desde que a ligação que
é quebrada gere cargas. Existem dois sentidos para quebrar a ligação de uma forma polar,
sendo assim, cada ligação e estudada duas vezes:

A − B → B + + : A− (E.13)

A − B → A+ + : B − (E.14)

Uma ligação é caracterizada pelos ı́ndices dos dois átomos A e B. A convenção é que o
primeiro átomo obtém a carga positiva. É calculado um valor R− para a estabilização da
carga negativa e um valor R+ para a estabilização da carga positiva.
XXXI

O valor da estabilização de uma carga negativa, R − , é obtido a partir de todos os


átomos i, que estão em ressonância com o centro negativo.

R− (A − B) = f n χΠ,i
X
(E.15)
i

O somatório percorre todos os átomos i das estruturas de ressonância. O factor f é um


factor de “desvanecimento” que é igual a 1 se as ligações intervenientes forem aromáticas,
de outro modo é igual a 0,67. A variável n representa o número de ligações entre o centro
negativo e o átomo i, que pode ficar com a carga negativa.
O valor para a estabilização da carga positiva, R + é obtida pela seguinte expressão:
c
R+ (A − B) = X (E.16)
f n χΠ,i
i

Em relação à expressão para R há que referir a constante c que tem o valor de 26,63
eV, partindo do principio que a ressonância alı́lica no catião e no anião é assumida como
tendo o mesmo efeito estabilizador. O valor da estabilização por ressonância de uma carga
positiva em A e de uma carga negativa em B é determinado pela soma das expressões E.15
e E.16:

R± (A − B) = R+ (A − B) + R− (B − A) (E.17)

Efeito da Polarizabilidade

A polarizabilidade é calculada a partir de incrementos aditivos, tı́picos de um átomo


num estado de hibridização especı́fico. Quando os valores para o efeito de polarizabili-
dade na estabilização de carga são calculados esses incrementos são considerados apenas
numa extensão que reflecte o número de ligações entre o átomo considerado e a carga ou
centro reaccional. A polarizabilidade da ligação, αb , é calculada como o valor médio das
polarizabilidades dos dois átomos de uma ligação [62, 70, 71].
XXXII APÊNDICE E. DETALHES SOBRE O PETRA
Apêndice F

Reactividades obtidas para o Teste


da Rede

XXXIII
XXXIV APÊNDICE F. REACTIVIDADES OBTIDAS PARA...
XXXV

4 IV 26
I 2
II 5
III 18
20 21 24
15 17
3 13 16 22 25
9 23 28
19
12 10 27
1 6
V VI 8 7 14
11
32 43
VII VIII
29 37 44
30
36 38
31 42
35 39 45
33
50
49 70
34
40
41 XII
IX X XI 62
48 51 56 71
47 53 61 69 74 72
60
46 67 63
65 64 59 73
54 57 68
55 52
58 66
XIII
XIV XV XVI 89
77
81 84
87
XVII 96
80
79 95
82
75 83 86 91 94
92
85 88 93
76 78 XIX XX 90

05
08 XXI
01 04 07 XXII
XVIII 06 09
03 10 18
99 11 14
97 00 XXIII 15
02
XXIV 13
12 17
98 19
24 16
21
22 45 48
XXV 23 XXVIII
20
XXVI XXIX 49
44
27
28 XXVII 42
43
32
26 37 39
36 40 38 46
25 29 31 35
30 33
41 47
34
73
82
XXX XXXI XXXII
72
57 53 81
58
56 55 62 63
59 64 71
61 70
79 80
50 60
51 69 67
54
77 78
52
68 76
75 65
74
66

Figura F.1: Conjunto teste da rede. As quebras de ligação estão numeradas de 1 a 99, a
azul. Da 100 à 182 estão numeradas de 00 a 82, a verde, por falta de espaço.
XXXVI APÊNDICE F. REACTIVIDADES OBTIDAS PARA...

Tabela F.1: Conjunto de Moléculas utilizadas para o teste da rede.

Número da molécula Nome


I 1,3-ciclopentadieno
II 2,5-pirolediona
III 4-amino-2,4-dimetil-2-pentanol
IV metilpropanoato
V ciclopenteno
VI 2,2,4,4-tetrametilciclobutanol
VII ---
VIII 1-(1-iodo-1-metiletil)-ciclobutano
IX 5-hidroxi-5-metil-oxa-2-ciclopentanona
X 2,2,2-tricloro-1,1-etanodiol
XI 5-hidroxi-8-oxa-1,4,6-nonatrieno
XII 1-cloro-2,2-dimetilpropano
XIII dimetilalilamina
XIV 1-iodoetano
XV água
XVI 3-cloro-1-propeno
XVII 3-hidroxibutanal
XVIII 2,2-dimetil-1,1-propanodiol
XIX bromoetano
XX diclorometano
XXI ciclobutano
XXII ácido butanoico
XXIII acetona
XXIV acetaldeı́do
XXV 3-oxa-butanoato de etilo
XXVI ciclopropano
XXVII nitrometano
XXVIII ácido 2-oxaciclopentanoico
XXIX 1-(1-bromo-1-metiletil)-ciclopropano
XXX 10-Bromo-3,5,7-deca-trieno-2-tiol
XXXI 3-ciano-propil-fosfano
XXXII anisole
XXXVII

Tabela F.2: Reactividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido de forma aleatória e valores da bibliografia (RB).

Ligação RO RB Ligação RO RB Ligação RO RB


1 0.8 0 39 0.0 0 77 0.0 0
2 0.0 0 40 0.0 0 78 0.3 0
3 0.4 0 41 0.0 0 79 0.0 0
4 0.9 1 42 1.0 1 80 0.9 1
5 0.0 0 43 0.0 0 81 0.0 0
6 0.0 0 44 0.0 0 82 0.0 0
7 1.0 1 45 0.5 1 83 0.0 0
8 0.2 0 46 0.8 1 84 0.0 0
9 0.0 0 47 1.0 1 85 1.0 1
10 0.0 0 48 1.0 1 86 1.0 1
11 0.0 0 49 0.0 0 87 0.0 0
12 0.0 0 50 1.0 1 88 0.8 1
13 0.0 0 51 0.2 0 89 0.0 0
14 0.0 0 52 0.1 0 90 0.0 0
15 1.0 1 53 0.0 0 91 0.4 0
16 1.0 1 54 0.9 1 92 0.0 0
17 0.0 0 55 0.0 0 93 0.0 0
18 1.0 1 56 0.0 0 94 0.1 0
19 0.1 0 57 0.8 1 95 0.0 0
20 1.0 1 58 1.0 1 96 1.0 1
21 0.0 0 59 0.0 0 97 0.0 0
22 0.0 0 60 0.4 0 98 1.0 1
23 1.0 0 61 0.0 0 99 0.0 0
24 0.0 0 62 0.0 0 100 1.0 1
25 0.2 0 63 1.0 1 101 0.0 0
26 0.7 1 64 0.0 0 102 0.0 0
27 0.0 0 65 0.4 1 103 0.0 0
28 0.0 1 66 0.0 0 104 1.0 1
29 0.0 0 67 0.4 0 105 0.0 0
30 0.0 0 68 0.0 0 106 0.0 0
31 0.0 0 69 0.0 0 107 0.0 0
32 0.0 0 70 0.0 0 108 1.0 1
33 1.0 1 71 0.0 0 109 1.0 1
34 0.0 0 72 1.0 1 110 0.0 0
35 1.0 1 73 0.0 0 111 0.0 0
36 0.0 0 74 0.4 0 112 0.0 0
37 0.0 0 75 0.0 0 113 0.0 0
38 0.0 0 76 0.0 0 114 0.0 0
XXXVIII APÊNDICE F. REACTIVIDADES OBTIDAS PARA...

Tabela F.3: Reactividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido de forma aleatória e valores da bibliografia (RB).

Ligação RO RB
115 0.1 0
116 1.0 1
117 0.0 0
118 0.0 0 Ligação RO RB
119 1.0 1 153 0.5 1
120 1.0 1 154 1.0 1
121 0.0 0 155 0.5 1
122 0.6 1 156 0 0
123 0.0 0 157 0 0
124 0.6 1 158 0 0
125 0.0 0 159 0 0
126 0.0 0 160 1.0 1
127 0.1 0 161 1.0 1
128 1.0 1 162 0.1 0
129 0.0 0 163 0.7 1
130 1.0 1 164 0.2 0
131 0.0 0 165 0.0 -
132 1.0 1 166 0.0 -
133 0.0 0 167 0.0 -
134 0.0 0 168 0.0 -
135 0.0 0 169 0.0 -
136 0.0 0 170 0.0 -
137 1.0 1 171 0.9 -
138 0.0 0 172 0.0 -
139 0.0 0 173 0.0 -
140 0.0 0 174 0.0 -
141 0.0 0 175 0.8 -
142 0.0 0 176 0.0 -
143 0.0 1 177 0.7 -
144 1.0 1 178 0.0 -
145 1.0 1 179 0.9 -
146 0.0 0 180 0.0 -
147 1.0 1 181 1.0 -
148 0.0 0 182 0.7 -
149 0.0 0
150 0.5 1
151 0.2 0
152 1.0 1
XXXIX

Tabela F.4: Reatividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido com base no desenho da experiência e valores da bibliografia (RB).

Ligação RO RB Ligação RO RB Ligação RO RB


1 0.6 0 39 0.0 0 77 0.0 0
2 0.0 0 40 0.0 0 78 0.1 0
3 0.2 0 41 0.0 0 79 0.0 0
4 1.0 1 42 1.0 1 80 0.6 1
5 0.0 0 43 0.0 0 81 0.0 0
6 0.0 0 44 0.0 0 82 0.0 0
7 1.0 1 45 0.7 1 83 0.0 0
8 0.1 0 46 0.6 1 84 0.0 0
9 0.0 0 47 1.0 1 85 1.0 1
10 0.0 0 48 1.0 1 86 1.0 1
11 0.4 0 49 0.0 0 87 0.0 0
12 0.0 0 50 1.0 1 88 0.5 1
13 0.0 0 51 0.1 0 89 0.0 0
14 0.4 0 52 0.3 0 90 0.0 0
15 0.9 1 53 0.0 0 91 0.2 0
16 1.0 1 54 1.0 1 92 0.0 0
17 0.0 0 55 0.0 0 93 0.0 0
18 1.0 1 56 0.0 0 94 0.0 0
19 0.0 0 57 1.0 1 95 0.0 0
20 1.0 1 58 1.0 1 96 1.0 1
21 0.0 0 59 0.0 0 97 0.0 0
22 0.2 0 60 0.4 0 98 1.0 1
23 1.0 0 61 0.0 0 99 0.0 0
24 0.0 0 62 0.0 0 100 1.0 1
25 0.2 0 63 1.0 1 101 0.0 0
26 0.6 1 64 0.0 0 102 0.0 0
27 0.0 0 65 0.9 1 103 0.0 0
28 0.0 1 66 0.0 0 104 1.0 1
29 0.0 0 67 0.2 0 105 0.0 0
30 0.0 0 68 0.0 0 106 0.0 0
31 0.0 0 69 0.0 0 107 0.0 0
32 0.0 0 70 0.0 0 108 1.0 1
33 1.0 1 71 0.0 0 109 0.5 1
34 0.0 0 72 1.0 1 110 0.0 0
35 1.0 1 73 0.0 0 111 0.0 0
36 0.0 0 74 0.1 0 112 0.0 0
37 0.0 0 75 0.0 0 113 0.0 0
38 0.0 0 76 0.0 0 114 0.0 0
XL APÊNDICE F. REACTIVIDADES OBTIDAS PARA...

Tabela F.5: Reatividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido com base no desenho da experiência e valores da bibliografia (RB).

Ligação RO RB
115 0.0 0
116 1.0 1
117 0.0 0
118 0.0 0 Ligação RO RB
119 1.0 1 153 0.6 1
120 0.6 1 154 1.0 1
121 0.0 0 155 0.5 1
122 0.6 1 156 0.0 0
123 0.0 0 157 0.0 0
124 0.6 1 158 0.0 0
125 0.0 0 159 0.0 0
126 0.0 0 160 1.0 1
127 0.1 0 161 1.0 1
128 1.0 1 162 0.2 0
129 0.0 0 163 0.6 1
130 0.9 1 164 0.1 0
131 0.0 0 165 0.0 -
132 1.0 1 166 0.0 -
133 0.0 0 167 0.2 -
134 0.0 0 168 0.0 -
135 0.0 0 169 0.0 -
136 0.0 0 170 0.0 -
137 1.0 1 171 0.9 -
138 0.0 0 172 0.0 -
139 0.0 0 173 0.0 -
140 0.0 0 174 0.0 -
141 0.0 0 175 0.5 -
142 0.0 0 176 0.0 -
143 0.0 1 177 0.5 -
144 1.0 1 178 0.0 -
145 1.0 1 179 0.6 -
146 0.0 0 180 0.0 -
147 1.0 1 181 1.0 -
148 0.0 0 182 0.5 -
149 0.0 0
150 0.9 1
151 0.3 0
152 0.8 1
Apêndice G

Gráficos de Correlação dos


Parâmetros Fı́sico-Quı́micos

XLI
XLII APÊNDICE G. GRÁFICOS DE CORRELAÇÃO...
XLIII
Energia de Dissociação da Ligação / [kJ / mol]

Diferença de Electronegatividade σ / [e. u.]


500
Coeficiente de Correlação: -0,2096
2
400

Coeficiente de Correlação: 0,0144 1


300
0
200
-1
100
-2

0
-3
-0,2 -0,1 0 0,1 0,2 -0,2 -0,1 0 0,1 0,2
Diferença de Carga Π / [e. u.] Diferença de Carga Π / [ e. u.]

9
Coeficiente de Correlação: 0,2300

0,4 8
Coeficiente de Correlação: -0.02
Polarizabilidade / [Å ]
3
Polaridade / [e. u.]

0,2 7

0 6

-0,2 5

-0,4 4

3
-0,2 -0,1 0 0,1 0,2 -0,2 -0,1 0 0,1 0,2
Diferença de Carga Π / [e. u.] Diferença de Carga Π / [e. u.]
Energia de Dissociação da Ligação / [kJ / mol]

20 500
Coeficiente de Correlação: -0,0390
Estabilização por Ressonância

400
15
Coeficiente de Correlação: -0.05
300

10
200

5 100

0
0
-0,2 -0,1 0 0,1 0,2 -0,6 -0,4 -0,2 0 0,2 0,4 0,6
Diferença de Carga Pi / [e. u.] Diferença de Carga Total / [e. u.]
XLIV APÊNDICE G. GRÁFICOS DE CORRELAÇÃO...

0,2
Coeficiente de Correlação: 0,4162
Coeficiente de Correlação: 0,8100
Diferença de Carga Π / [ e. u.]

0,4
0,1

Polaridade / [e. u.]


0,2

0 0

-0,2
-0,1
-0,4

-0,2
-0,6 -0,4 -0,2 0 0,2 0,4 0,6 -0,6 -0,4 -0,2 0 0,2 0,4 0,6
Diferença de Carga Total / [e. u.] Diferença de Carga Total / [e. u.]

20 9
Coeficiente de Correlação: -0,1436
Estabilização por Ressonância

Coeficiente de Correlação: -0,0818 8


15
Polarizabilidade / [Å ]
3

10 6

5
5
4

0 3
-0,6 -0,4 -0,2 0 0,2 0,4 0,6 -3 -2 -1 0 1 2 3
Diferença de Carga Total / [e. u.] Diferença de Electronegatividade sigma / [eV]

3
Diferença de Electronegatividade σ / [eV]

20
Coeficiente de Correlação: -0,4842
2
Estabilização por Ressonância

Coeficiente de Correlação: 0,0856


15
1

10 0

-1
5
-2

0 -3
-3 -2 -1 0 1 2 3 -0,6 -0,4 -0,2 0 0,2 0,4 0,6
Diferença de Electronegatividade σ / [e. u.] Diferença de Carga Total / [e. u.]
XLV

Energia de Dissociação da Ligação / [kJ / mol]


Energia de Dissociação da Ligação / [kJ / mol]

500 500

400 400
Coeficiente de Correlação: 0,1697 Coeficiente de Correlação: -0,1293
300 300

200 200

100 100

0 0
-3 -2 -1 0 1 2 3 -0,4 -0,2 0 0,2 0,4
Diferença de Electronegatividade σ / [eV] Polaridade / [e.u.]

9 20

8 Coeficiente de Correlação: -0,0943


Estabilização por Ressonância

Coeficiente de Correlação: 0,0905


Polarizabilidade / [Å ]

15
3

6 10

5
5
4

3 0
-0,4 -0,2 0 0,2 0,4 -0,4 -0,2 0 0,2 0,4
Polaridade / [e. u.] Polaridade / [e. u.]
Energia de Dissociação da Ligação / [kJ / mol]

Energia de Dissociação da Ligação / [kJ / mol]

500
500

400
400

Coeficiente de Correlação: -0,6014 Coeficiente de Correlação: -0,1131


300 300

200 200

100 100

0 0
3 4 5 6 7 8 9 0 5 10 15 20
3
Polarizabilidade / [Å ] Estabilização por Ressonância
XLVI APÊNDICE G. GRÁFICOS DE CORRELAÇÃO...

9
Coeficiente de Correlação: 0.06

Polarizabilidade / [Å ]
3
7

3
0 5 10 15 20
Estabilização por Ressonância

Você também pode gostar