Relatorio Estagio

V
Agradecimentos
As minhas primeiras palavras de agradecimento têm de ir, forçosamente, para os meus

pais. Sem o amor, carinho e todo o apoio que sempre me deram ao longo dos anos possi-
velmente não estaria aqui. Além, de todo o seu apoio, eles sempre me disponibilizaram o
necessário para que o meu aproveitamento escolar dependesse apenas de mim incutindo-me,
ao mesmo tempo, um grande sentido de responsabilidade desde a mais tenra idade. Se por
um lado me davam liberdade de escolher o meu caminho, simultâneamente, mostraram-me
bem cedo que essa liberdade tinha de acarretar sentido de responsabilidade. Por estas
razões tenho orgulho deles e penso que eles sentem o mesmo por mim porque, penso eu,
nunca os decepcionei.
Em seguida as minhas palavras têm de ir para a pessoa que mais tem sido prejudicada
com a realização deste relatório que é a minha namorada, a Cristina. Devido a este relatório
a verdade é que nas últimas semanas não tenho passado com ela o tempo que gostaria e
que ela merece. No ainda pouco tempo da nossa relação só tenho que lhe agradecer todo o
apoio que me tem dado e toda a sua paciência para comigo nos meus dias de maior stress
e da pouca atenção que lhe tenho dado.
De seguida não posso de deixar passar em claro todos os meus amigos que sempre me
acompanharam e conviveram comigo nos últimos anos. É lógico que não vou falar de todos
mas não posso deixar de dizer umas palavras a alguns. O meu grande amigo Roque foi
a primeira pessoa que conheci nesta faculdade e por coincidência, ou não, iniciámos uma
amizade que se prolonga até hoje. Pelas mais diversas razões não temos convivido tanto
como nos primeiros anos mas sei, no entanto, que posso contar com ele porque é assim que
são os verdadeiros amigos e ele é um verdadeiro amigo, isso tenho eu a certeza. Depois não
posso deixar se referir o meu grande amigo (não é grande apenas na amizade mas também
no tamanho) Chelas. Há já algum tempo que me habituei à nossa cafezada da manhã ou
então à imperial da tarde no Chilgamba, Portugália ou Cova Funda. Além dele não posso
esquecer outro grande amigo, o Resende (tantas festas e outros raides passei com ele que
lhes perdi a conta), o Gordo, o Nuno da Vela, o Paulo Rafael, o David, o Rui e tantos
outros que mais tem convivido comigo nos últimos dois anos. Dos meus primeiros anos
na faculdade perdi um pouco o contacto com muitos mas não posso deixar de recordar
os tempos de convı́vio com o Mota, Sı́lvio, Ortola, Teixeira, Gonçalo, Gameiro e muitos
outros.
Depois dos amigos é agora a vez das amigas. Apesar de conhecer um número razoável
de raparigas a verdade é que não tenho muitas amigas, ou pelo menos daquelas que uma
pessoa sente que são verdadeiras amigas. Conheci a Catarina André no segundo ano e,
a pouco e pouco, a nossa amizade cresceu. São muitas as tardes que passamos juntos a
contar as chatices e as alegrias da nossa vida um ao outro. Ela talvez seja a pessoa que
conhece melhor sabendo muito bem qual á a minha grande fraqueza. Na verdade às vezes
prefiro que ela não saiba alguma coisa mas ela já me conhece suficiente bem para eu não
VI
conseguir enganá-la. Neste aspecto ela é muito parecida com a Diana. A Diana foi em
tempos uma mulher muito importante para mim e apesar de tudo ficámos amigos facto
que me deixa feliz.
Nestes dois anos tenho também de referir e agradecer todo o companheirismo dos meus
colegas de laboratório o Rui, o Rodrigo e o Doutor Pedro. O Rodrigo, presente apenas
nos primeiros meses do meu estágio, mostrou sempre a sua disponibilidade para ajudar
no que fosse preciso, contribuindo sempre com a sua boa disposição para o bom ambiente
e espı́rito de camaradagem do laboratório. O Dr. Pedro que apesar de sempre ocupado
com telefonemas constantes, as aulas e a investigação, esteve sempre disponı́vel para me
tirar dúvidas ajudando-me várias vezes. Por último, dos meus colegas de laboratório, de
referir o Rui a quem eu devo muito do que aprendi. Muito do que sei por exemplo de
Fortran 90, sniff, xmgrace, lyx, awk, gimp, xsane etc o devo a ele e ao seu espı́rito de
companheirismo. O Rui é uma pessoa que gosta do que faz e por isso consegue motivar
os outros com o seu entusiasmo tendo-me ajudado durante estes dois anos em inúmeras
ocasiões. Era meu desejo que o grupo pudesse continuar unido por muitos anos tendo em
conta o bom ambiente do laboratório que eu sempre senti desde que cheguei nunca me
sentindo um estranho no grupo mas sim parte dele.
Agradeço, também, ao grupo de Espectrometria de Massa que me forneceu os primeiros
dados para o treino da rede e à Prof. Filomena Camões na parte de quimiometria.
As últimas palavras vão para os meus orientadores, a Prof. Doutora Filomena Freitas e
o Prof. Doutor Fernando Fernandes. A Prof. Filomena sempre me apoiou desde o primeiro
dia em que fui falar com ela, demonstrando o meu interesse para realizar estágio na área da
quı́mica computacional. Durante todo este tempo sempre procurou motivar-me nos meus
momentos de maior desânimo, quando tudo parecia correr mal. Tenho que agradecer todo o
tempo que gastou comigo a rever detalhes de programação, discutir pormenores do trabalho
ou até nos pormenores de impressão do estágio. Por fim, tenho que agradecer ao Professor
Fernando por me ter aceite como seu estagiário quando não tinha qualquer informação sobre
mim e me ter lançado o desafio da aplicação das redes neuronais artificiais à quı́mica. Na
realidade não o conhecia visto que nunca tinha sido meu professor. A única recordação que
tenho dele antes do meu estágio é a de uma sessão numa avaliação de licenciatura em que
ele fez uma intervenção criticando algo e, não sei porquê, gostei desde logo da sua maneira
de ser. Durante o estágio tenho que agradecer a paciência que teve comigo até eu produzir
os meus primeiros resultados e o pouco tempo que dispensei ao estágio durante o primeiro
ano em que tinha mais ocupações. Além disso, tenho de agradecer toda a motivação que
sempre me procurou transmitir e a confiança que depositou em mim. Espero a partir de
agora começar a produzir mais iniciando, já no verão, uma nova investigação. Deixo aqui
as seguintes palavras que penso que se adequam à sua personalidade:
“Pela sua afectividade, pelo modo como tem o coração ao pé da boca e a lágrima ao
canto do olho pela sua integridade e, principalmente pela sua qualidade como homem, como
profissional e como cidadão já não há muita gente assim”
Manuel Alegre
VII
Resumo
As aplicações de redes neuronais artificiais à quı́mica conheceram nos últimos anos um

aumento surpreendente sendo nos dias de hoje utilizadas na resolução dos mais diversos
problemas. Com o intuito de estudar as redes neuronais e as suas aplicações à quı́mica este
trabalho tem três objectivos.
O primeiro consiste numa introdução às redes neuronais artificiais começando por
estudar-se o neurónio e as estruturas que o constituem e, partindo daı́, estudar as re-
des neuronais artificiais no que respeita à forma como elas se organizam e processam a
informação. Relacionado com este tema faz-se a descrição pormenorizada do algoritmo de
aprendizagem de Retro-Propagação que se utiliza na resolução do problema da previsão da
reactividade de ligações quı́micas.
O segundo objectivo consiste numa pesquisa das aplicações de redes neuronais em quı́-
mica. Constata-se a existência de aplicações nas mais diversas áreas como por exemplo,
quı́mica orgânica, quı́mica inorgânica, quı́mica analı́tica e quı́mica-fı́sica. Após um breve
resumo, em que se mostra alguns exemplos das mais variadas aplicações em cada área,
incide-se a atenção, em particular, na aplicação de redes neuronais artificiais à espectro-
metria de massa. Nos vários exemplos dados fica patente a potencialidade das redes em
resolver problemas relacionados com a espectrometria de massa que vão desde a correlação
espectro de massa-estrutura molecular e vice-versa, classificação de amostras entre outras.
O terceiro objectivo deste trabalho consiste na implementação de uma rede neuronal
com arquitectura 7×3×1 (uma camada de input, uma camada oculta e uma camada de
output), treinada com o algoritmo de Retro-Propagação. Esta rede teve como objectivo
prever a reactividade de ligações quı́micas. A resolução de tal problema utilizando redes
neuronais artificiais é tão importante para a quı́mica orgânica como para a espectrometria
de massa, visto que o conhecimento da probabilidade que uma dada ligação numa molécula
tem de se quebrar de uma forma heterolı́tica permite simplificar o estudo dos mecanismos
de fragmentação em espectrometria de massa. Para a resolução deste problema foram
dados como valores de input sete parâmetros fı́sico-quı́micos cujos valores se relacionam
com a reactividade de uma ligação. O conjunto de treino da rede (conjunto de ligações
quı́micas) foi escolhido de duas formas (escolha aleatória e escolha com base no desenho
da experiência) a partir de um conjunto de 10 moléculas. Após o treino da rede esta foi
testada com um conjunto de 182 ligações com informação sobre a sua reactividade retiradas
da bibliografia [1–4].
Comparando os resultados deste trabalho com os obtidos por Simon, Zupan e Gastei-
ger [1], para a resolução do mesmo problema, conclui-se que para ambos os métodos de
escolha do conjunto treino foi utilizado um número inferior de ligações para treinar a rede.
Respectivamente 53 (escolha aleatória) e 48 (escolha baseada no desenho da experiência)
ligações contra 64 ligações utilizadas pelos referidos autores para ambos os estudos. Ape-
sar de tal facto, quando se procedeu ao teste da rede, o número de respostas erradas em
VIII
termos percentuais foi inferior em ambos os casos. Para o teste da rede treinada com o
conjunto escolhido de forma aleatória obteve-se uma percentagem de 3,3% de ligações mal
classificadas, contra 8.35% da referida bibliografia, havendo assim uma melhoria de cerca
de 5%. Por outro lado, para o teste da rede, treinada com o conjunto escolhido com base
no desenho da experiência a percentagem de ligações mal classificadas foi de 2.7% contra
4% da bibliografia [1], havendo assim uma melhoria de cerca de 1%. É de salientar que
as redes foram testadas com 182 ligações, um número significativamente maior que o da
bibliografia: 85 ligações [1].
IX
Notação, Convenções e Abreviaturas
A literatura sobre redes neuronais utiliza várias notações o que, por vezes, pode provocar
alguma confusão. A notação utilizada neste trabalho é a mesma que é adoptada por
Gasteiger e Zupan no seu livro sobre redes neuronais em quı́mica [4]. Trata-se de uma
nomenclatura além de consistente bastante usada na literatura sobre este tema.
? Designação de valores escalares: letras minúsculas em itálico:
A única excepção é Net que começa com uma letra maiúscula.
? Designação de vectores e matrizes: letras maiúsculas em itálico e a negrito:
? Os valores individuais de um vector de input (X ), de dimensão m, são dados pela

letra minúscula x, com ı́ndice i :
xi (i = 1, 2,......,m)
? Os valores individuais de um vector de output (Out ou Y ), de dimensão n, são dados

pela letra minúscula y, ou out, com ı́ndice j:
outj ou yj (j = 1,2,......,n)
? A matriz peso de uma camada de neurónios (W ) tem valores individuais wji , em

que o primeiro ı́ndice refere-se ao neurónio que está a ser considerado e o segundo
ı́ndice especı́fica a unidade de input (o neurónio precedente que transmite o sinal):
wji
? Quando as matrizes de diferentes nı́veis são comparadas umas com as outras, a matriz
peso do nı́vel l (W l ) tem os ı́ndices i e j. Enquanto que a do nı́vel seguinte (W l+1 )
tem os ı́ndices j e k:
wjk
? Se existir mais que um objecto de input, estes são identificados por um ı́ndice s, tendo
um valor máximo p. Assim o objecto de input é identificado por X s e as componentes
individuais por x si .
X
? Numa rede com várias camadas, estas são identificadas pela letra l em expoente.
Assim o vector de output de uma camada l é Out l e os seus valores individuais são
out lj .
? As iterações que ocorrem ao longo de uma rede neuronal são caracterizadas por
um expoente t entre parêntesis. Assim a matriz peso inicial é W (0) , que muda na
iteração seguinte para W (1) . As iterações sucessivas são indicadas pelos expoentes
“old” e “new”:
W (old) , W (new)
? A arquitectura da rede vem geralmente expressa da seguinte forma:
7×3×1
O exemplo dado diz respeito a uma rede neuronal com uma arquitectura com sete
unidades de input, três neurónios na camada oculta e um neurónio na camada de output.
De uma forma geral o número da esquerda diz respeito ao número de unidades de input,
o número da direita diz respeito ao número de neurónios de output e os outros ao número
de neurónios das camadas ocultas.
Abreviaturas
? sf (“sigmoidal function”) - Função Sigmóide
? hl (“hard-limiter”) - Função Limite Rı́gido
? tl (“threshold logic”) - Função Limiar Lógico
? GC-MS - “Gas Cromatography - Mass Spectrometry”

? Py-MS - “Curie Point Pyrolysis Mass Spectrometry”
? MALDI-TOF-MS -“Matrix-Assisted Laser Desorption/Ionisation Time-Of-Flight Mass

Spectrometry”
? CN (“cetane number”) - Número de Cetanos
? NMR (“Nuclear Magnetic Ressonance”) - Ressonância Magnética Nuclear

? IR-MS - “Infra Red - Mass Spectrometry”
? PETRA (“Parameter Estimation for the Treatment of Reactivity Applications”) -

Cálculo de Parâmetros para o Tratamento de Aplicações de Reactividade
? PEOE (“Partial Equalization of Orbital Electronegativity”) - Equalização Parcial da

Electronegatividade Orbital
XI
? ∆qtot - Diferença de carga total
? ∆qΠ - Diferença de carga Π
? ∆χσ - Diferença de electronegatividade σ
? Qσ - Polaridade
? R± - Estabilização por ressonância das cargas geradas por heterólise
? BDE - Energia de Dissociação da Ligação
? αb - Polarizabilidade
? LoRA (“Logistic Regression Analysis”) - Análise por Regressão Logı́stica
? BPE (“Back-Propagation of Errors”) ou BP (“Back-Propagation”) - Retro-Propagação

de Erros
? KL (“Kohonen Learning”) - Aprendizagem de Kohonen
? CP (“Counter-Propagation”) - Contra-Propagação
? GA (“Genetic Algorithm”) - Algoritmos Genéticos
? QSAR (“Quantitative Struture-Activity Relatioships”) - Relação Quantitativa Estru-

tura Actividade
? MLRA (“Multi-Linear Regression Analysis”) - Análise por Regressão Multilinear
? IP (“Ionization Potential”) - Potencial de Ionização
? EA (“Electronic Affinity”) - Afinidade Electrónica
? PEPE (“Partial Equalization of Π Electronegativity”) - Equalização Parcial da Elec-

tronegatividade Π
? RMS (“Root Mean Square”) - Desvio Quadrático Médio
? e. u. (“electron units”)
XII
Conteúdo
1 Introdução às Redes Neuronais Artificiais 1

1.1 Breve Perspectiva Histórica . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 O que é e qual a utilidade de uma Rede Neuronal Artificial? . . . . . . . . 3
1.3 O Modelo do Neurónio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Formação de Redes Neuronais. . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Arquitecturas e Representação Gráfica das Redes. . . . . . . . . . . . . . . 13
2 Processo de Aprendizagem - Algoritmo de Retro-Propagação 15

2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Retro-Propagação de Erros - Generalidades . . . . . . . . . . . . . . . . . 16
2.3 Arquitectura da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4 Processo de Aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5 Regra Delta generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Aplicações de Redes Neuronais Artificiais em Quı́mica 25

3.1 Aplicação à Espectrometria de Massa . . . . . . . . . . . . . . . . . . . . . 25
3.1.1 Correlação Estrutura Molecular-Espectro de Massa . . . . . . . . . 26
3.1.2 Outros exemplos de aplicações de Redes Neuronais Artificiais à Es-
pectrometria de Massa . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Outras Aplicações em Quı́mica . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1 Aplicação à Quı́mica Orgânica . . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Aplicação à Espectroscopia de Infra-Vermelho . . . . . . . . . . . . 31
3.2.3 Aplicação à Quı́mica-Fı́sica . . . . . . . . . . . . . . . . . . . . . . 32
3.2.4 Aplicação à Ressonância Magnética Nuclear . . . . . . . . . . . . . 33
4 Reactividade Quı́mica 35
4.1 Introdução ao problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Parâmetros Fı́sico-Quı́micos . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 Procedimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4 Arquitectura da Rede Neuronal . . . . . . . . . . . . . . . . . . . . . . . . 38
4.5 Cálculo da Reactividade do Conjunto Alvo . . . . . . . . . . . . . . . . . . 40
4.6 Treino da rede com um conjunto treino escolhido de forma aleatória . . . . 41
XIII
XIV CONTEÚDO
4.7 Treino da rede com um conjunto treino escolhido utilizando o desenho ex-
perimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.8 Comparação dos dois métodos . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.9 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 Considerações finais 55
A Exemplos de Aplicações I
B Algoritmos V
C Determinação dos Parâmetros Fı́sico-Quı́micos IX
D Detalhes sobre o Método LoRA XIX
E Detalhes sobre o PETRA XXIII
F Reactividades obtidas para o Teste da Rede XXXIII
G Gráficos de Correlação dos Parâmetros Fı́sico-Quı́micos XLI

Lista de Figuras
1.1 Neurónio biológico. O número de dendrites é muito maior na realidade. [13] 6

1.2 Primeira parte do modelo do neurónio. [4] . . . . . . . . . . . . . . . . . . 7
1.3 Comparação entre a função transferência limiar lógico e a sigmóide com os
mesmos parâmetros (α=0.1 e ϑ=0.5). De notar que no caso da tl o intervalo
de troca tem inicio a Net=ϑ enquanto no mesmo ponto a sf tem o seu ponto
de inflexão. [4] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Função sigmóide e respectiva derivada. [4] . . . . . . . . . . . . . . . . . . 9
1.5 Modelo completo do neurónio. [4] . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Rede de uma camada de neurónios. [4] . . . . . . . . . . . . . . . . . . . . 12
1.7 Rede neuronal com as unidades de input e duas camadas activas de neuró-
nios. (Imagem adaptada de [4]) . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1 Aprendizagem com supervisão (imagem adaptada de [4]). . . . . . . . . . . 16

2.2 Processo de aprendizagem do algoritmo de Retro-Propagação. (figura adap-
tada a partir de [4]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Erro ε em função do valor do peso. [4] . . . . . . . . . . . . . . . . . . . . 19
3.1 Hierarquia de redes neuronais. [5] . . . . . . . . . . . . . . . . . . . . . . . 27
4.1 Quebra heterólitica de uma ligação. [5] . . . . . . . . . . . . . . . . . . . . 35

4.2 Conjunto de 10 moléculas para o treino da rede e conjunto de 32 moléculas
para o teste da rede contendo 182 quebras de ligação diferentes [1, 2, 5]. . . 37
4.3 Arquitectura da rede neuronal. [1] . . . . . . . . . . . . . . . . . . . . . . . 39
4.4 Gráficos relativos à procura dos valores dos parâmetros da função transfe-
rência que minimizam o erro do treino. . . . . . . . . . . . . . . . . . . . . 42
4.5 Gráfico para o treino da rede e respectivo zoom. . . . . . . . . . . . . . . . 43
4.6 Gráfico 1-Correlação entre a diferença de carga total e a polarizabilidade;
Gráfico 2-Correlação entre a diferença de electronegatividade σ e a polaridade. 45
4.7 Gráficos referentes à busca dos mı́nimos de erro para os parâmetros alfa e
beta da função transferência. . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.8 Gráficos referentes à busca dos valores que minimizam o erro do treino para
os parâmetros velocidade de aprendizagem e momento da rede . . . . . . . 48
XV
XVI LISTA DE FIGURAS
4.9 Gráfico para o treino da rede com os parâmetros optimizados para um treino
de 5000 ciclos e respectivo zoom. . . . . . . . . . . . . . . . . . . . . . . . 49
4.10 Quebras de ligação previstas pela rede neuronal (esquerda) e comparação
com os valores obtidos na bibliografia [5] (direita) para o 10-Bromo-2-deca-
3,5,7-trieno-2-tiol. As setas indicam para qual átomo o par de electrões vai
após a quebra da ligação e os valores a probabilidade de heterólise. . . . . 52
4.11 Molécula extra (3-ciano-propil-fosfano) e alvo (anisole) do teste da rede . . 52
E.1 Geração da base de dados [62]. . . . . . . . . . . . . . . . . . . . . . . . . . XXVI

E.2 Cálculo da entalpia de formação do 2-propanol [62]. . . . . . . . . . . . . . XXVI
E.3 Procedimento iterativo para o método PEOE [62]. . . . . . . . . . . . . . . XXVIII
E.4 Exemplo da determinação dos pesos topológicos [62]. . . . . . . . . . . . . XXX
F.1 Conjunto teste da rede. As quebras de ligação estão numeradas de 1 a 99, a

azul. Da 100 à 182 estão numeradas de 00 a 82, a verde, por falta de espaço. XXXV
Lista de Tabelas
4.1 Condições de treino da rede neuronal com o conjunto treino escolhido de

forma aleatória. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Resultados obtidos para o teste da rede neuronal treinada com um conjunto
de ligações escolhido de forma aleatória. . . . . . . . . . . . . . . . . . . . 44
4.3 Matriz correlação dos parâmetros para todas as ligações disponı́veis para o
treino da rede. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4 Condições de treino da rede neuronal com o conjunto escolhido com base no
desenho da experiência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.5 Resultados obtidos para o teste da rede neuronal treinada com um conjunto
de ligações escolhido com base no desenho da experiência. . . . . . . . . . . 49
4.6 Comparação dos resultados obtidos para os dois métodos utilizados para a
escolha das ligações do conjunto treino . . . . . . . . . . . . . . . . . . . . 50
4.7 Comparação dos resultados obtidos com os da bibliografia [1] (treino da rede
com o conjunto escolhido de forma aleatória). . . . . . . . . . . . . . . . . 50
4.8 Comparação dos resultados obtidos com os da bibliografia [1] (treino da rede
com o conjunto escolhido com base no desenho experimental). . . . . . . . 51
A.1 Estratégias de aprendizagem de redes neuronais e suas aplicações em dife-

rentes tipos de problemas. [5] . . . . . . . . . . . . . . . . . . . . . . . . . III
A.2 Exemplos de aplicações em quı́mica. BPE: Retro-Propagação of error s, KL:
Kohonen Learning, CP: Counter-Propagation, MW: Moving Window, GA:
Genetic Algorithm, QSAR: Quantitative Struture-Activity Relatioships. [4] . IV
F.1 Conjunto de Moléculas utilizadas para o teste da rede. . . . . . . . . . . . XXXVI

F.2 Reactividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido de forma aleatória e valores da bibliografia (RB). . . . . . . . . . XXXVII
F.3 Reactividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido de forma aleatória e valores da bibliografia (RB). . . . . . . . . . XXXVIII
F.4 Reatividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido com base no desenho da experiência e valores da bibliografia (RB). XXXIX
F.5 Reatividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido com base no desenho da experiência e valores da bibliografia (RB). XL
XVII
XVIII LISTA DE TABELAS
Capı́tulo 1
Introdução às Redes Neuronais

Artificiais
Começa por apresentar-se, num contexto histórico, a problemática das redes neuronais
artificiais sublinhando a sua evolução no que respeita às aplicações em quı́mica. De seguida,
explica-se o que é uma rede neuronal, qual o seu principal objectivo e capacidades, o que
fazer para resolver um dado problema e quais as suas aplicações.
Apresenta-se, então, o modelo do neurónio, fazendo a analogia entre o neurónio bioló-
gico e o neurónio artificial. Assim, procede-se a um estudo das componentes do neurónio
artificial (pesos e funções de transferência) fazendo igualmente referência à vantagem da
introdução de um parâmetro extra designado bias. Nesta parte, será esclarecido como um
neurónio recebe um dado sinal e o processa gerando uma resposta. Após o estudo das
componentes do neurónio explica-se o modo como os neurónios se agrupam em rede e,
quando agrupados como os sinais de input são processados por esta até gerar o sinal de
output. Para melhor compreender todos estes fenómenos, é necessário definir, também, a
arquitectura da rede. Ao longo deste trabalho o termo “redes neuronais” refere-se sempre
a “redes neuronais artificiais”.
1.1 Breve Perspectiva Histórica

As redes neuronais tiveram a sua origem e desenvolvimento, num processo longo e contur-
bado, há mais de 60 anos, apesar de actualmente ser cada vez maior a sua aplicação nas
mais diversas áreas.
A história das redes neuronais começa com o modelo do neurónio biológico apresentado
por McCulloch e Pitts, em 1943 [5–9]. Este modelo descreve o neurónio como uma unidade
de computação linear que pode receber vários sinais originando uma única resposta. A
resposta gerada por esta estrutura pode ter o valor 0, se a “célula nervosa” permanecer
inactiva, ou 1, se a “célula disparar”. A “célula” permanece inactiva se o valor resultante do
processamento dos sinais não ultrapassar um certo valor limiar estabelecido previamente.
Este modelo deixa em aberto a questão de como se realiza a aprendizagem. Tal, foi abor-
1
2 CAPÍTULO 1. INTRODUÇÃO ÀS REDES NEURONAIS ARTIFICIAIS
dado por Hebb [6,7,10], em 1949, com a publicação do livro “The Organization of Behavior”
onde é apresentada, pela primeira vez, uma regra de aprendizagem para as modificações
das forças sinápticas. Segundo a regra de Hebb a força sináptica de um neurónio varia
proporcionalmente com a actividade na parte anterior e posterior da sinapse.
O aparecimento do computador abriu a possibilidade de resolução de vários problemas
por novos métodos surgindo, então, o termo “inteligência artificial”. Rochester et al [6, 7],
em 1956, fizeram a primeira tentativa de testar a teoria neuronal baseada no postulado de
aprendizagem de Hebb. Esta, é considerada a primeira simulação computacional de redes
neuronais artificiais marcando o aparecimento oficial da inteligência artificial.
Em 1959, Rosenblatt [6,7,10] realizou uma importante investigação desenvolvendo uma
estrutura que designou de perceptrão. Esta estrutura corresponde, essencialmente, a uma
rede neuronal de uma camada que produz um output escalar 1 ou -1. Contudo, o tipo de
problemas que estas estruturas podiam resolver eram muito restritos visto que só conse-
guiam resolver problemas que fossem, naturalmente, linearmente separáveis. A condição
XOR [10, 11] (XOR(x, y) é verdadeira se apenas uma e só uma das variáveis, x ou y, for
verdadeira) é um exemplo de um problema simples que não tem classes linearmente sepa-
ráveis. Como uma das aplicações à quı́mica tem-se o exemplo dado por Cartwright [11] que
constitui uma variante do XOR. Essa aplicação tem como objectivo verificar a presença
dos poluentes etilamina e óxido nitroso em amostras gasosas por espectroscopia de infra-
vermelho. Uma forma de automatizar o problema é utilizar um perceptrão para aprender
a interpretar os espectros avisando o analista quando um poluente for encontrado. No en-
tanto, este falha a classificação em certas situações. Os espectros dos poluentes apresentam
absorvância significativa a 1300 cm-1 num caso e a 800 cm-1 no outro. Durante o treino,
o perceptrão “aprende” que a presença destas bandas implica a presença dos poluentes,
contudo, é incapaz de “aprender” que a presença de ambas as bandas significa a ausência
dos poluentes. O Fréon 22, por exemplo, apresenta ambas as bandas, logo, para o per-
ceptrão, uma amostra que o contenha está contaminada com um dos poluente. Este é um
problema linearmente inseparável, assim, como grande parte dos problemas em quı́mica.
Tendo em conta a baixa eficácia dos modelos dessa época, não é de admirar a diminuição
do entusiasmo inicial no desenvolvimento de métodos de inteligência artificial nos anos 60.
Em 1969, Minsky e Papert [6–8] publicaram um livro onde criticam os modelos de redes
neuronais da época. As suas crı́ticas são baseadas na análise matemática das capacidades
e limitações dos perceptrões mostrando essencialmente o que as funções lógicas da altura
podiam ou não realizar. Além disso, estes autores especularam, também, que o desenvol-
vimento da arquitectura das redes, com um aumento do número de camadas, não traria
vantagens em termos de melhoria de resultados. Como consequência desta e de outras
crı́ticas e, face aos resultados apresentados na altura, a pesquisa em redes neuronais não
sofreu grandes avanços na década seguinte, exceptuando algumas investigações conduzidas
por investigadores como Kohonen (1972), Anderson (1972) e outros [5–7].
É, no entanto, em 1971 que é publicada uma das primeiras aplicações de inteligência
artificial à quı́mica. Jurs e Isenhour [12], implementam uma máquina de aprendizagem
linear para prever as fórmulas moleculares de compostos a partir do seu espectro de massa
1.2 O que é e qual a utilidade de uma Rede Neuronal Artificial? 3
utilizando uma árvore de decisão com 26 decisões binárias. Contudo apesar de resultados
satisfatórios as limitações desta estrutura vêm uma vez mais ao de cima. Os dados têm
de ser linearmente separáveis para aprendizagem ser possı́vel. Então como resolver este
problema e tornar estes métodos capazes de resolver problemas linearmente inseparáveis?
Foi Hopfield [5–8, 11], em 1982, que deu um contributo decisivo demonstrando que os
modelos de redes neuronais de neurónios binários correspondem, formalmente, a sistemas
de spin e podem ser manipulados pelos métodos já desenvolvidos para o tratamento destes.
Além desta importante inovação, Hopfield é, igualmente, o responsável pela introdução de
funções transferência não-lineares dando, assim, um carácter não linear a cada neurónio.
Esta não linearidade veio trazer uma nova flexibilidade às redes que não existia nos modelos
antigos. O modelo desenvolvido passou a chamar-se rede de Hopfield.
Faltava, então, desenvolver um algoritmo de aprendizagem que permitisse o ajuste dos
pesos numa rede com várias camadas. O algoritmo foi desenvolvido independentemente,
por Parker (1985) e por Rumelhart, Hinton e Williams (1986) vindo-se a constatar mais
tarde que este tinha sido descrito muito mais cedo por Werbos, na sua tese de doutora-
mento na Universidade de Harvard, em Agosto de 1974. O algoritmo ficou conhecido como
Retro-Propagação, [4–6,9] devido ao facto dos pesos serem ajustados da camada de output
até à primeira camada, camada a camada, tornando-se em pouco tempo o algoritmo de
aprendizagem mais utilizado e popular no treino de redes neuronais.
Apesar do sucesso no desenvolvimento destes modelos, deve ficar bem claro que se
está, ainda, bem longe de um entendimento do mecanismo do funcionamento do cérebro.
As capacidades das redes neuronais artificiais são, ainda, bastante rudimentares quando
comparadas com as redes biológicas que tentam simular. Contudo, mesmo estes modelos
rudimentares trouxeram novas formas de processamento de informação e de tratamento de
dados. As possibilidades de aplicações que as redes nos trazem, especialmente na área da
quı́mica, são enormes e motivantes.
O número de aplicações de redes neuronais em quı́mica foi bastante reduzido nas pri-
meiras décadas de existência das redes. Contudo, após o aparecimento do algoritmo de
Retro-Propagação o número de aplicações, nas mais diversas áreas e para os mais diversos
problemas, cresceu rapidamente. O número de publicações de aplicações de redes neuronais
em quı́mica foi de 3 em 1988, 5 em 1989, 30 em 1990 e uma centena de publicações (105)
em 1991. Em 1997 foi atingido o número de 927 publicações [4, 5, 9].
1.2 O que é e qual a utilidade de uma Rede Neuronal

Artificial?
“The next best thing to knowing something is knowing where to find it”
Samuel Johnson
A disponibilidade de informação é cada vez mais importante no mundo actual. No

entanto, o aumento desenfreado de informação ao dispor do Homem torna difı́cil obter
dados adequados à resolução de um problema. Assim torna-se essencial a análise de dados

disponı́veis para a extracção da informação desejada.
A análise de dados é efectuado há muitos anos fazendo uso de métodos estatı́sticos,
entre outros, percebendo-se há muito que o cérebro humano o faz de uma forma bastante
diferente. A aquisição de conhecimento pelo cérebro não é efectuado por métodos estatı́s-
ticos, por isso, na tentativa de simular a aquisição biológica de conhecimento, procurou-se
desenvolver modelos e algoritmos matemáticos que se designaram por redes neuronais ar-
tificiais.
O cérebro humano possui um poder de processamento fenomenal, fazendo-o de uma
forma totalmente diferente dos computadores convencionais. Estes trabalham passo a
passo, de uma forma sequencial. Contrariamente, o cérebro opera em paralelo, ou seja,
a informação é canalizada simultaneamente por várias unidades de processamento. Tal
pode ser demonstrado pelo paradoxo dos 100 passos. Sabe-se, a partir da neuro-fisiologia,
que uma célula nervosa, ou neurónio demora cerca de um milisegundo a reagir e que
o cérebro humano é capaz de desempenhar processos inteligentes, como reconhecer um
amigo, em cerca de um décimo de segundo, ou seja, consegue desempenhar tarefas difı́ceis
envolvendo cerca 100 reacções neuronais. Se este número fosse interpretado como 100
passos sequenciais dos computadores convencionais então seria claramente insuficiente para
resolver problemas complexos.
As redes neuronais aprendem por treino e experiência, como os seres humanos, segundo
certas regras pré-determinadas. É de salientar, contudo, a dificuldade de reproduzir o
comportamento do cérebro visto que o conhecimento sobre os processos cerebrais são ainda
tão incompletos que não é possı́vel explicar, por exemplo, algo tão simples como guardar e
usar a simples informação de qual o dia da semana em que se está.
A definição de rede neuronal artificial dada por Haykin [6], vista da perspectiva das
redes neuronais como máquinas adaptativas, é a seguinte:
“Uma rede neuronal é um sistema de processamento massivamente paralelo constituı́do

por unidades de processamento simples, que têm uma propensão natural para armazenar
conhecimento experimental e torná-lo disponı́vel para uso. Assemelha-se ao cérebro em
dois aspectos:
1. O conhecimento é adquirido pela rede, a partir do exterior, por um processo de
aprendizagem.
2. As forças de conexão entre neurónios, conhecidas como pesos (pesos sinápticos), são
usadas para armazenar o conhecimento adquirido.”
Nesta fase inicial, para melhor compreensão considerar-se-à a rede neuronal como uma
“caixa negra” que pode aceitar uma série de sinais de input e produzir a partir destes um
ou mais sinais de output.
Os sinais de input e de output podem ser por exemplo a quantidade de um produto
em stock e a recomendação para a sua compra ou venda ou, então, fazendo uma aplicação
à quı́mica, a partir de um espectro de um composto (sinais de input) fazer a previsão
da sua estrutura (sinal de output). Uma das vantagens das redes neuronais reside no
1.3 O Modelo do Neurónio 5
facto do mesmo algoritmo de aprendizagem poder ser usado para resolver vários problemas
diferentes. Grande parte dos utilizadores de redes neuronais não tem um conhecimento
profundo do que acontece realmente dentro da “caixa negra “, contudo, tal não é impeditivo
da resolução com sucesso dos seus problemas.
Basicamente, numa rede neuronal os inputs passam ao longo de ligações e são distri-
buı́dos, transformados e eventualmente reunidos para gerar outputs. As transformações
que ocorrem nos dados são feitas nas unidades básicas designadas de neurónios artificiais
ou simplesmente neurónios. Como o próprio nome indica as redes neuronais são formadas
por neurónios ligados entre si, formando redes.
Os valores de input e de output podem ser números reais, de preferência no intervalo
compreendido entre 0 e 1, ou -1 e 1. Se estiverem fora destes intervalos os valores de input
devem ser renormalizados até se encontrarem nos intervalos citados. O número de valores
de output é, geralmente, menor que o número de valores de input. Os problemas que
podem ser resolvidos pelas redes neuronais são muito variados dividindo-se em 4 grandes
grupos:
Auto-Associação e Hetero-Associação: Na auto-associação a rede é capaz de re-
construir um padrão correcto se este estiver incompleto ou corrompido. Se o sistema for
capaz de fazer uma auto-associação então é capaz de produzir no output, por exemplo, a
imagem perfeita de uma letra mesmo que esta esteja incompleta ou corrompida.
Na hetero-associação a rede desempenha tarefas associativas, onde um objecto tem uma
relação em particular com outro objecto.
Classificação: Um objecto, caracterizado por um conjunto de propriedades, é clas-
sificado numa dada categoria. A vantagem das redes é que apenas uma pequena porção
de objectos é usada no treino e, depois deste, a rede é capaz de prever a classe de um
objecto desconhecido. É de salientar, ainda, que a classificação pode ser realizada com ou
sem supervisão. Na aprendizagem com supervisão o sistema é forçado a atribuir a cada
objecto uma classe enquanto que na aprendizagem sem supervisão as classes são formadas
naturalmente sem nenhuma informação dada á priori.
Transformação ou mapeamento: Informação complexa é transformada numa repre-
sentação simples (projecção num plano, por exemplo), sendo preservada toda a informação
inicial.
Modelação: Uma das aplicações matemáticas mais usadas em ciência é a procura de
uma função analı́tica, ou um modelo, que permita obter o output especı́fico para quaisquer
valores de input. Uma das vantagens das redes neuronais é não necessitar do conhecimento
da função matemática. A não linearidade de uma transformação unitária e um número
suficientemente grande de parâmetros variáveis (pesos) é suficiente para a adaptação da
rede neuronal a qualquer relação entre os sinais de input e os de output.
1.3 O Modelo do Neurónio

As redes neuronais são formadas por sub-elementos, os neurónios. Estes são as unidades
de processamento de informação fundamentais para o funcionamento das redes neuronais.
Figura 1.1: Neurónio biológico. O número de dendrites é muito maior na realidade. [13]
Os neurónios, que no seu conjunto formam a rede, tentam “simular” as células nervosas
biológicas. É, assim, conveniente realizar uma breve descrição do neurónio biológico e a sua
ligação com outros neurónios fazendo o paralelismo entre o neurónio artificial e aqueles.
O sistema nervoso humano é constituı́do por cerca de 1010 neurónios existindo pelo
menos 5 tipos diferentes destas células. Um neurónio tı́pico é constituı́do pelo corpo de
célula e um núcleo (soma). O corpo de célula tem dois tipos de extensões: as dendrites e
os axónios como é visı́vel na figura 1.1.
As dendrites recebem os sinais e enviam-nos para o soma. Aı́ os sinais são acumulados e
quando um certo valor limite é ultrapassado o neurónio “dispara” e uma excitação eléctrica
é transmitida ao longo do axónio. À parte final de cada axónio, em contacto com as
dendrites do neurónio vizinho, dá-se o nome de sinapse. Os neurónios estão ligados uns aos
outros através destas sinapses. As sinapses têm, ainda, outra função que é constituir uma
barreira que altera a intensidade do sinal durante a sua transmissão. O grau de alteração é
determinado pela força sináptica. Um sinal de input de intensidade si tem uma intensidade
pi após atravessar a sinapse i de força wi . A força sináptica pode mudar mesmo entre dois
impulsos. A adaptação das forças sinápticas a um problema em particular é a essência da
aprendizagem.
Cada neurónio tem um grande número de dendrites e, por isso, recebe muitos sinais
em simultâneo. Todos esses sinais combinam-se num sinal colectivo (Net). Embora não
se saiba, exactamente, como este sinal colectivo tem origem a partir dos sinais individuais
para as redes neuronais considera-se que o valor Net é uma função de todos os sinais que
chegam ao neurónio dentro de um certo intervalo de tempo e de todas as forças sinápticas
correspondentes sendo geralmente definida como a soma dos produtos dos sinais de input
xi (i=1,...,m) e as forças sinápticas (pesos) wi (i=1,...,m) como mostra a expressão 1.1.
N et = w1 x1 + ... + wi xi + ... + wm xm = W X (1.1)

Figura 1.2: Primeira parte do modelo do neurónio. [4]
A figura 1.2 mostra o modelo do neurónio desenvolvido até este ponto. O sinal Net não
é ainda o sinal que é transmitido porque o seu valor pode ser muito grande e em certos
casos pode mesmo ser negativo. Um neurónio pode disparar ou não mas qual é o significado
de um valor negativo?
Então, após o cálculo do valor Net do neurónio é aplicado sobre este uma transformação
não linear (expressão 1.2) chamada função transferência.
out = f (N et) (1.2)
O sinal de output final do neurónio deve ser positivo, continuo e estar confinado a um
intervalo especı́fico. Apesar de existirem muitas funções que satisfaçam estas condições
apenas se descrevem os três tipos mais importantes.
Limite Rı́gido: A função limite rı́gido, hl, só pode ter dois valores, 0 ou 1. O valor de
output desta função depende do valor limiar, ϑ, sendo este valor que decide se o neurónio
dispara ou não. Se o valor Net for maior ou igual a ϑ o output será 1 de outro modo será
0. A expressão da função limite rı́gido, hl é a seguinte (1.3):
(
1 se N et ≥ ϑ
out = hl(N et, ϑ) = (1.3)
0 se N et < ϑ
Para muitas aplicações é conveniente que o output seja dado como +1 e -1. Nesses
casos a função é alterada passando a designar-se função limite rı́gido bipolar (1.4):
(
1 se N et ≥ ϑ
out = hl(N et, ϑ) = (1.4)
−1 se N et < ϑ
Figura 1.3: Comparação entre a função transferência limiar lógico e a sigmóide com os
mesmos parâmetros (α=0.1 e ϑ=0.5). De notar que no caso da tl o intervalo de troca tem
inicio a Net=ϑ enquanto no mesmo ponto a sf tem o seu ponto de inflexão. [4]
Limiar Lógico: A função limiar lógico, tl é similar à anterior mas tem um intervalo de
troca que faz com que o output seja proporcional ao valor Net. A extensão deste intervalo
é determinada pelo parâmetro α. Sendo assim este intervalo começa em ϑ e tem uma
extensão de 1/α dando origem à expressão 1.5:
y = max(0, min(1, N et)) (1.5)

Substituindo Net por α(Net-ϑ) a função limiar lógico é obtida numa forma que pode ser
utilizada como função transferência (expressão 1.6). O parâmetro α é designado extensão
recı́proca do intervalo de troca.
out = tl(N et, α, ϑ) = max {0, min [1, α (N et − ϑ)]} (1.6)

Função Sigmóide: A função transferência mais utilizada é a chamada função sig-
móide, sf. A função pode ser por exemplo a dada pela expressão 1.7 ou pela 4.4. De notar
a similaridade entre ambas.
1
sf (N et, α, ϑ) = (1.7)
{1 + exp [−α (N et − ϑ)]}
1
sf (N et, α, ϑ0 ) = (1.8)
{1 + exp [−(αN et − ϑ0 )]}
A figura 1.3 mostra a comparação entre a função limiar lógico e a sigmóide para os
mesmos parâmetros e os mesmos valores Net. Apesar das duas equações terem compor-
tamento semelhante estas tem respostas diferentes em certas regiões. É claro que alguns
neurónios mostram uma relação linear entre o valor Net e o valor de output contudo é
a não linearidade da função transferência que faz com que as redes neuronais sejam tão
flexı́veis e capazes de se ajustarem a diferentes situações de aprendizagem.
Será importante olhar agora um pouco para a função sigmóide (expressão 4.4). Esta
será escrita na seguinte forma:
Figura 1.4: Função sigmóide e respectiva derivada. [4]
1
sf (x) = (1.9)
[1 + exp (−x)]
Derivando a expressão 1.9 obtém-se a expressão 1.10. Esta expressão mostra clara-
mente que onde sf(x)=0 e sf(x)=1 a derivada é zero. A figura 1.4 é esclarecedora desta
situação. Tal será importante mais tarde quando for preciso investigar onde e quando as
redes neuronais aprendem melhor.
d (sf (x))
= sf (x) [1 − sf (x)] (1.10)
dx
A função transferência completa o modelo do neurónio (figura 1.5). Falta apenas falar
da adição de um parâmetro extra chamado bias que ocorre em certos tipos de modelos de
aprendizagem. A adição deste parâmetro tem como objectivo aumentar a adaptabilidade
da estrutura ao problema que se quer resolver.
Até agora para descrever um neurónio é necessário informação sobre dois tipos de
parâmetros: o conjunto de pesos e os parâmetros da função transferência. Existem tantos
pesos como sinais de input sendo estes gerados aleatoriamente no inicio do treino da rede
com valores dentro de um certo intervalo que depende do número de pesos {-1/n; 1/n} onde
n é o número de pesos na camada. Relativamente aos parâmetros da função transferência o
ponto crucial das três funções mostradas é o valor limiar ϑ (ponto onde o neurónio começa
a reagir).
As duas expressões que descrevem o funcionamento do neurónio são como já foi visto
as expressões 1.11 e a 1.12.
N et = w1 x1 + ... + wi xi + ... + wm xm = W X (1.11)
1
sf (N et, α, ϑ) = (1.12)
{1 + exp [−α (N et − ϑ)]}
A função transferência é tão simples que é suficiente considerar αNet-αϑ=arg para

mostrar a seguinte conjectura:
arg = αw1 x1 + αw2 x2 + ... + αwm xm − αϑ (1.13)
Substituindo em seguida αwi por wi0 e -αϑ por ϑ’ a expressão fica então:
arg = w10 x1 + w20 x2 + ... + wm

0
xm + ϑ 0 (1.14)
Se se considerar o valor ϑ’ como o produto de ϑ por uma componente xm+1 (sempre
igual a 1) obtém-se:
arg = w10 x1 + w20 x2 + ... + wm

0
xm + ϑ0 xm+1 (1.15)
0 0
Fazendo ϑ igual a wm+1 cria-se o produto de wm+1 por um sinal xm+1 dado que este é
1. Assim o somatório estende-se a mais um elemento:
m+1
arg = w10 x1 + w20 x2 + ... + wm
0 0
wi0 xi
X
xm + wm+1 xm+1 = (1.16)
i=1
A função transferência fica então:

1
sf (N et, α, ϑ) = ( m+1
!) (1.17)
X
1 + exp − wi0 xi
i=1
O output produzido pelo neurónio depende apenas do vector peso W de dimensão m+1
e do sinal de input X de dimensão m+1
W = (w1 , w2 , ..., wm , wm+1 ) (1.18)
X = (x1 , x2 , ..., xm , 1) (1.19)

O peso extra que deve estar sempre presente nas redes neuronais deste tipo, recebe
sempre o valor de input 1 e designa-se por bias.
1.4 Formação de Redes Neuronais.

Apesar do modelo do neurónio apresentado ser um modelo relativamente simples, a imple-
mentação de modelos mais complexos não provoca uma melhoria do seu desempenho.
Muitos tipos de modelos de rede foram estudados e desenvolvidos mas o que mais se
utiliza é o modelo de várias camadas. No modelo em camadas os neurónios são, como o
próprio nome indica, distribuı́dos em diferentes camadas. Uma camada é um grupo de neu-
rónios todos com o mesmo número (m) de pesos (sinapses) recebendo todos em simultâneo
o mesmo sinal de input de dimensão m. Os pesos são organizados numa matriz de pesos W
1.4 Formação de Redes Neuronais. 11
Figura 1.5: Modelo completo do neurónio. [4]
onde as linhas representam os neurónios. Cada linha j pode ser considerada um vector Wj
que representa o neurónio j e que é constituı́do por m pesos W ji , W j = (wj1 , wj2 , ..., wjm ).
Todos os pesos na mesma coluna i, wji (j=1, 2,..., n) recebem simultaneamente o mesmo
sinal xi . Cada vector de input X =(x1 ,x2 ,...,xi ,...,xm ) é introduzido na rede seguindo-se
o cálculo de todos os produtos wji xi . Os neurónios da mesma camada não estão ligados
entre si, havendo apenas ligação aos neurónios das camadas seguinte e anterior. Numa
rede constituı́da por uma única camada todos os neurónios pertencem essa camada. Cada
neurónio j recebe todos os dados de input X (x1 ,x2 ,...,xi ,...,xm ) e gera a partir destes um
sinal de output especı́fico (outj ). Na figura 1.6, os inputs são mostrados no topo. A ca-
mada de input não conta como camada activa visto que não leva a cabo nenhuma operação
aritmética tı́pica dos neurónios tal como o cálculo do valor Net e a sua transformação num
sinal de output (out) pela aplicação da função transferência. A figura 1.6 mostra uma rede
de uma camada composta por três neurónios cada um com cinco pesos. Como se pode
observar cada neurónio da referida camada obtém o mesmo conjunto de sinais de input
(x1 ,x2 ,...,xi ,...,xm−1 , 1). O peso wji está na posição i do neurónio j, por exemplo, o peso
w23 assinalado na figura é o terceiro peso do segundo neurónio. É de salientar, igualmente,
os cı́rculos a preto em cada neurónio que representam o bias. Numa representação da arqui-
tectura de uma rede geralmente os inputs são representados por quadrados e os neurónios
por cı́rculos.
A função das unidades de input (camada de input) é distribuir os valores de input por
todos os neurónios da camada abaixo. Os valores que chegam ao neurónio são diferentes
porque cada ligação de uma unidade de input i a um neurónio j tem um diferente peso
wji , representando uma força sináptica especı́fica. O valor dos pesos é determinado por um
processo de aprendizagem que será discutido mais adiante. Numa rede de uma camada os
sinais de output, outj , dos neurónios individuais são também os valores de output da rede.
Os valores de input podem ser interpretados como um vector X (x1 ,x2 ,...,xi ,...,x m ) que
é transformado pela matriz de pesos W com elementos wji e pela função transferência num
vector de valores de output, Out (out1 ,out2 ,...,outj ,...,outn ).
Figura 1.6: Rede de uma camada de neurónios. [4]
Figura 1.7: Rede neuronal com as unidades de input e duas camadas activas de neurónios.
(Imagem adaptada de [4])
Cada neurónio é representado por uma coluna na matriz W . A implementação do

modelo de várias camadas em algoritmo é também feito na representação matricial. Numa
rede com várias camadas a arquitectura escolhida geralmente liga os neurónios de uma
camada com todos os neurónios da camada seguinte e da camada anterior como é visı́vel
na figura 1.7.
As camadas abaixo da camada de input são geralmente designadas de camadas ocultas
porque não estão directamente ligadas ao “mundo exterior” como a camada de input e a
camada de output não podendo por isso ser acedidas pelo utilizador. Os valores de output
da primeira camada de neurónios, Out 1 , são os valores de input X 2 da segunda camada
de neurónios. Devido aos diferentes pesos wji nas ligações individuais o mesmo valor de
output tem um efeito diferente em cada neurónio. O resultado da rede neuronal é apenas
dado pela última camada da rede.
1.5 Arquitecturas e Representação Gráfica das Redes. 13
1.5 Arquitecturas e Representação Gráfica das Redes.

Estando já estabelecidas as operações básicas que os neurónios desempenham é necessário
escolher o número de camadas e o número de neurónios em cada camada da rede.
Uma rede neuronal é caracterizada topológicamente pelos seguintes parâmetros: nú-
mero de inputs e de outputs, número de camadas, número de neurónios em cada camada,
número de pesos em cada neurónio, forma como os pesos estão ligados dentro ou entre as
camadas e quais os neurónios que recebem os sinais de correcção
Este conjunto de parâmetros caracteriza a arquitectura da rede. Uma arquitectura
de rede bem definida é fundamental visto tornar mais fácil o estudo dos seus resultados.
o exemplo da figura 1.7 tem uma arquitectura 3×4×2. Nesse exemplo a representação
gráfica da arquitectura da rede é apresentada de forma simplificada. Os sinais de input
são representados por quadrados, os neurónios por cı́rculos enquanto que os pesos são
representados por pontos no arco superior de cada cı́rculo (neurónio). O parâmetro bias
é representado por um quadrado com o número 1 no seu interior, um pouco afastado da
restante arquitectura da rede.
Note-se que apesar deste tipo de arquitectura ser o mais vulgar existem arquitecturas
mais complexas em que os sinais de input e de output não passam para a camada imediata-
mente abaixo mas para outra. Contudo este tipos de arquitectura tornam os algoritmos de
aprendizagem muito mais complexos dificultando a adaptação dos pesos. A representação
das redes como a da figura 1.7 baseia-se no modelo dos neurónios biológicos no entanto
para programação utiliza-se a representação matricial.
Na representação matricial considera-se cada camada de n neurónios com m pesos que
formando a matriz peso (W ) de dimensões n×m. Para uma rede de várias camadas cada
matriz tem um expoente l (l de layer ) que especifica o ı́ndice da camada. A notação
l
wji (1.20)
refere-se ao peso i do neurónio j da camada l.
Na notação matricial a matriz peso para a camada de input é designada W 0 , transmite
m sinais e é um vector contendo o valor 1 n vezes:
W 0 = (1, 1, 1, ..., 1) (1.21)
A primeira camada activa da rede tem expoente 1, W 1 . A notação matricial mostra

claramente que os sinais de input para a camada X l e os sinais de output Out l dessa
camada são vectores de dimensão m e n respectivamente. De relembrar que:
X l = Outl−1 (1.22)
Outl = X l+1 (1.23)

Para introduzir um sinal de input de dimensão m numa rede de uma camada com n
neurónios (cada um com m pesos) faz-se o produto do vector X (x1 , x2 , ...,xm-1 , 1 ) de
dimensão m com a matriz peso W de dimensão n×m. O resultado é o vector Net de

dimensão n:
 
x1
w11 w12 . . . w1m
 
x2
 
w21 w22 . . . w2m  
 
  
.

  
w31 w32 . . . w3m

  
.

   
. . . . . .  
 
 
.
 
  
. . . . . .

  
xi

   
 . . . . . . . 
= (N et1 , N et2 , ..., N etj , ..., N etn ) = N et (1.24)
  .
 
. . . wji . .  
 
  
.

  
. . . . . .

   
  .
 
. . . . . .  
 
  

  xm−2 
. . . . . .

  
xm−1
  
wn1 wn2 . . . wnm  
1
Ou seja:
m
N etlj l l
X
= wji xi (1.25)
i=1
O ı́ndice j percorre os n neurónios e o ı́ndice i os m pesos do neurónio j. O número

de pesos no neurónio é igual ao número de variáveis de input xi mais a variável de input
extra (bias) que é sempre igual a 1. A expressão matricial 1.26 é uma descrição concisa de
todos os valores Net de uma rede com uma camada.
N etl = W l X l (1.26)
Numa rede de várias camadas as matrizes dos pesos que representam as várias camadas
distinguem-se pelo expoente l. Como o input da camada l geralmente é o output da camada
l-1 tem-se:
N etl = W l X l = W l Outl−1 (1.27)

Onde o valor Net para cada neurónio é dado por:
m
N etlj l
outl−1
X
= wji i (1.28)
i=1
O valor de Out l é obtido a partir de Netl pela aplicação de uma das funções transfe-
rência(sigmóide por exemplo):

Outl = sf N etl (1.29)
Capı́tulo 2
Processo de Aprendizagem -
Algoritmo de Retro-Propagação
“There are two ways of construting a software design: one way is to make it so simple that
there are obviously no deficiencies, and the other way is to make it so complicated that
there are no obvious deficiencies. The first method is far more difficult”
C. A. R. Hoare
2.1 Introdução
A propriedade essencial e fundamental numa rede neuronal é a sua capacidade de aprender
a partir de um certo “meio” e melhorar o seu desempenho ao longo da aprendizagem. A
rede neuronal aprende por um processo iterativo de ajuste das forças sinápticas (pesos).
Idealmente a rede torna-se cada vez mais conhecedora do meio após cada iteração do
processo de aprendizagem. A definição de aprendizagem, no contexto das redes neuronais,
dada por Haykin [6], adaptada a partir de Mendel e MacClaren (1970), é a seguinte:
“A aprendizagem é o processo pelo qual os parâmetros livres de uma rede neuronal são
adaptados por um processo de estı́mulo pelo meio em que a rede está inserida. O tipo de
aprendizagem é determinado pela forma como as mudanças nos parâmetros são realizadas.”
Esta definição de processo de aprendizagem implica a seguinte sequência de eventos:

1. A rede neuronal é estimulada por um certo meio.
2. A rede neuronal efectua mudanças nos seus parâmetros livres devido a esse estı́mulo.
3. A rede neuronal responde de uma nova forma ao meio devido às mudanças que
ocorreram na sua estrutura interna.
Ao conjunto de regras pré-definidas para a solução do problema de aprendizagem dá-se o
nome de algoritmo de aprendizagem. Existe uma grande variedade de algoritmos diferindo
uns dos outros na forma como o ajuste dos pesos é feito.
15
16 CAPÍTULO 2. PROCESSO DE APRENDIZAGEM...
Figura 2.1: Aprendizagem com supervisão (imagem adaptada de [4]).
Têm sido desenvolvidos vários tipos de redes neuronais sendo alguns mais semelhantes
ao modelo biológico do que outros. Cada rede neuronal tem as suas vantagens e desvanta-
gens visto que cada uma está mais ou menos vocacionada para lidar com certas aplicações.
Os três elementos que caracterizam essencialmente uma rede neuronal são a operação
aritmética no neurónio, a arquitectura da rede, e o processo de aprendizagem. Os dois
primeiros já foram discutidos no decorrer deste trabalho faltando apenas estudar o terceiro.
O processo de aprendizagem pode ser com ou sem supervisão. No primeiro os dados de
input X e os respectivos valores alvo Y são dados à rede. Os pesos são então adaptados
até que para qualquer conjunto de objectos conhecidos, os valores de output estejam o mais
próximo possı́vel dos valores alvo Y (figura 2.1).
Na aprendizagem sem supervisão os dados de input são passados repetidamente pela
rede até esta estar estabilizada (após um certo número de iterações). No anexo A é possı́vel
observar duas tabelas com as redes neuronais mais conhecidas, o tipo de aprendizagem que
seguem e quais os problemas que resolvem.
Existem outros tipos de redes com uma menor aplicação a problemas quı́micos, pelo
menos por enquanto. O facto de um algoritmo ser pouco utilizado não implica que não
seja capaz ou adequado para resolver o problema. A verdade é que existem algoritmos
mais populares que colhem a preferência dos investigadores. Como a implementação da
rede neste trabalho utiliza o algoritmo de Retro-Propagação será este o único apresentado
detalhadamente.
2.2 Retro-Propagação de Erros - Generalidades

A maior parte das aplicações de redes neuronais em quı́mica usa o algoritmo de Retro-
Propagação. Este algoritmo não representa nenhum tipo de arquitectura especial sendo
utilizada geralmente uma rede com várias camadas.
2.3 Arquitectura da Rede 17
Figura 2.2: Processo de aprendizagem do algoritmo de Retro-Propagação. (figura adaptada

a partir de [4])
Este método foi introduzido, em primeiro lugar por Werbos e, mais tarde, em 1986,
por Rumelhart, Hinton e Williams garantindo, rapidamente, grande popularidade e con-
tribuindo, decisivamente, para a implementação das redes neuronais. Este método tem
a vantagem do ajuste dos pesos poder ser efectuado por equações bem definidas tendo,
no entanto, muito pouco em comum com os processos responsáveis pelo ajustamento das
forças sinápticas nos sistemas biológicos.
O algoritmo de Retro-Propagação é um processo de aprendizagem com supervisão. Os
dados de input processados por uma dada camada vão originar um output, (Out l ) que será
o input da camada seguinte (X l+1 ). O resultado para o input é dado pela última camada
sendo incorrecto no inı́cio do treino. Os valores de output da última camada, Out last ,
são comparados com os valores esperados (Y) sendo, então, o erro determinado. Este erro
é usado para corrigir os pesos na camada de output, segue-se a correcção da penúltima
camada com base no erro da última camada e por ai diante até à primeira camada como
mostra a figura 2.2.
Os erros são portanto calculados em sentido contrário ao da propagação dos valores de
input como pretende traduzir o nome que lhe foi dado. O algoritmo de Retro-Propagação
deve mudar os pesos até que o erro nos valores de output (Out) seja minı́mo.
2.3 Arquitectura da Rede

Nas redes que utilizam o algoritmo de Retro-Propagação as camadas de neurónios estão
geralmente totalmente ligadas. A figura 1.7, já referida, é um exemplo de uma rede que
pode utilizar o algoritmo de Retro-Propagação.
Como seria de esperar, o número de camadas, assim como o número de neurónios em

cada camada, depende do problema a resolver. O número de pesos pode ir desde algumas
dezenas até redes com cerca de um milhão. Na maior parte dos casos é utilizada uma rede
com uma camada de input e duas camadas activas, uma oculta e uma de output.
Ao longo do processo de aprendizagem, é realizado um número considerável de ope-
rações, entre as várias camadas, sendo necessário um cuidado especial para saber qual a
camada envolvida em determinada operação. Para tornar as coisas mais fáceis, cada um
dos dados da rede (input, output, pesos, erros, correcções) terá em expoente a camada a
que pertence. Para evitar confusão todos os sinais serão tratados como output desde o
sinal de input inicial que será o Out 0 até ao output final da rede que será o Out last .
2.4 Processo de Aprendizagem

No algoritmo de Retro-Propagação a correcção dos pesos pode ser efectuada após a passa-
gem de um vector de input ou após a passagem de todos os vectores de input do conjunto
treino pela rede. Num caso a correcção é feita logo após o erro ser determinado, sendo
utilizada na maior parte das vezes. No segundo caso os erros de todos os pares de dados
são acumulados e o erro acumulado de todo o conjunto treino é, então, usado na correcção.
Durante a aprendizagem, o vector de input X é introduzido na rede, e o vector de output
Out produzido é comparado com o vector alvo Y (output correcto para X ) permitindo
calcular o erro da rede. O cálculo do erro de cada neurónio é feito de duas formas distin-
tas, consoante o neurónio é da última camada ou não. Note-se que em ambos os casos é
assumido que a função transferência é uma função sigmóide.
Para a última camada de output l=last o erro δ j l é dado pela expressão:

δjlast = yj − outlast
j outlast
j 1 − outlast
j (2.1)
Para todas as outras camadas l (l=last-1 a 1) o erro δ j l é calculado pela seguinte

expressão:
r
!

δjl δkl+1 wkj
l+1
outlj 1 − outlJ
X
= (2.2)
k=1
onde l é a camada corrente, j é o neurónio corrente e i o ı́ndice do input, ou seja, o ı́ndice

do neurónio da camada superior, δ j l é o erro introduzido pelo neurónio correspondente.
2.5 Regra Delta generalizada

Na aprendizagem por Retro-Propagação os valores de input percorrem a rede num sentido
enquanto que a alteração dos pesos ocorre em sentido contrário. A correcção do peso i, do
neurónio j, na camada l é dado pela expressão:
2.5 Regra Delta generalizada 19
Figura 2.3: Erro ε em função do valor do peso. [4]
l l(new) l(old)
∆wji = wji − wji (2.3)
l
O peso wji do neurónio j da camada l é o responsável pelo contributo que o input i
tem para com o output j. Essas duas ligações, uma com a camada acima e outra com a
camada abaixo, faz com que o erro tenha origem quer no lado de input quer no lado de
output. Uma forma de considerar ambas as influências é a regra delta expressa como:
∆parametro = ηg (erro output) f (input) (2.4)

Na sua forma mais geral a regra delta estabelece que a mudança de qualquer parâmetro
num processo adaptativo deve ser proporcional ao sinal de input e ao erro do output. A
constante η (velocidade de aprendizagem) determina qual a grandeza com que as mudan-
ças devem ser implementadas nos ciclos de iteração. A expressão 2.4 usando a notação
adaptada vem:
l
∆wji = ηδjl outl−1
i (2.5)
No algoritmo de Retro-Propagação a mudança δ j l , necessária na correcção dos pesos,

é obtida usando o método do gradiente descendente. A representação do erro (ε) versus
o parâmetro que o causa tem um mı́nimo. Observando o declive dessa curva é possı́vel
decidir como alterar o parâmetro de forma a haver uma aproximação ao mı́nimo. Na figura
2.3 é possı́vel observar que o valor do peso, a ser mudado, está à direita do mı́nimo.
Se a derivada dε/dw é positiva o novo valor do parâmetro deve ser menor do que o
anterior e vice-versa, ou seja:
−kdε
∆w = w (new) − w (old) = (2.6)
dw
l
Onde k é o factor de escalamento. Para um peso especı́fico wji , na camada l, a equação
correspondente é:
l −k∂εl
∆wji = l
(2.7)
∂wji
Esta função erro representa parte do erro causado por este peso no output da camada
l
l. Como a função erro é uma função indirecta e complexa dos parâmetros w ji , pode-se
l l
calcular a derivada ∂ε /∂wji usando a regra em cadeia:
−k∂εl ∂εl ∂outlj ∂N etlj

! ! !
l
∆wji = l
= −k (2.8)
∂wji ∂outlj ∂N etlj l
∂wji
As derivadas da função erro εl são calculadas, consecutivamente, relativamente aos

valores de outli , N etlj e wji
l
.
∂N etl
Derivada ∂wl j
ji
m
N etlj = l l
X
wji xi (2.9)
i=1
A expressão anterior descreve de um modo exacto a dependência do valor Net (N et lj )

relativamente ao conjunto de pesos do neurónio j, xli são as componentes do vector de input
(X l ) da camada l. Tendo em conta a convenção utilizada:
xli = outl−1
i (2.10)
Se a expressão 2.9 for escrita como a soma de produtos a derivada de N etlj , relativamente
a um peso em particular, é fácil constatar que:

∂N etlj l
∂ wj1 out1l−1 + ... + wji
l
outl−1
i
l
+ ... + wjm outl−1
m
l
= l
= outl−1
i (2.11)
∂wji ∂wji
Inserindo a expressão 2.11 na expressão 2.8, para as correcções dos pesos, vai-se obter:
∂εl ∂outlj
! !
l
∆wji = −k outl−1
i , (2.12)
∂outlj ∂N etlj
que corresponde à expressão:
l
∆wji =η δjl outl−1
i ,
onde o termo delta é dado por:
∂εl ∂outlj
! !
δjl = − (2.13)
∂outlj ∂N etlj
∂outl
Derivada ∂N etjl
j
Para estudar a relação entre outlj e N etlj é necessário ter em conta a função transferência
utilizada no algoritmo de Retro-Propagação que na maior parte dos casos é uma sigmóide
do tipo:
1
outlj = . (2.14)
1 + exp −N etlJ
Esta função tem como vantagem face à função limite rı́gido e à limiar-lógico, o facto da
sua derivada poder ser obtida analiticamente. Além de ser facilmente diferenciável, a sua
derivada pode ser expressa em termos da própria função:
∂outlj l

l

= out j 1 − out j (2.15)
∂N etlj
∂εl
Derivada ∂out l
j
Relativamente a esta derivada, é necessário distinguir dois casos, dependendo se ε l
é ou não explicitamente conhecida, ou seja, se a correcção está a ser calculada para a
última camada ou para a camada oculta. Para a última camada, o erro pode ser calculado
subtraindo o output outlj de cada neurónio j, da componente yj correspondente, do vector
alvo Y :
n 2
l
yj − outlj
X
ε = (2.16)
j=1
Assim, a derivada ∂εl /∂outlj pode ser obtida facilmente

2 2
∂ε l ∂ y1 − outl1 ∂ yj − outlj
= + ... + + ... = −2 yj − outlj (2.17)
∂outlj ∂outlj ∂outlj
A expressão final para a correcção dos pesos, na última camada da rede, é obtida pelo
conjunto das três derivadas substituindo-se os resultados obtidos na expressão 2.8. Como o
único erro conhecido, exactamente, é o da última camada (εlast ) o expoente l é substituı́do
por ultimo. Além disso, deve ser substituı́do η por 2k:
∂εlast
last

= −2 y j − out j ,
∂outlast
j
∂outlast
j last

last

= out j 1 − out j ,
∂N etlast
j
∂N etlast
j
last
= outilast−1 .
∂wji
Obtém-se, então, a seguinte expressão, após a substituição:

last
wji = η yj − outlast
j outlast
j 1 − outlast
j outilast−1 (2.18)
Na camada oculta l, o erro εl não pode ser calculado directamente visto que os valores
dos outputs desta camada não são conhecidos, por isso a derivada ∂εl /∂outlj só pode ser
calculada se forem feitas certas suposições. Uma delas é que o erro εl produzido numa
camada l, é distribuı́do igualmente por todos os r neurónios da camada seguinte (l+1), ou
seja:
r
εl = εl+1
X
k . (2.19)
k=1
O somatório percorre todos os i neurónios do nı́vel l+1. Assim, o erro no nı́vel l pode
ser obtido pelo conjunto de erros do nı́vel l+1. Tendo em conta a expressão 2.19, a derivada
∂εl /∂outlj não é difı́cil de determinar pela aplicação da regra em cadeia:
∂εl r
∂εl+1 ∂N etl+1
! !
k k
X
= (2.20)
∂outj k=1 ∂N etl+1
l
k ∂outlj
A derivada da direita ∂N etl+1 l
k /∂outj é obtida de modo semelhante à derivada descrita
pelas equações 2.9 e 2.11, obtendo-se:
m m
N etl+1 l+1 l+1 l+1
outlj = wk1
l+1
outl1 + ... + wkj
l+1
outlj + ... + wkm
l+1
outlm . (2.21)
X X
k = wkj xj = wkj
j=1 j=1
Assim, tem-se:
∂N etl+1
k l+1
= wkj . (2.22)
∂outlj
Substituindo na expressão 2.20,
∂εl r
∂εl+1
!
k l+1
X
= wkj . (2.23)
∂outlj k=1 ∂N etl+1
k
Aplicando então a regra em cadeia à derivada ∂εl+1 /∂N etl+1

k vem:
∂εl+1 ∂εl+1 ∂outl+1

! !
k
l+1 = l+1 . (2.24)
∂N etk ∂outk ∂N etl+1
k
Comparando o membro direito da equação 2.24 com as expressões entre parêntesis do
lado direito da expressão 2.12, é fácil deduzir que esta derivada é igual às correcções δ kl+1
no nı́vel l+1. Assim,
∂εl+1 l+1
l+1 = δk . (2.25)
∂N etk
Inserindo este resultado na expressão 2.20, obtém-se a seguinte expressão:

r
∂εl
δkl+1 wkj
l+1
X
l
= (2.26)
∂outj k=1
Como na correcção dos pesos da camada de output, as três derivadas são agrupadas a
partir das expressões 2.11, 2.15 e 2.26 e inseridas na expressão 2.8, tem-se:
∂N etlj
l
= outl−1
i ,
∂wji
∂outlj l

l

= out j 1 − out j ,
∂N etlj
r
∂εl
δkl+1 wkj
l+1
X
= .
∂outlj k=1
Resulta então na seguinte expressão:

r
!

l
δkl+1 wkj
l
outlj 1 − outlj outl−1
X
∆wji =η i . (2.27)
k=1
A escolha da velocidade de aprendizagem reveste-se de especial importância visto deter-

minar a velocidade a que os pesos mudam. Se mudarem muito rapidamente o procedimento
pode ficar preso num mı́nimo local. Deve ser escolhido um valor que encontre um meio
termo entre a rapidez de aprendizagem e a convergência para o mı́nimo global. A velocidade
de aprendizagem é geralmente obtida por tentativa e erro sendo bons valores iniciais valores
compreendidos entre 0,3 e 0,6. Geralmente, o valor é constante mas pode ser diminuı́do
linearmente ao longo do processo de treino.
O resultado dado pela expressão 2.27 mostra como três camadas estão envolvidos no
cálculo da correcção dos pesos na camada oculta l. Os valores envolvidos são: o output
outl−1
i da camada acima (age como o input i da camada l), o outlj do neurónio j da camada
l+1
l e a correcção δkl+1 do peso wkj da camada l+1.
De salientar que em qualquer aplicação é necessário ter em atenção a representação da
informação que é fornecida à rede e da que é obtida por esta. Bernard Widrow, investigador
de redes neuronais, pronunciou-se uma vez relativamente à importância da representação
de dados:
“Os três aspectos mais importantes que devem ser tratados no desenvolvimento de redes
neuronais são:
1. Representação 2. Representação 3. Representação.”
Capı́tulo 3
Aplicações de Redes Neuronais

Artificiais em Quı́mica
O número de publicações sobre aplicações de redes neuronais para a resolução de problemas

em quı́mica tem aumentado consideravelmente nos últimos anos. Foram estudados vários
problemas, tais como relação espectro/estrutura (massa, IV, NMR), reactividade quı́mica,
previsão de propriedades fı́sico-quı́micas, etc., abrangendo assim várias áreas da quı́mica.
O principal objectivo deste capı́tulo é demonstrar as capacidades das redes neuronais
mostrando a importância que poderão vir a ter no futuro e em particular no que se refere à
quı́mica. Dar-se-à apenas um resumo das aplicações em algumas áreas da quı́mica referindo
os modelos de redes utilizados para a sua resolução destacando as aplicações relacionadas
com a espectrometria de massa. O problema da reactividade quı́mica será estudado, deta-
lhadamente, no capı́tulo seguinte visto que a rede implementada neste trabalho irá tratar
desse assunto.
Em geral, diferentes tipos de problemas requerem diferentes arquitecturas de redes
neuronais e estratégias de aprendizagem. Nas aplicações em quı́mica, grande parte dos
problemas descritos fazem uso de redes neuronais com uma camada oculta recorrendo ao
algoritmo de Retro-Propagação como estratégia de aprendizagem.
Antes de desenhar a estrutura de uma rede neuronal para um dado problema, deve-se
primeiro classificá-lo e, só depois, escolher o tipo de rede e o método de aprendizagem
mais adequado à sua resolução. A tabela A.1 (apêndice A) mostra, os diversos tipos de
problemas e as redes mais apropriadas à resolução de cada um deles tornando, assim mais
fácil, a escolha do método adequado a uma dada tarefa, por sua vez a tabela A.2 (do mesmo
apêndice) resume algumas das aplicações das redes neuronais em quı́mica.
3.1 Aplicação à Espectrometria de Massa

Existem inúmeras aplicações de redes neuronais à espectrometria de massa. Essas aplica-
ções não dizem apenas respeito ao estudo da correlação estrutura molecular-espectro de
massa, estando também relacionadas com outras áreas da quı́mica e de outras ciências.
25
26 CAPÍTULO 3. APLICAÇÕES DE REDES NEURONAIS...
3.1.1 Correlação Estrutura Molecular-Espectro de Massa

A aprendizagem da relação entre espectro de massa e estrutura é uma das mais complexas
para uma rede neuronal. Contudo, apesar da complexidade do problema existem várias
publicações de redes neuronais artificiais sobre este assunto [12, 14–17].
O primeiro trabalho encontrado na literatura sobre este assunto data de 1971, realizado
por Jurs e Isenhour [12]. No entanto, os modelos utilizados na altura possuı́am certas limi-
tações, nomeadamente o facto dos dados necessitarem de ser linearmente separáveis o que
como é lógico afectava os resultados obtidos, tendo em conta a complexidade do problema.
O segundo trabalho encontrado foi realizado por Curry e Rumelhart [14]. Gasteiger e Zu-
pan fazem referência a este trabalho, assim como ao de Lohninger nos seus artigos sobre
redes neuronais em quı́mica [5, 8].
Para a resolução deste problema Curry e Rumelhart utilizaram uma rede multi-camada,
com uma camada oculta, utilizando o algoritmo de Retro-Propagação. Nesse trabalho, o
espectro de massa é descrito por 493 aspectos, estes incluem os logaritmos das intensidades
dos picos entre m/z 40 e 219, os logaritmos das perdas de neutros entre m/z 0 e 179,
somas de auto-correlação, etc. Os valores dessas 493 caracterı́sticas espectrais constituem
o vector de input da rede. A estrutura de um composto orgânico é caracterizada por 36
subestruturas que dizem respeito a 36 grupos funcionais diferentes (álcool primário, éster,
cetona, amina terciária, etc.) que constituem 36 unidades de output. Sendo 80 o número de
neurónios na camada oculta a rede terá então 493×80+80×36=42 320 pesos. É necessário
um grande conjunto de dados para o treino de uma rede desta envergadura. Neste caso
foram utilizados 31 926 espectros de massa para o treino e 12 671 para o teste.
Os resultados obtidos para a rede neuronal treinada, designada MSnet, foram com-
parados com os resultados obtidos com o STIRS. O STIRS, desenvolvido pelo grupo de
McLafferty, é um poderoso sistema para determinar a presença de grupos funcionais nos
espectros de massa.
Os resultados da classificação, obtidos pelo MSnet, são relativamente melhores do que
os obtidos pelo STIRS, oferecendo algumas vantagens. Pode fornecer a probabilidade de
um certo composto pertencer a uma determinada classe, verifica não só a presença mas
também a ausência de um grupo funcional e, por último, o tempo de cálculo é duas ordens
de grandeza menor do que o necessário pelo STIRS. Saliente-se que, mesmo que o treino de
uma rede neuronal necessite de um intervalo de tempo considerável, esta é capaz de fazer
previsões num intervalo de tempo mı́nimo.
Para satisfazer um requisito de aprendizagem sobre a relação entre a estrutura mole-
cular e os dados espectroscópicos, para todo o domı́nio da quı́mica orgânica, é necessário
resolver um problema fundamental que diz respeito à distribuição estatı́stica dos dados.
Por exemplo, os 32 000 compostos, que constituem o conjunto treino, contêm 33 ésteres
ftálicos que originam um pico caracterı́stico a m/z 149. No entanto, muitos espectros têm
um pico a m/z 149 e não são ésteres ftálicos, e por issso, estes não são reconhecidos pela
rede.
A figura 3.1 mostra a hierarquia de redes que permite ultrapassar este problema. Uma
rede preliminar encarrega-se de fazer a partição em termos dos grupos funcionais mais
3.1 Aplicação à Espectrometria de Massa 27
Figura 3.1: Hierarquia de redes neuronais. [5]
importantes, enquanto que uma rede neuronal especializada trata esse resultado fazendo
um refinamento das classes de compostos. Para o caso do grupo éster, a segunda rede divide
os compostos contendo este grupo em 22 subclasses (ésteres saturados, ésteres aromáticos,
lactonas, anidridos, etc.). Esta ideia pode mostrar-se bastante útil em outras áreas e para
outros problemas.
Além do trabalho de Curry, outro trabalho pioneiro na aplicação das redes neuronais à
espectrometria de massa é o trabalho de Lohninger e Stancl [15]. Estes autores utilizaram
a rede de Kohonen e a rede de Retro-Propagação para a classificação de espectros de massa
de esteróides. Por último é de salientar o trabalho de Eghbaldar, Forrest e Cabrol-Bass [17]
que consistiu na implementação de uma metodologia para o desenvolvimento e optimização
de redes neuronais para o estudo da correlação espectro de massa-estrutura. Ao comparar
os seus resultados com os resultados obtidos por outros autores, que não seguiram uma
metodologia pré-definida para a optimização da rede, foi possı́vel observar uma melhoria
de resultados.
3.1.2 Outros exemplos de aplicações de Redes Neuronais Artifi-

ciais à Espectrometria de Massa
Além da aplicação referida anteriormente, existem muitas mais aplicações de redes neuro-
nais à espectrometria de massa. De seguida, irão ser descritos alguns desses trabalhos.
O objectivo da primeira aplicação é verificar se um azeite virgem está adulterado.
Devido ao seu elevado preço torna-se vantajoso, em termos económicos, adulterá-lo com
outros óleos. A fim de o impedir foram propostos vários métodos para a detecção da
adulteração do azeite não tendo nenhum encontrado uma aceitação plena. Para a resolução
deste problema Goodacre, Kell e Bianchi [18] combinaram a técnica Py-MS com redes
neuronais para uma rápida identificação da adulteração do azeite com outros óleos.
O método consistiu em traçar os espectros de massa de dois conjuntos de amostras.
Um dos conjuntos era constituı́do por 12 amostras de azeite extra virgem e o outro por 12
amostras de azeites adulterados. A rede é composta por uma camada de input constituı́da
pelas intensidades normalizadas de 150 iões de m/z entre 51 e 200 e uma camada oculta
com 8 neurónios. A aprendizagem é feita utilizando o algoritmo de Retro-Propagação. O
sinal de output será zero para os azeites adulterados e um para os azeites virgens. Após
o treino, o teste da rede mostrou que a combinação de Py-MS com as redes neuronais
artificiais constitui um eficaz instrumento de análise da pureza de azeites.
A segunda aplicação está relacionada com a industria quı́mica. A rápida determinação

do número de cetanos (CN) e da densidade de combustı́veis, após a sua análise por espec-
trometria de massa, constitui um bom desafio. Yang e seus colaboradores [19] aceitaram-no
e utilizaram as redes neuronais para prever o CN e a densidade de combustı́vel diesel, a
partir da sua composição quı́mica. O CN e a densidade são correlacionados com 12 grupos
hidrocarboneto, no combustı́vel diesel, determinados por cromatografia liquida e GC-MS.
São utilizados 69 combustı́veis diesel, 48 para o treino da rede e 21 para o teste. Este
trabalho demonstrou, uma vez mais, que para problemas complexos não-lineares, como
a correlação de CN com o tipo de caracterização do hidrocarboneto, as redes neuronais
oferecem um modelo melhor para a sua resolução.
Um terceiro exemplo é uma aplicação relacionada com a biologia. Os vários tipos de

cereais são, normalmente, identificados por uma simples análise visual ou através de padrões
electroforéticos das proteı́nas armazenadas no grão do cereal. Bloch et al [20] desenvolveram
um método mais rápido para a análise das variedades de trigo (Triticum aestivum L.) que
combina a análise de proteı́nas de trigo solúveis em álcool, usando MALDI-TOF-MS com
redes neuronais. O mesmo método foi aplicado para a identificação das várias variedades de
cevada (Hordeum vulgare L.) e centeio (Secale cereale L.). Para a cevada 95% dos espectros
de massa são classificados correctamente. Quanto ao centeio, o método não é muito eficaz,
dada a grande semelhança entre os espectros de massa das diferentes variedades desse
cereal.
Uma outra aplicação, relacionada com a biologia, foi realizada por Sebastian e Viallon
[21]. Estes autores utilizaram a espectrometria de massa para a caracterização dos tecidos
gordos de cordeiros e as redes neuronais para a sua classificação. Os lı́pidos do tecido gordo
subcutâneo, de 120 cordeiros, foram analisados por Py-MS, após extracção dos lı́pidos com
hexano. Os animais eram provenientes de 6 paı́ses europeus com diferentes sistemas de
produção. A classificação dos tecidos gordos, de acordo com o tipo de alimentação dos
cordeiros, (leite, pasto, ração, cereais) é obtida por análise discriminante e redes neuronais,
permitindo o reconhecimento do tipo de alimentação. Os resultados obtidos com redes
neuronais são de 92% de classificações correctas.
De seguida vai ser apresentada uma aplicação das redes e da espectrometria de massa
3.1 Aplicação à Espectrometria de Massa 29
à agro-quı́mica. Os pesticidas de carbamátos aromáticos são importantes agro-quı́micos.

Já foram construı́dos vários modelos de classificação para carbamátos e suas subestruturas
utilizando espectros de massa e redes neuronais. Wan et al [22] estudaram os carbamátos
a classificar por GC-MS (os modelos de classificação são construı́dos a partir de espectros
experimentais de referência). Estes autores estudaram diferentes modelos de redes con-
cluindo que uma hierarquia de redes, cada uma com um único output, conduzia a melhores
previsões. As redes hierárquicas classificam correctamente os espectros em 98% dos casos.
Depois de alguns exemplos relacionados com a biologia, agro-quı́mica e industria quı́-

mica o próximo vai mostrar como as redes neuronais, juntamente com a espectrometria
de massa, podem ser úteis à quı́mica forense. Neste exemplo, as redes neuronais artificiais
são utilizadas na implementação de um motor de busca numa biblioteca de espectros de
GC-MS, constituindo uma poderosa e útil ferramenta analı́tica para os quı́micos forenses.
Tong e Cheng [23] escolheram um total de 28 drogas, correntemente sobre controlo em
Hong-Kong para o estudo. Dados forenses, sob a forma de espectros de massa, foram usa-
dos para o treino (355 espectros) e teste (163 espectros) da rede. Todas as redes neuronais
estudadas nunca fizeram um reconhecimento abaixo de 97,5% sendo de 100% o da melhor.
A espectrometria de massa tem sido, igualmente, uma preciosa ajuda na análise de

questões ambientais. Os estudos de biodegrabilidade de óleos são importantes para o
desenvolvimento de lubrificantes “amigos” do ambiente podendo ser realizados através de
um grande número de métodos. O método aceite, a nı́vel mundial, é o teste de 21 dias
desenvolvido pelo “Coordinating European Council” designado por CEC-L-33-A-93. Basu
et al [24] utilizaram as redes neuronais para a previsão da biodegrabilidade dos óleos com
base na sua composição quı́mica, viscosidade e ı́ndice de viscosidade. A composição quı́mica
é determinada por NMR e espectrometria de massa. Foram utilizados 31 óleos base, de
diferentes origens e métodos de processamento, no desenvolvimento de um modelo para
prever a biodegrabilidade utilizando o algoritmo de Retro-Propagação.
Também, na microbiologia, está-se a tornar cada vez mais corrente o uso da espectro-
metria de massa. A Py-MS é uma técnica analı́tica cada vez mais utilizada, podendo as
redes neuronais ter um papel importante a desempenhar. Kenyon et al [25] mostraram que
a aplicação de redes neuronais aos dados obtidos por Py-MS oferece novas oportunidades
para a classificação, identificação e comparação de microrganismos em biotecnologia e mi-
crobiologia clı́nica. O uso de redes neuronais para a identificação de membros do grupo de
espécies streptomycete foi alcançado com sucesso.
No trabalho seguinte fica, uma vez mais, mostrada a utilidade das redes neuronais
quando utilizadas conjuntamente com a espectrometria de massa. Cada azeite produz
um espectro de massa diferente, conforme a sua origem geográfica, devido a vários fac-
tores. A aplicação das redes a esses dados permitirá determinar a sua origem geográfica.
Para a realização do trabalho foram recolhidas azeitonas de 5 regiões de Itália, dos mais
variados locais e culturas. Após a colheita é produzido azeite extra virgem. Salter et
al [26] procederam à análise, em triplicado, por Py-MS. De seguida os espectros obtidos

foram normalizados e agrupados segundo a região, sendo divididos em conjunto de treino
e conjunto teste, numa proporção 2:1 para Abruzzo:Sardinia e Apulia:Sardinia, e numa
proporção 1:1 para Lazio:Sicily. Usando uma rede neuronal de um único output, que dá a
proveniência geográfica como um código numérico, todas as amostras foram correctamente
identificadas. Este foi o primeiro caso onde a precisão e a discriminação de Py-MS foi
mostrada em combinação com redes neuronais para fazer a descrição de tipos de azeite por
regiões. Contudo já em 1994 Zupan e Novic [27] tinham utilizado as redes neuronais para
a classificação de azeites.
O último exemplo mostrado, relativamente a aplicações de redes neuronais em espectro-

metria de massa, será uma aplicação semelhante à anterior. Contudo, em vez da determi-
nação da origem de azeites o objectivo é a determinação da origem de vinhos. Montanarella
e Bassani [28] aplicaram a Py-MS a 33 amostras de vinhos certificados de diferentes regiões
de Espanha, França e Itália. Os espectros de massa obtidos foram divididos em conjunto
de treino e conjunto teste. O treino foi feito utilizando o algoritmo de Retro-Propagação.
Mais de 90% das amostras de vinho foram correctamente identificadas, de acordo com o
seu pais de origem, após o treino da rede. Não foi, contudo encontrada nenhuma relação
entre os espectros de Py-MS e a espécie ou zona de cultivo. Apesar disso a técnica pode
ser aplicada para uma rápida identificação do paı́s de origem de uma amostra de vinho. A
combinação com outras técnicas (IR-MS, NMR) pode dar informação complementar sobre
as regiões de origem da amostra.
3.2 Outras Aplicações em Quı́mica

Além das aplicações à espectrometria de massa, existem outras aplicações relacionadas
com a quı́mica analı́tica, desde a cromatografia gasosa até à electroforese capilar passando
por várias técnicas espectroscópicas [27, 29–32]. Tem-se, como exemplo, o trabalho de
Long et al [29] que utiliza uma rede de Retro-Propagação para reconhecimento de dados
cromatográficos. Os dados, a classificar, referem-se a combustı́veis de avião a jacto obtidos,
por cromatografia gasosa e GC-MS.
Em seguida mostram-se exemplos de aplicação à quı́mica orgânica, quı́mica-fı́sica, à
espectroscopia de infra-vermelho e, por fim, à ressonância magnética nuclear.
3.2.1 Aplicação à Quı́mica Orgânica

A aplicação de redes neuronais à quı́mica orgânica pode efectuar-se de várias formas tendo
em conta o objectivo desejado.
Em 1990 Elrod et al [33] utilizaram as redes neuronais para prever reacções de substi-
tuição electrofı́lica aromática. A estratégia seguida consistiu em treinar uma rede neuronal
com o algoritmo de Retro-Propagação que previsse os produtos de substituição electrofı́lica
3.2 Outras Aplicações em Quı́mica 31
em benzenos substituı́dos. Os resultados obtidos são semelhantes às previsões de outros

métodos teóricos dos experimentalistas.
Outra aplicação encontrada na literatura é o estudo dos produtos da nitração, efectuado

por Kvasnicka et al [34]. Este trabalho tem como objectivo prever o rendimento de reacções
de nitração, na posição meta, para uma série de benzenos mono-substituı́dos.
Chen e Gasteiger [35], em 1996, utilizaram uma rede neuronal para classificar reacções,
dando especial atenção às reacções onde existia a adição de uma ligação C-H a uma ligação
C=C, tais como a adição de Michael e a alquilação de Friedel-Crafts. A rede neuronal uti-
lizada foi a rede de Kohonen. Após o treino, a rede previu correctamente 95% das reacções
do conjunto teste. Os mesmos autores publicaram em 1997 um trabalho semelhante [36].
Uma vez mais é utilizada a rede de Kohonen e um conjunto unidades de input que des-
crevem os centros reactivos da molécula. Além de classificar as reacções quı́micas, este
trabalho permite, ainda, observar os nı́veis de similaridade entre reacções, sendo possı́vel
obter outras informações quı́micas ao estudar-se as posições das reacções no mapa de Koho-
nen. Os resultados do teste foram um pouco inferiores aos do estudo anterior. Contudo de
salientar a maior complexidade das moléculas e das reacções estudadas neste caso.
3.2.2 Aplicação à Espectroscopia de Infra-Vermelho

São várias as aplicações de redes neuronais à espectroscopia de infra-vermelho. A maior
parte dos casos, encontrados na literatura, dizem respeito à correlação espectro de infra-
vermelho estrutura [37–42] e vice-versa [46].
Um dos muitos trabalhos da previsão da estrutura a partir do espectro de infra-vermelho
foi o trabalho desenvolvido por Novic et al [37]. Neste trabalho são utilizados dois tipos
de redes neuronais artificiais para a análise do espectro de infra-vermelho. A rede de
Kohonen, responsável pelo mapeamento dos espectros num plano, e a rede de Contra-
Propagação, para a determinação da estrutura do composto. O mapeamento da rede de
Kohonen permite a escolha do conjunto treino e teste sendo estes constituı́dos por 755 e
2529 espectros, respectivamente. Após o treino, a rede prevê a estrutura dos compostos
correctamente em cerca de 80% dos casos.
Outro exemplo semelhante é o trabalho de Klawun et al [38]. Neste trabalho o output

da rede é constituı́do por 26 grupos funcionais. É fornecida à rede, como input, o espectro
e a rede dará como output a informação sobre a presença ou ausência dos tais 26 grupos
funcionais. Após a optimização da rede, esta responde correctamente a 93,8% dos espectros
relativamente à presença e 95,7% relativamente à ausência. É de salientar, o trabalho de
Cleva et al [39], em que é feita uma abordagem diferente ao problema, utilizando um sistema
hierárquico de redes neuronais para a determinação da estrutura. A primeira rede faz uma
classificação em apenas 5 classes: compostos contendo grupos carbonilo, hidroxilo, amina
etc. Depois, para cada classe, existe uma rede para identificar estruturas mais especificas
de cada um desses tipos de compostos. Uma das vantagens é o pequeno tamanho de cada
uma das redes envolvidas. Redes com poucos outputs são facilmente optimizadas e a sua
performance é melhor do que a de redes de maiores dimensões.
Nos casos referidos, até agora, é obtida a estrutura do composto a partir do espectro de
infra-vermelho. Contudo, também é possı́vel fazer uma simulação do espectro a partir da
estrutura do composto. Um exemplo desta aplicação é o trabalho de Gasteiger et al [41],
publicado em 1997, em que utilizando uma rede de Retro-Propagação foi possı́vel simular
a estrutura a partir de um espectro de IV e vice-versa. Este trabalho é importante visto
que é bastante útil na identificação de estruturas. Em 1999, Hemmer et al [42] publicaram
um trabalho mais desenvolvido com os mesmos objectivos do anterior.
Weigel e Herges [46] também usaram as redes neuronais para simular espectros de
infra-vermelho. Contudo estes autores apenas simularam espectros de compostos orgânicos
-CHO. Neste trabalho são utilizados dois métodos para a simulação ambos usando redes
de Retro-Propagação. No primeiro o input é constituı́do pelas frequências harmónicas e
intensidades calculadas por um método semi-empı́rico e no segundo pelas subestruturas do
composto correspondente. Para o treino da rede é utilizado um conjunto de 840 compostos
-CHO. Ambos os métodos são comparáveis em termos de performance oferecendo uma
boa qualidade de simulação na região 4000-1300 cm-1 falhando contudo na região das
“impressões digitais” (1300-400 cm-1 ).
3.2.3 Aplicação à Quı́mica-Fı́sica

As aplicações das redes neuronais à quı́mica-fı́sica [47–51] permitem prever várias propri-
edades como, por exemplo, potenciais de ionização, pontos de ebulição, solubilidade entre
outras.
O primeiro exemplo a apresentar foi publicado em 1994 por Sigman et al [47], onde
é utilizada uma rede de Retro-Propagação para “aprender ” a relação entre a estrutura
electrónica e os três primeiros potenciais de ionização de 222 átomos e iões cujos valores já
tinham sido calculados experimentalmente. Os resultados do teste da rede mostraram-se
concordantes com os valores experimentais.
Outra aplicação interessante é o mapeamento do potencial electrostático de moléculas

feito por Gasteiger e Li [48]. Os sinais das redes neuronais biológicas são transmitidos ao
longo dos neurónios por substâncias quı́micas, designadas neuro-transmissores. Existem
pelo menos dois tipos de receptores, os receptores muscarı́nicos e os receptores nicotı́nicos.
A investigação do potencial electrostático da molécula é feito para estudar os segredos da
actividade biológica, utilizando para tal a rede de Kohonen. A aplicação é efectuada ma-
peando pontos de uma superfı́cie de van der Waals a 3D numa superfı́cie a duas dimensões.
A metodologia, seguida para o mapeamento das superfı́cies do potencial electrostático,
consistiu nos seguintes passos: cálculo das coordenadas atómicas a 3 dimensões usando o
gerador de estruturas CORINA, cálculo das cargas atómicas parciais utilizando o procedi-
3.2 Outras Aplicações em Quı́mica 33
mento empı́rico PEOE [43–45], cálculo dos pontos do potencial electrostático da superfı́cie
de van der Waals utilizando o potencial clássico de Coulomb e, por fim, escolha aleatória
de 20 000 pontos a partir da superfı́cie de van der Waals que será o conjunto treino da rede
de Kohonen (com arquitectura 100×100). Após o treino da rede de Kohonen os pontos que
estavam próximos na superfı́cie de van der Waals são mapeados no mesmo ou em neurónios
vizinhos. Este trabalho permitiu observar que o potencial electrostático molecular é um
factor crucial na ligação dessa moléculas aos seus receptores. O mapa de Kohonen conserva
a informação essencial do potencial electrostático, permitindo a projecção de propriedades
das superfı́cies moleculares. Pode, assim, ser utilizado no estudo da actividade biológica
de compostos.
Em 1996, Hall e Story [49] aplicaram a rede de Retro-Propagação, com arquitectura

19×5×1, para a previsão do ponto de ebulição e da temperatura crı́tica de compostos or-
gânicos. Para essa previsão foi utilizado um conjunto treino e teste de 268 e 30 compostos,
respectivamente, tendo-se obtido um erro de 1,12% para o teste da rede. Para a determi-
nação das temperaturas crı́ticas, foi utilizada uma rede 9×4×1 e um conjunto treino de
147 compostos e de teste de 18, tendo-se obtido um erro de 0,95%.
Outro trabalho semelhante é o de Goll et al [50] que tem como objectivo a previsão dos
pontos de ebulição de compostos orgânicos a partir da sua estrutura molecular. O input
da rede é um conjunto de descritores seleccionados recorrendo a algoritmos genéticos.
O último exemplo, é a previsão da solubilidade em meio aquoso de compostos orgânicos

a partir da estrutura molecular Mitchell et al [51] utilizam as redes neuronais para o
desenvolvimento de modelos matemáticos que relacionem as estruturas de um conjunto de
332 compostos orgânicos com a sua solubilidade em meio aquoso. Para a escolha do melhor
conjunto de descritores relacionados com a solubilidade em meio aquoso foram utilizados
algoritmos genéticos e “simulated annealing”.
3.2.4 Aplicação à Ressonância Magnética Nuclear

A ressonância magnética nuclear é uma técnica analı́tica fundamental na análise da estru-
tura de compostos orgânicos em combinação com outras técnicas espectroscópicas. Qual-
quer espectro de NMR seja de protão, carbono, fósforo ou outros, requer uma análise
cuidada que pode levar até à estrutura do composto. As redes neuronais, quando aplica-
das à ressonância magnética nuclear [52–57], permitem uma rápida previsão dos desvios
quı́micos do composto a analisar.
O primeiro exemplo, encontrado na literatura, refere-se ao trabalho de Thomsen et
al [52], em 1989, com o objectivo de reconhecer espectros de protão de açucares. A rede
tinha uma arquitectura 400×6×6.
Um segundo exemplo, publicado alguns anos depois, abrange toda a famı́lia de alcanos.
Doucet et al [53] usou a rede de Retro-Propagação em que o input da rede era uma descrição
topológica das moléculas tendo obtido bons resultados.
Outros trabalhos semelhantes são o trabalho de Svozil et al [56] e o de Aires de Sousa

[57]. No primeiro caso, os autores utilizaram uma rede de 3 camadas para a previsão
dos desvios quı́micos dos espectros de carbono 13 de alcanos. Os átomos de carbono nos
alcanos são, neste trabalho, descritos por 13 parâmetros. No segundo caso, Aires de Sousa
utiliza uma rede de Contra-Propagação para a previsão de desvios quı́micos dos espectros
de protão do grupo de compostos orgânicos CHn . O conjunto treino é constituı́do por
744 exemplos de protões que são representados por descritores fı́sico-quı́micos, topológicos
e geométricos, sendo a sua escolha feita com recurso a algoritmos genéticos. O teste da
rede produziu um erro absoluto médio de 0,25 ppm. É importante salientar que esta rede
permitiu prever alguns efeitos estereoquı́micos.
Capı́tulo 4
Reactividade Quı́mica
4.1 Introdução ao problema

Uma reacção quı́mica consiste, fundamentalmente, na quebra de uma ou mais ligações nos
reagentes e na formação de uma ou mais ligações para originar produtos. Para prever como
uma molécula reage é necessária informação sobre as ligações mais reactivas da molécula.
Durante muitos anos foram utilizadas bases de dados de reacções quı́micas para deter-
minar se uma dada reacção podia ou não ocorrer. Seria, contudo, bastante proveitoso se
existissem métodos automáticos que conseguissem aprender e depois generalizar sobre a
reactividade das moléculas.
Os quı́micos baseiam o seu conhecimento sobre a reactividade das ligações numa varie-
dade de efeitos de natureza energética, electrónica e estérica, no entanto, esses efeitos são
usados de uma forma qualitativa e a previsão das reacções continua a ser levada a cabo
por um processo intuitivo. Observando os grupos funcionais de uma molécula, um quı́mico
utiliza a sua experiência, adquirida ao longo dos anos, para prever quais as ligações mais
reactivas. No entanto, se existirem vários grupos funcionais presentes que interferem e com-
petem uns com os outros existem certas ligações que na ausência desses grupos não seriam
reactivas mas na sua presença se poderiam tornar. Como poderá, então, este problema ser
resolvido?
Existem várias hipóteses para a sua resolução. Uma consiste em utilizar métodos em-
pı́ricos para o cálculo dos efeitos energéticos e electrónicos. Depois, os parâmetros, que
Figura 4.1: Quebra heterólitica de uma ligação. [5]
35
36 CAPÍTULO 4. REACTIVIDADE QUÍMICA
traduzem estes efeitos, são utilizados para correlacionar e prever a reactividade. Outra
hipótese é utilizar métodos estatı́sticos e de reconhecimento de padrões. A utilização
destes métodos apresenta a vantagem de levar em linha de conta um maior número de
efeitos electrónicos e energéticos, contudo, implicam que a relação entre a reactividade
e os parâmetros fı́sico-quı́micos tenha de ser de natureza linear, ou seja, ser facilmente
transformada num problema linear. Porém modelos lineares simples raramente descrevem
problemas complexos de uma forma satisfatória. Outra hipótese consiste em desenvolver
um sistema de memória associativa que garanta a relação de forma implı́cita, em vez de
modelar a relação numa função explı́cita. Por último, tem-se como hipótese as redes neu-
ronais. Estas apresentam como vantagem o facto de seguirem o raciocı́nio do quı́mico para
adquirir conhecimento sobre a reactividade quı́mica. O quı́mico observa quais as ligações
das moléculas que reagem e, baseando-se nessas observações, generaliza aprendendo quais
as que são mais reactivas, para uma dada molécula. Mas, como se poderá transferir este
processo para uma rede neuronal?
O objectivo deste trabalho foi, então, desenvolver uma rede neuronal que, perante
uma molécula, dissesse quais as ligações que se quebram preferencialmente. Para tal,
implementou-se uma rede neuronal treinada com o algoritmo de Retro-Propagação. Este
algoritmo é usado para encontrar uma relação entre os parâmetros electrónicos e energéticos
de cada ligação na molécula e a sua propensão para a heterólise (figura 4.1). Esta modelação
não-linear implı́cita é utilizada para classificar as ligações em reactivas ou não-reactivas.
Foram escolhidos dois conjuntos de ligações por dois métodos diferentes (escolha ale-
atória e escolha baseada no desenho experimental) para o treino da rede, a partir de um
conjunto de 10 moléculas representadas na figura 4.2.
A rede foi testada com um conjunto de 29 moléculas retiradas da literatura [1–3], além
de duas molécula extra [2, 5] e outra designada por alvo (anisole). Dessas 32 moléculas,
foram escolhidas 182 quebras de ligação (figura 4.2).
4.2 Parâmetros Fı́sico-Quı́micos

A quebra de uma ligação é influenciada por uma grande variedade de efeitos fı́sico-quı́micos.
Para estudar esses efeitos, e a sua importância relativa, foram calculados os parâmetros
para vários efeitos electrónicos e energéticos utilizando métodos empı́ricos [43, 58–61]. O
significado dos parâmetros, obtidos por estes métodos, foram estabelecidos com base numa
série de cálculos e correlações de dados fı́sicos e quı́micos. As variáveis utilizadas incluem
valores para o efeito de distribuição de carga [43, 58], efeito indutivo [59], efeito de resso-
nância [58], efeito de polarizabilidade [60] e energias de dissociação da ligação [61]. Para
cada ligação é calculada a diferença de carga total (∆qtot ), a diferença de carga Π (∆qΠ ), a
diferença de electronegatividade σ(∆χσ ), a polaridade da ligação (Qσ ), a estabilização por
ressonância das cargas geradas por heterólise (R ± ) e a energia de dissociação da ligação
(BDE), utilizando o PETRA.
O PETRA é um programa que contém vários métodos implementados, todos de natu-
reza empı́rica, desenvolvidos, ao longo dos anos, no grupo de investigação de J. Gasteiger,
4.3 Procedimento 37
H
O Cl Br
H H H H
H H
H H H H H H
H H H
H H
H H H H
N
H N H H N
H
H O H H O H H
N
H O H H H H N H
H
H H O
H H H H
H H H H H H H
H H O
H H
H H H P C
H H H H H N
H S
H H H Br H H
H O H
Figura 4.2: Conjunto de 10 moléculas para o treino da rede e conjunto de 32 moléculas

para o teste da rede contendo 182 quebras de ligação diferentes [1, 2, 5].
para o cálculo de propriedades fı́sico-quı́micas de moléculas orgânicas [62]. Mais detalhes

sobre os métodos empı́ricos encontram-se no apêndice E e na bibliografia indicada.
Os sinais das variáveis ∆qtot , ∆qΠ , ∆χσ , Qσ dependem do sentido da quebra da ligação,
havendo mudança de sinal quando aquele é invertido. A estabilização por ressonância é,
normalmente, diferente não apenas no sinal mas em grandeza para as duas heterólises
possı́veis, visto que o mecanismo para a estabilização de uma carga positiva ou negativa
no mesmo átomo difere. Por fim, a R± e a BDE são independentes do sentido da quebra
da ligação.
4.3 Procedimento
? Escolha de um conjunto de moléculas para o treino da rede (o conjunto de 10 molé-
culas foi fornecido pelo grupo de Espectrometria de Massa, com vista à resolução de
um problema de reactividade);
? Cálculo de sete parâmetros, electrónicos e energéticos, para todas as quebras de

ligação diferentes dos conjuntos de treino e de teste, utilizando o PETRA.
? Cálculo da reactividade das quebras de ligação, utilizando o método LoRA;
? Escolha das ligações que vão constituir o conjunto treino de duas formas diferentes:
– Escolha das ligações de forma aleatória (53 ligações),

– Escolha com base num desenho experimental a 3 nı́veis com 4 parâmetros (48
ligações).
? Para a realização do desenho experimental procedeu-se da seguinte forma:
– Construção da matriz de correlação dos sete parâmetros fı́sico-quı́micos (foram

excluı́dos os três parâmetros que apresentavam maior correlação com os restan-
tes)
– Efectuar o desenho da experiência, a três nı́veis, com os quatro parâmetros
(gerando 81 subespaços) escolhidos no item anterior, para as ligações do conjunto
de 10 moléculas (figura 4.2)
– Escolha de uma ligação de cada subespaço. Se existirem ligações no mesmo
subespaço com reactividades opostas deve ser escolhida uma ligação de cada.
? Implementação de uma rede neuronal artificial com arquitectura 7×3×1 (sete uni-
dades de input, uma para cada variável energética ou electrónica, três neurónios na
camada oculta e um neurónio na camada de output) que classifica a quebra de ligação
como reactiva ou não;
? Aprendizagem, com supervisão da rede neuronal, utilizando o algoritmo de Retro-

Propagação. Foram treinadas duas redes, cada uma com os conjuntos treino referidos;
? Teste das redes utilizando um conjunto de 31 moléculas retiradas da bibliografia e

uma molécula alvo.
4.4 Arquitectura da Rede Neuronal

A quebra de uma ligação foi descrita por sete parâmetros fı́sico-quı́micos logo a rede neu-
ronal teve sete unidades de input, uma para cada parâmetro. Relativamente à camada
de output existem duas respostas possı́veis, ligação reactiva ou não, assim aquela camada
poderia ter um ou dois neurónios. Os estudos sobre casos semelhantes [1] mostram que
utilizando dois neurónios de output a soma dos dois valores de output é igual a um. Então,
a utilização de apenas um neurónio não traz qualquer desvantagem visto que o resultado
vem compreendido entre zero e um.
Resta estabelecer o número de camadas ocultas e o número de neurónios em cada uma
delas. A selecção do número de camadas e do respectivo número de neurónios é, geral-
mente, realizado por tentativa e erro, ou seja, começa-se por experimentar a arquitectura
mais simples partindo-se de seguida para arquitecturas mais complexas (aumentando o
número de camadas e o número de neurónios em cada uma delas) até à resolução do pro-
blema. O objectivo é encontrar uma arquitectura, com um número mı́nimo de camadas
e neurónios, capaz de resolver o problema. Este facto é de salientar visto que pode sur-
gir a pergunta: E porque não utilizar uma arquitectura mais complexa se esta resolver o
problema perfeitamente? A questão é que redes com muitos neurónios podem aprender a
4.4 Arquitectura da Rede Neuronal 39
Figura 4.3: Arquitectura da rede neuronal. [1]
resolver o problema perfeitamente, durante o processo de treino, perdendo no entanto ca-

pacidade de previsão quando deparadas com o conjunto teste. O que acontece é que se cria
uma situação em que a rede fica tão adaptada ao conjunto treino que perde a capacidade
de generalização quando se depara com novos casos, não incluı́dos naquele conjunto.
Após algumas experiências e, tendo em conta os dados encontrados na bibliografia [1],
para a resolução de problemas de reactividade quı́mica, usou-se uma rede neuronal apenas
com uma camada oculta composta por três neurónios. A rede teve, então, uma arquitectura
7×3×1 (sete unidades de input, três neurónios na camada oculta e um neurónio na camada
de output) (figura 4.3). Em termos de número de pesos a rede teve 7×3+3×1+3+1=28
pesos (inclui as ligações ao bias).
O próximo problema a ser resolvido diz respeito à representação dos valores das variá-
veis de input para cada ligação. Aos parâmetros fı́sico-quı́micos correspondem diferentes
intervalos de valores. Para o conjunto de ligações à disposição, para o treino e teste da
rede, a diferença de carga Π, por exemplo, varia entre -0.219 e 0.219 enquanto os valores
da estabilização por ressonância variam entre 0.0 e 37.685. Para uma melhor adaptação da
rede neuronal ao problema os valores de input devem estar compreendidos num intervalo
entre zero e um. Os valores de input foram então escalados para valores entre zero e um.
Cada valor de input, correspondente a um dado parâmetro, foi escalado entre os valores
máximo e mı́nimo desse parâmetro para todas as ligações disponı́veis (conjunto de treino
e de teste).
Continua a existir, contudo, um pequeno problema que diz respeito ainda aos valores
máximos e mı́nimos de cada parâmetro. Apesar do conjunto das ligações disponı́veis ser
representativo das quebras de ligações possı́veis, em compostos orgânicos, qual é a garantia
de que não existem ligações cujos parâmetros tenham valores fora dos intervalos determi-
nados para o conjunto treino e teste? Para tentar evitar que fossem, apresentadas à rede,
após o treino, ligações cujos parâmetros apresentassem valores fora destes intervalos para
cada um parâmetros procedeu-se a um alargamento dos intervalos em 10%. Aos valores
mı́nimos dos parâmetros foram retirados 10% dos seus valores enquanto que para os valores
máximos foram adicionados 10%. Em seguida efectuou-se o escalamento entre zero e um.
Para o treino da rede é necessário, à partida, a informação sobre o valor da reactividade

de cada quebra de ligação. O conjunto dos valores de reactividade para cada ligação vai
constituir assim o conjunto alvo da rede. Devido à falta de informação sobre a reactividade
das ligações do conjunto de treino a determinação desta foi efectuada através do método
LoRA.
4.5 Cálculo da Reactividade do Conjunto Alvo

Neste método usa-se um conjunto de dados com uma classificação binária de objectos para
construir uma função que seja capaz de reproduzir essa classificação o melhor possı́vel.
Neste trabalho, a classificação de uma ligação como reactiva, ou não, é usada para obter
uma função que quantifica a reactividade quı́mica, baseada nos parâmetros electrónicos e
energéticos [2].
A classificação original é considerada como uma probabilidade P0 (reactiva=1,0 e não
reactiva=0,0). Esta classificação é modelada por uma função logı́stica:
1
P = , (4.1)
1 + exp(−f )
como uma probabilidade calculada (P ) onde o expoente (f ) é expandido como uma função
linear nos parâmetros usados (ci ):
f = c0 + c1 x1 + c2 x2 + ... + ci xi . (4.2)
Os coeficientes ci , na equação 4.2, são determinados de forma a minimizar o erro entre
a classificação inicial P0 e a probabilidade calculada P . Mais detalhes sobre este método
podem ser consultados o apêndice D.
O estudo mencionado na bibliografia [2], que teve como base o conjunto teste da rede
implementada, mostra que existem várias combinações de parâmetros que oferecem bons
resultados. A melhor combinação apresentada é a que utiliza seis parâmetros e que classifica
correctamente todas as ligações do conjunto teste desse trabalho. Contudo, este estudo
tem a particularidade da ligação carbono-carbono no ciclopropano ter sido mal classificada
à partida com o intuito de verificar se o modelo conseguia prever correctamente a sua
reactividade, o que não aconteceu. Outro caso é a natureza peculiar da quebra da ligação
carbono-carbono, na acetona, também não ser percebida [2].
Contudo, uma combinação de cinco parâmetros (R± , ∆χσ , ∆qtot , αb , Qσ ) e duas combi-
nações de quatro (∆χσ , ∆qtot , R± , αb e Qσ , R± , ∆χσ , αb ) são as duas únicas combinações
que conseguem distinguir as más “classificações” colocando o ciclopropano na categoria das
ligações não reactivas e classificando a ligação carbono-carbono da acetona como reactiva.
Utilizando, então, a combinação de parâmetros ∆χσ , ∆qtot , R± , αb obtém-se a expressão :
f = −2, 72 − 5, 26∆χσ + 19, 1∆qtot + 0, 354R± − 0, 722αb (4.3)

Substituindo os resultados desta expressão na expressão 4.1, obtém-se a probabilidade
da quebra de uma ligação. Esta foi a expressão utilizada para calcular os valores da
4.6 Treino da rede com um conjunto treino escolhido de forma aleatória 41
reactividade das ligações seleccionadas para constituir o conjunto treino. Os valores da

reactividade são dados em termos da probabilidade de quebra da ligação entre zero e um.
4.6 Treino da rede com um conjunto treino escolhido

de forma aleatória
Como já se referiu a intenção desta parte do trabalho foi desenvolver uma rede neuronal
que conseguisse prever a reactividade de quebras da ligação, numa molécula, dando como
input sete parâmetros fı́sico-quı́micos. O conjunto de dados disponı́vel deve ser dividido
em dois subconjuntos, um para o treino e outro para o teste da rede.
Uma forma de seleccionar o conjunto de treino é escolher as ligações de modo aleatório
a partir do conjunto de ligações disponı́vel. A escolha das ligações é feito a partir do
conjunto de 10 moléculas (figura 4.2). Apesar da escolha de ligações ter sido realizada
de forma aleatória procurou evitar-se que se repetissem muitas ligações semelhantes tendo
sido escolhidas um total de 53 quebras de ligação.
Após, a implementação da rede neuronal, com algoritmo de Retro-Propagação, calculou-
se os valores dos sete parâmetros fı́sico-quı́micos recorrendo ao PETRA, para cada uma
das 53 quebras de ligação escolhidas. A tı́tulo de exemplo o apêndice C contém os valores
dos sete parâmetros para as ligações de uma molécula do conjunto treino, calculados com
o PETRA. Após o cálculo dos parâmetros fı́sico-quı́micos determinou-se a reactividade
das ligações do conjunto utilizando o LoRA. Ficam, assim, estabelecidos os conjuntos de
treino e alvo da rede, podendo o treino ser iniciado. A primeira tarefa a desempenhar,
no inicio do treino, é encontrar os melhores valores para os parâmetros livres da rede
(parâmetros da função transferência, velocidade de aprendizagem e momento da rede). A
primeira aproximação foi feita aos parâmetros da função transferência utilizada (sigmóide).
A função sigmóide utilizada tem a forma da expressão 4.4:
1
sf (N et, α, ϑ0 ) = (4.4)
{1 + exp [−(αN et − ϑ0 )]}
e pode ser escrita como :
0 1
sf (N et, α , β) = (4.5)
{1 + exp [−(N et/α0 − β)]}
0 0
onde 1/α = α e β = ϑ . Esta mudança foi realizada pela simples razão de ser assim que
a função está implementada na rede. Tentou-se então procurar os valores dos parâmetros
da função transferência que produzam um menor erro no treino. Para tal, procedeu-se
ao treino da rede, com 8000 ciclos de treino, para todos os valores dos parâmetros entre
-5 e 15, com passo 0,2. Com base na bibliografia [4, 6], escolheu-se para velocidade de
aprendizagem o valor de 0,49 e para o momento da rede o valor de 0,89. No final cada
Figura 4.4: Gráficos relativos à procura dos valores dos parâmetros da função transferência
que minimizam o erro do treino.
treino calculou-se a respectiva percentagem de erro. Para este feito recorreu-se à expressão:
v
n n
u i X
uX
u
u (ysi − outsi )2
t s=1 i=1
%RM S = × 100, (4.6)
ni n
onde ysi é a componente i do vector alvo Ys , outsi é a componente i do output produzido
pela rede para o vector de input s, ni é o número de inputs e n é o número de variáveis
de output. Fazendo a representação gráfica (figura 4.4) do valor do erro, que não é mais
do que o desvio entre o output da rede para um dado input e o seu valor alvo, em função
0
dos parâmetros α e β, é possı́vel observar as regiões em que o erro é menor. Olhando para
a perspectiva de topo do gráfico, na referida figura, observa-se o que se poderá chamar
de regiões de iso-erro, ou seja, regiões com o mesmo valor de erro. É de salientar que o
gradiente de cor do azul - vermelho corresponde a um aumento do valor da % RMS. Pela
0
figura é possı́vel constatar que a rede apresenta um erro pequeno para valores de α no
intervalo 0 a 15 e valores de β no intervalo -5 a 8. Tendo em conta o baixo valor de %
RMS na referida região, foram escolhidos dois valores para os parâmetros da rede dentro
0
dessa zona, tendo-se seleccionado os valores de α = 0,2 e β=-2,05.
Visto que a % RMS era baixa não se procedeu à busca dos valores para a velocidade
de aprendizagem e momento da rede realizando-se desde logo um treino da rede sob as
condições da tabela 4.1.
O treino da rede, implementada com estes parâmetros, pode ser seguido na figura 4.5,
onde é possı́vel observar a evolução da % RMS ao longo do número de ciclos de treino.
4.6 Treino da rede com um conjunto treino escolhido de forma aleatória 43
Tabela 4.1: Condições de treino da rede neuronal com o conjunto treino escolhido de forma
aleatória.
Arquitectura 7×3×1
Algoritmo de Aprendizagem Retro-Propagação
Número de objectos de treino 53
0
Parâmetro α da função transferência 0.2
Parâmetro β da função transferência -2,05
Velocidade de Aprendizagem 0,49
Momento da rede 0,89
Número de ciclos de treino 8000
25
6
20
% Erro
% Erro
15 4
10
2
0
0
0 2000 4000 6000 8000 0 200 400 600 800 1000 1200
Número de ciclos de treino Número de ciclos de treino
Figura 4.5: Gráfico para o treino da rede e respectivo zoom.
No gráfico à direita, da referida figura, apresenta-se um zoom do inı́cio do treino, onde é

visı́vel que a rede atinge rapidamente uma % RMS de cerca de 1% decorridos apenas cerca
de 100 ciclos de treino, atingindo um valor de cerca de 0.15% por volta dos 1000 ciclos
de treino, ou seja, um treino com 8000 ciclos não traz melhorias significativas, visto que a
rede já está perfeitamente adaptada ao problema por volta dos 1000 ciclos de treino.
A rede foi testada com um conjunto de 29 moléculas, retiradas da bibliografia, o qual
contém 149 quebras de ligação diferentes (figura 4.2). Além destas 149 quebras de ligação
foram utilizadas mais duas moléculas com 15 quebras de ligação além de uma molécula alvo
(anisole) sobre a qual não se possui qualquer informação sobre a reactividade, perfazendo
assim um total de 182 quebras de ligação para o teste da rede. A reactividade obtida para
cada quebra de ligação do conjunto teste poderá ser observada no apêndice F.
Na tabela 4.2 apresenta-se um resumo dos resultados obtidos para o teste da rede.
Esta tabela mostra que 3,3% de quebras de ligação foram mal classificadas. Tal valor
deve ser considerado bastante aceitável, tendo em conta os resultados apresentados na
Tabela 4.2: Resultados obtidos para o teste da rede neuronal treinada com um conjunto
de ligações escolhido de forma aleatória.
Resultados Obtidos
Treino - Número de ciclos ' 2000
Treino - Ligações utilizadas 53
Treino - RMS / % 0,05
Teste - Ligações utilizadas 182
Teste - Ligações mal classificadas 6
Teste - % de ligações mal classificadas 3,3
bibliografia [1]. Contudo, existem aspectos que podem ser optimizados para melhorar
ainda mais os resultados da rede. Um dos aspectos refere-se à selecção do conjunto de
dados para o treino da rede. A escolha aleatória das ligações pode originar um conjunto
que não seja representativo do conjunto global de ligações, o que irá influenciar o treino
da rede e originar consequentemente, após a aprendizagem, respostas erradas tendo como
base esse “má aprendizagem”. Uma das hipóteses é proceder à escolha do conjunto treino
recorrendo a uma técnica de desenho experimental.
4.7 Treino da rede com um conjunto treino escolhido

utilizando o desenho experimental
As técnicas de desenho experimental fornecem uma grande quantidade de informação útil a
partir de um pequeno número de experiências, permitindo a escolha do número mı́nimo de
dados que cobrem o espaço amostral o mais homogeneamente possı́vel. Quando o número
de experiências que pode ser levado a cabo é limitado os desenhos experimentais oferecem
então uma forma eficiente de reduzir o número de experiências necessárias e de obter a
máxima informação a partir destas, tirando conclusões que são válidas em todo o espaço
amostral do problema [1, 63–65].
O desenho experimental permite usar todas as combinações possı́veis de factores, a
todos os nı́veis, envolvidos na experiência. O número de combinações possı́veis, N, a serem
feitas é dado por:
N = nk , (4.7)
onde n é o número de nı́veis e K o número de parâmetros.
Num desenho experimental de nı́vel m cada uma das coordenadas do espaço, neste
caso parâmetros fı́sico-quı́micos, é dividida em m intervalos e a partir de cada intervalo é
escolhido um ponto. Por exemplo, quando três intervalos são escolhidos os objectos são
seleccionados de tal forma que cada variável é representada por um valor baixo, um valor
médio e um valor alto. O caso de um desenho, a três nı́veis, com apenas duas variáveis é
4.7 Treino da rede com um conjunto treino escolhido utilizando o desenho
experimental 45
9
Coeficiente de Correlação: -0,0013
8
0,4
Polarizabilidade / [Å ]
3
Polaridade / [e. u.]

0,2
6 0
5 -0,2
4 -0,4
3
-0,6 -0,4 -0,2 0 0,2 0,4 0,6 -3 -2 -1 0 1 2 3
Diferença de Carga Total / [e. u.] Diferença de Electronegatividade σ / [eV]
Figura 4.6: Gráfico 1-Correlação entre a diferença de carga total e a polarizabilidade;

Gráfico 2-Correlação entre a diferença de electronegatividade σ e a polaridade.
necessário um mı́nimo de 32 = 9 pontos.

As sete variáveis, que caracterizam a quebra da ligação, originam um hiperespaço com
sete dimensões. Se for considerado um desenho de três nı́veis (m=3) são necessários 3 7 =
2187 subespaços para caracterizar o problema. Como o número de ligações disponı́veis
para o conjunto treino é muito menor, 84 ligações, a maior parte dos subespaços não iriam
ser ocupados por quebras de ligação. Sendo assim, o espaço deve ser reduzido a um nı́vel
menor, ou então, não utilizar todas as variáveis fı́sico-quı́micas. Tendo em conta os dados
da bibliografia [1] e tendo sido verificado, que se fossem considerados apenas dois nı́veis em
vez de três, existiriam muitas ligações nos mesmos subespaços, decidiu-se utilizar apenas
quatro dos sete parâmetros fı́sico-quı́micos para realizar o desenho experimental e dividir
as variáveis em três regiões (três nı́veis). Assim, o espaço amostral é dividido em 3 4 = 81
subespaços. Surge, então, o problema de quais os parâmetros escolher? Quais os parâmetros
que influenciam mais a reactividade ou que influenciam da mesma forma? Para resolver
este problema, a escolha dos quatro parâmetros, para efectuar o desenho da experiência, foi
baseada numa matriz de correlação dos parâmetros visto que, em principio, os parâmetros
fı́sico-quı́micos que tiverem uma maior correlação são substituı́dos no desenho experimental
apenas por um. Tal é baseado no facto de que se existir uma variação linear dos valores
dos parâmetros, consoante as ligações, então estes devem ter uma influência semelhante na
reactividade. A tı́tulo exemplificativo são mostrados dois gráficos de correlação na figura
4.6 encontrando-se os restantes gráficos de correlação entre todos os parâmetros fı́sico-
quı́micos no anexo G. Considerando os valores obtidos para os coeficiente de correlação
entre todos os parâmetros foi construı́da a tabela 4.3 que constitui a matriz correlação dos
parâmetros fı́sico-quı́micos.
Tendo como base informação quı́mica e os resultados obtidos na matriz correlação,
escolheram-se as seguintes variáveis: estabilização por ressonância (R ± ), polarizabilidade
(αb ), polaridade (Qσ ) e diferença de electronegatividade σ (∆χσ ).
Tabela 4.3: Matriz correlação dos parâmetros para todas as ligações disponı́veis para o
treino da rede.
∆χσ ∆qΠ R± αb ∆qtot Qσ BDE

∆χσ 1 -0,21 0,08 -0,14 -0,48 -0,86 0,17
∆qΠ - 1 -0,04 -0,02 0,41 0,23 0,01
R± - - 1 0,06 -0,08 -0,09 -0,11
αb - - - 1 -0,00 0,09 -0,61
∆qtot - - - - 1 0,81 -0,05
Qσ - - - - - 1 -0,13
BDE - - - - - - 1
O parâmetro diferença de carga Π (∆qΠ ), não é considerado visto que, para a maior
parte das ligações disponı́veis para o treino e teste da rede, os dois átomos que as cons-
tituem não têm carga Π, ou então, a diferença de carga Π é muito pequena. Apesar do
conjunto treino ter várias moléculas com anéis aromáticos, o conjunto teste é constituı́do
quase, exclusivamente, por moléculas alifáticas logo este parâmetro não é muito impor-
tante, comparativamente com outros, na reactividade de uma ligação. Fica-se, assim, com
seis parâmetros sendo necessário excluir mais dois. A diferença de carga total (∆q tot ) apre-
senta uma correlação relativamente elevada (0,81) com a polaridade (Q σ ) e, sendo assim,
apenas um deles é escolhido, recaindo a escolha sobre a polaridade. Por fim a energia de
dissociação da ligação (BDE) apresenta uma correlação de 0,61 com a polarizabilidade,
αb , sendo escolhida a polarizabilidade para realizar o desenho experimental.
Após efectuar o desenho da experiência, a três nı́veis com quatro parâmetros, com as 84
ligações disponı́veis para o treino da rede constatou-se que as 84 ligações ocupavam apenas
28 dos 81 subespaços do desenho experimental, um número manifestamente pequeno para
o treino da rede neuronal. Tal facto pode dever-se, tal como é possı́vel observar na figura
4.2, ao facto das moléculas fornecidas para o treino da rede serem em número reduzido
e bastante semelhantes. Das 10 moléculas quatro são benzenos monosubstı́tuidos, uma é
uma dicetona cı́clica (benzoquinona) e as cinco restantes são moléculas heterocı́clicas de
oxigénio e de azoto. Das cinco, duas são éteres cı́clicos (1-4,dioxeno e furano) e as outras
três são os azobenzenos (derivados do benzeno onde o átomo de azoto com hibridação sp 2
toma o lugar de um C-H ) piridina (azobenzeno), pirimidina (1,3-diazobenzeno) e piridazina
(1,2-diazobenzeno). Tendo em conta estes factos não é de estranhar que as 84 ligações
ocupassem apenas 28 subespaços. Para tentar colmatar este facto, foram escolhidas mais
20 ligações perfazendo um total de 48 para o treino da rede.
Para o treino da rede, procedeu-se da mesma forma que para o treino com o conjunto
escolhido de forma aleatória, ou seja, determinaram-se os valores dos sete parâmetros
fı́sico-quı́micos, recorrendo ao PETRA, e calculou-se a reactividade utilizando o LoRA.
Em seguida procedeu-se à busca dos valores dos parâmetros da função transferência que
minimizam o erro do treino. Tendo em conta os resultados do estudo do item anterior,
4.7 Treino da rede com um conjunto treino escolhido utilizando o desenho
experimental 47
Figura 4.7: Gráficos referentes à busca dos mı́nimos de erro para os parâmetros alfa e beta
da função transferência.
desta vez procedeu-se ao treino da rede apenas com 5000 ciclos de treino para todos os
valores dos parâmetros de -1 a 1 com passo 0,01. Relativamente aos outros parâmetros,
tendo em conta os bons resultados obtidos no estudo anterior, foram utilizados os mesmos
valores, ou seja, para a velocidade de aprendizagem o valor de 0,49 e para o momento da
rede o valor de 0,89.
Os resultados obtidos podem ser observados na figura 4.7 onde o gráfico da esquerda
0
representa a variação da % RMS em função dos valores dos parâmetros α e β, da função
transferência, e o gráfico, à direita, uma perspectiva de topo do outro sendo possı́vel obser-
var a superfı́cie de erro em função dos valores dos parâmetros. Para valores do parâmetro
0
α , superiores a 0, em intersecção com toda a gama de valores entre 0 e 1 do parâmetro
β, a rede apresenta um erro bastante baixo. Os valores seleccionados para o treino da
0
rede foram 0,04 para o parâmetro α e -0,73 para o parâmetro β. Apesar da % RMS ser
bastante baixa, procedeu-se de forma semelhante numa busca dos valores da velocidade de
aprendizagem e do momento da rede que minimizassem a % RMS. O treino da rede foi
realizado com 5000 ciclos para todos os valores da velocidade e do momento entre 0 e 1 com
passo 0,01. Na figura 4.8 apresentam-se os resultados obtidos e da sua análise verifica-se
que em quase toda a gama de valores estudada a % RMS é bastante baixa, sendo a única
excepção a área que resulta da intersecção dos valores do momento da rede superiores a
0,2 com os valores da velocidade de aprendizagem superiores a 0,8. Os valores selecciona-
dos foram 0,94 para o momento da rede e 0,03 para a velocidade de aprendizagem. Foi
escolhido um dos menores valores para a velocidade de aprendizagem, para observar qual
Figura 4.8: Gráficos referentes à busca dos valores que minimizam o erro do treino para os
parâmetros velocidade de aprendizagem e momento da rede .
o comportamento da rede a esta velocidade, em contraponto com o primeiro estudo onde

foi utilizada uma velocidade de aprendizagem elevada.
O treino da rede, final foi realizado nas condições expressas na tabela 4.4. O treino da
rede implementada, com estes parâmetros, pode ser observado na figura 4.9 onde é visı́vel
a evolução da % RMS ao longo do número de ciclos de treino. Como é possı́vel constatar,
após 500 ciclos de treino, a % RMS já era inferior a 0,5%, ou seja, como no caso anterior,
a rede já está perfeitamente adaptada ao problema após cerca de 1000 ciclos de treino.
A rede vai ser testada com o mesmo conjunto de 182 ligações, utilizado para o teste da
rede treinada com o conjunto escolhido de forma aleatória. O apêndice F contém as reac-
tividades obtidas para cada quebra de ligação do conjunto teste. Será apenas apresentada
tabela 4.5 com o resumo dos resultados obtidos.
Do conjunto de 182 ligações, utilizadas para o teste da rede, houve apenas 5 quebras
de ligação mal classificadas.
4.8 Comparação dos dois métodos

Comparando os dois métodos, pela tabela 4.6, é possı́vel constatar que os resultados são
bastante semelhantes, quer no treino quer no teste. No entanto, os resultados da rede
treinada com o conjunto de ligações escolhidas com base no desenho da experiência são
ligeiramente melhores.
O número de ciclos necessários para o treino da rede foi de cerca de 2000 em ambos os
casos. Contudo é de salientar que no caso do desenho da experiência foram utilizadas menos
4.8 Comparação dos dois métodos 49
Tabela 4.4: Condições de treino da rede neuronal com o conjunto escolhido com base no
desenho da experiência.
Arquitectura 7×3×1
Algoritmo de Aprendizagem Retro-Propagação
Número de objectos de treino 48
0
Parâmetro α da função transferência 0,04
Parâmetro β da função transferência -0,73
Velocidade de Aprendizagem 0,03
Momento da rede 0,98
Número de ciclos de treino 8000
20
2,5
15 2
1,5
% RMS
% RMS
10
5
0,5
0 0
0 2000 4000 6000 8000 500 1000 1500 2000
Número de ciclos de treino Número de ciclos de treino
Figura 4.9: Gráfico para o treino da rede com os parâmetros optimizados para um treino
de 5000 ciclos e respectivo zoom.
Tabela 4.5: Resultados obtidos para o teste da rede neuronal treinada com um conjunto
de ligações escolhido com base no desenho da experiência.
Resultados Obtidos
Treino - Número de ciclos 2100
Treino - Ligações utilizadas 48
Treino - RMS / % 0,07
Teste - Ligações utilizadas 182
Teste - Ligações mal classificadas 5
Teste - % de ligações mal classificadas 2,7
Tabela 4.6: Comparação dos resultados obtidos para os dois métodos utilizados para a
escolha das ligações do conjunto treino
Escolha Desenho
Aleatória Experimental
Treino - Número de ciclos ' 2000 2100
Treino - Ligações utilizadas 53 48
Treino - RMS / % 0,05 0,07
Teste - Ligações utilizadas 182 182
Teste - Ligações mal classificadas 6 5
Teste - % de ligações mal classificadas 3,3 2,7
Tabela 4.7: Comparação dos resultados obtidos com os da bibliografia [1] (treino da rede
com o conjunto escolhido de forma aleatória).
Resultados Resultados da
Obtidos bibliografia [1]
Treino - Número de ciclos ' 2000 1600
Treino - RMS / % 0,05 0,04
Teste - Ligações mal classificadas 6 7.1
Teste - % de ligações mal classificadas 3,3 8,35
cinco ligações para o treino da rede tendo uma % RMS ligeiramente superior (0,02%). A
% RMS é, no entanto, inferior a 0,01% em ambos os casos, ou seja, tem-se em ambos os
casos um erro insignificante após cerca de 2000 ciclos de treino. No entanto ao observar
os gráficos das figuras 4.5 e 4.9 é possı́vel constatar que em ambos os casos a % RMS era
inferior a 1% aos 500 ciclos de treino, indicando que após a optimização dos parâmetros
da rede neuronal esta se adapta facilmente ao problema. Tal é confirmado quando a rede é
testada. O teste foi feito com 182 ligações sendo de 6 o número de ligações mal classificadas,
para o treino realizado com o conjunto escolhido de forma aleatória, e 5 para o conjunto
escolhido tendo como base o desenho da experiência. Foi obtido assim, em ambos os casos,
uma percentagem de quebras de ligação mal classificadas de cerca de 3%, 3,3 e 2,7 %
respectivamente.
Comparando estes resultados (tabelas 4.7 e 4.8) com os da bibliografia é possı́vel cons-
tatar alguns aspectos relevantes. Um deles é o facto do treino da rede ter sido realizado
com um número inferior de quebras de ligação, respectivamente, 53 (escolha aleatória) e 48
(desenho da experiência) contra 64 utilizadas por Simon et al [1] para o treino. É de referir
4.9 Conclusões 51
Tabela 4.8: Comparação dos resultados obtidos com os da bibliografia [1] (treino da rede
com o conjunto escolhido com base no desenho experimental).
Resultados Resultados da
Obtidos bibliografia [1]
Treino - Número de ciclos 2100 1220
Treino - RMS / % 0,07 0,02
Teste - Ligações mal classificadas 5 3,4
Teste - % de ligações mal classificadas 2,7 4
que os resultados da bibliografia não dizem respeito apenas ao treino de uma rede mas à
média dos resultados de 10 treinos. Estes autores, com base no conjunto de ligações dis-
ponı́veis, procederam ao treino da rede com 10 conjuntos diferentes escolhidos, utilizando
um método, e outros 10 conjuntos escolhidos com base no outro método, cada um com
64 quebras de ligação. Contudo, apesar do treino ter sido levado a cabo com um número
inferior de ligações, a percentagem de ligações mal classificadas foi inferior em ambos os
casos. Para o teste da rede treinada com o conjunto escolhido de forma aleatória, obteve-se
um valor 3,3% de ligações mal classificadas contra 8,35% da referida bibliografia [1], ocor-
rendo assim uma melhoria superior a 5%. Quanto ao teste da rede treinada com o outro
método de escolha de ligações, a diferença já não foi tão grande, continuando no entanto a
ser inferior. Foi obtido um valor de 2,7% contra 4% da bibliografia.
É de salientar, o facto da rede ter sido testada com cerca do dobro das ligações, relati-
vamente ao trabalho da bibliografia enquanto que os conjuntos treino são constituı́dos por
um número inferior de quebras de ligação.
4.9 Conclusões
Tendo em conta os resultados obtidos, verifica-se que a capacidade de previsão é de cerca
de 97% de quebras da ligação. Conclui-se, então, que a rede prevê a reactividade de
acordo com a frequência experimental de quebras de ligação. Pode, ainda, concluir-se que
a rede aprendeu a relação entre os parâmetros electrónicos e energéticos e a propensão
para a quebra de ligação. Um facto que apoia esta afirmação foi o teste realizado para as
duas moléculas extra e para molécula alvo do conjunto teste. Os valores obtidos para a
reactividade das ligações destas moléculas são concordantes com os da bibliografia [1, 2, 5].
A previsão da reactividade das ligações destas moléculas vai sofrer uma atenção em especial,
apesar de estarem incluı́das no conjunto teste, devido às suas caracterı́sticas.
A molécula da figura 4.10 possui o grupo tiol que não existe em nenhuma molécula do
conjunto treino, logo a previsão da reactividade desta molécula é outra boa prova de que
Figura 4.10: Quebras de ligação previstas pela rede neuronal (esquerda) e comparação com
os valores obtidos na bibliografia [5] (direita) para o 10-Bromo-2-deca-3,5,7-trieno-2-tiol.
As setas indicam para qual átomo o par de electrões vai após a quebra da ligação e os
valores a probabilidade de heterólise.
H H O
H
H
P C
H H H N
H
Figura 4.11: Molécula extra (3-ciano-propil-fosfano) e alvo (anisole) do teste da rede .
a rede “aprendeu” a relação entre os parâmetros fı́sico-quı́micos e a reactividade de uma

molécula.
A rede considera a dissociação do ião brometo e do grupo tiol, ambos em posições
alilı́cas, especialmente reactiva, com uma probabilidade de heterólise de 1,0 e 0,92, respec-
tivamente assim como o protão na posição alilı́ca central (0,63) e o protão do grupo tiol
(0,77). Por outro lado, a rede neuronal considera que as posições alilı́cas no fim do sistema
são menos acı́dicas. Estes resultados estão concordantes com os resultados esperados, como
é possı́vel constatar na figura 4.10 onde se faz a comparação dos resultados obtidos com os
da bibliografia [5].
Salienta-se o facto da rede neuronal ter previsto correctamente a reactividade do grupo
tiol, tendo em conta que o conjunto treino não possuı́a nenhuma molécula com este grupo
funcional ou quaisquer átomos de enxofre. A rede consegue, assim, generalizar a partir dos
dados de input, percebendo a informação sobre a influência na reactividade, contida nos
parâmetros electrónicos e energéticos usados como input. Assim podem ser submetidas à
rede tipos de átomos e de ligações que não tenham participado no treino.
Presta-se agora atenção à segunda molécula extra, considerada no conjunto treino (fi-
gura 4.11). Esta molécula possui um átomo de fósforo e um grupo nitrilo, ou seja, ligações
que também não foram fornecidas para o treino da rede constituindo assim mais um bom
teste para esta. As fosfinas são ácidos fracos estando a previsão da perda de um protão
como não reactiva concordante com a baixa acidez da ligação P-H. Quanto à quebra de
ligação carbono-carbono do átomo do carbono central ao carbono adjacente ao grupo ni-
trilo a classificação como não reactiva está igualmente correcta, tendo em conta os valores
4.9 Conclusões 53
da bibliografia [2]. A desprotonação de um grupo metileno, adjacente ao grupo nitrilo, é

outra reacção com probabilidade de ocorrer, assim como, a perda do ião cianeto, ambas
concordantes com a informação retirada da bibliografia [2]. Por fim a heterólise de uma li-
gação C-N, no grupo nitrilo, é semelhante à quebra polar no grupo carbonilo. Esta quebra,
classificada como reactiva pela rede, está concordante com os dados experimentais retira-
dos da bibliografia visto que a hidrólise básica do nitrilo mostra que o ataque nucleófilo,
no átomo de carbono do nitrilo, acontece na realidade.
Por fim, é de chamar a atenção para a molécula alvo, o anisole. Não tendo informação
sobre a reactividade desta molécula obtida por via teórica pode-se, mesmo assim, tirar
algumas conclusões sobre os valores obtidos.
O anisole é um benzeno monosubstı́tuido e sendo assim, em principio, as ligações C-C
do anel serão pouco reactivas devido à sua aromaticidade que lhe confere uma estabilidade
adicional. Tal facto é concordante com os resultados obtidos visto que todas as quebras
de ligação C-C são dadas pela rede como não reactivas. Preste-se agora atenção sobre
as possı́veis perdas de protão e de hidreto por parte do anel benzénico. Relativamente
à perda de hidretos todas as possibilidades têm uma reactividade zero visto que não é
favorável a perda de H − por parte da molécula. Quanto à perda de protões, a rede prevê
que este tipo de quebra de ligação ocorra. Contudo, é necessário analisar os resultados
obtidos. A rede prevê uma reactividade de 0,9 para o protão na posição orto, de 0,7
para a posição meta e de cerca de 0,8 para a posição para, ou seja, ela prevê que estes
hidrogénios tenham um caracter acı́dico mas com valores diferentes consoante a posição no
anel. Será que a rede consegue perceber quais os hidrogénios mais acı́dicos na molécula,
interpretando assim a influência que o grupo metóxido possa ter na reactividade do anel
aromático? O grupo metóxido é um grupo aceitador de carga por efeito indutivo, devido à
sua elevada electronegatividade em comparação com os outros átomos da molécula, então
em principio, o protão na posição orto será o mais acı́dico visto que, por efeito indutivo,
ocorre deslocalização de carga para o oxigénio, havendo enfraquecimento da ligação C-H.
Nas posições meta e para, o efeito indutivo já não se faz notar com tanta intensidade, sendo
a sua acidez menor relativamente ao hidrogénio da posição orto. Os resultados obtidos são,
assim, concordantes com esta análise. Em termos de perda de protões é de focar, também,
a perda de protão por parte do grupo metilo que é igualmente influenciada pelo oxigénio. A
electronegatividade do oxigénio provoca, igualmente, um aumento de acidez deste protão,
sendo a quebra desta ligação favorável o que foi prevista pela rede. Falta então estudar as
quebras de ligação que envolvem directamente o grupo metóxido. Para melhor compreender
estes resultados vai-se recorrer a dados da espectrometria de massa para moléculas deste
tipo, ou seja, éteres aromáticos.
Os éteres aromáticos têm, em espectrometria de massa, picos moleculares bastante
caracterı́sticos estando os seus produtos de fragmentação no espectro de massa directamente
relacionados com a presença do anel aromático [72,73]. As quebras de ligações em moléculas
do tipo Ar − O − R, envolvem quebras de ligação C-O ocorrendo a formação de catiões
arilo e arilóxido [72, 73]. Nas reacções do anisole, a carga positiva tende a ficar no anel, ou
seja havendo a formação dos fragmentos Ar + e Ar − O + . No primeiro caso, a rede está
de acordo com este mecanismo visto que para dissociação do grupo metóxido, ficando o
benzeno com a carga positiva, a rede prevê uma reactividade de 0,92 enquanto que para a
quebra em sentido oposto uma reactividade de 0. Resta apenas estudar a reactividade do
grupo metilo. Segundo o mecanismo já apresentado, a molécula deveria quebrar segundo
o sentido O-Me, no entanto, para esta quebra de ligação a rede prevê uma reactividade de
0, enquanto para a quebra em sentido contrário a rede prevê uma probabilidade de quebra
de ligação de 0,99. Esta é a única quebra de ligação, das três moléculas estudadas, em
que a previsão da rede apresenta uma reactividade contrária à dos valores da bibliografia.
Além deste erro, existem mais alguns no conjunto teste sendo estes aceitáveis tendo em
conta o pequeno e pouco diversificado conjunto treino utilizado. Estes não serão estudados
visto que o importante e interessante era verificar como a rede reagia na classificação de
tipos de ligações que não estavam contidas no conjunto treino, tendo-se verificado uma boa
resposta por parte dela.
Apesar da rede apresentar já uma capacidade de previsão de cerca de 97%, seria curi-
oso verificar se estes resultados poderiam ser melhorados. Existem várias alterações que
poderiam ser implementadas, para tentar melhorar a capacidade de previsão da rede. A pri-
meira medida a tomar seria aumentar o número de moléculas do conjunto treino dotando-o
de uma maior diversidade de ligações para este se tornar mais representativo de todas as
ligações que podem ocorrer em moléculas orgânicas. Por outro lado, apesar do desenho da
experiência dar já uma certa segurança na escolha das ligações para o conjunto treino não
seria de descurar a implementação de uma rede de Kohonen para realizar o mapeamneto
das ligações. Após o mapeamento das ligações num plano, em principio, este mapeamento
iria conservar todas as propriedades fı́sico-quı́micas das ligações, ficando as mais semelhan-
ças na mesma zona do plano ou em zonas vizinhas. Este método, em relação ao desenho da
experiência, tem a vantagem de levar em linha de conta todos os parâmetros fı́sico-quı́micos
em vez de apenas quatro. Outra alteração que poderia ser feita diz respeito ao algoritmo
de aprendizagem. Apesar do algoritmo de Retro-Propagação ser dos mais utilizados em
aplicações à quı́mica, oferecendo bons resultados, não significa que seja a melhor solução
para o problema. Existem outros algoritmos que podem ser experimentados, tais como o
algoritmo de Contra-Propagação entre outros.
Capı́tulo 5
Considerações finais
“There is nothing more difficult to take in hand, more perilous to conduct, or more uncertain
in its success, than to take the lead in the introduction of a new order of things.”
Niccolo Machiavelli, The Prince
“One machine can do the work of fifty ordinary men. No machine can do the work of
one extraordinary man.”
Elbert Hubbard
Com o aparecimento de novos algoritmos de aprendizagem torna-se cada vez mais atrac-
tiva a aplicação de redes neuronais em quı́mica. Elas possibilitam a resolução de problemas
de classificação, modelação, associação e mapeamento permitindo assim a resolução de um
grande número de problemas.
É de salientar, que a resolução de alguns dos problemas pode ser realizada recorrendo
a métodos estatı́sticos ou de reconhecimento de padrões, contudo, as redes neuronais apre-
sentam capacidades que ultrapassam as possibilidades dos métodos tradicionais de análise
de dados. É de especial importância o facto de as relações entre os dados de input e os va-
lores de output não precisarem de ser especificadas numa forma matemática, sendo aquelas
relações representadas implicitamente o que permite a modelação de relações não-lineares.
O uso de redes neuronais requer alguma experiência sendo de grande importância, para a
resolução do problema, a estratégia seguida para a representação de dados. Quanto melhor
a informação quı́mica a ser processada for “codificada” mais fácil se tornará a resolução do
problema.
Quer a aplicação das redes neuronais ao problema da reactividade quı́mica quer os
problemas relacionados com a espectrometria de massa são exemplos da capacidade das
redes neuronais para a resolução de problemas de classificação em quı́mica. Em ambos
os casos as redes mais têm arquitecturas de multi-camada treinadas com o algoritmo de
aprendizagem de Retro-Propagação.
55
56 CAPÍTULO 5. CONSIDERAÇÕES FINAIS
A complexidade do problema a resolver, que pode implicar um número de dados de

treino elevado, pode levar a um aumento no tempo de treino. Isto, no entanto, não deve
causar apreensão visto que uma rede para a resolução de um problema em especial só
precisa de ser treinada uma vez. Após o treino as previsões de novos resultados é feita
rapidamente.
O potencial das redes neuronais para o processamento de informação quı́mica está
ainda bem longe de ser totalmente explorado. Em quı́mica, a maior parte das tarefas, diz
respeito à atribuição de objectos a uma certa categoria ou à previsão de caracterı́sticas de
objectos, daı́ a grande aplicação do algoritmo de aprendizagem de Retro-Propagação. Tal
não implica, contudo, que este seja o melhor algoritmo de aprendizagem e que resolva mais
facilmente os problemas. Na verdade, este algoritmo ganhou uma grande popularidade de
inı́cio devido à sua capacidade de resolução de problemas de classificação e a sua facilidade
de implementação relativamente a outros, não sendo assim de estranhar o seu sucesso.
No entanto existem algoritmos mais complexos que começam agora a ser usados para a
resolução dos mais diversos problemas.
Relativamente aos exemplos mostrados, é fácil observar o que as redes neuronais trazem
relativamente a aplicações à espectrometria de massa. Esta é uma técnica analı́tica aplicada
a várias áreas tais como pesquisa ambiental, indústria, medicina, agricultura, biologia e
até no desporto (casos de análises anti-doping, por exemplo) entre outras.
O grande desenvolvimento que a espectrometria de massa conheceu nos últimos anos,
permite uma análise de misturas cada vez mais complexas tornando-a uma técnica analı́tica
cada vez mais poderosa. A aplicação de redes neuronais à espectrometria de massa pode
dar também um contributo. Se pensarmos, por exemplo, nas vantagens das redes de
computadores e o desenvolvimento de software adequado, para a construção e acesso a
extensas bibliotecas de espectros e a respectiva comparação dos espectros obtidos com os
da biblioteca, trouxeram concluir, após observar os exemplos dados, que as redes neuronais
têm muito a oferecer à espectrometria de massa tornando a análise dos resultados muito
mais fácil e rápida.
Os exemplos dados foram escolhidos de forma a mostrar o quanto são variadas as
aplicações das redes neuronais à espectrometria de massa desde a identificação de vários
tipos de cereais, caracterização de vários tipos de vinagres, determinação da origem de
um dado tipo de azeite ou se este está adulterado com outros óleos ou não, análise de
combustı́veis entre muitas outras. Uma análise que após a obtenção do espectro poderia
ser morosa até se chegar a uma conclusão se existir uma rede neuronal, treinada e testada
para a resolução do problema em questão, basta transformar os dados do espectro no
objecto de input introduzi-lo na rede e o resultado é dado quase instantaneamente. É de
referir igualmente a aplicação das redes neuronais artificiais a outras áreas da quı́mica.
Além das aplicações à espectrometria de massa referidas existem muitas mais aplicações
a outras técnicas analı́ticas tais como, por exemplo, a ressonância magnética nuclear e a
espectroscopia de infra-vermelho que foram também abordadas neste trabalho ficando claro
a preciosa ajuda que as redes neuronais podem dar a problemas de análise quı́mica.
Quanto, a aplicações a outras áreas da quı́mica, foram abordadas as aplicações à quı́mica
orgânica, onde as redes mostraram a sua capacidade quando aplicadas a problemas de
57
previsão de ocorrência de reacções quı́micas, e à quı́mica-fı́sica. As aplicações à quı́mica

fı́sica feitas até agora incidiram principalmente sobre a previsão de propriedades fı́sico-
quı́micas de átomos e moléculas tais como potenciais de ionização, pontos de ebulição
e solubilidades entre outras. Contudo, não é de descartar, a possibilidade de existirem
nesta área outras aplicações em que ainda não se aproveitou todo o potencial das redes
neuronais artificiais. Devido ao grande desenvolvimento tecnológico dos últimos 50 anos,
que permite uma velocidade de cálculo impensável há alguns anos, problemas de grande
complexidade que no passado não tinham hipótese de resolução em tempo útil começam
agora a ser resolvidos. No entanto muitos destes problemas são abordados com métodos já
implementados para os casos mais simples. Será que em vez de se apostar em novos métodos
de resolução dos problemas, se apostará cada vez mais no desenvolvimento de tecnologia
que permita a sua resolução cada vez mais rápido pelos métodos antigos? Uma coisa é
certa. As redes neuronais devido à sua grande flexibilidade, garantida pela carácter não
linear da função transferência e um conjunto de pesos que lhe garante graus de liberdade
suficiente para se adaptar ao problema, tem capacidade para resolver problemas complexos
de natureza não linear. As redes neuronais podem assim, com certeza, oferecer uma nova
forma de abordagem a vários problemas da quı́mica-fı́sica dando o seu contributo para
resolução destes.
Relativamente à aplicação das redes neuronais ao estudo da reactividade quı́mica é de
focar o sucesso da presente aplicação tendo sido implementada uma rede que aprendeu a
relação entre um conjunto de parâmetros de natureza energética e electrónica e a reacti-
vidade de ligações quı́micas realizando a previsão para uma grande gama de compostos
orgânicos com um sucesso de cerca de 97%.
Por último, é de salientar que apesar da aplicação de redes neuronais em quı́mica ser
ainda relativamente jovem e longe de estar totalmente explorado, principalmente em Por-
tugal onde estão a ser dados ainda os primeiros passos, existe já um grande número de
publicações nas áreas da espectrometria de massa, , bacteriologia, microbiologia, biotec-
nologia, quı́mica ambiental, controlo de qualidade de alimentos, análise de combustı́veis,
análise de pesticidas, etc. o que reforça a confiança no seu potencial e na sua capacidade
para, num futuro próximo, ser uma ferramenta a utilizar por qualquer quı́mico para uma
mais rápida resolução dos seus problemas.
58 CAPÍTULO 5. CONSIDERAÇÕES FINAIS
Bibliografia
[1] Vera Simon, Johann Gasteiger, Jure Zupan, J. Am. Chem. Soc. 1993, 115, 9148-9159
[2] J. Gasteiger, K. P. Schulz, J. Chem. Inf. Sci, 1993, 33, 385-394
[3] K. P. Schulz, J. Gasteiger, J. Chem. Inf. Sci, 1993, 33, 395-406
[4] J. Zupan, J. Gasteiger., Neural Networks in Chemistry and Drug Design, WILEY-
VCH, Weinheim, 1999
[5] J. Zupan, J. Gasteiger, Angew. Chem. Int. Ed. Engl. 1993, 32, 503-527
[6] Simon Haykin, Neural Networks - A Comprehensive Foundation, Prentice Hall, New
Jersey, 1999
[7] Dan W. Patterson, Artificial Neural Networks - Theory and Applications, Prentice
Hall, Singapore, 1996
[8] J. Zupan, J. Gasteiger, Analytica Chimica Acta, 1991, 248, 1-30
[9] P. R. Schleyer, N. L. Allinger, T. Clark, J. Gasteiger, P. A. Kollman, H. F. Schaefer

III, P. R. Schreiner, Encyclopedia of Computational Chemistry Tomo 3, 1999, John
Wiley & sons, Chichester, UK
[10] James A. Freeman, Simulating Neural Networks with Mathematica, 1994, Addison
Wesley, USA
[11] Hugh M. Cartwright, Aplications of Artificial Intelligence in Chemistry, Oxford, 1993
[12] Thomas L. Isenhour, Peter C. Jurs, Analytical Chemistry, 1971, 43, 20A-35A
[13] http://www.pfizer.com/brain/images/neuron large.gif
[14] B. Curry, D. E. Rumelhart, Tetrahedron Comput. Methodol., 1990, 3, 213-238
[15] H. Lohninger, F. Stancl, Fresenius J. Anal. Chem., 1992, 344, 186-189
[16] Morton E. Munk, Mark S. Madison, J. Chem. Inf. Comput. Sci., 1996, 36, 231-238
59
60 BIBLIOGRAFIA
[17] A. Eghbaldar, T. P. Forrest, D. Cabrol-Bass, Analytica Chimica Acta, 1998, 359, 283-
301
[18] Goodacre R, Kell DB, Bianchi G, Journal of the Science of Food and Agriculture,
1993, 63 (3), 297 - 307
[19] Yang H, Ring Z, Briker Y, McLean N, Friesen W, Fairbridge C, Fuel, 2002, 65 - 74
[20] Bloch HA, Petersen M, Sperotto MM, Kesmir C, Radzikowski L, Jabobsen S, Sonder-
gaard I, Rapid Comunications in Mass Spectrometry, 2001, 440 - 445
[21] Sebastian I, Viallon C, Tournayre P, Berdague JL, Analusis, 2000, 28 (2), 141 -147
[22] Wan CH, Harrington PD, Analytica Chimica Acta, 2000, 408 (1-2), 1 - 12
[23] Tong CS, Cheng KC, Chemometrics and Intelligent Laboratory Systems, 1999, 49 (2),
135 - 150
[24] Basu B, Singh MP, Kapur GS, Ali N, Sastry MIS, Jain SK, Srivastava SP, Bhatnagar
AK, Tribology International, 1998, 31 (4), 159 - 168
[25] Kenyon RGW, Fergusson EV, Ward AC, Zentralblatt Fur Bakteriologie - International
Journal of Medical Microbiology Virology and Infectious Diseases, 1997, 285 (2), 267
- 277
[26] Salter GJ, Lazzari M, Giansante L, Goodacre R, Jones A, Surricchio G, Kell DB,
Bianchi G, Journal of Analytical and Applied Pyrolysis, 1997, 40 - 1, 159 - 170
[27] Jure Zupan, Marjana Novic, Analytica Chimica Acta, 1994, 292, 219-234
[28] Montanarella L, Bassani MR, Breas O, Rapid Communications in Mass Spectrometry,

1995, 9 (5), 1589 - 1593
[29] James R. Long, Howard T. Mayfield, Michael V. Henley, Anal. Chem., 1991, 63,
1256-1261
[30] A. Bos, M. Bos, W. E. van der Linden, Analytica Chimica Acta, 1993, 277, 289-295
[31] Matevz Pompe, Marko Razinger, Marjana Novic, Marjan Veber, Analytica Chimica
Acta, 1997, 348, 215-221
[32] Gaston Bocaz-Beneventi, Rosa Latorre, Marta Farková, Josef Havel, Analytica Chi-
mica Acta, 2002, 452, 47-63
[33] Davi W. Elrod, Gerald M. Maggiora, J. Chem. Inf. Comput. Sci., 1990, 30, 477-484
[34] V. Kvaniscka, J. Pospı́chal, Journal of Molecular Struture (Theochem), 1991, 235,

Elsevier Science Publishers, Amesterdam
BIBLIOGRAFIA 61
[35] Lingran Chen, Johann Gasteiger, Angew. Chem. Int. Ed. Engl., 1996, 35, nž7
[36] Lingran Chen, Johann Gasteiger, J. Am. Chem. Soc., 1997, 119, 4033-4042
[37] Marjana Novic, Jure Zupan, J. Chem. Inf. Comput. Sci, 1995, 35, 454-466
[38] Christoph Klawun, Charles L. Wilkins, J. Chem. Inf. Comput. Sci, 1996, 36, 69-81
[39] Christophe Cleva, Claude Cachet, Daniel Cabrol-Bass, Thomas P. Forrest, Analytica
Chimica Acta, 1997, 348, 255-265
[40] H. J. Luinge, M. H. Langoor, J. H. van der Maas, Analytica Chimica Acta, 1997, 348,
471-480
[41] J. Gasteiger, J. Schuur, P. Selzer, L. Steinhauer, Fresenius J. Anal. Chem., 1997, 359,
50-55
[42] Markus C. Hemmer, Valentin Steinhauer, Johann Gasteiger, Vibrational Spectroscopy,

1999, 19, 151-164
[43] Johann Gasteiger, Mario Marsili, Tetrahedron, 1980, 36, 3219-3228
[44] Maria D. Guillen, J. Gasteiger, Tetrahedron, 1983, 39, 1331-1335
[45] Wilfried J. Mortier, Karin Van Genechten, Johann Gasteiger, J. Am. Chem. Soc.,
1985, 107, 829-835
[46] U. M. Weigel, R. Herges, Analytica Chimica Acta, 1996, 331, 63-74
[47] Michael E. Sigman, Stephen S. Rives, J. Chem. Inf. Comput. Sci., 1994, 34, 617-620
[48] Johann Gasteiger, Xinzhi Li, Angew. Chem. Int. Ed. Engl., 1994, 33
[49] Lowell H. Hall, C. T. Story, J. Chem. Inf. Comput. Sci., 1996, 36, 1004-1014
[50] Eric S. Goll, P. C. Jurs, J. Chem. Inf. Comput. Sci., 1999, 39, 974-983
[51] Brooke E. Mitchell, Peter C. Jurs, J. Chem. Inf. Comput. Sci., 1998, 38, 489-496
[52] J. U. Thomsen, B. Meyer, Journal of Magnetic Ressonance, 1989, 84, 212-217
[53] J. P. Doucet, A. Panaye, E. Feuilleaubois, P. Lass, J. Chem. Inf. Comput. Sci., 1993,
33, 320-324
[54] Geoffrey M. J. West, J. Chem. Inf. Comput. Sci., 1995, 35, 21-30
[55] Geoffrey M. J. West, J. Chem. Inf. Comput. Sci., 1995, 35, 806-814
[56] Daniel Svozil, Jiri Pospichal, Vladimir Kvasnicka, J. Chem. Inf. Comput. Sci., 1995,
35, 924-928
62 BIBLIOGRAFIA
[57] João Aires de Sousa, Markus C. Hemmer, Johann Gasteiger, Anal. Chem., 2002, 74,
80-90
[58] J. Gasteiger, H. Saller, Angew. Chem. 1985, 97, 699-701
[59] M. G. Hutchings, J. Gasteiger, Tetrahedron Lett., 1983, 24, 2541-2544
[60] J. Gasteiger, M. G. Hutchings, J. Chem. Soc., Perkin Trans. 2, 1984, 559-564
[61] J. Gasteiger, Tetrahedron, 1979, 35, 1419-1426
[62] Research Group of Johann Gasteiger, Techniques for Organic Reactions, Visualization
and Spectroscopy - PETRA (Parameter Estimation for the Treatment of Reactivity
Applications - Version 2.6, 1999, Computer-Chemie-Centrum University of Erlangen-
Nuernberg (http://www2.ccc.uni-erlangen.de)
[63] D. L. Massart, B. G. M. Vandeginste, S. N. Deming, Y. Michote, L. Kaufman, Che-

mometrics: a Textbook, 1988, Elsevier
[64] S. Akhnazarov, V. Kafarov, Experiment Optimization in Chemistry and Chemical

Engineering, 1978, MIR Publishers, Moscow
[65] R. Keller, J. M. Mermet, M. Otto, H. M. Widmer, Analytical Chemistry, 1998, Wiley-

VCH
[66] J. Gasteiger, M.Marsili, M. G. Hutchings, H. Saller, P. Low, P. Rose, K. Rafeiner, J.

Chem. Inf. Comput. Sci., 1990, 30, 467-476
[67] Hinze, Jaffe, J. Am. Chem. Soc., 1962, 84, 540
[68] Hinze, Jaffe, J. Am. Chem. Soc., 1963, 85, 148
[69] Hinze, Jaffe, J. Phys. Chem., 1963, 67, 1501
[70] Johann Gasteiger, Michael G. Hutchings, J. Chem. Soc. Perkin Ttrans. II, 1984, 559-
564
[71] Johann Gasteiger, Michael G. Hutchings, J. Am. Chem. Soc., 106, 1984, 6489-6495
[72] Terrence A. Lee, A Beginner’s Guide to Mass Spectral Interpretation, 1998, Wiley
[73] Thomas N. Sorrell, Interpreting Spectra of Organic Molecules, 1988, University Science
Books
Apêndice A
Exemplos de Aplicações
I
II APÊNDICE A. EXEMPLOS DE APLICAÇÕES
III
Tabela A.1: Estratégias de aprendizagem de redes neuronais e suas aplicações em diferentes

tipos de problemas. [5]
Rede de Rede Rede de Back- Counter-

Hopfield ABAM Kohonen Propagation Propagation
Classificação ? ? ? ?
Modelação ? ?
Associação ? ? ? ?
Mapeamento ? ?
Processo Sem Com e sem Sem Com Com

de aprendizagem supervisão supervisão supervisão supervisão supervisão
IV APÊNDICE A. EXEMPLOS DE APLICAÇÕES
Tabela A.2: Exemplos de aplicações em quı́mica. BPE: Retro-Propagação of error s, KL:

Kohonen Learning, CP: Counter-Propagation, MW: Moving Window, GA: Genetic Algo-
rithm, QSAR: Quantitative Struture-Activity Relatioships. [4]
Tamanho
Problema Tipo de problema Método
da rede
Classificação
Origem de azeites Médio BPE+KL
Mapeamento
Reactividade de Classificação
ligações Pequeno KL+BPE
Mapeamento
Classificação de
Classificação Médio KL
reacções
Separação em HPLC Modelação Pequeno BPE
QSAR Modelação Pequeno BPE

Classificação
QSAR Médio KL+BPE
Modelação
Selecção de variáveis
QSAR Médio GA+CP
Modelação
Substituição electrófilica
Modelação Pequeno BPE
aromática
Estudo de tintas Modelação Pequeno BPE

Classificação
Processos de controlo Pequeno BPE+CP+MW
Modelação
Estrutura de proteı́nas Classificação Grande BPE+MW
Correlação espectro
Classificação
Grande BPE+KL
de infravermelho-estrutura Mapeamento
Simulação de espectro de
Classificação
Grande CP
infra-vermelho Modelamento
Superfı́cies moleculares Mapeamento Grande KL

Correlação espectro
Classificação Grande BPE
de massa-estrutura
Apêndice B
Algoritmos
V
VI APÊNDICE B. ALGORITMOS
VII
Algoritmo de Aprendizagem de Retro-Propagação
Basicamente o procedimento de aprendizagem envolve os seguintes passos:
? Introduzir um objecto (input) X (x1 , x2 , ..., xm )na rede

? “Rotular” os componentes xi do objecto de input X como out0i e adicionar uma
componente 1 para o bias. O vector de input fica então Out0 (out01 , out02 , ..., out0m , 1)
? Propagar Outl pelas camadas da rede, por estimativa consecutiva dos vectores de
output Outl . Para tal, usa-se os pesos wji
l
da camada l e o output outl−1
i (da camada
anterior) que funciona como output da camada l
m
!
outlj = f l
outl−1
X
wji i
i=1
onde f é a função transferência escolhida (na maior parte dos casos é a função sigmóide)
? Calcular o factor de correcção para todos os pesos na camada de output δ jlast usando
o vector de output Out last e o vector alvo Y de acordo com a expressão:

δjlast = yj − outlast
j outlast
j 1 − outlast
j
? Corrigir todos os pesos da última camada, pela expressão:
last last(previous)
∆wji = ηδjlast outilast−1 + µ∆wji
? Calcular, consecutivamente, camada a camada, os factores de correcção δ jl para as

camadas ocultas desde l=final-1 a l=1
r
!

δjl δkl+1 outl+1 outlj 1 − outlj
X
= j
k=1
? Corrigir todos os pesos wji na camada l
l l(previous)
∆wji = ηδjl outl−1
i + µ∆wji
Repetir o procedimento com um novo par input:alvo (O número de dados utilizados

para o treino da rede deve ser, no mı́nimo, tão grande como o número de pesos).
Antes de se iniciar o treino, devem ser cumpridas três etapas: escolha da arquitectura da
rede neuronal, geração aleatória dos pesos iniciais, selecção da velocidade de aprendizagem
e do momento da rede.
VIII APÊNDICE B. ALGORITMOS
Apêndice C
Determinação dos Parâmetros

Fı́sico-Quı́micos
IX
X APÊNDICE C. DETERMINAÇÃO DOS PARÂMETROS...
XI
Diferença de Electronegatividade σ, ∆χσ

XII APÊNDICE C. DETERMINAÇÃO DOS PARÂMETROS...
Diferença de Carga Π, ∆qΠ

XIII
Estabilização por Ressonância, R±

XIV APÊNDICE C. DETERMINAÇÃO DOS PARÂMETROS...
Polarizabilidade, αb
XV
Diferença de Carga Total, ∆qtot

XVI APÊNDICE C. DETERMINAÇÃO DOS PARÂMETROS...
Polaridade, Qσ
XVII
Energia de Dissociação da Ligação, BDE

XVIII APÊNDICE C. DETERMINAÇÃO DOS PARÂMETROS...
Apêndice D
Detalhes sobre o Método LoRA
XIX
XX APÊNDICE D. DETALHES SOBRE O MÉTODO LORA
XXI
A análise por regressão logı́stica, LoRA, estende as técnicas de regressão linear múltipla
a situações onde a resposta a dar é categórica. Estas situações são muito comuns, sendo o
caso da reactividade de ligações um dos casos onde pode ser aplicado este método.
O modelo para a análise por regressão logı́stica assume que a variável de resposta Y
é categórica. Contudo, o LoRA não modela esta a variável de resposta directamente.
Este método baseia-se nas probabilidades associadas com os valores Y . A proporção da
população dos casos para que Y = 1, ligação reactiva, é definida como:
Π = P (Y = 1) (D.1)
e a proporção teórica, dos casos para Y = 0, é:
1 − Π = P (Y = 0). (D.2)
Na ausência de outra informação, Π deve ser estimado pela amostra de proporção de
casos para Y = 1. Contudo, no contexto da regressão assume-se que existe um conjunto
de variáveis preditoras (X = x1 , x2 , ..., xp ), neste caso são os parâmetros fı́sico-quı́micos,
que se relacionam com Y e que dão a informação necessária para fazer a sua previsão.
Sendo assim, a probabilidade da ligação ser reactiva passa a ser:
Π(X) = P (Y = 1 | x1 , x2 , ..., xp ) (D.3)

e a probabilidade da ligação não ser reactiva será:
1 − Π(X) = P (Y = 0 | x1 , x2 , ..., xp ) (D.4)
A expressão para o cálculo da reactividade será:

" # " # p
P (Y = 1 | x1 , x2 , ..., xp ) Π (X) X
ln = ln = β0 + β1 x1 + ... + βp xp = β0 + βj xj
1 − P (Y = 1 | x1 , x2 , ..., xp ) 1 − Π (X) j=1
(D.5)
Note-se que neste modelo Π é uma probabilidade condicional como mostra a expressão
D.3, ou seja, a reactividade depende da combinação de valores das variáveis preditoras. A
expressão D.5 pode ser escrita da seguinte forma:
p
X
!
β0 + βxj
exp j=1 1
P (Y = 1 | x1 , x2 , ..., xp ) = p ! = p ! (D.6)
X X
β0 + βxj − β0 + βxj
1 + exp j=1 1 + exp j=1
Os parâmetros que têm de ser quantificados são a constante β0 e os coeficientes de

regressão logı́stica βj . Devido à natureza do modelo a estimação é baseada no principio da
probabilidade máxima. Constrói-se a função de semelhança que expressa a probabilidade
XXII APÊNDICE D. DETALHES SOBRE O MÉTODO LORA
dos dados observados em função dos parâmetros desconhecidos. Depois serão obtidos os
estimadores de semelhança desses parâmetros que maximizam a função de semelhança. No
processo são escolhidos os estimadores que fazem a previsão mais próxima da realidade.
Para um conjunto de dados (Xi , yi ),onde Xi é o vector de variáveis preditoras para o
objecto i, a contribuição para a função de semelhança é Π(Xi ), onde yi = 1 e 1 − Π(Xi ),
onde yi = 0. A equação seguinte fornece a contribuição para a função de semelhança para
a observação (Xi , yi ): h i
ζ(Xi ) = Π(Xi )yi 1 − Π(Xi )1−yi (D.7)
Esta equação é apenas para um único conjunto de observações. As observações são
assumidas como sendo independentes umas das outras. Sendo assim, pode-se multiplicar
as suas contribuições para obter a função de semelhança. O resultado é dado por:
n
Y
l (B) = ζ(Xi ) (D.8)
i=1
onde B é o conjunto de parâmetros β0 , β1 , ..., βj e l(B) é a função de semelhança de B.

A estimativa por probabilidade máxima pode ser obtida calculando B de forma a ma-
ximizar l(B). Contudo, para simplificar vai ser aplicado logaritmos à expressão D.8, depois
de encontrar o valor de B que maximiza a função de semelhança, obtendo-se a seguinte
expressão:
n
X
L(B) = ln [l(B)] = yi ln [Π(Xi )] + (1 − yi ) ln [1 − Π(xi )] (D.9)
i=1
Para determinar o valor de B que maximiza L(B) faz-se a derivada relativamente a

β0 , β1 , ..., βj e igualam-se as derivadas resultantes a zero. As expressões obtidas vão ser
da forma: n X
[yi − Π(Xi )] = 0 (D.10)
i=1
para β0 e
n
X
xik [yi − Π(Xi )] = 0 para K = 1, 2, ..., j (D.11)
i=1
para as variáveis preditoras β1 , β2 , ..., βj .

Apêndice E
Detalhes sobre o PETRA
XXIII
XXIV APÊNDICE E. DETALHES SOBRE O PETRA
XXV
O PETRA é um programa que contém vários métodos implementados, todos de natu-

reza empı́rica, que têm sido desenvolvidos ao longo dos anos no grupo de investigação de
J. Gasteiger, para o cálculo de propriedades fı́sico-quı́micas em moléculas orgânicas [62].
Mostra-se em seguida como os parâmetros fı́sico-quı́micos são calculados.
Energia de Dissociação da Ligação, BDE
A energia de dissociação da ligação é a energia necessária para a quebra da ligação em

dois radicais (processo homolı́tico).
A − B → A. + B . (E.1)
Esta energia pode ser calculada a partir das entalpias de formação da molécula e dos
dois radicais formados pela quebra da ligação.
BDE(A − B) = ∆Hf0 (A. ) + ∆Hf0 (B . ) − ∆Hf0 (A − B) (E.2)
As entalpias de formação da molécula neutra e dos dois radicais são calculadas pelo
método descrito de seguida.
Exemplo: Cálculo da energia de dissociação de uma ligação de um éter no metiléter:
BDE = (((142, 2 + (−21, 0)) − (−215, 4))kJ/mol = 336, 6kJ/mol
A energia de dissociação da ligação é um factor fundamental para a influência na reac-

tividade quı́mica [62, 66]. No entanto a sua determinação necessita de um cálculo prévio
das entalpias de formação.
A entalpia de formação (∆Hf0 ) é estimada a partir das contribuições aditivas das su-
bestruturas de uma molécula. As subestruturas, e os valores da sua contribuição para a
entalpia de formação, estão guardados numa base de dados no programa. A precisão de
um sistema aditivo, para estimar propriedades moleculares, é fortemente dependente do
número de parâmetros seleccionados, ou seja, do tamanho máximo das subestruturas con-
sideradas para a aproximação. Com o aumento do número de parâmetros, a precisão para
reproduzir valores experimentais aumenta. Contudo, a capacidade de previsão diminui se
as subestruturas estiverem presentes em estruturas com propriedades que não foram ainda
parametrizadas [61,62]. É escolhido um esquema que trabalha com subestruturas com dois,
três e quatro átomos que cobrem a interacção de átomos sobre uma, duas ou três ligações
(interacções 1,2-; 1,3- e 1,4-)
XXVI APÊNDICE E. DETALHES SOBRE O PETRA
Figura E.1: Geração da base de dados [62].
Número de Contribuição
Subestruturas
ocorrências em kJ/mol
H H H
C-H 7 415,97
H C C C H C-C 2 332,82
O-H 1 463,48
H O H O-C 1 326,22
C-C-C 1 9,69
H
O-C-C 2 23,53
O-C-(-C)-C 1 -6,28
(energia da contribuiao de todas as subestruturas)

= 4417, 63kJ/mol
P
(energia de atomizaao dos elementos) = 4146, 10kJ/mol

P
∆Hf0 = (4146, 10 − 4417, 63)kJ/mol = −271, 53kJ/mol
Figura E.2: Cálculo da entalpia de formação do 2-propanol [62].
Para manter o número de parâmetros em limites razoáveis, as subestruturas para as

interacções 1,4 (A − B − C − D) são apenas consideradas quando a ligação central é
uma ligação dupla (B = C). O valor da contribuição de uma subestrutura é obtido
por análise estatı́stica (análise de regressão multi-linear, MLRA) de entalpias de formação
experimentais [62]. Esses dados são guardados numa base de dados podendo o esquema
ser reparametrizado quando novos dados experimentais são adicionados (figura E.1).
As interacções que envolvem átomos de hidrogénio são consideradas apenas para li-
gações (A − H) sendo consideradas zero para subestruturas maiores. Estruturas como
pequenos anéis e sistemas aromáticos, influenciam bastante as entalpias de formação e,
sendo assim, parâmetros adicionais como energias de deslocalização aromática e outros
devem ser considerados. A figura E.2 mostra como é calculada a entalpia de formação da
2-propanona.
XXVII
Distribuição de carga σ
A noção de cargas parciais nos átomos de uma molécula é bastante usada pelos quı́-
micos. Contudo, recorde-se, que este conceito é reflexo da distribuição electrónica numa
molécula, não tendo fundamentação teórica. Este modelo de atribuição de uma distribuição
electrónica não uniforme nos átomos individuais, conferindo-lhes carga parcial é bastante
útil.
As cargas atómicas parciais são calculadas a partir das electronegatividades orbitais. A
base desta aproximação é o conceito de electronegatividade, χ, definido por Mulliken como
a média do potencial de ionização e da afinidade electrónica:
χ = 0, 5(IP + EA) (E.3)
As várias orbitais de um átomo são consideradas separadamente tendo, cada uma, o
seu valor de electronegatividade, χi . A electronegatividade é, assim, dependente do estado
de hibridação do átomo, não sendo apenas dependente do tipo de orbital que está a ser
considerada mas também da sua ocupação. Os valores da electronegatividade podem ser
obtidos a partir de dados retirados da bibliografia [67–69]. Para o estado neutro (n = 1)
e para o estado com uma carga positiva (n = 0) e negativa (n = 2). A ocupação de uma
orbital pode ser considerada como uma variável contı́nua, ou seja , é permitida uma gama
contı́nua de carga parcial num átomo. Com três valores para a dependência da electrone-
gatividade orbital na carga (n = 0, 1, 2 correspondente a q = +1, 0, −1), um polinómio
de segundo grau pode ser utilizado para mostrar a dependência da electronegatividade de
uma orbital χiA , na carga qA de um átomo.
χiA = ai + bi qA + ci qA2 (E.4)

Os três valores χ+ 0 −
i , χi , χi permitem a determinação dos três coeficientes ai , bi , ci da
dependência da electronegatividade orbital na carga.
Na formação de uma ligação a densidade electrónica é transferida do átomo menos elec-
tronegativo, A, para o átomo mais electronegativo, B. Tal confere ao átomo A uma carga
positiva e um aumento da sua electronegatividade enquanto que o átomo B, inicialmente
com maior electronegatividade, adquire uma carga negativa. As electronegatividades dos
átomos que formam uma ligação tendem a igualar-se, mas, isso ocorre apenas parcialmente.
Transferência electrónica cria um potencial electrostático que actua contra ela própria. Tal
constitui a essência do método PEOE [43–45].
O algoritmo do método PEOE é um procedimento iterativo, podendo ser apresentado
da seguinte forma (figura E.3):
? Passo 1: Para cada átomo A e orbital i
χiA = ai + bi qA + ci qA2 (E.5)
? Passo 2: Para cada ligação A − B

0
<n>
∆qAB = (χ+ −1
iA ) (χiA − χiB ) × α
n
(E.6)
XXVIII APÊNDICE E. DETALHES SOBRE O PETRA
Figura E.3: Procedimento iterativo para o método PEOE [62].
<n>
∆qAB = ∆qAB + ∆qAB (E.7)
? Passo 3: Para todas as ligações a um átomo
qA<n> = <n>
X
∆qAB (E.8)
qA = qA + qA<n> (E.9)
Se n < nmax ir para passo 1
Onde α é o factor de amortecimento, com o valor 0,5 e n é a iteração corrente. O método

PEOE permite o cálculo de vários parâmetros sendo a diferença de electronegatividade
entre os átomos A e B de uma ligação, ∆χσ , e a soma das cargas mudadas nas iterações,
Qσ os que foram utilizados no trabalho. A quantidade de carga mudada ao longo de uma
ligação é obtida como um parâmetro adicional que pode ser considerado como uma medida
da polaridade de uma ligação.
Distribuição de carga Π
As cargas atómicas parciais em sistemas Π são calculadas gerando todas as estruturas

de ressonância possı́veis para o sistema [62]. Estas são, então, “pesadas” tendo como base
a electronegatividade orbital Π e considerações formais (PEPE). As várias estruturas de
ressonância são geradas a partir dos átomos aceitadores e doadores de electrões. Um ou
mais “pesos topológicos” são atribuı́dos às várias estruturas de ressonância que dependem
das mudanças da estrutura de valência da ligação e das cargas formais dos átomos das es-
truturas de ressonância. Os “pesos topológicos” foram optimizados a partir de um conjunto
de dados de desvios quı́micos de 13 C de várias moléculas com sistemas Π.
? Mudança da carga: Peso Topológico=1

XXIX
N N N N
C
N N
? Separação de carga: Peso Topológico=0,5
Se a carga positiva e negativa estiverem em átomos adjacentes o factor topológico tem

apenas um valor de 0,25
O OH
C C
H O H H O H
? Recombinação de carga: Peso Topológico=1,0
O O
C C
O factor peso topológico total Wt é constituı́do por três factores:

Wt = f Q f B f A (E.10)
onde fQ é o factor para a separação de carga, fB é um factor a adicionar se o número de
ligações covalentes diminuir e fA = 0, 3 se o sistema aromático for destruı́do.
No próximo passo as estruturas de ressonância são pesadas tendo como base a conside-
ração da sua natureza electrónica. O peso electrónico, We , de cada estrutura de ressonância
é calculado a partir das electronegatividades Π, χΠ , e das influências electrostáticas dos
átomos vizinhos.
We = ∆χΠ + fe ∆qN (E.11)
Onde ∆χΠ é a diferença de electronegatividade Π e o segundo termo representa a
repulsão electrónica do átomo vizinho. A electronegatividade Π é dependente do tipo de
átomo, estado de hibridação e carga σ, aplicando-se a seguinte equação:
χΠ = a + cqσ + cqσ2 (E.12)

Usando o produto do peso topológico e electrónico calcula-se o valor que traduz o efeito
de cada estrutura de ressonância no processo de equalização de carga. A carga é movida ao
longo dos átomos das várias estruturas de ressonância, alterando a sua electronegatividade
e, sendo assim, o processo de “pesar” as estruturas e mudar a densidade electrónica tem de
ser repetido em vários ciclos. O valor calculado é a diferença de carga Π entre os átomos
A e B.
XXX APÊNDICE E. DETALHES SOBRE O PETRA
Tipo de Contribuição Valor

Separação de carga (R1 ) 0,5
Separação de carga dos átomos li-
gados directamente. Diminuição do 0,1625
número de ligações covalentes (R2 )
Separação de carga dos átomos li-
gados directamente. Diminuição do 0.1625
número de ligações covalentes (R3 )
Figura E.4: Exemplo da determinação dos pesos topológicos [62].
Cargas Totais
Os valores das cargas totais são obtidos pela soma dos resultados das cargas σ e Π já
descritas anteriormente. O valor calculado é a diferença de carga total dos átomos A e B,
∆qtot , que formam a ligação.
Efeito de ressonância
A estabilização da carga positiva ou negativa obtida após a quebra polar de uma ligação
polar é calculada a partir dos valores de electronegatividade dos electrões Π e dos pares de
electrões isolados dos átomos que estão conjugados com os átomos que recebem as cargas
[62]. A procura dos átomos que conseguem estabilizar uma carga positiva ou negativa
não começa nos átomos da ligação que é quebrada mas sim nos átomos que têm potencial
para estabilizar cargas por efeito de ressonância (átomos fonte). Os átomos dessa ligações
estão conjugados com os seguintes tipos de átomos fonte: átomos doadores (possuidor
de um par de electrões livres), átomos aceitadores (podem aceitar um par de electrões),
grupos alquilo em ligações múltiplas (efeito de hiperconjugação), grupos alquilo em átomos
doadores (efeito de hiperconjugação).
A estabilização por ressonância é uma propriedade de ligação desde que a ligação que
é quebrada gere cargas. Existem dois sentidos para quebrar a ligação de uma forma polar,
sendo assim, cada ligação e estudada duas vezes:
A − B → B + + : A− (E.13)
A − B → A+ + : B − (E.14)
Uma ligação é caracterizada pelos ı́ndices dos dois átomos A e B. A convenção é que o
primeiro átomo obtém a carga positiva. É calculado um valor R− para a estabilização da
carga negativa e um valor R+ para a estabilização da carga positiva.
XXXI
O valor da estabilização de uma carga negativa, R − , é obtido a partir de todos os

átomos i, que estão em ressonância com o centro negativo.
R− (A − B) = f n χΠ,i
X
(E.15)
i
O somatório percorre todos os átomos i das estruturas de ressonância. O factor f é um

factor de “desvanecimento” que é igual a 1 se as ligações intervenientes forem aromáticas,
de outro modo é igual a 0,67. A variável n representa o número de ligações entre o centro
negativo e o átomo i, que pode ficar com a carga negativa.
O valor para a estabilização da carga positiva, R + é obtida pela seguinte expressão:
c
R+ (A − B) = X (E.16)
f n χΠ,i
i
−
Em relação à expressão para R há que referir a constante c que tem o valor de 26,63
eV, partindo do principio que a ressonância alı́lica no catião e no anião é assumida como
tendo o mesmo efeito estabilizador. O valor da estabilização por ressonância de uma carga
positiva em A e de uma carga negativa em B é determinado pela soma das expressões E.15
e E.16:
R± (A − B) = R+ (A − B) + R− (B − A) (E.17)
Efeito da Polarizabilidade
A polarizabilidade é calculada a partir de incrementos aditivos, tı́picos de um átomo

num estado de hibridização especı́fico. Quando os valores para o efeito de polarizabili-
dade na estabilização de carga são calculados esses incrementos são considerados apenas
numa extensão que reflecte o número de ligações entre o átomo considerado e a carga ou
centro reaccional. A polarizabilidade da ligação, αb , é calculada como o valor médio das
polarizabilidades dos dois átomos de uma ligação [62, 70, 71].
XXXII APÊNDICE E. DETALHES SOBRE O PETRA
Apêndice F
Reactividades obtidas para o Teste

da Rede
XXXIII
XXXIV APÊNDICE F. REACTIVIDADES OBTIDAS PARA...
XXXV
4 IV 26
I 2
II 5
III 18
20 21 24
15 17
3 13 16 22 25
9 23 28
19
12 10 27
1 6
V VI 8 7 14
11
32 43
VII VIII
29 37 44
30
36 38
31 42
35 39 45
33
50
49 70
34
40
41 XII
IX X XI 62
48 51 56 71
47 53 61 69 74 72
60
46 67 63
65 64 59 73
54 57 68
55 52
58 66
XIII
XIV XV XVI 89
77
81 84
87
XVII 96
80
79 95
82
75 83 86 91 94
92
85 88 93
76 78 XIX XX 90
05
08 XXI
01 04 07 XXII
XVIII 06 09
03 10 18
99 11 14
97 00 XXIII 15
02
XXIV 13
12 17
98 19
24 16
21
22 45 48
XXV 23 XXVIII
20
XXVI XXIX 49
44
27
28 XXVII 42
43
32
26 37 39
36 40 38 46
25 29 31 35
30 33
41 47
34
73
82
XXX XXXI XXXII
72
57 53 81
58
56 55 62 63
59 64 71
61 70
79 80
50 60
51 69 67
54
77 78
52
68 76
75 65
74
66
Figura F.1: Conjunto teste da rede. As quebras de ligação estão numeradas de 1 a 99, a
azul. Da 100 à 182 estão numeradas de 00 a 82, a verde, por falta de espaço.
XXXVI APÊNDICE F. REACTIVIDADES OBTIDAS PARA...
Tabela F.1: Conjunto de Moléculas utilizadas para o teste da rede.
Número da molécula Nome

I 1,3-ciclopentadieno
II 2,5-pirolediona
III 4-amino-2,4-dimetil-2-pentanol
IV metilpropanoato
V ciclopenteno
VI 2,2,4,4-tetrametilciclobutanol
VII ---
VIII 1-(1-iodo-1-metiletil)-ciclobutano
IX 5-hidroxi-5-metil-oxa-2-ciclopentanona
X 2,2,2-tricloro-1,1-etanodiol
XI 5-hidroxi-8-oxa-1,4,6-nonatrieno
XII 1-cloro-2,2-dimetilpropano
XIII dimetilalilamina
XIV 1-iodoetano
XV água
XVI 3-cloro-1-propeno
XVII 3-hidroxibutanal
XVIII 2,2-dimetil-1,1-propanodiol
XIX bromoetano
XX diclorometano
XXI ciclobutano
XXII ácido butanoico
XXIII acetona
XXIV acetaldeı́do
XXV 3-oxa-butanoato de etilo
XXVI ciclopropano
XXVII nitrometano
XXVIII ácido 2-oxaciclopentanoico
XXIX 1-(1-bromo-1-metiletil)-ciclopropano
XXX 10-Bromo-3,5,7-deca-trieno-2-tiol
XXXI 3-ciano-propil-fosfano
XXXII anisole
XXXVII
Tabela F.2: Reactividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido de forma aleatória e valores da bibliografia (RB).
Ligação RO RB Ligação RO RB Ligação RO RB

1 0.8 0 39 0.0 0 77 0.0 0
2 0.0 0 40 0.0 0 78 0.3 0
3 0.4 0 41 0.0 0 79 0.0 0
4 0.9 1 42 1.0 1 80 0.9 1
5 0.0 0 43 0.0 0 81 0.0 0
6 0.0 0 44 0.0 0 82 0.0 0
7 1.0 1 45 0.5 1 83 0.0 0
8 0.2 0 46 0.8 1 84 0.0 0
9 0.0 0 47 1.0 1 85 1.0 1
10 0.0 0 48 1.0 1 86 1.0 1
11 0.0 0 49 0.0 0 87 0.0 0
12 0.0 0 50 1.0 1 88 0.8 1
13 0.0 0 51 0.2 0 89 0.0 0
14 0.0 0 52 0.1 0 90 0.0 0
15 1.0 1 53 0.0 0 91 0.4 0
16 1.0 1 54 0.9 1 92 0.0 0
17 0.0 0 55 0.0 0 93 0.0 0
18 1.0 1 56 0.0 0 94 0.1 0
19 0.1 0 57 0.8 1 95 0.0 0
20 1.0 1 58 1.0 1 96 1.0 1
21 0.0 0 59 0.0 0 97 0.0 0
22 0.0 0 60 0.4 0 98 1.0 1
23 1.0 0 61 0.0 0 99 0.0 0
24 0.0 0 62 0.0 0 100 1.0 1
25 0.2 0 63 1.0 1 101 0.0 0
26 0.7 1 64 0.0 0 102 0.0 0
27 0.0 0 65 0.4 1 103 0.0 0
28 0.0 1 66 0.0 0 104 1.0 1
29 0.0 0 67 0.4 0 105 0.0 0
30 0.0 0 68 0.0 0 106 0.0 0
31 0.0 0 69 0.0 0 107 0.0 0
32 0.0 0 70 0.0 0 108 1.0 1
33 1.0 1 71 0.0 0 109 1.0 1
34 0.0 0 72 1.0 1 110 0.0 0
35 1.0 1 73 0.0 0 111 0.0 0
36 0.0 0 74 0.4 0 112 0.0 0
37 0.0 0 75 0.0 0 113 0.0 0
38 0.0 0 76 0.0 0 114 0.0 0
XXXVIII APÊNDICE F. REACTIVIDADES OBTIDAS PARA...
Tabela F.3: Reactividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido de forma aleatória e valores da bibliografia (RB).
Ligação RO RB
115 0.1 0
116 1.0 1
117 0.0 0
118 0.0 0 Ligação RO RB
119 1.0 1 153 0.5 1
120 1.0 1 154 1.0 1
121 0.0 0 155 0.5 1
122 0.6 1 156 0 0
123 0.0 0 157 0 0
124 0.6 1 158 0 0
125 0.0 0 159 0 0
126 0.0 0 160 1.0 1
127 0.1 0 161 1.0 1
128 1.0 1 162 0.1 0
129 0.0 0 163 0.7 1
130 1.0 1 164 0.2 0
131 0.0 0 165 0.0 -
132 1.0 1 166 0.0 -
133 0.0 0 167 0.0 -
134 0.0 0 168 0.0 -
135 0.0 0 169 0.0 -
136 0.0 0 170 0.0 -
137 1.0 1 171 0.9 -
138 0.0 0 172 0.0 -
139 0.0 0 173 0.0 -
140 0.0 0 174 0.0 -
141 0.0 0 175 0.8 -
142 0.0 0 176 0.0 -
143 0.0 1 177 0.7 -
144 1.0 1 178 0.0 -
145 1.0 1 179 0.9 -
146 0.0 0 180 0.0 -
147 1.0 1 181 1.0 -
148 0.0 0 182 0.7 -
149 0.0 0
150 0.5 1
151 0.2 0
152 1.0 1
XXXIX
Tabela F.4: Reatividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido com base no desenho da experiência e valores da bibliografia (RB).
Ligação RO RB Ligação RO RB Ligação RO RB

1 0.6 0 39 0.0 0 77 0.0 0
2 0.0 0 40 0.0 0 78 0.1 0
3 0.2 0 41 0.0 0 79 0.0 0
4 1.0 1 42 1.0 1 80 0.6 1
5 0.0 0 43 0.0 0 81 0.0 0
6 0.0 0 44 0.0 0 82 0.0 0
7 1.0 1 45 0.7 1 83 0.0 0
8 0.1 0 46 0.6 1 84 0.0 0
9 0.0 0 47 1.0 1 85 1.0 1
10 0.0 0 48 1.0 1 86 1.0 1
11 0.4 0 49 0.0 0 87 0.0 0
12 0.0 0 50 1.0 1 88 0.5 1
13 0.0 0 51 0.1 0 89 0.0 0
14 0.4 0 52 0.3 0 90 0.0 0
15 0.9 1 53 0.0 0 91 0.2 0
16 1.0 1 54 1.0 1 92 0.0 0
17 0.0 0 55 0.0 0 93 0.0 0
18 1.0 1 56 0.0 0 94 0.0 0
19 0.0 0 57 1.0 1 95 0.0 0
20 1.0 1 58 1.0 1 96 1.0 1
21 0.0 0 59 0.0 0 97 0.0 0
22 0.2 0 60 0.4 0 98 1.0 1
23 1.0 0 61 0.0 0 99 0.0 0
24 0.0 0 62 0.0 0 100 1.0 1
25 0.2 0 63 1.0 1 101 0.0 0
26 0.6 1 64 0.0 0 102 0.0 0
27 0.0 0 65 0.9 1 103 0.0 0
28 0.0 1 66 0.0 0 104 1.0 1
29 0.0 0 67 0.2 0 105 0.0 0
30 0.0 0 68 0.0 0 106 0.0 0
31 0.0 0 69 0.0 0 107 0.0 0
32 0.0 0 70 0.0 0 108 1.0 1
33 1.0 1 71 0.0 0 109 0.5 1
34 0.0 0 72 1.0 1 110 0.0 0
35 1.0 1 73 0.0 0 111 0.0 0
36 0.0 0 74 0.1 0 112 0.0 0
37 0.0 0 75 0.0 0 113 0.0 0
38 0.0 0 76 0.0 0 114 0.0 0
XL APÊNDICE F. REACTIVIDADES OBTIDAS PARA...
Tabela F.5: Reatividades obtidas (RO) para o teste da rede treinada com o conjunto
escolhido com base no desenho da experiência e valores da bibliografia (RB).
Ligação RO RB
115 0.0 0
116 1.0 1
117 0.0 0
118 0.0 0 Ligação RO RB
119 1.0 1 153 0.6 1
120 0.6 1 154 1.0 1
121 0.0 0 155 0.5 1
122 0.6 1 156 0.0 0
123 0.0 0 157 0.0 0
124 0.6 1 158 0.0 0
125 0.0 0 159 0.0 0
126 0.0 0 160 1.0 1
127 0.1 0 161 1.0 1
128 1.0 1 162 0.2 0
129 0.0 0 163 0.6 1
130 0.9 1 164 0.1 0
131 0.0 0 165 0.0 -
132 1.0 1 166 0.0 -
133 0.0 0 167 0.2 -
134 0.0 0 168 0.0 -
135 0.0 0 169 0.0 -
136 0.0 0 170 0.0 -
137 1.0 1 171 0.9 -
138 0.0 0 172 0.0 -
139 0.0 0 173 0.0 -
140 0.0 0 174 0.0 -
141 0.0 0 175 0.5 -
142 0.0 0 176 0.0 -
143 0.0 1 177 0.5 -
144 1.0 1 178 0.0 -
145 1.0 1 179 0.6 -
146 0.0 0 180 0.0 -
147 1.0 1 181 1.0 -
148 0.0 0 182 0.5 -
149 0.0 0
150 0.9 1
151 0.3 0
152 0.8 1
Apêndice G
Gráficos de Correlação dos

Parâmetros Fı́sico-Quı́micos
XLI
XLII APÊNDICE G. GRÁFICOS DE CORRELAÇÃO...
XLIII
Energia de Dissociação da Ligação / [kJ / mol]
Diferença de Electronegatividade σ / [e. u.]

500
2
400
Coeficiente de Correlação: 0,0144 1

300
0
200
-1
100
-2
0
-3
-0,2 -0,1 0 0,1 0,2 -0,2 -0,1 0 0,1 0,2
Diferença de Carga Π / [e. u.] Diferença de Carga Π / [ e. u.]
9
Coeficiente de Correlação: 0,2300
0,4 8
Coeficiente de Correlação: -0.02
3
0,2 7
0 6
-0,2 5
-0,4 4
3
-0,2 -0,1 0 0,1 0,2 -0,2 -0,1 0 0,1 0,2
Diferença de Carga Π / [e. u.] Diferença de Carga Π / [e. u.]
20 500
Estabilização por Ressonância
400
15
Coeficiente de Correlação: -0.05
300
10
200
5 100
0
0
-0,2 -0,1 0 0,1 0,2 -0,6 -0,4 -0,2 0 0,2 0,4 0,6
Diferença de Carga Pi / [e. u.] Diferença de Carga Total / [e. u.]
XLIV APÊNDICE G. GRÁFICOS DE CORRELAÇÃO...
0,2
Diferença de Carga Π / [ e. u.]
0,4
0,1

0,2
0 0
-0,2
-0,1
-0,4
-0,2
-0,6 -0,4 -0,2 0 0,2 0,4 0,6 -0,6 -0,4 -0,2 0 0,2 0,4 0,6
Diferença de Carga Total / [e. u.] Diferença de Carga Total / [e. u.]
20 9
Coeficiente de Correlação: -0,0818 8

15
3
10 6
5
5
4
0 3
-0,6 -0,4 -0,2 0 0,2 0,4 0,6 -3 -2 -1 0 1 2 3
Diferença de Carga Total / [e. u.] Diferença de Electronegatividade sigma / [eV]
3
Diferença de Electronegatividade σ / [eV]
20
2

15
1
10 0
-1
5
-2
0 -3
-3 -2 -1 0 1 2 3 -0,6 -0,4 -0,2 0 0,2 0,4 0,6
Diferença de Electronegatividade σ / [e. u.] Diferença de Carga Total / [e. u.]
XLV

500 500
400 400
Coeficiente de Correlação: 0,1697 Coeficiente de Correlação: -0,1293
300 300
200 200
100 100
0 0
-3 -2 -1 0 1 2 3 -0,4 -0,2 0 0,2 0,4
Diferença de Electronegatividade σ / [eV] Polaridade / [e.u.]
9 20
8 Coeficiente de Correlação: -0,0943


15
3
6 10
5
5
4
3 0
-0,4 -0,2 0 0,2 0,4 -0,4 -0,2 0 0,2 0,4
Polaridade / [e. u.] Polaridade / [e. u.]
500
500
400
400
Coeficiente de Correlação: -0,6014 Coeficiente de Correlação: -0,1131

300 300
200 200
100 100
0 0
3 4 5 6 7 8 9 0 5 10 15 20
3
Polarizabilidade / [Å ] Estabilização por Ressonância
XLVI APÊNDICE G. GRÁFICOS DE CORRELAÇÃO...
9
Coeficiente de Correlação: 0.06
3
7
3
0 5 10 15 20

Relatorio Estagio

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Relatorio Estagio

Enviado por

Direitos autorais:

Formatos disponíveis

V

As minhas primeiras palavras de agradecimento têm de ir, forçosamente, para os meus

As aplicações de redes neuronais artificiais à quı́mica conheceram nos últimos anos um

Notação, Convenções e Abreviaturas

? Designação de valores escalares: letras minúsculas em itálico:

A única excepção é Net que começa com uma letra maiúscula.

? Designação de vectores e matrizes: letras maiúsculas em itálico e a negrito:

? Os valores individuais de um vector de input (X ), de dimensão m, são dados pela

? Os valores individuais de um vector de output (Out ou Y ), de dimensão n, são dados

? A matriz peso de uma camada de neurónios (W ) tem valores individuais wji , em

? A arquitectura da rede vem geralmente expressa da seguinte forma:

? sf (“sigmoidal function”) - Função Sigmóide

? hl (“hard-limiter”) - Função Limite Rı́gido

? tl (“threshold logic”) - Função Limiar Lógico

? GC-MS - “Gas Cromatography - Mass Spectrometry”

? MALDI-TOF-MS -“Matrix-Assisted Laser Desorption/Ionisation Time-Of-Flight Mass

? CN (“cetane number”) - Número de Cetanos

? NMR (“Nuclear Magnetic Ressonance”) - Ressonância Magnética Nuclear

? PETRA (“Parameter Estimation for the Treatment of Reactivity Applications”) -

? PEOE (“Partial Equalization of Orbital Electronegativity”) - Equalização Parcial da

? ∆qtot - Diferença de carga total

? ∆qΠ - Diferença de carga Π

? ∆χσ - Diferença de electronegatividade σ

? R± - Estabilização por ressonância das cargas geradas por heterólise

? BDE - Energia de Dissociação da Ligação

? LoRA (“Logistic Regression Analysis”) - Análise por Regressão Logı́stica

? BPE (“Back-Propagation of Errors”) ou BP (“Back-Propagation”) - Retro-Propagação

? KL (“Kohonen Learning”) - Aprendizagem de Kohonen

? GA (“Genetic Algorithm”) - Algoritmos Genéticos

? QSAR (“Quantitative Struture-Activity Relatioships”) - Relação Quantitativa Estru-

? MLRA (“Multi-Linear Regression Analysis”) - Análise por Regressão Multilinear

? IP (“Ionization Potential”) - Potencial de Ionização

? EA (“Electronic Affinity”) - Afinidade Electrónica

? PEPE (“Partial Equalization of Π Electronegativity”) - Equalização Parcial da Elec-

? RMS (“Root Mean Square”) - Desvio Quadrático Médio

1 Introdução às Redes Neuronais Artificiais 1

2 Processo de Aprendizagem - Algoritmo de Retro-Propagação 15

3 Aplicações de Redes Neuronais Artificiais em Quı́mica 25

C Determinação dos Parâmetros Fı́sico-Quı́micos IX

D Detalhes sobre o Método LoRA XIX

E Detalhes sobre o PETRA XXIII

F Reactividades obtidas para o Teste da Rede XXXIII

G Gráficos de Correlação dos Parâmetros Fı́sico-Quı́micos XLI

1.1 Neurónio biológico. O número de dendrites é muito maior na realidade. [13] 6

2.1 Aprendizagem com supervisão (imagem adaptada de [4]). . . . . . . . . . . 16

3.1 Hierarquia de redes neuronais. [5] . . . . . . . . . . . . . . . . . . . . . . . 27

4.1 Quebra heterólitica de uma ligação. [5] . . . . . . . . . . . . . . . . . . . . 35

E.1 Geração da base de dados [62]. . . . . . . . . . . . . . . . . . . . . . . . . . XXVI

F.1 Conjunto teste da rede. As quebras de ligação estão numeradas de 1 a 99, a

4.1 Condições de treino da rede neuronal com o conjunto treino escolhido de

A.1 Estratégias de aprendizagem de redes neuronais e suas aplicações em dife-

F.1 Conjunto de Moléculas utilizadas para o teste da rede. . . . . . . . . . . . XXXVI

Introdução às Redes Neuronais

1.1 Breve Perspectiva Histórica

1.2 O que é e qual a utilidade de uma Rede Neuronal

A disponibilidade de informação é cada vez mais importante no mundo actual. No

dados adequados à resolução de um problema. Assim torna-se essencial a análise de dados

“Uma rede neuronal é um sistema de processamento massivamente paralelo constituı́do

1.3 O Modelo do Neurónio

N et = w1 x1 + ... + wi xi + ... + wm xm = W X (1.1)

Figura 1.2: Primeira parte do modelo do neurónio. [4]

out = f (N et) (1.2)

y = max(0, min(1, N et)) (1.5)