Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5
Anlise do Perceptron Para entender como funciona um perceptron, vamos continuar considerando um perceptron com somente duas entradas, x1 e x2, e uma sada s. O neurnio de sada tem limiar b, de maneira que o seu nvel de ativao
u = 1x1 + 2 x2 b .
Podemos reescrever essa equao como
u = 0 x0 + 1 x1 + 2 x2 ,
onde definimos: 0 = b e x0 = 1 (veja a figura abaixo).
Portanto, podemos tratar o perceptron de duas entradas e limiar b como um perceptron de trs entradas (uma delas com valor e peso fixos) e limiar zero. Para facilitar a anlise a ser feita, e sem perda de generalidade, podemos fazer o peso
0 = b = 0, de maneira que o perceptron fica somente com duas entradas.

r Para um dado valor do vetor de pesos = ( 1 , 2 ) , o que ocorre quando um r padro de entrada x = ( x 1 , x 2 ) fornecido ao perceptron?
Para responder a esta questo, consideremos a figura a seguir.
r r A figura mostra um vetor de pesos e um padro de entrada x arbitrrios. Notem
que h um ngulo entre os dois vetores. O nvel de ativao do neurnio de sada
u = 1 x1 + 2 x2 .
Matematicamente, o nvel de ativao corresponde ao produto interno ou escalar entre os dois vetores (veja as notas de reviso sobre lgebra linear):
r r r r u = . x = . x cos .
Se o valor desse produto escalar for positivo ou nulo, a sada (resposta) do perceptron ser +1; se o valor for negativo, a sada ser 0. Observem que a expresso para o produto escalar acima envolve o produto dos r r mdulos dos vetores e x , que sempre positivo, vezes o cosseno do ngulo entre eles, que pode ser positivo, negativo ou nulo. Logo, o que decide se o valor do produto escalar e, portanto, do nvel de ativao do neurnio de sada positivo, nulo ou negativo o valor do ngulo .
r r r Dado um vetor de pesos , todos os vetores x cujos ngulos com forem, ou
menores ou iguais a 90, ou maiores ou iguais a 270, sero classificados pelo perceptron como pertencentes classe designada por + 1. J os vetores cujos ngulos estiverem entre 90 e 270 (excluindo estes valores) sero classificados como pertencentes classe designada por 0.
A situao crtica (aquela que define a transio entre uma classe ou outra) ocorre r r para os vetores x que formam ngulos iguais a 90 ou 270 com . Esses so os r vetores cujos produtos escalares com so iguais a zero.
r r Visualizando geometricamente, . x = 0 define uma reta passando pela origem do
espao bi-dimensional (x1, x2):
1 x1 + 2 x 2 = 0 x 2 =
r O vetor perpendicular reta (veja a figura abaixo).
1 x 2 1.
Os pontos direita da reta so classificados como sendo da classe +1, pois os vetores r correspondentes formam ngulos menores que 90 ou maiores que 270 com . J os pontos esquerda da reta so classificados como sendo da classe 0, pois os vetores r correspondentes formar ngulos com entre 90 e 270. Quando houver um conjunto de pontos num espao bi-dimensional pertencentes a duas classes distintas e for possvel encontrar uma reta capaz de dividir o espao em duas regies, uma contendo os pontos de uma classe e a outra contendo os pontos da outra classe, diremos que o conjunto de pontos linearmente separvel (veja a figura a seguir).
Um perceptron s consegue classificar padres que sejam linearmente separveis. Um problema no linearmente separvel, como o do terceiro caso da figura acima, est alm das capacidades computacionais do perceptron. Se tivssemos considerado o limiar b como no nulo, a anlise feita acima no r r sofreria grandes alteraes. A condio . x = 0 continuaria nos dando uma reta no plano (x1, x2), s que deslocada da origem por um fator constante:
x2 =
A figura abaixo ilustra este caso.
1 b x1 + 2 2
Assim como no caso sem o vis b, um conjunto de pontos pertencentes a duas classes distintas que no puder ter a sua separao nas duas classes feita por uma reta no poder ser corretamente classificado por esse perceptron.
4
O conceito de separabilidade linear extensvel para mais dimenses. Definio: Dois conjuntos de pontos A e B em um espao n-dimensional so ditos
linearmente separveis se existirem n+1 nmeros reais 0, 1, 2, ... , n tais que
todo ponto (x1, x2, ... , xn) A satisfaa satisfaa

n
x
i i =1
0 x 0 e todo ponto (x1, x2, ... , xn) B
x
i i =1
< 0 x0 .
Podemos agora pensar num perceptron com 1 neurnio na camada de sada e com N neurnios na camada de entrada. A tarefa do perceptron de classificar um conjunto de
M padres N-dimensionais em duas classes distintas s possvel se os M padres
forem linearmente separveis. Neste caso, a separao entre as duas classes no ser r r mais feita por uma linha reta, mas por um hiperplano definido por . x + b = 0 (supondo b 0). O fato de que um perceptron s consegue resolver tarefas linearmente separveis impe severas limitaes sua aplicabilidade em situaes prticas. Consideremos novamente o caso do perceptron com duas entradas e vamos supor que os valores dessas entradas s podem ser 0 ou 1 (entradas binrias). Uma funo de variveis binrias que d uma resposta binria chamada de funo booleana (em homenagem ao matemtico ingls George Boole (1815-1864) que estudou as propriedades algbricas das funes binrias). Em duas dimenses, uma funo booleana genrica fornece um modelo matemtico para uma porta lgica usada em circuitos (veja a figura a seguir):
Nesse caso bi-dimensional, h 16 funes booleanas possveis, dadas a seguir:

X1 0 0 1 1 X2 0 1 0 1 f0 0 0 0 0 f1 1 0 0 0 f2 0 1 0 0 f3 1 1 0 0 f4 0 0 1 0 f5 1 0 1 0 f6 0 1 1 0 f7 1 1 1 0 f8 0 0 0 1 f9 1 0 0 1 f10 0 1 0 1 f11 1 1 0 1 f12 0 0 1 1 f13 1 0 1 1 f14 0 1 1 1 f15 1 1 1 1
A funo f0 a funo 0, a funo f8 a funo lgica E, a funo f14 a funo lgica OU, a funo f6 a funo lgica XOU, etc. Destas 16 funes, apenas 14 so linearmente separveis. Vamos dar o exemplo de duas, a E e a OU, e deixar as outras 12 para serem feitas como exerccio.
As duas funes que no so linearmente separveis so a XOU e a identidade (f6 e

f9):
Um perceptron no consegue implementar a funo lgica XOU bi-dimensional. Para que o perceptron possa implementar a funo lgica XOU necessrio acrescentar uma camada extra (oculta) entre a camada de entrada e a de sada (veja a soluo que McCulloch e Pitts deram para o problema do ou-exclusivo na aula 2).
6
Uma questo interessante saber quantas funes booleanas linearmente separveis existem em n dimenses. Para n = 2, temos 14 das 16 possveis. Para n = 3, temos 104 das 256 possveis. Para n = 4, temos 1882 das 65.536 possveis. No existe uma frmula para calcular este nmero para n genrico. s vezes, um problema pode no ser linearmente separvel em n dimenses, mas pode s-lo em (n+1) dimenses. Neste caso, a questo seria encontrar uma nova caracterstica dos padres originais projetados na camada da retina do perceptron que possa, quando adicionada como uma dimenso a mais na representao dos padres, propiciar a sua separao linear. Como exemplo, sejam as figuras abaixo mostrando duas classes de padres que no so linearmente separveis em duas dimenses, mas o so em trs, caso a terceira dimenso seja escolhida convenientemente.
No desenho acima, a figura da esquerda, em 2 dimenses, a projeo no plano (x1,

x2) das duas classes mostradas na figura da direita em 3 dimenses. Vemos que as
duas classes so linearmente separveis em 3 dimenses, mas no o so em 2 dimenses.
D-se abaixo um algoritmo para o treinamento de um perceptron com N unidades na camada de entrada e M unidades na camada de sada.
Inicialize os pesos wij (em geral, inicializa-se os pesos de maneira que todos tenham o valor zero ou valores aleatrios pequenos). Inicialize uma varivel para contar o nmero de pocas de treinamento. Leia os valores dos vises, bi , i = 1, ... , M, e da taxa de aprendizagem (suposta a mesma para todos os neurnios). Leia o valor do nmero mximo de pocas de treinamento no_max. Passo 1. At que o critrio de parada seja satisfeito, repita os passos 18. r Passo 2. Para cada par composto por um padro de treinamento p e pela
Passo 0.
respectiva sada desejada a , repita os passos 37. Passo 3. Leia a ativao de cada unidade de entrada, j = 1, ... , N: xj = pj. Passo 4. Calcule a ativao de cada unidade de sada, i = 1, ... , M:
N
u i = ij x j bi .
j =1
Passo 5.
Calcule a sada de cada unidade de sada, i = 1, ... , M:
Modificao dos pesos ij, i = 1, ... , M e j = 1, ... , N: Se Si ai, Ento Erro = ai Si Para j = 1, ... , N Faa ij (novo ) = ij (velho ) + .Erro. x j Caso Contrrio no mude os pesos: ij (novo ) = ij (velho ) Passo 7. Incremente o nmero de pocas de treinamento de 1 unidade. Passo 8. Critrio de parada: Se nenhum peso mudou no Passo 6, Pare; Caso Contrrio Se nmero de pocas = no_max, Pare; Caso Contrrio, Continue
Passo 6.
8
Note que, pelo critrio de parada, o aprendizado s termina quando o perceptron encontra vetores de peso (um para cada unidade de sada) capazes de classificar corretamente todos os padres p do conjunto de treinamento (caso isto no ocorra dentro de um nmero mximo de pocas de treinamento, o programa parado para no continuar indefinidamente). Em geral, caso os padres de entrada sejam linearmente separveis, existem inmeros vetores de pesos capazes de classificar corretamente os padres de entrada. O algoritmo de aprendizagem do perceptron no se preocupa com qual deles foi o encontrado. Em duas dimenses (veja a figura abaixo), caso haja um conjunto de pontos linearmente separvel em duas classes, a e b, existe uma regio de soluo tal que qualquer reta passando por ela divide os pontos em duas regies.
Note que basta que a reta fornecida como resposta pelo perceptron aps uma dada poca de treinamento caia dentro da regio de soluo (mesmo que seja por uma quantia infinitesimal) para que o treinamento seja interrompido. Isto no faz do perceptron uma mquina muito robusta, pois alguma pequena flutuao nos valores dos pesos finais pode fazer com que a reta obtida saia da regio de soluo.
Uma das causas do sucesso dos perceptrons na dcada de 1960 foi o fato de que se pode provar um teorema garantindo que, caso um problema de classificao tenha soluo por um perceptron, isto , se ele for linearmente separvel, a regra de aprendizado do perceptron faz com que o vetor de pesos
convirja para um vetor
que d uma soluo para o problema em um nmero finito de passos. Este o chamado Teorema da Convergncia do Perceptron, que foi provado por Rosenblatt em 1962. Vamos apresentar aqui uma verso (no a mais rigorosa) da prova deste teorema (vocs podem pular essa prova se quiserem). Teorema da Convergncia do Perceptron: Seja o problema de classificao solvel com pesos apropriados wij, conectando as unidades da camada A (indexadas por j) s unidades da camada R (indexados por i), obtidos por meio da regra de aprendizagem do perceptron. Suponhamos que os vetores de entrada da camada R (os vetores das caractersticas), denotados por x, sejam todos limitados, isto , existe uma constante M tal que a desigualdade |x| < M seja sempre satisfeita. Ento, com a escolha do parmetro de taxa de aprendizagem i = 1/|x| para o i-simo neurnio da camada R, o algoritmo de aprendizagem do perceptron ir sempre encontrar uma soluo aps um nmero finito de passos adaptativos t para os pesos wij (somente os passos em que houver um erro, ei =
Sidesejada Si 0, so contados).
Prova: Como cada elemento da camada R opera independentemente dos outros, para provar o teorema basta considerar apenas uma unidade de sada na camada R, ou seja, podemos desconsiderar o ndice i usado no enunciado do teorema. Vamos denotar por w* = (w*1, w*2, ..., w*N) o vetor w para o qual o perceptron resolve o problema de classificao corretamente (a existncia de um tal vetor requerida pelo enunciado do teorema).
10
Ento, existe uma constante > 0 tal que, w* x > se Sdesejada(x) = 1 e w* x < se Sdesejada(x) = 0, onde Sdesejada(x) representa a sada desejada (correta) da unidade quando o padro x apresentado na entrada. Seja w(t) o vetor de pesos do perceptron obtido aps t passos de modificao a partir de algum valor inicial arbitrrio. A prxima modificao em w ocorrer quando houver um erro, e = Sdesejada S = 1. Essa modificao far com que w(t + 1) = w(t) + ex. Portanto, w(t + 1) w(t + 1) = (w(t) + ex) ( w(t) + ex) = = w(t) w(t) + 2ew(t) x +2e2 x x. Notemos que a sada da unidade S = sinal(w(t) x), de maneira que,
ew(t) x = (Sdesejada S)w(t) x 0.
Ento (como > 0), w(t) w(t) + 2ew(t) x +2e2 x x w(t) w(t) +2e2 x x. Assumindo (veja o enunciado do teorema) que = 1/|x|, temos que 2e2 = 1/|x|2 = 1/(x x). Combinando o que obtivemos at agora, w(t + 1) w(t + 1) w(t) w(t) + (x x)/(x x) |w(t + 1)|2 |w(t)|2 + 1. A aplicao recursiva desta frmula nos d, |w(t + n)|2 |w(t)|2 + n, ou |w(t)|2 |w(0)|2 + t. Por outro lado, a cada passo de modificao temos, w(t + 1) w* = (w(t) + ex) w* = w(t) w* + ex w*. (1)
11
O valor de e pode ser +1 se a sada desejada for +1 e a unidade estiver dando como sada 0, ou pode ser 1 se a sada desejada for 0 e a unidade de sada estiver dando como sada +1. No primeiro caso, x w* > , e, no segundo caso, x w* < . Tanto em um caso como no outro o produto de e por x w* nos d a desigualdade,
ex w* > .
Ento, w(t + 1) w* > w(t) w* + . A aplicao recursiva desta frmula nos d, w(t + n) w* > w(t) w* + n, ou w(t) w* > w(0) w* + t > w(0) w* + t /M, onde se usou o dado do enunciado, = 1/|x| > 1/M. Segundo a desigualdade (2), a projeo do vetor de pesos w(t) sobre o vetor fixo w* deve crescer em funo de t de uma maneira mais rpida que a linear. No entanto, o resultado da desigualdade (1) mostra que o mdulo de w(t) no pode crescer mais rapidamente do que t . Estes dois resultados esto em contradio e a nica maneira de compatibiliz-los o nmero de passos de modificao t ser limitado. Se o nmero de passos em que w sofre modificao for limitado, o treinamento do perceptron deve terminar aps um nmero finito de modificaes. Isto prova o teorema da convergncia do perceptron. O fato de que existe um teorema provando a convergncia do algoritmo de treinamento do perceptron para uma soluo, caso ela exista, deu muita popularidade ao perceptron na dcada de 1960. Devido sua fcil implementao, esperava-se que o perceptron viesse a ter inmeras aplicaes prticas. (2)
12
Em particular, construiu-se um perceptron, denominado Mark I, no Laboratrio Aeronutico de Cornell, nos Estados Unidos, que tinha uma retina com 4040 unidades conectada a uma cmera de vdeo, 512 unidades na camada A e 8 unidades na camada R. Os pesos sinpticos eram modificados por potencimetros controlados por motores. Porm, esta, assim como outras tentativas de implementao do perceptron em hardware, no obteve muito sucesso em aplicaes prticas. No fim da dcada de 1960, aps muitos fracassos e muito dinheiro do governo e indstrias norte-americanas gasto, o entusiasmo pelos perceptrons arrefeceu. Isso levou a uma grande reduo no interesse e no financiamento de novas pesquisas sobre redes neurais. O descrdito pelas redes neurais em funo do fracasso dos perceptrons durou mais de uma dcada. Um problema prtico com os perceptrons (mesmo sabendo que existe uma soluo) que chegar a uma soluo que classifique corretamente um dado conjunto de padres de treinamento pode ser uma tarefa extremamente vagarosa. Isso ocorre em parte pela maneira como o aprendizado feito, pois s h correo nos pesos quando a resposta errada. Isto quer dizer que medida que o sistema vai aprendendo e cometendo menos erros o aprendizado fica mais lento. Outro problema prtico, extremamente comum em implementaes em hardware, a dificuldade dos perceptrons em trabalhar com padres ruidosos. muito comum que os padres apresentados Retina estejam corrompidos por rudo (alguns pixels que deveriam ser brancos esto cinza ou pretos, ou vice-versa). Nesses casos, os pesos do perceptron podem nunca se estabilizar, mas ficam mudando para sempre. Isto ocorre porque o algoritmo de treinamento do perceptron feito para provocar mudanas nos pesos sempre que algum erro encontrado, mesmo que ele seja mnimo.
13
O ataque definitivo aos perceptrons foi feito por dois pesquisadores do MIT (Massachussets Institute of Technology), Marvin Minsky (1927 ) e Seymour Papert (1928 ). Eles publicaram, em 1969, um livro intitulado Perceptrons em que era feita anlise rigorosa dos perceptrons e suas limitaes. Minsky foi um dos lderes da chamada abordagem simblica ao problema da inteligncia artificial. Segundo essa abordagem, a inteligncia envolve primariamente operaes lgicas ou manipulaes de smbolos baseadas em regras. Um trecho de um relatrio interno do Laboratrio de Inteligncia Artificial do MIT, escrito por Minsky em 1972, resume essa viso:
O pensamento baseado no uso de descries simblicas e processos manipuladores de descries para representar uma variedade de tipos de conhecimento sobre fatos, processos, solues de problemas, sobre a prpria computao, em maneiras que esto sujeitas a estruturas de controle heterrquicas sistemas nos quais o controle dos programas de soluo de problemas afetado por heursticas que dependem do significado dos eventos. Esta habilidade de resolver novos problemas requer, em ltima anlise, que o agente inteligente conceba, depure e execute novos procedimentos. Tal agente deve saber, em maior ou menor grau, como planejar, produzir, testar, modificar e adaptar os procedimentos; resumindo, ele deve saber muito sobre processos computacionais. No estamos dizendo que uma mquina inteligente, ou pessoa, deve ter tal conhecimento disponvel ao nvel de afirmaes pblicas ou da conscincia, mas sustentamos que o equivalente a tal conhecimento deve estar representado de uma maneira efetiva em algum lugar do sistema.
Um perceptron no usa smbolos, pelo menos no de maneira explcita, e no possui muitas estruturas de controle complexas. Qualquer estrutura de alto-nvel (no sentido cognitivo) que aparea como uma de suas respostas resultado do aprendizado a partir de exemplos, representados de maneira distribuda por um conjunto de unidades que interagem entre si de maneira bastante simples.
14
Isto verdadeiro no s para os perceptrons, mas para todas as redes neurais em geral. Portanto, Minsky e Papert no se opunham somente aos perceptrons, mas a toda a chamada abordagem conexionista para a inteligncia artificial. O ataque deles se deu contra os perceptrons porque, no fim da dcada de 1960, os perceptrons eram as redes neurais mais conhecidas. Alguns dos problemas apontados por Minsky e Papert para o perceptron foram resolvidos por modelos posteriores de redes neurais, mas alguns dos problemas ainda persistem, especialmente os relacionados com processos de alto nvel cognitivo, como o aprendizado de regras da linguagem, por exemplo. Uma das fraquezas dos perceptrons apontada por Minsky e Papert foi a sua limitao de resolver apenas problemas linearmente separveis. Um exemplo dessa limitao foi visto no estudo da funo booleana XOU. A disposio dos quatro vetores de entrada com as suas respectivas classes (0 ou 1) mostra que este no um problema linearmente separvel (veja abaixo).
Quando estudamos o modelo de Mculloch e Pitts, vimos que eles propuseram uma rede neural para implementar esta funo lgica e que ela tinha uma camada intermediria (oculta ou escondida) entre a entrada e a sada. A mesma idia pode ser usada para adaptar o perceptron para que ele resolva o problema do XOU. Por exemplo, se adicionarmos uma unidade escondida que receba as entradas x1 e x2 e fornea na sada o produto x1.x2 que enviado conjuntamente com x1 e x2 para a unidade de sada, teremos a rede ilustrada a seguir.
15
Essa rede tem o potencial de resolver o problema do XOU (depende da escolha adequada dos pesos e do vis da unidade de sada). Podemos ver isto fazendo o grfico dos quatro padres e das suas respectivas classes, como feito na pgina anterior, s que agora em trs dimenses.
Porm, o que ocorre neste caso que, efetivamente, adicionou-se uma camada extra de neurnios ao perceptron. Considerando que a camada de entrada no contada, o que temos neste caso que o perceptron passou a ter duas camadas, uma oculta e a de sada. Portanto, ele deixou de ser o que se chama de um perceptron simples e tornouse um perceptron multicamadas. Segundo Minsky e Papert, o problema com os perceptrons multicamadas que agora no existe mais um teorema de convergncia provando que o algoritmo de aprendizagem conduz a uma soluo. Mais grave ainda, no existe um algoritmo de mudana dos pesos que leve a uma soluo.
16
Note que o algoritmo de Rosenblatt diz que os pesos chegando unidade de sada devem ser mudados de maneira proporcional ao erro cometido pela unidade. Este erro fcil de ser definido porque o erro da unidade de sada o prprio erro da rede. Mas e os erros que a(s) unidade(s) oculta(s) comete(m)? Quando a rede comete um erro na sua sada, no fica claro qual a unidade que est errando na camada oculta, nem como que ela est errando. Minsky e Papert achavam que o estudo de algoritmos de aprendizagem para perceptrons multicamadas era um campo sem interesse. Nas suas prprias palavras:
O problema da extenso (para mais de uma camada) no meramente tcnico. tambm estratgico. O perceptron revelou-se digno de estudo apesar (ou mesmo por causa!) das suas limitaes. Ele tem muitas propriedades atraentes: sua linearidade; seu teorema de aprendizado intrigante; sua simplicidade paradigmtica como um exemplo de computao paralela. No h razo para supor que qualquer dessas virtudes continue a existir na sua verso multicamadas. No entanto, consideramos como um importante problema de pesquisa a elucidao (ou a rejeio) do nosso julgamento intuitivo de que tal extenso estril.
Uma posio como esta muito forte e, devido influncia de Minsky, Papert e do MIT sobre a comunidade cientfica e as agncias financiadoras de pesquisa, o apoio pesquisa em redes neurais foi fortemente reduzido no perodo entre meados da dcada de 1960 e meados da dcada de 1980. A maior parte dos recursos destinados inteligncia artificial nesse perodo foi direcionada para pesquisas envolvendo a abordagem simblica. Apesar disso, alguns pesquisadores continuaram a propor e estudar modelos de redes neurais durante a dcada de 1970.
17
Alguns dos mais importantes so James Anderson e Stephen Grossberg nos Estados Unidos, Geoffrey Hinton no Canad, David Willshaw na Gr Bretanha, Christian von der Malsburg na Alemanha, Teuvo Kohonen na Finlndia e Sun-Ichi Amari no Japo. Na dcada de 1970 os seus trabalhos no atraram muita ateno, mas foram valorizados aps o incio da nova onda das redes neurais na segunda metade da dcada de 1980. O livro Perceptrons teve um efeito drstico sobre as pesquisas em redes neurais entre a comunidade interessada em aplicaes tecnolgicas, composta basicamente por engenheiros e cientistas da computao. Porm, entre a comunidade de psiclogos, cientistas cognitivos e neurocientistas o efeito foi bem menor. Talvez isso tenha ocorrido por que algumas das limitaes apontadas por Minsky e Papert tambm existem nos sistemas biolgicos. Por exemplo, um dos objetivos do perceptron era resolver problemas de percepo visual. Em seu livro, Minsky e Papert analisaram a capacidade de um perceptron em computar um predicado geomtrico simples, a conectividade de uma figura. Em figuras simples, a conectividade pode ser identificada facilmente (veja os exemplos a seguir).
18
As unidades da camada A de um perceptron tm campos receptivos que no abrangem toda a retina, mas partes dela (vejam a figura abaixo). O mesmo ocorre com os neurnios dos crtices visuais primrios dos mamferos.
Minsky e Papert mostraram em seu livro que um perceptron desse tipo no consegue decidir se uma figura conexa ou desconexa. Considere uma figura como a do desenho abaixo, longa e fina. H trs tipos de unidades na camada A: as do grupo 1 vem somente o lado esquerdo da figura; as do grupo 2 vem somente o lado direito; a as do grupo 3 vem somente o centro da figura.
Cada grupo de unidades computa funes locais e simples das suas entradas. Isto quer dizer que o nvel de ativao calculado pela unidade da camada de sada do perceptron, cuja funo determinar se a figura conexa ou no, tem trs partes, cada uma devida a um dos trs grupos. Vamos supor que a unidade da camada de sada tenha que dar a sada +1 se a figura for conexa e a sada 0 se a figura for desconexa.
19
Ento, se uma figura conexa como a dada acima for apresentada retina do perceptron, sua sada dever ser +1. Para que isto ocorra, as ativaes vindas dos trs grupos de unidades da camada A devem ter soma maior ou igual a zero:
u = u1 + u2 + u3 0.
A partir da figura conexa deste exemplo, podemos obter uma figura desconexa. Basta fazer como na primeira parte do desenho acima, deslocando a linha vertical da parte de baixo do lado esquerdo para a parte de cima. Se quisermos que o perceptron acerte este caso tambm, a sua unidade de sada vai ter que dar o valor 0. Para que isto acontea o seu nvel de ativao dever ser negativo,
u = u1 + u2 + u3 < 0.
Como a nica coisa que mudou na figura foi uma propriedade do seu lado esquerdo, apenas as unidades do grupo 1 devem ter suas atividades alteradas neste caso. Isto implica que a mudana na barra do lado esquerdo deve ser suficiente para reduzir a contribuio u1 a um ponto tal que a sua soma com as contribuies u2 e u3 torne-se negativa. Pelo mesmo raciocnio, quando formamos uma figura desconexa como a da segunda parte do desenho acima a contribuio vinda das unidades do grupo 2, u2, deve ser suficientemente reduzida para fazer que a sua soma com u1 e u3 torne-se negativa.
20
Por outro lado, quando fazemos as duas mudanas nas duas pontas da figura ao mesmo tempo, gerando uma nova figura conexa, a resposta do perceptron dever ser +1. Porm, a mudana em uma das pontas s notada pelas unidades que tm campo receptivo na ponta, de maneira que a mudana simultnea nas duas pontas deve ter um efeito sobre u1 + u2 igual ao que a mudana na ponta esquerda tem sobre u1 isoladamente mais o que a mudana na ponta direita tem sobre u2 isoladamente. Isto implica que a mudana simultnea nas duas pontas deve reduzir u1 + u2, fazendo com que o nvel de ativao da unidade de sada do perceptron fique negativo. Mas como isso possvel se a sua sada deve ser positiva? Esta contradio mostra que se o perceptron classifica a primeira figura como conexa ele no consegue classificar a ltima tambm como conexa. Portanto, ele no capaz de reconhecer padres conexos do tipo do desenho, finos e compridos. O problema da conectividade anlogo ao da funo lgica XOU, pois no pode ser resolvido pelo perceptron. Porm, as pessoas e os animais tambm tm dificuldades em aprender a lgica do XOU e em reconhecer figuras conexas. Quando se tenta ensinar a ratos uma tarefa de discriminao que uma realizao do XOU lgico, o que acontece que eles aprendem o OU (funo lgica ou-inclusivo) quase imediatamente. Portanto, eles acertam apenas 75% dos casos do XOU. Apenas aps muitos treinos e com dificuldade que os ratos elevam o seu percentual de acerto. A identificao da conectividade de uma figura tambm apresenta dificuldades. Para figuras simples como as mostradas anteriormente, a conectividade reconhecida facilmente.
21
Porm, para figuras mais complexas como as mostradas abaixo (cpia da capa da 3a edio do livro Perceptrons de Minsky e Papert, 1988), uma das quais conexa e a outra no, no fcil perceber imediatamente qual qual. necessrio traar os contornos mentalmente para verificar qual a conexa e qual a desconexa. Ou seja, preciso que nos transformemos em uma mquina serial para resolver o problema.
Qual das duas figuras acima a conexa? Talvez os perceptrons no consigam determinar a conectividade de uma figura qualquer, mas os seres humanos tambm no, pelo menos nos estgios iniciais de percepo. Isso mostra que os perceptrons, e as redes neurais em geral, podem possuir certas limitaes que acabam por torn-los teis como modelos para a cognio humana.
22
Uma diferena entre o tipo de aprendizado que ocorre nos seres vivos e o do perceptron que o dos seres vivos nunca para, sempre podendo ser melhorado a partir de um dado ponto. Para os perceptrons, ou o aprendizado se encerra quando todos os padres so classificados perfeitamente, ou nunca se atinge a resposta correta. Para os seres vivos, dada uma tarefa de classificao, o tempo de resposta decresce continuamente mesmo depois que a resposta passa a ser a correta.
23

Aula 5

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula 5

Enviado por

Direitos autorais:

Formatos disponíveis

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

0 = b = 0, de maneira que o perceptron fica somente com duas entradas.

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

r r A figura mostra um vetor de pesos e um padro de entrada x arbitrrios. Notem

que h um ngulo entre os dois vetores. O nvel de ativao do neurnio de sada

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

espao bi-dimensional (x1, x2):

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

todo ponto (x1, x2, ... , xn) A satisfaa satisfaa

0 x 0 e todo ponto (x1, x2, ... , xn) B

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

Nesse caso bi-dimensional, h 16 funes booleanas possveis, dadas a seguir:

As duas funes que no so linearmente separveis so a XOU e a identidade (f6 e

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

No desenho acima, a figura da esquerda, em 2 dimenses, a projeo no plano (x1,

duas classes so linearmente separveis em 3 dimenses, mas no o so em 2 dimenses.

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

Calcule a sada de cada unidade de sada, i = 1, ... , M:

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

convirja para um vetor

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

5945851-1 Psicologia Conexionista Antonio Roque Aula 5

Você também pode gostar