Você está na página 1de 34

Redes Neurais Artificiais

Prof. Dr. Hugo Valadares Siqueira

Aula 4 – O neurônio artificial


Fatos Históricos sobre as RNAs
• Início: McCulloch & Pitts (1943):
Desenvolvem um modelo matemático
de um neurônio (nó);
Combinação de vários neurônios em
sistemas neurais produz um elevado
poder computacional;
Neurônios executam funções lógicas
simples;
Cada nodo pode executar uma função
diferente;
Qualquer função que puder ser
representada por uma combinação de
funções lógicas pode ser modelada
por uma rede de neurônios.
Fatos Históricos sobre as RNAs
• “Idade da Ilusão”:
MCCULLOCH & PITTS (1943): modelo
matemático do neurônio;
ROSENBLATT (1958): Perceptron;
Widrow & Hoff (1960): Adaline
WIENER (1948): cibernética;
MINSKY & PAPPERT (1969): a disputa entre as
portas lógicas e os neurônios artificiais para
determinar a unidade básica de processamento;
• “Idade das Trevas”:
Entre 1969 e 1984, houve muito pouca pesquisa
científica envolvendo redes neurais artificiais;
 HOPFIELD (1982);
KOHONEN(1982);
• “Renascimento”:
RUMELHART & MCCLELLAND (1986).
Fatos Históricos
• Desenvolvimento da capacidade de processamento e
memória dos computadores digitais (simulação
computacional / máquina virtual) (anos 80 e 90);
• GARDNER (1983; 2011): múltiplas inteligências:
1. Vivacidade verbal
2. Vivacidade matemático-lógica
3. Aptidão espacial
4. Gênio cinestésico
5. Dons musicais
6. Aptidão interpessoal (liderança e ação cooperativa)
7. Aptidão intrapsíquica (modelo preciso de si mesmo)
• EDELMAN (1988): neurodarwinismo;
• MINSKY (1988): sociedade da mente.
Múltiplas
Inteligências:
Gardner
Neurônios x Portas Lógicas
• O cérebro funciona de forma
diferente dos computadores
convencionais;
• Neurônios biológicos são de cinco a
seis ordens de grandeza mais lentos
que as portas lógicas dos micro-
processadores
• Ordem de grandeza dos eventos:
Em portas lógicas: nanossegundos
(10-9s);
Em neurônios: milissegundos (10-3s);
Neurônios x Portas Lógicas
• Esta “lentidão” é compensada
por:
Grande número de neurônios
massivamente conectados;
Estima-se que haja 10 bilhões
de neurônios no córtex humano
e 60 trilhões de sinapses
• Extrema eficiência na operação:
Eficiência energética do cérebro
é de aproximadamente 10-16 J
por operação por segundo,
enquanto que em
computadores é de cerca de
10-6J.
Neurônios x Portas Lógicas
Neurônios Artificiais
• Um neurônio artificial é um modelo matemático
simplificado do neurônio biológico;
• Inspirado na análise da geração e propagação de
pulsos elétricos pela membrana celular dos
neurônios biológicos;
• É uma unidade de processamento da informação;
• É a componente fundamental de uma rede neural
artificial;
• Nos dias atuais são processadores não-lineares que
fornecem saídas contínuas;
• Realizam operações matemáticas simples com os
sinais recebidos;
• Coletam os sinais de entrada, processa-os e
entregam uma saída;
• Funções de ativação podem inserir não-linearidade
na reposta;
• Também chamados de nós, nodos ou unidades.
Neurônios Artificiais
• O efeito líquido da conexão entre 2 neurônios é chamado peso (força
sináptica, eficiência sináptica, força de conexão ou valor de peso);
Neurônio de McCulloch & Pitts
• W. McCulloch and W. Pitts escreveram
o famoso artigo “A logical calculus of
the ideas immanent in nervous
activity”;
• Fizeram uma das primeiras tentativas
de entender a atividade nervosa com
base em unidades de computação
neural elementar;
• Foi baseado nas operações que
poderiam ser realizadas por neurônios
de dois estados;
• A ideia era envolver modelos altamente
abstratos das propriedades fisiológicas
dos neurônios e de suas conexões.
Neurônio de McCulloch & Pitts
• Foram feitas cinco suposições físicas para o cálculo:
1. O comportamento do neurônio é um processo binário;
2. A qualquer momento, várias sinapses devem ser
excitadas para ativar o neurônio;
3. O atraso sináptico é o único atraso significativo que
afeta o sistema nervoso;
4. A excitação de um certo neurônio em um dado
momento pode ser inibida por uma sinapse inibitória;
5. A rede neural tem uma estrutura estática; isto é, uma
estrutura que não muda com o tempo.
Neurônio de McCulloch & Pitts
• Funcionava como uma porta lógica;
• O modelo de McCulloch e Pitts pode
ser considerado como um caso
especial do modelo neuronal mais
geral;
• O neurônio McCulloch e Pitts é
binário, ou seja, pode assumir apenas
um dos dois estados ('0' ou '1');
• O modo neuronal de operação é
simples: a cada passo, o neurônio
responde às suas entradas sinápticas,
que refletem o estado dos neurônios
pré-sinápticos.
Funcionamento
• Se nenhuma sinapse inibitória estiver ativa, o neurônio integra
(soma) suas entradas sinápticas, gerando a entrada líquida (u) para
o neurônio e verifica se essa soma (u) é maior ou igual ao limiar θ;
• Se for, o neurônio se torna ativo, ou seja, responde com um '1' em
sua saída (y = 1); caso contrário, ele permanece inativo, ou seja,
responde com um '0' (y = 0).
Tabela Verdade
• Para ilustrar o comportamento desta unidade simples, assuma duas
entradas excitatórias x1 e x2 e um limiar θ = 1;
• Nesse caso, o neurônio irá disparar; isto é, para produzir uma saída
'1', toda vez que x1 ou x2 tiver um valor '1', operando assim como o
OU (OR) lógico;
• Suponha agora que o limiar do neurônio seja aumentado para θ = 2;
• Nesta nova situação, o neurônio só estará ativo se x1 e x2 tiverem o
valor '1' simultaneamente, operando como o conector lógico AND.
Neurônio Genérico
• O elemento computacional empregado na maioria das redes neurais é
um integrador;
• Calcula com base nos pontos fortes de sua conexão;
• Neurônio artificial típico, tem como suas partes mais importantes:
as sinapses, caracterizadas por seus valores de peso conectando cada
entrada ao neurônio;
o cruzamento somador (integrador);
função de ativação;
• O bias (entrada de ativação) tem o efeito de aumentar ou diminuir a
entrada líquida para a função de ativação, dependendo de ser positiva
ou negativa;
• É importante notar aqui que a saída desse neurônio genérico é
simplesmente um número.
O Neurônio Genérico Matematicamente, a saída do
neurônio i pode ser descrita por:

𝑦𝑘 = 𝑔 𝑢𝑘 = 𝑔 𝑤𝑘𝑚 𝑥𝑚 + 𝑏𝑘
𝑚=1

• Vetor de entradas: 𝐱 𝑚 = 𝑥1, 𝑥2, … , 𝑥𝑚


• Pesos sinápticos ajustáveis: 𝑤𝑘𝑚
• Saída do neurônio: 𝑦𝑘
• Funções de Ativações: 𝑔 ∙
• Polarização (bias): 𝑏𝑘

OBS: Existem vários tipos de função de ativação!


Efeito do bias sobre o neurônio artificial
• O bias é um parâmetro
externo do neurônio
artificial;
• Ele pode ou não ser
ponderado por um w;
• O uso do bias (b) tem efeito
de aplicar uma
transformação à saída da
junção somadora
(combinador linear);
• Observe na figura ao lado o
efeito produzido à saída da
junção.
Funções de Ativação
• A função de ativação,
denotada por determina a
saída de um neurônio k em
relação à sua entrada
líquida uk;
• Pode assumir várias formas,
as quais podem ser:
 diferenciáveis: nas quais
existe a primeira derivada
para todos os pontos
 parcialmente
diferenciáveis: não existe a
primeira derivada para
todos os pontos.
Função Degrau
• O resultado produzido pela aplicação da função degrau
assume valores unitários positivos, quando o potencial de
ativação for maior ou igual a zero;
• Caso contrário a saída é nula:
Função Degrau Bipolar ou Função Sinal
• O resultado produzido pela aplicação da função degrau assume
valores unitários positivos, quando o potencial de ativação for maior
ou igual a zero;
• Valor zero quando o potencial for nulo;
• Valor -1 quando o potencial for menor que zero.
Função Degrau Bipolar ou Função Sinal
• Em problemas de classificação de padrões, esta
função pode ser dada pela expressão a seguir:

• Outra possibilidade é manter a saída inalterada:


Função Rampa Simétrica

• Os valores retornados são iguais aos próprios valores dos


potenciais de ativação quando estes estão definidos no
intervalo [-a,a], ficando restritos aos valores limites caso
contrário:
Função Logística
• Os valores de saída desta função assume os valores no intervalo [0,1];
• β é uma constante real que modifica o grau de inclinação da mesma.
Função Tangente Hiperbólica
• Os valores de saída desta função assume os valores no
intervalo [-1,1];
• β é uma constante real que modifica o grau de inclinação
da mesma.
Função Gaussiana
• A saída do neurônio responde com valores iguais para os valores de {u} que
estejam a uma mesma distância do centro da gaussiana;
• Os parâmetros da função são: c – centro da função; σ – desvio padrão;
• O desvio padrão dá o grau de dispersão da mesma.
Função Linear
• A função linear (ou identidade) produz na saída resultados
idênticos ao do potencial de ativação {u};
• Um dos usos mais comuns desta se dá em aproximação
universal de funções, com vistas a mapear o
comportamento entrada/saída.

g(u)=u
Função ReLU
• Possui relações com a restrição de não-negatividade presente em
regularização como em restauração de imagens utilizando projeções
em subespaços;
• Seu gradiente terá sempre uma direção não-nula, enquanto no caso
das sigmoidais, para valores longe da origem podemos ter gradiente
nulo;
• Modelo muito utilizado em Deep Learning.

f(y)=max(0,y)
Função PReLU
• A ReLU paramétrica (PReLU) é uma variação que permite valores negativos com
menor ponderação, parametrizado por uma variável 0 ≤ a ≤ 1;
• Uma das possíveis vantagens da PReLU é a possibilidade de aprender a durante a
fase de treinamento;
• No caso particular em que temos um valor fixo a = 0.01, temos a função
conhecida por Leaky ReLU;

f(x)=max(ax,x)
Gráfico comparativo
Algumas derivadas
Derivada – Função Logística (sigmóide)
Derivada – Função Tangente Hiperbólica

Você também pode gostar