Escolar Documentos
Profissional Documentos
Cultura Documentos
TÓPICOS ESPECIAIS
DEEP LEARNING
TÓPICOS ESPECIAIS
DEEP LEARNING
Conceitos fundamentais
Algoritmos de aprendizagem profunda são baseados em representações
distribuídas. A suposição subjacente por trás de representações distribuídas é que os
dados observados são gerados pelas interações de fatores organizados em camadas.
A aprendizagem profunda inclui a suposição de que essas camadas de fatores
correspondem a níveis de abstração ou de composição. Podem ser usadas quantidades e
tamanhos de camadas diferentes para fornecer quantidades diferentes de abstração.
A aprendizagem profunda explora essa ideia de fatores explicativos hierárquicos,
em que conceitos de nível superior, mais abstratos, são aprendidas a partir dos de nível
mais baixo. Muitas vezes essas arquiteturas são construídas com um
método ganancioso camada-por-camada. A aprendizagem profunda ajuda a desvendar
essas abstrações e a escolher quais características são úteis para a aprendizagem.
Para tarefas de aprendizado supervisionado, os métodos de aprendizagem
profunda tornam desnecessária a engenharia de características, convertendo os dados em
representações intermediário compactas semelhantes às de componentes principais, e
derivam estruturas em camadas que removem redundâncias na representação.
Muitos algoritmos de aprendizagem profunda são aplicados em tarefas de
aprendizagem supervisionada. Este é um benefício importante porque dados não
rotulados geralmente são mais abundantes do que dados rotulados. Entre os exemplos de
estruturas profundas que podem ser treinadas de forma não supervisionada estão
compressores de histórias neurais e redes de crença profundas.
Interpretação
Interpretação probabilística
A interpretação probabilística deriva-se da área de aprendizagem de
máquina. Ela inclui inferência, e também conceitos da otimização como
treinamento e testes, relacionados à adaptação e generalização, respectivamente.
Mais especificamente, a interpretação probabilística considera a não-linearidade
da ativação como uma função de distribuição cumulativa. Ver rede de crença
profunda. A interpretação probabilística levou à introdução de abandono como
regularizador em redes neurais.
A interpretação probabilística foi introduzida e popularizada por Geoff
Hinton, Yoshua Bengio, Yann LeCun e Juergen Schmidhuber.
Redes artificiais
Alguns dos métodos mais bem-sucedidos de aprendizagem profunda
envolvem neurais artificiais. Redes neurais artificiais são inspiradas pelo modelo
biológica de 1959 proposto por David H. Hubel e Torsten Wiesel, ambos premiados com
o Nobel, que descobriram que dois tipos de células no córtex visual primário: células
simples e células complexas. Muitas redes neurais artificiais podem ser vistas como
modelos em cascata de tipos de células inspirados por estas observações biológicas.
Neocognitron de Fukushima introduziu redes neurais convulsionais parcialmente
treinadas por aprendizagem não-supervisionada com características direcionadas por
humanos no plano neural. Yann LeCun et al. (1989), aplicaram retro
propagação supervisionada a estas arquiteturas. Weng et al. (1992) publicaram redes
neurais convolucionais Cresceptron para o reconhecimento de objetos 3-D a partir de
imagens de cenas desordenadas e para a segmentação de tais objetos a partir de imagens.
Uma necessidade óbvia para o reconhecimento de objetos 3-D em geral é uma
menor invariância a deslocamentos e tolerância à deformação. O max-pooling parece ter
sido proposto pela primeira vez por Cresceptron para permitir que a rede tolerasse de
pequenas a grandes deformações de uma forma hierárquica, ao mesmo tempo em que é
utilizada a convolação. O max-pooling ajuda, mas não garante, invariância a
deslocamentos no nível dos pixels.
Com o advento do algoritmo de retro propagação baseado na diferenciação
automática, muitos pesquisadores tentaram treinar artificiais profundas supervisionadas a
par tir do zero, inicialmente com pouco sucesso. A tese de Sepp Hochreiter de 1991
identificou formalmente o motivo para esta falha como o problema da dissipação do
gradiente, que afeta redes de alimentação direta de muitas camadas e redes neurais
recorrentes. Redes recorrentes são treinadas desdobrando-as em redes de alimentação
direta muito profundas, em que uma nova camada é criada para cada passo de tempo de
uma sequência de entrada processada pela rede. Conforme os erros se propagam de
camada para camada, eles diminuem exponencialmente com o número de camadas,
impedindo o ajuste dos pesos dos neurônios, que são baseados nesses erros.
Para superar este problema, foram propostos vários métodos. Um deles é a
hierarquia de vários níveis de redes de Jürgen Schmidhuber (1992), pré-treinada nível por
nível por aprendizagem não supervisionado, ajustada por retro propagação. Aqui, cada
nível aprende uma representação compactada das observações que alimentam o próximo
nível.
Sven Behnke, em 2003, baseou-se apenas no sinal do gradiente (Rprop) ao treinar
a sua Pirâmide de Abstração Neural para resolver problemas como a reconstrução de
imagens e a localização de faces.