N5 - Deep Learning

A aprendizagem profunda, do ingl�s Deep Learning (tamb�m conhecida como aprendizado
estruturado profundo, aprendizado hier�rquico ou aprendizado de m�quina profundo) �

um ramo de aprendizado de m�quina (Machine Learning) baseado em um conjunto de
algoritmos que tentam modelar abstra��es de alto n�vel de dados usando um grafo
profundo com v�rias camadas de processamento, compostas de v�rias transforma��es
lineares e n�o lineares.[1][2][3][4][5][6][7][8][9]
A aprendizagem profunda � parte de uma fam�lia mais abrangente de m�todos de

aprendizado de m�quina baseados na aprendizagem de representa��es de dados. Uma
observa��o (por exemplo, uma imagem), pode ser representada de v�rias maneiras,
tais como um vetor de valores de intensidade por pixel, ou de uma forma mais
abstrata como um conjunto de arestas, regi�es com um formato particular, etc.
Algumas representa��es s�o melhores do que outras para simplificar a tarefa de
aprendizagem (por exemplo, reconhecimento facial ou reconhecimento de express�es
faciais[10]). Uma das promessas da aprendizagem profunda � a substitui��o de
caracter�sticas feitas manualmente por algoritmos eficientes para a aprendizagem de
caracter�sticas supervisionada ou semissupervisionada e extra��o hier�rquica de
caracter�sticas.[11]
A pesquisa nesta �rea tenta fazer representa��es melhores e criar modelos para
aprender essas representa��es a partir de dados n�o rotulados em grande escala.
Algumas das representa��es s�o inspiradas pelos avan�os da neuroci�ncia e s�o
vagamente baseadas na interpreta��o do processamento de informa��es e padr�es de
comunica��o em um sistema nervoso, tais como codifica��o neural que tenta definir
uma rela��o entre v�rios est�mulos e as respostas neuronais associados no c�rebro.
[12]
V�rias arquiteturas de aprendizagem profunda, tais como redes neurais profundas,

redes neurais profundas convolucionais, redes de cren�as profundas e redes neurais
recorrentes t�m sido aplicadas em �reas como vis�o computacional, reconhecimento
autom�tico de fala, processamento de linguagem natural, reconhecimento de �udio e
bioinform�tica, onde elas t�m se mostrado capazes de produzir resultados do estado-
da-arte em v�rias tarefas.
Aprendizagem profunda foi caracterizada como a express�o na moda, ou uma

recaracteriza��o das redes neurais.[13][14]
�ndice
1 Introdu��o
1.1 Defini��es
1.2 Conceitos fundamentais
2 Interpreta��es
2.1 Interpreta��o baseada no teorema da aproxima��o universal
2.2 Interpreta��o probabil�stica
3 Hist�ria
4 Redes neurais artificiais
5 Bibliotecas de software
6 Ver tamb�m
7 Refer�ncias
8 Liga��es externas
9 Leitura complementar
Introdu��o
Defini��es
A �rea de aprendizagem profunda tem sido caracterizada de v�rias maneiras.[carece

de fontes] Por exemplo, em 1986, Rina Dechter introduziu os conceitos de
aprendizagem profunda de primeira e segunda ordens no contexto de satisfa��o de
restri��es.[15] Posteriormente, a aprendizagem profunda foi caracterizada como uma
classe de algoritmos de aprendizagem de m�quina que[2](199�200)
usa uma cascata de diversas camadas de unidades de processamento n�o-linear

para a extra��o e transforma��o de caracter�sticas. Cada camada sucessiva usa a
sa�da da camada anterior como entrada. Os algoritmos podem ser supervisionados ou
n�o supervisionados e as aplica��es incluem a an�lise de padr�es (n�o
supervisionada) e de classifica��o (supervisionada).
s�o baseados na aprendizagem (supervisionada) de v�rios n�veis de
caracter�sticas ou representa��es dos dados. Caracter�sticas de n�vel superior s�o
derivadas das caracter�sticas de n�vel inferior para formar uma representa��o
hier�rquica.
fazem parte de uma �rea da aprendizagem de m�quina mais ampla que � a
aprendizagem de representa��es de dados.
aprendem v�rios n�veis de representa��es que correspondem a diferentes n�veis
de abstra��o; os n�veis formam uma hierarquia de conceitos.
Estas defini��es tem em comum (1) v�rias camadas e unidades de processamento n�o
linear e (2) a aprendizagem ou representa��o supervisionada ou n�o supervisionada
de caracter�sticas em cada camada, com as camadas formando uma hierarquia das
caracter�sticas de baixo n�vel para as de alto n�vel.[2](p200) A composi��o de uma
camada de unidades de processamento n�o linear usada em um algoritmo de
aprendizagem profunda depende no problema a ser resolvido. Camadas que foram usadas
em aprendizagem profunda incluem camadas ocultas de uma rede neural artificial e
conjuntos de f�rmulas proposicionais complicadas.[3] Elas tamb�m podem incluir
vari�veis latentes organizadas em camadas em modelos geradores profundos tais como
os n�s em redes de cren�as profundas e m�quinas de Boltzmann profundas.
Algoritmos de aprendizagem profunda transformam suas entradas usando mais camadas

do que algoritmos de aprendizagem mais superficial. Em cada camada, o sinal �
transformado por uma unidade de processamento, como um neur�nio artificial, cujos
par�metros s�o "aprendidos" por meio de treinamento.[5](p6) Uma cadeia de
transforma��es da entrada at� a sa�da � um caminho de atribui��o de cr�dito (em
ingl�s, abreviado como CAP, credit assignment path). Os CAP descrevem conex�es
potencialmente causais entre entradas e sa�das e podem variar em comprimento. Para
uma rede neural de alimenta��o direta, a profundidade dos CAPs, e, portanto, a
profundidade da rede, � o n�mero de camadas ocultas, mais um (a camada de sa�da
tamb�m � parametrizado). Para as redes neurais recorrentes, nas quais um sinal pode
se propagar por uma camada mais de uma vez, o CAP tem comprimento potencialmente
ilimitado. N�o h� um limite aceito universalmente para distinguir aprendizagem
superficial de aprendizagem profunda, mas a maioria dos pesquisadores da �rea
concordam que a aprendizagem profunda tem v�rias camadas n�o-lineares (CAP > 2) e
Juergen Schmidhuber considera CAP > 10 como aprendizagem muito profunda.[5](p7)
Conceitos fundamentais
Algoritmos de aprendizagem profunda s�o baseados em representa��es distribu�das. A

suposi��o subjacente por tr�s de representa��es distribu�das � que os dados
observados s�o gerados pelas intera��es de fatores organizados em camadas. A
aprendizagem profunda inclui a suposi��o de que essas camadas de fatores
correspondem a n�veis de abstra��o ou de composi��o. Podem ser usadas quantidades e
tamanhos de camadas diferentes para fornecer quantidades diferentes de abstra��o.
[4]
A aprendizagem profunda explora essa ideia de fatores explicativos hier�rquicos, em

que conceitos de n�vel superior, mais abstratos, s�o aprendidas a partir dos de
n�vel mais baixo. Muitas vezes essas arquiteturas s�o constru�das com um m�todo
ganancioso camada-por-camada. A aprendizagem profunda ajuda a desvendar essas
abstra��es e a escolher quais caracter�sticas s�o �teis para a aprendizagem.[4]
Para tarefas de aprendizado supervisionado, os m�todos de aprendizagem profunda

tornam desnecess�ria a engenharia de caracter�sticas, convertendo os dados em
representa��es intermedi�rio compactas semelhantes �s de componentes principais, e
derivam estruturas em camadas que removem redund�ncias na representa��o.[2]
Muitos algoritmos de aprendizagem profunda s�o aplicados em tarefas de aprendizagem

supervisionada. Este � um benef�cio importante porque dados n�o rotulados
geralmente s�o mais abundantes do que dados rotulados. Entre os exemplos de
estruturas profundas que podem ser treinadas de forma n�o supervisionada est�o
compressores de hist�rias neurais[16] e redes de cren�a profundas.[4][17]
Interpreta��es
Redes neurais profundas geralmente s�o interpretadas em termos do teorema da

aproxima��o universal[18][19][20][21][22] ou infer�ncia probabil�stica.[2][3][4][5]
[17][23]
Interpreta��o baseada no teorema da aproxima��o universal
O teorema da aproxima��o universal refere-se � capacidade de redes neural de

alimenta��o direta com uma �nica camada oculta, de tamanho finito, de aproximar
fun��es cont�nuas.[18][19][20][21][22]
Em 1989, a primeira prova foi publicada por George Cybenko fun��es de ativa��o
sigm�ide[19] e foi generalizada para arquiteturas de alimenta��o direta multi-
camada em 1991 por Kurt Hornik.[20]
Interpreta��o probabil�stica
A interpreta��o probabil�stica[23] deriva-se da �rea de aprendizagem de m�quina.

Ela inclui infer�ncia,[2][3][4][5][17][23] e tamb�m conceitos da otimiza��o como
treinamento e testes, relacionados � adapta��o e generaliza��o, respectivamente.
Mais especificamente, a interpreta��o probabil�stica considera a n�o-linearidade da
ativa��o como uma fun��o de distribui��o cumulativa.[23] Ver rede de cren�a
profunda. A interpreta��o probabil�stica levou � introdu��o de abandono como
regularizador em redes neurais.[24]
A interpreta��o probabil�stica foi introduzida e popularizada por Geoff Hinton,

Yoshua Bengio, Yann LeCun e Juergen Schmidhuber.
Hist�ria
O primeiro algoritmo geral e funcional de aprendizagem para perceptrons

multicamadas supervisionados de alimenta��o direta profunda foi publicado por
Ivakhnenko e Lapa em 1965.[25] Um artigo de 1971 j� descrevia uma rede profunda com
8 camadas treinada pelo algoritmo do m�todo de grupo para manipula��o de dados que
ainda � popular no mil�nio atual.[26] Estas ideias foram implementadas em um
sistema de identifica��o por computador "Alfa", que demonstrou o processo de
aprendizagem. Outras arquiteturas de aprendizado profundo funcionais,
especificamente aquelas constru�das a partir de redes neurais artificiais (ANN),
s�o do tempo do Neocognitron introduzido por Kunihiko Fukushima, em 1980.[27] As
pr�prias ANNs s�o ainda mais antigas. O desafio era como treinar redes com
m�ltiplas camadas. Em 1989, Yann LeCun et al. foram capazes de aplicar o algoritmo
de retropropaga��o padr�o, que esteve em uso como o modo inverso de diferencia��o
autom�tica desde 1970,[28][29][30][31] em uma rede rede neural profunda com o
prop�sito de reconhecer c�digos de CEP manuscritos em cartas. Apesar do sucesso na
aplica��o do algoritmo, o tempo para treinar a rede neste conjunto de dados era de
aproximadamente 3 dias, tornando-se impratic�vel para uso geral.[32] Em 1993, o
compressor neural de hist�ria de J�rgen Schmidhuber[16] implementado como uma pilha
n�o supervisionada de redes neurais recorrentes (RNNs) resolveu uma tarefa de
"aprendizagem muito profunda",[5] que requer mais de 1.000 camadas subsequentes em
uma RNN desenrolada no tempo.[33] Em 1994, Andre C. P. L. F. de Carvalho, Mike C.
Fairhurst e David Bisset, publicaram um artigo com proposta e avali��o experimental
de uma rede neural booleana, tamb�m conhecida por rede neural sem pesos, com v�rias
camadas compondo dois m�dulos, uma rede auto-organiz�vel para extra��o de
caracter�sticas seguida por uma rede neural para classifica��o, que eram treinadas
de forma independente e sequencial.[34] Em 1995, Brendan Frey demonstrou que era
poss�vel treinar uma rede contendo seis camadas totalmente conectadas e v�rias
centenas de unidades ocultas usando o algoritmo wake-sleep, que foi codesenvolvido
com Pedro Dayan e Geoffrey Hinton.[35] No Entanto, o treinamento levou dois dias.
Um dos v�rios fatores que contribuem para a baixa velocidade � o problema da

dissipa��o do gradiente, analisado em 1991, por Sepp Hochreiter.[36][37]
Enquanto em 1991 tais redes neurais eram usadas para reconhecer d�gitos isolados
manuscritos em 2-D, o reconhecimento de objetos 3-D era feito correspondendo
imagens 2-D com um modelo 3-D do objeto feito � m�o. Juyang Weng et al. sugeriram
que o c�rebro humano n�o usa um modelo 3-D monol�tico do objeto, e em 1992, eles
publicaram o Cresceptron,,[38][39][40] um m�todo para realizar o reconhecimento de
objetos 3-D diretamente a partir de cenas desordenadas. O Cresceptron � uma cascata
de camadas semelhantes ao Neocognitron. Mas enquanto o Neocognitron requer que um
programador humano junte caracter�sticas � m�o, o Cresceptron aprende
automaticamente um n�mero aberto de caracter�sticas n�o supervisionadas em cada
camada, em que cada caracter�stica � representada por um n�cleo de convolu��o. O
Cresceptron tamb�m segmentou cada objeto aprendido a partir de uma cena desordenada
atrav�s de retroan�lise ao longo da rede. Max poolling, agora, muitas vezes,
adotadas por redes neurais profundas (por exemplo, testes ImageNet), foi usado pela
primeira vez no Cresceptron para reduzir a resolu��o de posi��o por um fator de
(2x2) para 1 atrav�s da cascata para uma melhor generaliza��o. Apesar dessas
vantagens, os modelos mais simples que usam caracter�sticas feitas � m�o
espec�ficas de cada tarefa tais como filtros de Gabor e m�quinas de vetores de
suporte (SVMs) foram uma escolha popular nos d�cadas de 1990 e 2000, devido ao
custo computacional de ANNs na �poca, e uma grande falta de entendimento de como o
c�rebro conecta de forma aut�noma suas redes biol�gicas.
Na longa hist�ria do reconhecimento de voz, tanto a aprendizagem rasa quanto a

aprendizagem profunda de redes neurais artificiais (por exemplo, redes recorrentes)
t�m sido exploradas por muitos anos.[41][42][43] Mas esses m�todos nunca superaram
o trabalho manual interno n�o uniforme do modelo de mistura de Gaussianas/modelo
oculto de Markov (GMM-HMM) baseados na tecnologia de modelos geradores de fala
treinados de forma discriminada.[44] Algumas das principais dificuldades tem sido
analisadas metodologicamente, incluindo a redu��o do gradiente[36] e fraca
estrutura de correla��o temporal nos modelos neurais de previs�o.[45][46] Outras
dificuldades foram a falta de grandes dados para treinamento e um poder de
computa��o mais fraco nas etapas iniciais. Assim, a maioria dos pesquisadores de
reconhecimento de voz que compreendiam essas barreiras, afastou-se das redes
neurais para perseguir a modelagem geradora. Uma exce��o estava no SRI
Internacional no final da d�cada de 1990. Financiado pela NSA e a DARPA do governo
dos EUA, SRI realizou uma pesquisa sobre redes neurais profundas para o
reconhecimento de voz e de falante. A equipe de reconhecimento de falante, liderada
por Larry Heck, atingiu o primeiro grande sucesso com redes neurais profundas em
processamento de fala, como demonstrado naavalia��o do reconhecimento de falante do
NIST (Instituto Nacional de Padr�es e Tecnologia) em 1998 e, posteriormente,
publicado na revista de Comunica��o de Voz.[47] Embora o SRI tenha obtido sucesso
com redes neurais profundas no reconhecimento de falante, eles n�o tiveram �xito em
demonstrar sucesso semelhante em reconhecimento de fala. Hinton et al. e Deng et
al. revisaram parte desta recente hist�ria sobre como a sua colabora��o uns com os
outros e ent�o com colegas de quatro grupos (Universidade de Toronto, Microsoft,
Google e IBM) provocou um renascimento das redes neurais de alimenta��o direta no
reconhecimento de fala.[48][49][50][51]
Hoje, no entanto, muitos aspectos do reconhecimento de voz foram tomados por um

m�todo de aprendizagem profunda chamado de longa mem�ria de curto prazo (LSTM), uma
rede neural recorrente publicada por Sepp Hochreiter & J�rgen Schmidhuber, em 1997.
[52] As RNNs LSTM evitam o problema da dissipa��o do gradiente e podem aprender
tarefas de "Aprendizado Muito Profundo"[5] que necessitam de mem�rias de eventos
que aconteceram milhares de pequenos passos de tempo atr�s, o que � importante para
a fala. Em 2003, LSTM come�ou a tornar-se competitiva com os reconhecedores de voz
tradicionais em determinadas tarefas.[53] Posteriormente, ela foi combinada com
CTC[54] em pilhas de RNNs de LSTM.[55] Em 2015, o reconhecimento de voz do Google
teria experimentado um salto dram�tico de desempenho de 49% por meio de LSTM
treinada por CTC, que agora est� dispon�vel para todos os usu�rios de smartphones
atrav�s do Google Voice,[56] e tornou-se uma demonstra��o da aprendizagem profunda.
De acordo com uma pesquisa,[8] a express�o "aprendizagem profunda" trazida para a

comunidade de aprendizagem de m�quina por Rina Dechter em 1986,[15] e depois para
redes neurais artificiais por Igor Aizenberg e colegas em 2000.[57] Um gr�fico do
Google Ngram mostra que o uso da express�o ganhou for�a (realmente decolou) desde
2000.[58] Em 2006, uma plublica��o por Geoffrey Hinton e Ruslan Salakhutdinov
chamou mais aten��o mostrando como redes neurais de alimenta��o direta poderiam ser
pr�-treinadas uma camada por vez, tratando cada uma delas como uma m�quina de
Boltzmann restrita n�o supervisionada, e ent�o fazendo ajustes finos por meio de
propaga��o reversa supervisionada.[59] Em 1992, Schmidhuber j� havia implementado
uma ideia bastante similar para o caso mais geral de hierarquias profundas n�o
supervisionadas de redes neurais recorrentes, e tamb�m mostrado experimentalmente a
sua vantagem na acelera��o do aprendizado supervisionado.[16][60]
Desde o seu resurgimento, a aprendizagem profunda se tornou parte de diversos

sistemas de estado da arte em v�rias disciplinas, particularmente vis�o
computacional e reconhecimento autom�tico de fala (ASR). Os resultados em conjuntos
usados frequentemente para avalia��o, tais como o TIMIT (ASR) e o MNIST
(classifica��o de imagens), bem como uma gama de tarefas de reconhecimento de fala
de grandes vocabul�rios est�o constantemente sendo melhorados com novas aplica��es
de aprendizagem profunda.[48][61][62] Recentemente, foi mostrado que arquiteturas
de aprendizagem profunda na forma de redes neurais de convolu��o tem obtido
praticamente o melhor desempenho;[63][64] no entanto, estas s�o usadas mais
amplamente em vis�o computacional do que em ASR, e o reconhecimento moderno de fala
em larga escala geralmente � baseado em CTC[54] para LSTM.[52][56][65][66][67]
O verdadeiro impacto da aprendizagem profunda na ind�stria come�ou, aparentemente,

no in�cio da d�cada de 2000, quando as CNNs j� processavam um percentual estimado
de 10% a 20% de todos os cheques escritos nos EUA, no in�cio da d�cada de 2000, de
acordo com Yann LeCun.[68] Aplica��es industriais de aprendizagem profunda ao
reconhecimento de voz de grande escala come�aram por volta de 2010. No final de
2009, Li Deng convidou Geoffrey Hinton para trabalhar com ele e seus colegas na
Microsoft Research em Redmond, Washington na aplica��o de aprendizagem profunda no
reconhecimento de fala. Eles co-organizaram o Workshop NIPS de 2009 em aprendizagem
profunda para o reconhecimento de fala. O semin�rio foi motivado pelas limita��es
dos modelos geradores de fala profundos, e pela possibilidade de que a era da big-
computa��o e do big-data justificavam testes s�rios com redes neurais profundas
(DNN). Acreditava-se que o pr�-treinamento de DNNs usando modelos geradores de
redes de cren�as profundas (DBN) iria superar as principais dificuldades das redes
neurais encontradas na d�cada de 1990.[50] No entanto, no in�cio desta pesquisa na
Microsoft, foi descoberto que, sem pr�-treino, mas com o uso de grandes quantidades
de dados de treinamento, e, especialmente, DNNs projetadas com igualmente grandes
camadas de sa�da dependentes de contexto, eram produzidas taxas de erro
drasticamente menores do que GMM-HMM de estado da arte e tamb�m do que sistemas
mais avan�ados de reconhecimento de voz baseados em modelos geradores. Esta
constata��o foi verificada por v�rios outros grandes grupos de pesquisa em
reconhecimento de fala.[48][69] Al�m disso, a natureza dos erros de reconhecimento
produzidos pelos dois tipos de sistemas se mostrou caracteristicamente diferente,
[49][70] oferecendo insights t�cnicos sobre como integrar a aprendizagem profunda
nos sistemas existentes e altamente eficientes de decodifica��o de fala implantados
pelos principais membros da ind�stria de reconhecimento de fala. A hist�ria deste
desenvolvimento significativo na aprendizagem profunda tem sido descrito e
analisado em livros e artigos recentes.[2][71][72]
Os avan�os em hardware tamb�m foram importantes no sentido de renovar o interesse

na aprendizagem profunda. Em particular, unidades de processamento gr�fico (GPUs)
poderosas s�o bastante adequadas para o tipo de manipula��o de n�meros e matem�tica
matricial e vetorial envolvidas na aprendizagem de m�quina..[73][74] Tem sido
mostrado que as GPUs aceleram algoritmos de treinamento em ordens de magnitude,
trazendo os tempos de execu��o de semanas para dias.[75][76]
Redes neurais artificiais
Alguns dos m�todos mais bem sucedidos de aprendizagem profunda envolvem redes
neurais artificiais. Redes neurais artificiais s�o inspiradas pelo modelo
biol�gica de 1959 proposto por David H. Hubel e Torsten Wiesel, ambos premiados com
o Nobel, que descobriram que dois tipos de c�lulas no c�rtex visual prim�rio:
c�lulas simples e c�lulas complexas. Muitas redes neurais artificiais podem ser
vistas como modelos em cascata[38][39][40][77] de tipos de c�lulas inspirados por
estas observa��es biol�gicas.
Neocognitron de Fukushima introduziu redes neurais convolucionais parcialmente

treinadas por aprendizagem n�o-supervisionada com caracter�sticas direcionadas por
humanos no plano neural. Yann LeCun et al. (1989), aplicaram retropropaga��o
supervisionada a estas arquiteturas.[78] Weng et al. (1992) publicaram redes
neurais convolucionais Cresceptron[38][39][40] para o reconhecimento de objetos 3-D
a partir de imagens de cenas desordenadas e para a segmenta��o de tais objetos a
partir de imagens.
Uma necessidade �bvia para o reconhecimento de objetos 3-D em geral � uma menor
invari�ncia a deslocamentos e toler�ncia � deforma��o. O max-pooling parece ter
sido proposto pela primeira vez por Cresceptron[38][39] para permitir que a rede
tolerasse de pequenas a grandes deforma��es de uma forma hier�rquica, ao mesmo
tempo em que � utilizada a convolu��o. O max-pooling ajuda, mas n�o garante,
invari�ncia a deslocamentos no n�vel dos pixels.[40]
Com o advento do algoritmo de retropropaga��o baseado na diferencia��o autom�tica,

[28][30][31][79][80][81][81][82][83][84] muitos pesquisadores tentaram treinar
redes neurais artificiais profundas supervisionadas a partir do zero, inicialmente
com pouco sucesso. A tese de Sepp Hochreiter de 1991[36][37] identificou
formalmente o motivo para esta falha como o problema da dissipa��o do gradiente,
que afeta redes de alimenta��o direta de muitas camadas e redes neurais
recorrentes. Redes recorrentes s�o treinadas desdobrando-as em redes de alimenta��o
direta muito profundas, em que uma nova camada � criada para cada passo de tempo de
uma seq��ncia de entrada processada pela rede. Conforme os erros se propagam de
camada para camada, eles diminuem exponencialmente com o n�mero de camadas,
impedindo o ajuste dos pesos dos neur�nio, que s�o baseados nesses erros.
Para superar este problema, foram propostos v�rios m�todos. Um deles � a hierarquia
de v�rios n�veis de redes de J�rgen Schmidhuber (1992), pr�-treinada n�vel por
n�vel por aprendizagem n�o supervisionado, ajustada por retropropaga��o.[16] Aqui,
cada n�vel aprende uma representa��o compactada das observa��es que alimentam o
pr�ximo n�vel.
Sven Behnke, em 2003, baseou-se apenas no sinal do gradiente (Rprop) ao treinar a

sua Pir�mide de Abstra��o Neural[85] para resolver problemas como a reconstru��o de
imagens e a localiza��o de faces.
Translation Latin Alphabet.svg
Este artigo ou se(c)��o est� a ser traduzido de �Deep learning� na Wikip�dia em
ingl�s Ajude e colabore com a tradu��o. (Outubro de 2016)
Bibliotecas de software
Caffe � Um framework de aprendizagem profunda especializado em reconhecimento

de imagem.
Deeplearning4j � Uma biblioteca de c�digo aberto[86] para aprendizagem profunda
escrita para Java/C++ com LSTMs e redes convolucionais, suportada por Skymind. Ela
fornece paraleliza��o com Spark em CPUs e GPUs.
Gensim � Um conjunto de ferramentas para processamento de linguagem natural
implementado na linguagem de programa��o Python.
Keras � uma framework de aprendizagem profunda de c�digo aberto para a
linguagem de programa��o Python.
Microsoft CNTK (Computational Network Toolkit) � conjunto de ferramentas de
c�digo-aberto[87] da Microsoft para aprendizagem profunda, para Windows e Linux.
ela fornece paraleliza��o com CPUs e GPUs atrav�s de servidores m�ltiplos.[88]
OpenNN � Uma biblioteca de c�digo aberto em C++ que implementa redes neurais
profundas e fornece paraleliza��o com CPUs.
TensorFlow � biblioteca de c�digo aberto do Google para o aprendizado de
m�quina em C++ e Python com APIs para ambas. Ela fornece paraleliza��o com CPUs e
GPUs.[89]
Theano � Uma biblioteca de c�digo aberto para aprendizado de m�quina para a
linguagem Python, suportada pela Universidade de Montreal e o time de Yoshua
Bengio.
Torch � Uma biblioteca de software de c�digo aberto para aprendizado de m�quina
baseada na linguagem de programa��o Lua e usada pelo Facebook.
Ver tamb�m
Aplica��es de intelig�ncia artificial

M�quina de Boltzmann
Amostragem compressiva
Conexionismo
Echo state network
Lista de projetos de intelig�ncia artificial
M�quina de estado l�quido
Lista de conjuntos de dados para pesquisas em aprendizagem de m�quina
Reservoir computing
Codifica��o esparsa
Rede de estado de eco
Refer�ncias
Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016). Deep Learning. MIT
Press. Online
Deng, L.; Yu, D. (2014). �Deep Learning: Methods and Applications� (PDF).
Foundations and Trends in Signal Processing. 7 (3-4): 1�199. doi:10.1561/2000000039
Bengio, Yoshua (2009). �Learning Deep Architectures for AI� (PDF). Foundations and
Trends in Machine Learning. 2 (1): 1�127. doi:10.1561/2200000006. Consultado em 17
de outubro de 2016. Arquivado do original (PDF) em 4 de mar�o de 2016
Bengio, Y.; Courville, A.; Vincent, P. (2013). �Representation Learning: A Review
and New Perspectives�. IEEE Transactions on Pattern Analysis and Machine
Intelligence. 35 (8): 1798�1828. arXiv:1206.5538Acess�vel livremente.
doi:10.1109/tpami.2013.50
Schmidhuber, J. (2015). �Deep Learning in Neural Networks: An Overview�. Neural
Networks. 61: 85�117. arXiv:1404.7828Acess�vel livremente.
doi:10.1016/j.neunet.2014.09.003
Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). �Deep Learning�. Nature. 521:
436�444. doi:10.1038/nature14539
Deep Machine Learning � A New Frontier in Artificial Intelligence Research � a
survey paper by Itamar Arel, Derek C. Rose, and Thomas P. Karnowski. IEEE
Computational Intelligence Magazine, 2013
Schmidhuber, J�rgen (2015). �Deep Learning�. Scholarpedia. 10 (11): 32832.
doi:10.4249/scholarpedia.32832
Carlos E. Perez. �A Pattern Language for Deep Learning�
Glauner, P. (2015). Deep Convolutional Neural Networks for Smile Recognition (MSc
Thesis). Imperial College London, Department of Computing.
arXiv:1508.06535Acess�vel livremente
Song, H.A.; Lee, S. Y. (2013). �Hierarchical Representation Using NMF�. Neural
Information Processing. Col: Lectures Notes in Computer Sciences. 8226. [S.l.]:
Springer Berlin Heidelberg. pp. 466�473. ISBN 978-3-642-42053-5. doi:10.1007/978-3-
642-42054-2_58
Olshausen, B. A. (1996). �Emergence of simple-cell receptive field properties by
learning a sparse code for natural images�. Nature. 381 (6583): 607�609.
doi:10.1038/381607a0
Collobert, R. (abril de 2011). Deep Learning for Efficient Discriminative Parsing.
VideoLectures.net. Em cena em 7min 45s
Gomes, L. (20 de outubro de 2014). �Machine-Learning Maestro Michael Jordan on the
Delusions of Big Data and Other Huge Engineering Efforts�. IEEE Spectrum
Rina Dechter (1986). Learning while searching in constraint-satisfaction problems.
University of California, Computer Science Department, Cognitive Systems
Laboratory.Online
J. Schmidhuber., "Learning complex, extended sequences using the principle of
history compression," Neural Computation, 4, pp. 234�242, 1992.
Hinton, G.E. �Deep belief networks�. Scholarpedia. 4 (5): 5947.
doi:10.4249/scholarpedia.5947
Bal�zs Csan�d Cs�ji. Approximation with Artificial Neural Networks; Faculty of
Sciences; E�tv�s Lor�nd University, Hungary
Cybenko (1989). �Approximations by superpositions of sigmoidal functions� (PDF).
Mathematics of Control, Signals, and Systems. 2 (4): 303�314.
doi:10.1007/bf02551274. Consultado em 17 de outubro de 2016. Arquivado do original
(PDF) em 10 de outubro de 2015
Hornik, Kurt (1991). �Approximation Capabilities of Multilayer Feedforward
Networks�. Neural Networks. 4 (2): 251�257. doi:10.1016/0893-6080(91)90009-t
Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation, Volume 2,
Prentice Hall. ISBN 0-13-273350-1.
Hassoun, M. (1995) Fundamentals of Artificial Neural Networks MIT Press, p. 48
Murphy, K.P. (2012) Machine learning: a probabilistic perspective MIT Press
Hinton, G. E.; Srivastava, N.; Krizhevsky, A.; Sutskever, I.; Salakhutdinov, R.R.
(2012). �Improving neural networks by preventing co-adaptation of feature
detectors�. arXiv:1207.0580Acess�vel livremente [math.LG]
Ivakhnenko, Alexey (1965). Cybernetic Predicting Devices. Kiev: Naukova Dumka
Ivakhnenko, Alexey (1971). �Polynomial theory of complex systems�. IEEE
Transactions on Systems, Man and Cybernetics (4): 364�378
Fukushima, K. (1980). �Neocognitron: A self-organizing neural network model for a
mechanism of pattern recognition unaffected by shift in position�. Biol. Cybern.
36: 193�202. doi:10.1007/bf00344251
Seppo Linnainmaa (1970). The representation of the cumulative rounding error of an
algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in
Finnish), Univ. Helsinki, 6-7.
Griewank, Andreas (2012). Who Invented the Reverse Mode of Differentiation?.
Optimization Stories, Documenta Matematica, Extra Volume ISMP (2012), 389-400.
P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the
Behavioral Sciences," PhD thesis, Harvard University, 1974.
Paul Werbos (1982). Applications of advances in nonlinear sensitivity analysis. In
System modeling and optimization (pp. 762-770). Springer Berlin Heidelberg. Online
LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural
Computation, 1, pp. 541�551, 1989.
J�rgen Schmidhuber (1993). Habilitation thesis, TUM, 1993. Page 150 ff demonstrates
credit assignment across the equivalent of 1,200 layers in an unfolded RNN. Online
de Carvalho, A. C. P. L. F.; Fairhurst, M. C.; Bisset, D. L. (1994). �An integrated
Boolean neural network for pattern classification�. Pattern Recognition Letters.
doi:doi:10.1016/0167-8655(94)90009-4 Verifique |doi= (ajuda). Consultado em 2016
Verifique data em: |acessodata= (ajuda)
Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (26 de maio de
1995). �The wake-sleep algorithm for unsupervised neural networks�. Science. 268
(5214): 1158�1161. doi:10.1126/science.7761831
S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis.
Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.
S. Hochreiter et al., "Gradient flow in recurrent nets: the difficulty of learning
long-term dependencies," In S. C. Kremer and J. F. Kolen, editors, A Field Guide to
Dynamical Recurrent Neural Networks. IEEE Press, 2001.
J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network
which grows adaptively," Proc. International Joint Conference on Neural Networks,
Baltimore, Maryland, vol I, pp. 576-581, June, 1992.
J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D
objects from 2-D images," Proc. 4th International Conf. Computer Vision, Berlin,
Germany, pp. 121-128, May, 1993.
J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the
Cresceptron," International Journal of Computer Vision, vol. 25, no. 2, pp. 105-
139, Nov. 1997.
Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov
model systems for continuous speech recognition. ICASSP/IJPRAI"
T. Robinson. (1992) A real-time recurrent error propagation network word
recognition system, ICASSP.
Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-
delay neural networks. IEEE Transactions on Acoustics, Speech and Signal
Processing."
Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.;
O'Shaughnessy, D. (2009). �Research Developments and Directions in Speech
Recognition and Understanding, Part 1�. IEEE Signal Processing Magazine. 26 (3):
75�80. doi:10.1109/msp.2009.932166
Y. Bengio (1991). "Artificial Neural Networks and their Application to
Speech/Sequence Recognition," Ph.D. thesis, McGill University, Canada.
Deng, L.; Hassanein, K.; Elmasry, M. (1994). �Analysis of correlation structure for
a neural predictive model with applications to speech recognition�. Neural
Networks. 7 (2): 331�339. doi:10.1016/0893-6080(94)90027-2
Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). �Robustness to Telephone
Handset Distortion in Speaker Recognition by Discriminative Feature Design�. Speech
Communication. 31 (2): 181�192. doi:10.1016/s0167-6393(99)00077-1
Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.;
Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). �Deep Neural Networks
for Acoustic Modeling in Speech Recognition --- The shared views of four research
groups�. IEEE Signal Processing Magazine. 29 (6): 82�97.
doi:10.1109/msp.2012.2205597
Deng, L.; Hinton, G.; Kingsbury, B. (2013). �New types of deep neural network
learning for speech recognition and related applications: An overview (ICASSP)�
Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff
Hinton).
Keynote talk: "Achievements and Challenges of Deep Learning - From Speech Analysis
and Recognition To Language and Multimodal Processing," Interspeech, September
2014.
Hochreiter, Sepp; and Schmidhuber, J�rgen; Long Short-Term Memory, Neural
Computation, 9(8):1735�1780, 1997
Alex Graves, Douglas Eck, Nicole Beringer, and J�rgen Schmidhuber (2003).
Biologically Plausible Speech Recognition with LSTM Neural Nets. 1st Intl. Workshop
on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT
2004, Lausanne, Switzerland, p. 175-184, 2004. Online
Alex Graves, Santiago Fernandez, Faustino Gomez, and J�rgen Schmidhuber (2006).
Connectionist temporal classification: Labelling unsegmented sequence data with
recurrent neural nets. Proceedings of ICML�06, pp. 369�376.
Santiago Fernandez, Alex Graves, and J�rgen Schmidhuber (2007). An application of
recurrent neural networks to discriminative keyword spotting. Proceedings of ICANN
(2), pp. 220�229.
Hasim Sak, Andrew Senior, Kanishka Rao, Fran�oise Beaufays and Johan Schalkwyk
(September 2015): Google voice search: faster and more accurate.
Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). Multi-Valued and
Universal Binary Neurons: Theory, Learning and Applications. Springer Science &
Business Media.
Google Ngram chart of the usage of the expression "deep learning" posted by J�rgen
Schmidhuber (2015) Online
G. E. Hinton., "Learning multiple layers of representation," Trends in Cognitive
Sciences, 11, pp. 428�434, 2007.
J. Schmidhuber., "My First Deep Learning System of 1991 + Deep Learning Timeline
1962�2013." Online
http://research.microsoft.com/apps/pubs/default.aspx?id=189004
L. Deng et al. Recent Advances in Deep Learning for Speech Research at Microsoft,
ICASSP, 2013.
L. Deng, O. Abdel-Hamid, and D. Yu, A deep convolutional neural network using
heterogeneous pooling for trading acoustic invariance with phonetic confusion,
ICASSP, 2013.
T. Sainath et al., "Convolutional neural networks for LVCSR," ICASSP, 2013.
Hasim Sak and Andrew Senior and Francoise Beaufays (2014). Long Short-Term Memory
recurrent neural network architectures for large scale acoustic modeling.
Proceedings of Interspeech 2014.
Xiangang Li, Xihong Wu (2015). Constructing Long Short-Term Memory based Deep
Recurrent Neural Networks for Large Vocabulary Speech Recognition arXiv:1410.4281
Heiga Zen and Hasim Sak (2015). Unidirectional Long Short-Term Memory Recurrent
Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis. In
Proceedings of ICASSP, pp. 4470-4474.
Yann LeCun (2016). Slides on Deep Learning Online
D. Yu, L. Deng, G. Li, and F. Seide (2011). "Discriminative pretraining of deep
neural networks," U.S. Patent Filing.
NIPS Workshop: Deep Learning for Speech Recognition and Related Applications,
Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).
Yu, D.; Deng, L. (2014). �Automatic Speech Recognition: A Deep Learning Approach
(Publisher: Springer)�
IEEE
(2015)http://blogs.technet.com/b/inside_microsoft_research/archive/2015/12/03/deng-
receives-prestigious-ieee-technical-achievement-award.aspx
Oh, K.-S.; Jung, K. (2004). �GPU implementation of neural networks�. Pattern
Recognition. 37 (6): 1311�1314. doi:10.1016/j.patcog.2004.01.013
Chellapilla, K., Puri, S., and Simard, P. (2006). High performance convolutional
neural networks for document processing. International Workshop on Frontiers in
Handwriting Recognition.
D. C. Ciresan et al., "Deep Big Simple Neural Nets for Handwritten Digit
Recognition," Neural Computation, 22, pp. 3207�3220, 2010.
R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using
Graphics Processors," Proc. 26th Int. Conf. on Machine Learning, 2009.
Riesenhuber, M; Poggio, T (1999). �Hierarchical models of object recognition in
cortex�. Nature Neuroscience. 2 (11): 1019�1025. doi:10.1038/14819
Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D.
Jackel. 1989 Backpropagation Applied to Handwritten Zip Code Recognition. Neural
Computation, 1(4):541�551.
Griewank, Andreas and Walther, A.. Principles and Techniques of Algorithmic
Differentiation, Second Edition. SIAM, 2008.
Henry J. Kelley (1960). Gradient theory of optimal flight paths. Ars Journal,
30(10), 947-954. Online
Arthur E. Bryson (1961, April). A gradient method for optimizing multi-stage
allocation processes. In Proceedings of the Harvard Univ. Symposium on digital
computers and their applications.
Stuart Dreyfus (1973). The computational solution of optimal control problems with
time lag. IEEE Transactions on Automatic Control, 18(4):383�385.
Rumelhart, D. E., Hinton, G. E. & Williams, R. J. , "Learning representations by
back-propagating errors" nature, 1974.
Stuart Dreyfus (1990). Artificial Neural Networks, Back Propagation and the Kelley-
Bryson Gradient Procedure. J. Guidance, Control and Dynamics, 1990.
Sven Behnke (2003). Hierarchical Neural Networks for Image Interpretation. (PDF).
Col: Lecture Notes in Computer Science. 2766. [S.l.]: Springer
Deeplearning4j on Github
CNTK no Github
cntk.ai
Dean, Jeff; Monga, Rajat; et al. (9 de novembro de 2015). �TensorFlow: Large-

scale machine learning on heterogeneous systems� (PDF). TensorFlow.org. Consultado
em 10 de novembro de 2015
Liga��es externas
Bibliotecas de aprendizagem profunda por linguagem de programa��o

Data Science: Data to Insights from MIT (deep learning)
Leitura complementar
Complemente a sua leitura no artigo Authorship verification using deep belief

network systems [1].
Brocardo ML, Traore I, Woungang I, Obaidat MS. "Authorship verification using deep
belief network systems". Int J Commun Syst. 2017. doi:10.1002/dac.3259

N5 - Deep Learning

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

N5 - Deep Learning

Enviado por

Direitos autorais:

Formatos disponíveis

A aprendizagem profunda, do ingl�s Deep Learning (tamb�m conhecida como aprendizado

estruturado profundo, aprendizado hier�rquico ou aprendizado de m�quina profundo) �

A aprendizagem profunda � parte de uma fam�lia mais abrangente de m�todos de

V�rias arquiteturas de aprendizagem profunda, tais como redes neurais profundas,

Aprendizagem profunda foi caracterizada como a express�o na moda, ou uma

A �rea de aprendizagem profunda tem sido caracterizada de v�rias maneiras.[carece

usa uma cascata de diversas camadas de unidades de processamento n�o-linear

Algoritmos de aprendizagem profunda transformam suas entradas usando mais camadas

Algoritmos de aprendizagem profunda s�o baseados em representa��es distribu�das. A

A aprendizagem profunda explora essa ideia de fatores explicativos hier�rquicos, em

Para tarefas de aprendizado supervisionado, os m�todos de aprendizagem profunda

Muitos algoritmos de aprendizagem profunda s�o aplicados em tarefas de aprendizagem

Redes neurais profundas geralmente s�o interpretadas em termos do teorema da

O teorema da aproxima��o universal refere-se � capacidade de redes neural de

A interpreta��o probabil�stica[23] deriva-se da �rea de aprendizagem de m�quina.

A interpreta��o probabil�stica foi introduzida e popularizada por Geoff Hinton,

O primeiro algoritmo geral e funcional de aprendizagem para perceptrons

Um dos v�rios fatores que contribuem para a baixa velocidade � o problema da

Na longa hist�ria do reconhecimento de voz, tanto a aprendizagem rasa quanto a

Hoje, no entanto, muitos aspectos do reconhecimento de voz foram tomados por um

De acordo com uma pesquisa,[8] a express�o "aprendizagem profunda" trazida para a

Desde o seu resurgimento, a aprendizagem profunda se tornou parte de diversos

O verdadeiro impacto da aprendizagem profunda na ind�stria come�ou, aparentemente,

Os avan�os em hardware tamb�m foram importantes no sentido de renovar o interesse

Neocognitron de Fukushima introduziu redes neurais convolucionais parcialmente

Com o advento do algoritmo de retropropaga��o baseado na diferencia��o autom�tica,

Sven Behnke, em 2003, baseou-se apenas no sinal do gradiente (Rprop) ao treinar a

Caffe � Um framework de aprendizagem profunda especializado em reconhecimento

Aplica��es de intelig�ncia artificial

Dean, Jeff; Monga, Rajat; et al. (9 de novembro de 2015). �TensorFlow: Large-

Bibliotecas de aprendizagem profunda por linguagem de programa��o

Complemente a sua leitura no artigo Authorship verification using deep belief

Você também pode gostar