Escolar Documentos
Profissional Documentos
Cultura Documentos
Profundas
Moacir A. Ponti
* com colaboração de Fernando P. dos Santos, Leo S. F. Ribeiro, Gabriel B. Cavalari
http://sites.google.com/moacirponti
https://github.com/maponti/trainingdeepnetworks
EABDA 2023
Bibliography I
Transferência de aprendizado
Suposições do aprendizado supervisionado
Dados de treinamento
▶ Limpos
▶ Representativos e bem definidos com relação à tarefa: classes,
valores da regressão, etc.
▶ Baixa taxa de erros de rótulo
▶ Quantidade de dados é suficiente
para-o-chatgpt-senna-morreu-em-interlagos-depois-de-bater-em-nakajima.htm
Alucinações
Os Fatos
O acidente aconteceu na 40ª volta, não na sexta, e foi no Bico de
Pato — a curva do Sargento já não existia mais. O impacto foi
leve, Senna só quebrou o bico, não saiu da pista, não bateu em
nada e seu carro não pegou fogo. Ele continuou na corrida e
terminou em terceiro. Morreu quatro anos depois em Ímola, no GP
de San Marino, numa batida na curva Tamburello sem o
envolvimento de nenhum outro piloto.
https://www.uol.com.br/esporte/colunas/flavio-gomes/2023/02/13/
para-o-chatgpt-senna-morreu-em-interlagos-depois-de-bater-em-nakajima.htm
Mensagem
Transferência de aprendizado
1 - Qualidade dos Dados
Algumas tarefas
▶ Binary classification
▶ Multi-class classification
▶ Regression
▶ Detection
▶ String matching
▶ Recommendation
... para um problema de classificação binária
Função de custo/perda
Backpropagation
▶ utiliza a derivada ao longo das camadas para adaptar os pesos
▶ as funções de custo e de ativação tem que produzir derivada
útil
Vanishing gradient
▶ se ativações geram valores muito baixos não é possível adaptar
▶ usar precisão dupla (double) e escalar as funções é uma
possibilidade
▶ esse é um dos motivadores do uso de ReLU ao invés de
Sigmóides como função de ativação
Funções de Erro
▶ Mean squared error (MSE)
▶ Mean absolute error (MAE)
▶ Root of the mean squared error (RMSE)
Tendem a aprender a saída média
Cross-entropy
Comparação entre distribuições de probabilidade
Cosine Distance
Cosseno do ângulo entre dois vetores (magnitude é desprezada)
Conheça sua loss
yi ln(yˆi + 10−6 )
P
Categorical cross-entropy −
▶ Classes igualmente prováveis (random): −1 · ln(1/5) = 1.60
▶ Classe correta com probabilidade zero (e demais igualmente
prováveis)): 13.8
(yi − yˆi )2
P
MSE
▶ Classes igualmente prováveis (random): 0.80
▶ Classe correta com probabilidade zero (e demais igualmente
prováveis)) 1.25
5 - Validação e "Model Tuning"
ERRADO. (?)
6 - Visualizar espaço de características
Treinamos uma rede neural para um problema de 10 classes difícil
Transferência de aprendizado
(I) Regularização
Srivastava et al. Dropout: A Simple Way to Prevent Neural Networks from Overfitting
(III) Parada precoce
γxi + β
(V) Normalização por camadas: Batch
Transferência de aprendizado
Quando o assunto é volume de dados
Nem sempre...
▶ é possível coletar mais
▶ aumentação é efetiva
Transferência de aprendizado
Exemplos
▶ CNNs pré-treinadas na ImageNet para imagens,
▶ Sentence transformers (sBERT) para texto.
Extração de características
Dicas
▶ Aplicar redução de dimensionalidade baseada em algum
método como PCA,
▶ Treinar modelo de aprendizado raso com maiores garantias de
aprendizado com poucos dados: SVM, árvore de decisão, etc.
▶ Essas características também são efetivas para recuperação
baseada em conteúdo
Mensagem (3)