Apresentação 8

Communication-Efficient
Learning of Deep
Networks
from Decentralized Data
H. Brendan McMahan, Eider Moore, Daniel
Ramage, Seth Hampson, Blaise Aguera y Arcas ¨
Introdução
• Cada cliente tem um dataset local que nunca é enviado ao servidor
central
• Cada cliente computa e contribui para a atualização do modelo global
presente no servidor central
• Principal vantagem é desacoplar o treinamento do acesso direto aos
dados, reduzindo riscos sobre a privacidade e segurança
Federated Learning
• Problemas ideais para se aplicar Federated Learning:
• Quando os dados do mundo real presentes nos dispositivos móveis oferecem
grande vantagem em relação aos dados mais genéricos presentes nos
servidores
• Quando os dados são sensíveis ou muito grandes
• Para tarefas supervisionadas, os rótulos podem ser inferidos naturalmente
através da iteração do usuário
• Os exemplos de aplicações utilizadas no artigo são:
• Classificação de imagens (utilizando CNN)
• Modelos de linguagem (Utilizando LSTM)
• Os labels para essas tarefas estão disponíveis diretamente no dispositivo
Federated Optimization
• Problema de otimização implícito ao Federated Learning.
• Propriedades que o diferencia dos problemas de otimização distribuída típicos:
• Non-IID: Os dados locais de treinamento para cada usuário é obtido através de uso individual, logo qualquer
dataset local em particular não representa a distribuição populacional
• Desbalanceada: Diferentes usuário utilizam serviços/apps de formas e intensidades diferentes, causando
variações na quantidade de dados locais
• Massivamente Distribuido: É esperado que o número de clientes seja muito maior que o número de exemplos
por cliente
• Comunicação Limitada: Dispositivos móveis estão frequentemente offline ou em conexões lentas ou custosas
• O artigo foca nas duas primeiras propriedades
• Utiliza-se um set fixo de K clientes, cada um com um dataset local fixo
• Cada começo de rodada, uma fração aleatória C de clientes (para ser mais eficiente) é selecionada e
o servidor envia o modelo global atual para cada um dos clientes, que fazem computação local e
mandam seu modelo para o servidor. O servidor aplica as atualizações em seu modelo global e o
processo se repete
O Algoritmo FederatedAveraging
• É aplicado Stochastic Gradient
Descent (SGD) uma vez para cada um dos
clientes selecionados para a rodada,
localmente.
• O servidor atualiza os parâmetros de
acordo com uma média ponderada dos
modelos resultantes
• Para objetivos não convexos, inicializações
diferentes, a média de modelos pode
produzir um modelo ruim
• Na prática, a inicialização comum de
parâmetros se mostra melhor
Resultados Experimentais
• 3 modelos em 2 datasets:
• Multilayer-perceptron simples e CNN para classificação de imagem com
MNIST
• LSTM para predizer o próximo caractere em uma linha, treinado em
dataset contendo todas as obras de Willian Shakespeare
• 2 tipos de distribuição dos dados MNIST para os clientes:
• Independentes e Identicamente Distribuídos (IID): os dados são
embaralhados e particionados para 100 clientes, cada um recebendo 600
• Non-IID: organiza pelo rótulo do dígito, divide em 200 fragmentos de 300 e
designa a cada um dos 100 clientes 2 fragmentos.
• Assim, maioria dos clientes só terão exemplos de 2 dígitos
Resultados Experimentais – Aumentando
Paralelismo
• A tabela mostra como o aumento de C

influencia no número de rodadas de
comunicação necessárias para chegar
às acurácias predefinidas de 97 para 2NN e
99 para CNN
• Para B infinito tem apenas uma pequena
vantagem em aumentar C na CNN
• Para B menor, há uma melhora mais expressiva
Resultados Experimentais –
Aumentando Computação por cliente
• C fixado em 0.1,
aumenta computação
ao diminuir batch size
(B) ou aumentar
epochs (E)
• u representa o número
esperado de
atualizações por
rodada
• Aumentar as
atualizações SGD por
rodada diminui
dramaticamente os
custos de
comunicação (rounds)
Resultados Experimentais – CIFAR-10
• 100 clientes, cada um com 500 dados de
treino e 100 de teste
• Configuração IID
• Não há particionamento natural de
usuários para os dados
Resultados Experimentais – LSTM Larga-
escala
• 10 milhões de posts públicos em redes
sociais
• Predição da próxima palavra
• Testar a abordagem em dados do mundo
real
Conclusões
• O Federated Learning pode ser feito na prática, treinando modelos de
alta qualidade utilizando relativamente poucas rodadas de
comunicação, como mostram os resultados

Apresentação 8

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apresentação 8

Enviado por

Direitos autorais:

Formatos disponíveis

Communication-Efficient

• A tabela mostra como o aumento de C

Você também pode gostar