Escolar Documentos
Profissional Documentos
Cultura Documentos
larissarodrigues@ufu.br
1. Introduction
De acordo com o relatório anual da Cisco, prevê-se que haverá 5,3 bilhões de
usuários da internet até 2023, e aproximadamente 29,3 bilhões de dispositivos conec-
tados [Cisco 2020]. Mesmo com o aumento no volume de dados e usuários na rede, as
perdas de dados durante o processo de comunicação continuam sendo uma realidade. No
entanto, técnicas e abordagens têm sido propostas e desenvolvidas para lidar com essas
situações.
Estratégias para prevenir erros em canais de comunicação são implementadas
através do controle de congestionamento pelo Transmission Control Protocol (TCP). Esse
controle reduz a janela de recepção em caso de perda de pacotes, diminuindo a quantidade
na rede. Assim, o receptor influencia a velocidade de envio, regulando a quantidade de
dados transmitidos. Isso reduz congestionamento e minimiza a perda de pacotes devido
ao excesso de tráfego [Kurose and Ross 2013].
Vários algoritmos fundamentados no Protocolo de TCP com Conjunctive Using
BIC (Binary Increase Congestion Control) (CUBIC) e Regular NewReno (Reno) são
restritos e pouco adaptáveis às mudanças dinâmicas nas redes de comunicação. Esses
algoritmos estabelecem regras previamente, o que significa que, em situações de con-
gestionamento, não ajustam suas regras para se adequarem a diferentes contextos de
rede[Forouzan 2008].
Além disso, esses algoritmos implementam a redução da janela de recepção so-
mente após a perda de pacotes, sem adotar medidas preventivas para evitar tal perda.
Adicionalmente, não têm como foco principal a maximização da vazão da rede durante o
congestionamento, o que resulta na subutilização da capacidade total da rede.
Assim, este trabalho busca analisar algoritmos de congestionamento por meio
do uso de Deep Q-Learning (DQN), desenvolvendo um protocolo que reconheça as
alterações no estado da rede. Este protocolo atribuirá uma janela de congestionamento
ideal para cada cenário, com o objetivo de maximizar a vazão da rede.
• Quarto: A organização do artigo.
2. Related Work
Estudos recentes, como o de [Zhang et al. 2019], buscam aprimorar o protocolo Multi-
path Transmission Control Protocol (MPTCP) através de técnicas de aprendizado por
reforço. Utilizando treinamento assı́ncrono, o trabalho permite a execução paralela do
escalonamento de pacotes, coleta de dados e treinamento da rede neural. O objetivo é
otimizar o escalonamento em tempo real, empregando um algoritmo assı́ncrono para o
treinamento neural.
O trabalho proposto por [Li et al. 2019] visa melhorar a eficiência da rede utili-
zando o algoritmo SmartCC. Esse algoritmo emprega técnicas de aprendizado por reforço
para aprimorar a gestão da janela de congestionamento. O SmartCC utiliza um me-
canismo de aprendizado por reforço assı́ncrono para adquirir um conjunto de regras de
congestionamento.
Já o artigo de [Tang et al. 2018] apresenta uma proposta de algoritmo de previsão
de tráfego fundamentado em aprendizagem profunda. Esse algoritmo tem o objetivo de
antecipar a carga de trabalho e o congestionamento da rede. Após a previsão, é realizada a
alocação parcial de canais com base em aprendizado profundo, visando prevenir possı́veis
congestionamentos ao atribuir canais apropriados.
O estudo realizado por [Beig et al. 2018] examina usuários móveis que utilizam
o protocolo MPTCP, com o objetivo de otimizar o controle de congestionamento em
redes heterogêneas. O trabalho propõe um algoritmo baseado em Q-learning (QL) para
melhorar o throughput, visando maximizar a taxa de transferência.
Por fim, o artigo de [Vieira and Garcez 2011] desenvolve uma expressão ma-
temática para calcular a probabilidade de perda de dados em servidores. Essa expressão
é empregada para condicionar a estimativa da probabilidade de perda de dados em ser-
vidores analógicos, os quais possuem um buffer finito e recebem fluxos multifatoriais
dependentes do tempo.
A Tabela 1 tem como objetivo esclarecer os padrões adotados pelos trabalhos re-
lacionados em relação às suas métricas e tecnologias empregadas. Podemos notar que
a métrica throughput é frequentemente utilizada como critério de avaliação em diversos
trabalhos. Além disso, outra constante observada é sua utilização como variável de busca
para a concepção de experimentos.
3. Evaluation Method
4. Results and Discussion
Durante a simulação, cada rede neural, como demonstrado na Figura 1, demonstrou um
comportamento ao atribuir a janela de congestionamento Congestion Window (cwnd) com
base em suas decisões. O algoritmo obteve recompensas por decisões corretas. Para
realizar essa análise, foram implementados três modelos distintos. O primeiro modelo,
chamado Flat Neural Network (Flat), foi configurado com apenas duas camadas ocultas.
Gráficos Múltiplos
Rewards
Cwnd 4000
80
60 3000
40 2000
20 1000
0 0
0 25 50 75 100 125 150 175 200
Gráficos Múltiplos
Rewards
40 Cwnd 5000
4000
30
Rewards and Cwnd
3000
reward
20
2000
10
1000
0 0
0 25 50 75 100 125 150 175 200
Por fim, o terceiro modelo possuı́a uma estrutura ainda mais elaborada, compre-
endendo oito camadas ocultas. Essas configurações variadas tinham como objetivo in-
vestigar a influência dos diferentes algoritmos de Q-Learning no desempenho da rede.
Durante a simulação, observou-se que o modelo Deep Multilayer Perceptron (DMP) ma-
nifestou uma vazão de rede inferior em comparação com os demais modelos neurais,
como ilustrado na Figura 3.
Gráficos Múltiplos
Rewards
40 Cwnd
4000
30 3000
20 2000
10 1000
0 0
0 25 50 75 100 125 150 175 200
Este resultado pode ser explicado pelo fato de que o DMP é um algoritmo mais
complexo do que os demais. Sua estrutura de rede neural mais profunda demanda mais
tempo para o processo de treinamento.
Os resultados do experimento indicam que a arquitetura oNN é mais adequada
para o algoritmo Q-Learning em termos de tempo de convergência. No entanto, o
DMP deve ser evitado nesses ambientes, pois apresenta um desempenho inferior em
comparação aos demais algoritmos e um tempo de convergência significativamente maior,
conforme a Figura 5.
• Trazer as Figuras 8, 9, 10, 11 e 12 do TCC com as devidas explicações textuais.
• Trazer as Tabelas 3 e 5 para a seção de resultados com as devidas explicações
textuais.
5. Concluding Remark
Acknowledgments
We acknowledge the financial support of the FAPESP MCTIC/CGI Research project
2018/23097-3 - SFI2 - Slicing Future Internet Infrastructures.
Referências
Beig, E. F. G. M., Daneshjoo, P., Rezaei, S., Movassagh, A. A., Karimi, R., and Qin, Y.
(2018). Mptcp throughput enhancement by q-learning for mobile devices. In 2018
IEEE 20th International Conference on High Performance Computing and Communi-
cations; IEEE 16th International Conference on Smart City; IEEE 4th International
Conference on Data Science and Systems (HPCC/SmartCity/DSS), pages 1171–1176,
Conference. IEEE.
Cisco (2020). Cisco annual internet report (2018–2023) white paper.
Forouzan, B. (2008). Comunicação de Dados e Redes de Computadores. McGraw Hill.
Kurose, J. and Ross, K. (2013). Redes de computadores e a internet: uma abordagem
top-down.
Li, W., Zhang, H., Gao, S., Xue, C., Wang, X., and Lu, S. (2019). Smartcc: A rein-
forcement learning approach for multipath tcp congestion control in heterogeneous
networks. IEEE Journal on Selected Areas in Communications, 37(11):2621–2633.
Tang, F., Fadlullah, Z. M., Mao, B., and Kato, N. (2018). An intelligent traffic load
prediction-based adaptive channel assignment algorithm in sdn-iot: A deep learning
approach. IEEE Internet of Things Journal, 5(6):5141–5154.
Vieira, F. H. T. and Garcez, S. G. (2011). Estimação de probabilidade de perda de da-
dos em redes através de modelagem multifractal de tráfego e teoria de muitas fontes.
Revista de Informática Teórica e Aplicada, 18(1):13–30.
Zhang, H., Li, W., Gao, S., Wang, X., and Ye, B. (2019). Reles: A neural adaptive multi-
path scheduler based on deep reinforcement learning. In IEEE INFOCOM 2019 - IEEE
Conference on Computer Communications, pages 1648–1656, INFOCOM. IEEE.