WGRS2024 SBRC

Reinforcement Learning hyperparameters influence on
network Congestion Control

Daniel P. Monteiro1 , Larisa F. R. Moreira1,2 , Pedro H. A. D. de Melo1 , Rodrigo Moreira1
1
Institute of Exact and Technological Sciences – Federal University of Viçosa (UFV)
Rio Paranaı́ba – MG – Brazil.
2
Faculty of Computing (FACOM) – Federal University of Uberlândia (UFU)
Uberlândia – MG – Brazil.
{daniel.p.monteiro, larissa.f.rodrigues, pedro.henrique.melo}@ufv.br
larissarodrigues@ufu.br
Abstract. Abstract goes here.
1. Introduction
De acordo com o relatório anual da Cisco, prevê-se que haverá 5,3 bilhões de
usuários da internet até 2023, e aproximadamente 29,3 bilhões de dispositivos conec-
tados [Cisco 2020]. Mesmo com o aumento no volume de dados e usuários na rede, as
perdas de dados durante o processo de comunicação continuam sendo uma realidade. No
entanto, técnicas e abordagens têm sido propostas e desenvolvidas para lidar com essas
situações.
Estratégias para prevenir erros em canais de comunicação são implementadas
através do controle de congestionamento pelo Transmission Control Protocol (TCP). Esse
controle reduz a janela de recepção em caso de perda de pacotes, diminuindo a quantidade
na rede. Assim, o receptor influencia a velocidade de envio, regulando a quantidade de
dados transmitidos. Isso reduz congestionamento e minimiza a perda de pacotes devido
ao excesso de tráfego [Kurose and Ross 2013].
Vários algoritmos fundamentados no Protocolo de TCP com Conjunctive Using
BIC (Binary Increase Congestion Control) (CUBIC) e Regular NewReno (Reno) são
restritos e pouco adaptáveis às mudanças dinâmicas nas redes de comunicação. Esses
algoritmos estabelecem regras previamente, o que significa que, em situações de con-
gestionamento, não ajustam suas regras para se adequarem a diferentes contextos de
rede[Forouzan 2008].
Além disso, esses algoritmos implementam a redução da janela de recepção so-
mente após a perda de pacotes, sem adotar medidas preventivas para evitar tal perda.
Adicionalmente, não têm como foco principal a maximização da vazão da rede durante o
congestionamento, o que resulta na subutilização da capacidade total da rede.
Assim, este trabalho busca analisar algoritmos de congestionamento por meio
do uso de Deep Q-Learning (DQN), desenvolvendo um protocolo que reconheça as
alterações no estado da rede. Este protocolo atribuirá uma janela de congestionamento
ideal para cada cenário, com o objetivo de maximizar a vazão da rede.
• Quarto: A organização do artigo.
2. Related Work
Estudos recentes, como o de [Zhang et al. 2019], buscam aprimorar o protocolo Multi-
path Transmission Control Protocol (MPTCP) através de técnicas de aprendizado por
reforço. Utilizando treinamento assı́ncrono, o trabalho permite a execução paralela do
escalonamento de pacotes, coleta de dados e treinamento da rede neural. O objetivo é
otimizar o escalonamento em tempo real, empregando um algoritmo assı́ncrono para o
treinamento neural.
O trabalho proposto por [Li et al. 2019] visa melhorar a eficiência da rede utili-
zando o algoritmo SmartCC. Esse algoritmo emprega técnicas de aprendizado por reforço
para aprimorar a gestão da janela de congestionamento. O SmartCC utiliza um me-
canismo de aprendizado por reforço assı́ncrono para adquirir um conjunto de regras de
congestionamento.
Já o artigo de [Tang et al. 2018] apresenta uma proposta de algoritmo de previsão
de tráfego fundamentado em aprendizagem profunda. Esse algoritmo tem o objetivo de
antecipar a carga de trabalho e o congestionamento da rede. Após a previsão, é realizada a
alocação parcial de canais com base em aprendizado profundo, visando prevenir possı́veis
congestionamentos ao atribuir canais apropriados.
O estudo realizado por [Beig et al. 2018] examina usuários móveis que utilizam
o protocolo MPTCP, com o objetivo de otimizar o controle de congestionamento em
redes heterogêneas. O trabalho propõe um algoritmo baseado em Q-learning (QL) para
melhorar o throughput, visando maximizar a taxa de transferência.
Por fim, o artigo de [Vieira and Garcez 2011] desenvolve uma expressão ma-
temática para calcular a probabilidade de perda de dados em servidores. Essa expressão
é empregada para condicionar a estimativa da probabilidade de perda de dados em ser-
vidores analógicos, os quais possuem um buffer finito e recebem fluxos multifatoriais
dependentes do tempo.
A Tabela 1 tem como objetivo esclarecer os padrões adotados pelos trabalhos re-
lacionados em relação às suas métricas e tecnologias empregadas. Podemos notar que
a métrica throughput é frequentemente utilizada como critério de avaliação em diversos
trabalhos. Além disso, outra constante observada é sua utilização como variável de busca
para a concepção de experimentos.
Tabela 1. trabalhos relacionados suas métricas e tecnologias utilizadas.

Abordagem Métrica de Avaliação Variável de Busca IA Ambiente para Avaliação
[Tang et al. 2018] throughput controlador SDN Reinforcement Learning API C++/ WILL
[Beig et al. 2018] throughput throughput Q-Learning NS3
[Vieira and Garcez 2011] Probabilidade,buffer buffer Não utiliza próprio
[Zhang et al. 2019] Goodput, delay, OFO, download MinRTT ,Round-Robin Deep reinforcement learning próprio
[Li et al. 2019] ACK, RTT Throughput, RTT, Jitter Reinforcement learning próprio
3. Evaluation Method
4. Results and Discussion
Durante a simulação, cada rede neural, como demonstrado na Figura 1, demonstrou um
comportamento ao atribuir a janela de congestionamento Congestion Window (cwnd) com
base em suas decisões. O algoritmo obteve recompensas por decisões corretas. Para
realizar essa análise, foram implementados três modelos distintos. O primeiro modelo,
chamado Flat Neural Network (Flat), foi configurado com apenas duas camadas ocultas.
Gráficos Múltiplos
Rewards
Cwnd 4000
80
60 3000
Rewards and Cwnd

reward
40 2000
20 1000
0 0
0 25 50 75 100 125 150 175 200
Figura 1. Resultados da Simulação do Modelo Flat e sua Influência no Desempe-

nho de Transmissão de Dados, juntamente com as Recompensas Obtidas.
Durante a simulação, foi observado um aumento progressivo na janela de con-

gestionamento, o qual se mostrou diretamente relacionado a um significativo acréscimo
nas recompensas obtidas. Taxas vantajosas de vazão de rede foram identificadas com a
implementação do modelo Flat.
O segundo modelo, chamado de Deep Neural Network (NN), possuı́a uma ar-
quitetura mais complexa, composta por quatro camadas ocultas. Nessa configuração es-
pecı́fica, observou-se uma média inferior nas taxas de vazão. Essa observação sugere
que a complexidade arquitetônica tem influência na eficiência da rede, destacando a im-
portância de considerações detalhadas sobre a estrutura do modelo na análise do desem-
penho das taxas de transmissão de dados, como ilustrado na Figura 2.
Rewards
40 Cwnd 5000
4000
30
Rewards and Cwnd
3000
reward
20
2000
10
1000
0 0
0 25 50 75 100 125 150 175 200
Figura 2. Impacto do Modelo NN nos Resultados da Simulação e Desempenho

de Transmissão de Dados, acompanhado das Recompensas Obtidas.
Por fim, o terceiro modelo possuı́a uma estrutura ainda mais elaborada, compre-
endendo oito camadas ocultas. Essas configurações variadas tinham como objetivo in-
vestigar a influência dos diferentes algoritmos de Q-Learning no desempenho da rede.
Durante a simulação, observou-se que o modelo Deep Multilayer Perceptron (DMP) ma-
nifestou uma vazão de rede inferior em comparação com os demais modelos neurais,
como ilustrado na Figura 3.
Rewards
40 Cwnd
4000
30 3000
Rewards and Cwnd

reward
20 2000
10 1000
0 0
0 25 50 75 100 125 150 175 200
Figura 3. Resultados da Simulação do ModeloDMP e seu Impacto no Desempe-

nho de Transmissão de Dados, com a análise das Recompensas Obtidas.
A Figura 4 exibe o desempenho do algoritmo Q-Learning para três diferentes ar-

quiteturas: Flat, NN e Deep DMP. As colunas representam a Vazão Máxima da Rede
alcançada pelo algoritmo em função da taxa de aprendizado. Como evidenciado, o algo-
ritmo Flat demonstra o melhor desempenho, seguido pelo NN e, por último, DMP.
O DMP é o algoritmo com o desempenho mais baixo, apresentando uma Vazão
Máxima da Rede significativamente inferior aos demais algoritmos. Este resultado pode
ser explicado pelo fato de que o DMP é um algoritmo mais complexo do que os demais.
Sua estrutura de rede neural é mais profunda, demandando assim mais recursos computa-
cionais para ser executado.
Figura 4. Resultados experimentais mostram desempenho superior do algoritmo

Q-Learning em diferentes arquiteturas.
Os resultados do experimento indicam que o modelo Flat é a arquitetura mais

adequada para o algoritmo Q-Learning em ambientes complexos. O NN pode ser consi-
derado uma alternativa viável.
No entanto, o DMP deve ser evitado nesses ambientes, pois apresenta um desem-
penho inferior em comparação aos demais algoritmos, conforme ilustrado na Figura 4.
A Figura 5 apresenta o tempo de convergência do algoritmo Q-Learning para três
diferentes arquiteturas: Flat, NN e DMP.
Como pode ser observado, o algoritmo Flat apresenta o melhor desempenho, com
um tempo de convergência significativamente inferior aos demais algoritmos. Por outro
lado, o DMP é o algoritmo que demonstra o pior desempenho, com um tempo de con-
vergência mais de 10 vezes maior que o algoritmo Flat.
Figura 5. O tempo de convergência do algoritmo Q-Learning em diferentes ar-

quiteturas.
Este resultado pode ser explicado pelo fato de que o DMP é um algoritmo mais
complexo do que os demais. Sua estrutura de rede neural mais profunda demanda mais
tempo para o processo de treinamento.
Os resultados do experimento indicam que a arquitetura oNN é mais adequada
para o algoritmo Q-Learning em termos de tempo de convergência. No entanto, o
DMP deve ser evitado nesses ambientes, pois apresenta um desempenho inferior em
comparação aos demais algoritmos e um tempo de convergência significativamente maior,
conforme a Figura 5.
• Trazer as Figuras 8, 9, 10, 11 e 12 do TCC com as devidas explicações textuais.
• Trazer as Tabelas 3 e 5 para a seção de resultados com as devidas explicações
textuais.
5. Concluding Remark
Acknowledgments
We acknowledge the financial support of the FAPESP MCTIC/CGI Research project
2018/23097-3 - SFI2 - Slicing Future Internet Infrastructures.
Referências
Beig, E. F. G. M., Daneshjoo, P., Rezaei, S., Movassagh, A. A., Karimi, R., and Qin, Y.
(2018). Mptcp throughput enhancement by q-learning for mobile devices. In 2018
IEEE 20th International Conference on High Performance Computing and Communi-
cations; IEEE 16th International Conference on Smart City; IEEE 4th International
Conference on Data Science and Systems (HPCC/SmartCity/DSS), pages 1171–1176,
Conference. IEEE.
Cisco (2020). Cisco annual internet report (2018–2023) white paper.
Forouzan, B. (2008). Comunicação de Dados e Redes de Computadores. McGraw Hill.
Kurose, J. and Ross, K. (2013). Redes de computadores e a internet: uma abordagem
top-down.
Li, W., Zhang, H., Gao, S., Xue, C., Wang, X., and Lu, S. (2019). Smartcc: A rein-
forcement learning approach for multipath tcp congestion control in heterogeneous
networks. IEEE Journal on Selected Areas in Communications, 37(11):2621–2633.
Tang, F., Fadlullah, Z. M., Mao, B., and Kato, N. (2018). An intelligent traffic load
prediction-based adaptive channel assignment algorithm in sdn-iot: A deep learning
approach. IEEE Internet of Things Journal, 5(6):5141–5154.
Vieira, F. H. T. and Garcez, S. G. (2011). Estimação de probabilidade de perda de da-
dos em redes através de modelagem multifractal de tráfego e teoria de muitas fontes.
Revista de Informática Teórica e Aplicada, 18(1):13–30.
Zhang, H., Li, W., Gao, S., Wang, X., and Ye, B. (2019). Reles: A neural adaptive multi-
path scheduler based on deep reinforcement learning. In IEEE INFOCOM 2019 - IEEE
Conference on Computer Communications, pages 1648–1656, INFOCOM. IEEE.

WGRS2024 SBRC

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

WGRS2024 SBRC

Enviado por

Direitos autorais:

Formatos disponíveis

Reinforcement Learning hyperparameters influence on

network Congestion Control

Abstract. Abstract goes here.

Tabela 1. trabalhos relacionados suas métricas e tecnologias utilizadas.

Rewards and Cwnd

Figura 1. Resultados da Simulação do Modelo Flat e sua Influência no Desempe-

Durante a simulação, foi observado um aumento progressivo na janela de con-

Figura 2. Impacto do Modelo NN nos Resultados da Simulação e Desempenho

Rewards and Cwnd

Figura 3. Resultados da Simulação do ModeloDMP e seu Impacto no Desempe-

A Figura 4 exibe o desempenho do algoritmo Q-Learning para três diferentes ar-

Figura 4. Resultados experimentais mostram desempenho superior do algoritmo

Os resultados do experimento indicam que o modelo Flat é a arquitetura mais

Figura 5. O tempo de convergência do algoritmo Q-Learning em diferentes ar-

Você também pode gostar