Você está na página 1de 6

Reinforcement Learning hyperparameters influence on

network Congestion Control


Daniel P. Monteiro1 , Larisa F. R. Moreira1,2 , Pedro H. A. D. de Melo1 , Rodrigo Moreira1
1
Institute of Exact and Technological Sciences – Federal University of Viçosa (UFV)
Rio Paranaı́ba – MG – Brazil.
2
Faculty of Computing (FACOM) – Federal University of Uberlândia (UFU)
Uberlândia – MG – Brazil.
{daniel.p.monteiro, larissa.f.rodrigues, pedro.henrique.melo}@ufv.br

larissarodrigues@ufu.br

Abstract. Abstract goes here.

1. Introduction
De acordo com o relatório anual da Cisco, prevê-se que haverá 5,3 bilhões de
usuários da internet até 2023, e aproximadamente 29,3 bilhões de dispositivos conec-
tados [Cisco 2020]. Mesmo com o aumento no volume de dados e usuários na rede, as
perdas de dados durante o processo de comunicação continuam sendo uma realidade. No
entanto, técnicas e abordagens têm sido propostas e desenvolvidas para lidar com essas
situações.
Estratégias para prevenir erros em canais de comunicação são implementadas
através do controle de congestionamento pelo Transmission Control Protocol (TCP). Esse
controle reduz a janela de recepção em caso de perda de pacotes, diminuindo a quantidade
na rede. Assim, o receptor influencia a velocidade de envio, regulando a quantidade de
dados transmitidos. Isso reduz congestionamento e minimiza a perda de pacotes devido
ao excesso de tráfego [Kurose and Ross 2013].
Vários algoritmos fundamentados no Protocolo de TCP com Conjunctive Using
BIC (Binary Increase Congestion Control) (CUBIC) e Regular NewReno (Reno) são
restritos e pouco adaptáveis às mudanças dinâmicas nas redes de comunicação. Esses
algoritmos estabelecem regras previamente, o que significa que, em situações de con-
gestionamento, não ajustam suas regras para se adequarem a diferentes contextos de
rede[Forouzan 2008].
Além disso, esses algoritmos implementam a redução da janela de recepção so-
mente após a perda de pacotes, sem adotar medidas preventivas para evitar tal perda.
Adicionalmente, não têm como foco principal a maximização da vazão da rede durante o
congestionamento, o que resulta na subutilização da capacidade total da rede.
Assim, este trabalho busca analisar algoritmos de congestionamento por meio
do uso de Deep Q-Learning (DQN), desenvolvendo um protocolo que reconheça as
alterações no estado da rede. Este protocolo atribuirá uma janela de congestionamento
ideal para cada cenário, com o objetivo de maximizar a vazão da rede.
• Quarto: A organização do artigo.
2. Related Work
Estudos recentes, como o de [Zhang et al. 2019], buscam aprimorar o protocolo Multi-
path Transmission Control Protocol (MPTCP) através de técnicas de aprendizado por
reforço. Utilizando treinamento assı́ncrono, o trabalho permite a execução paralela do
escalonamento de pacotes, coleta de dados e treinamento da rede neural. O objetivo é
otimizar o escalonamento em tempo real, empregando um algoritmo assı́ncrono para o
treinamento neural.
O trabalho proposto por [Li et al. 2019] visa melhorar a eficiência da rede utili-
zando o algoritmo SmartCC. Esse algoritmo emprega técnicas de aprendizado por reforço
para aprimorar a gestão da janela de congestionamento. O SmartCC utiliza um me-
canismo de aprendizado por reforço assı́ncrono para adquirir um conjunto de regras de
congestionamento.
Já o artigo de [Tang et al. 2018] apresenta uma proposta de algoritmo de previsão
de tráfego fundamentado em aprendizagem profunda. Esse algoritmo tem o objetivo de
antecipar a carga de trabalho e o congestionamento da rede. Após a previsão, é realizada a
alocação parcial de canais com base em aprendizado profundo, visando prevenir possı́veis
congestionamentos ao atribuir canais apropriados.
O estudo realizado por [Beig et al. 2018] examina usuários móveis que utilizam
o protocolo MPTCP, com o objetivo de otimizar o controle de congestionamento em
redes heterogêneas. O trabalho propõe um algoritmo baseado em Q-learning (QL) para
melhorar o throughput, visando maximizar a taxa de transferência.
Por fim, o artigo de [Vieira and Garcez 2011] desenvolve uma expressão ma-
temática para calcular a probabilidade de perda de dados em servidores. Essa expressão
é empregada para condicionar a estimativa da probabilidade de perda de dados em ser-
vidores analógicos, os quais possuem um buffer finito e recebem fluxos multifatoriais
dependentes do tempo.
A Tabela 1 tem como objetivo esclarecer os padrões adotados pelos trabalhos re-
lacionados em relação às suas métricas e tecnologias empregadas. Podemos notar que
a métrica throughput é frequentemente utilizada como critério de avaliação em diversos
trabalhos. Além disso, outra constante observada é sua utilização como variável de busca
para a concepção de experimentos.

Tabela 1. trabalhos relacionados suas métricas e tecnologias utilizadas.


Abordagem Métrica de Avaliação Variável de Busca IA Ambiente para Avaliação
[Tang et al. 2018] throughput controlador SDN Reinforcement Learning API C++/ WILL
[Beig et al. 2018] throughput throughput Q-Learning NS3
[Vieira and Garcez 2011] Probabilidade,buffer buffer Não utiliza próprio
[Zhang et al. 2019] Goodput, delay, OFO, download MinRTT ,Round-Robin Deep reinforcement learning próprio
[Li et al. 2019] ACK, RTT Throughput, RTT, Jitter Reinforcement learning próprio

3. Evaluation Method
4. Results and Discussion
Durante a simulação, cada rede neural, como demonstrado na Figura 1, demonstrou um
comportamento ao atribuir a janela de congestionamento Congestion Window (cwnd) com
base em suas decisões. O algoritmo obteve recompensas por decisões corretas. Para
realizar essa análise, foram implementados três modelos distintos. O primeiro modelo,
chamado Flat Neural Network (Flat), foi configurado com apenas duas camadas ocultas.

Gráficos Múltiplos
Rewards
Cwnd 4000
80

60 3000

Rewards and Cwnd


reward

40 2000

20 1000

0 0
0 25 50 75 100 125 150 175 200

Figura 1. Resultados da Simulação do Modelo Flat e sua Influência no Desempe-


nho de Transmissão de Dados, juntamente com as Recompensas Obtidas.

Durante a simulação, foi observado um aumento progressivo na janela de con-


gestionamento, o qual se mostrou diretamente relacionado a um significativo acréscimo
nas recompensas obtidas. Taxas vantajosas de vazão de rede foram identificadas com a
implementação do modelo Flat.
O segundo modelo, chamado de Deep Neural Network (NN), possuı́a uma ar-
quitetura mais complexa, composta por quatro camadas ocultas. Nessa configuração es-
pecı́fica, observou-se uma média inferior nas taxas de vazão. Essa observação sugere
que a complexidade arquitetônica tem influência na eficiência da rede, destacando a im-
portância de considerações detalhadas sobre a estrutura do modelo na análise do desem-
penho das taxas de transmissão de dados, como ilustrado na Figura 2.

Gráficos Múltiplos
Rewards
40 Cwnd 5000

4000
30
Rewards and Cwnd

3000
reward

20
2000

10
1000

0 0
0 25 50 75 100 125 150 175 200

Figura 2. Impacto do Modelo NN nos Resultados da Simulação e Desempenho


de Transmissão de Dados, acompanhado das Recompensas Obtidas.

Por fim, o terceiro modelo possuı́a uma estrutura ainda mais elaborada, compre-
endendo oito camadas ocultas. Essas configurações variadas tinham como objetivo in-
vestigar a influência dos diferentes algoritmos de Q-Learning no desempenho da rede.
Durante a simulação, observou-se que o modelo Deep Multilayer Perceptron (DMP) ma-
nifestou uma vazão de rede inferior em comparação com os demais modelos neurais,
como ilustrado na Figura 3.

Gráficos Múltiplos
Rewards
40 Cwnd
4000

30 3000

Rewards and Cwnd


reward

20 2000

10 1000

0 0
0 25 50 75 100 125 150 175 200

Figura 3. Resultados da Simulação do ModeloDMP e seu Impacto no Desempe-


nho de Transmissão de Dados, com a análise das Recompensas Obtidas.

A Figura 4 exibe o desempenho do algoritmo Q-Learning para três diferentes ar-


quiteturas: Flat, NN e Deep DMP. As colunas representam a Vazão Máxima da Rede
alcançada pelo algoritmo em função da taxa de aprendizado. Como evidenciado, o algo-
ritmo Flat demonstra o melhor desempenho, seguido pelo NN e, por último, DMP.
O DMP é o algoritmo com o desempenho mais baixo, apresentando uma Vazão
Máxima da Rede significativamente inferior aos demais algoritmos. Este resultado pode
ser explicado pelo fato de que o DMP é um algoritmo mais complexo do que os demais.
Sua estrutura de rede neural é mais profunda, demandando assim mais recursos computa-
cionais para ser executado.

Figura 4. Resultados experimentais mostram desempenho superior do algoritmo


Q-Learning em diferentes arquiteturas.

Os resultados do experimento indicam que o modelo Flat é a arquitetura mais


adequada para o algoritmo Q-Learning em ambientes complexos. O NN pode ser consi-
derado uma alternativa viável.
No entanto, o DMP deve ser evitado nesses ambientes, pois apresenta um desem-
penho inferior em comparação aos demais algoritmos, conforme ilustrado na Figura 4.
A Figura 5 apresenta o tempo de convergência do algoritmo Q-Learning para três
diferentes arquiteturas: Flat, NN e DMP.
Como pode ser observado, o algoritmo Flat apresenta o melhor desempenho, com
um tempo de convergência significativamente inferior aos demais algoritmos. Por outro
lado, o DMP é o algoritmo que demonstra o pior desempenho, com um tempo de con-
vergência mais de 10 vezes maior que o algoritmo Flat.

Figura 5. O tempo de convergência do algoritmo Q-Learning em diferentes ar-


quiteturas.

Este resultado pode ser explicado pelo fato de que o DMP é um algoritmo mais
complexo do que os demais. Sua estrutura de rede neural mais profunda demanda mais
tempo para o processo de treinamento.
Os resultados do experimento indicam que a arquitetura oNN é mais adequada
para o algoritmo Q-Learning em termos de tempo de convergência. No entanto, o
DMP deve ser evitado nesses ambientes, pois apresenta um desempenho inferior em
comparação aos demais algoritmos e um tempo de convergência significativamente maior,
conforme a Figura 5.
• Trazer as Figuras 8, 9, 10, 11 e 12 do TCC com as devidas explicações textuais.
• Trazer as Tabelas 3 e 5 para a seção de resultados com as devidas explicações
textuais.

5. Concluding Remark
Acknowledgments
We acknowledge the financial support of the FAPESP MCTIC/CGI Research project
2018/23097-3 - SFI2 - Slicing Future Internet Infrastructures.

Referências
Beig, E. F. G. M., Daneshjoo, P., Rezaei, S., Movassagh, A. A., Karimi, R., and Qin, Y.
(2018). Mptcp throughput enhancement by q-learning for mobile devices. In 2018
IEEE 20th International Conference on High Performance Computing and Communi-
cations; IEEE 16th International Conference on Smart City; IEEE 4th International
Conference on Data Science and Systems (HPCC/SmartCity/DSS), pages 1171–1176,
Conference. IEEE.
Cisco (2020). Cisco annual internet report (2018–2023) white paper.
Forouzan, B. (2008). Comunicação de Dados e Redes de Computadores. McGraw Hill.
Kurose, J. and Ross, K. (2013). Redes de computadores e a internet: uma abordagem
top-down.
Li, W., Zhang, H., Gao, S., Xue, C., Wang, X., and Lu, S. (2019). Smartcc: A rein-
forcement learning approach for multipath tcp congestion control in heterogeneous
networks. IEEE Journal on Selected Areas in Communications, 37(11):2621–2633.
Tang, F., Fadlullah, Z. M., Mao, B., and Kato, N. (2018). An intelligent traffic load
prediction-based adaptive channel assignment algorithm in sdn-iot: A deep learning
approach. IEEE Internet of Things Journal, 5(6):5141–5154.
Vieira, F. H. T. and Garcez, S. G. (2011). Estimação de probabilidade de perda de da-
dos em redes através de modelagem multifractal de tráfego e teoria de muitas fontes.
Revista de Informática Teórica e Aplicada, 18(1):13–30.
Zhang, H., Li, W., Gao, S., Wang, X., and Ye, B. (2019). Reles: A neural adaptive multi-
path scheduler based on deep reinforcement learning. In IEEE INFOCOM 2019 - IEEE
Conference on Computer Communications, pages 1648–1656, INFOCOM. IEEE.

Você também pode gostar