Você está na página 1de 5

RoboCIn VSSS IA 2021 Team Description Paper

Arthur Henrique Anı́bal da Costa, Breno Mendes de Melo Uchôa Cavalcanti, Erick Vinicius Soares da Silva,
Felipe Bezerra Martins, Gabriel de Melo Evangelista, Juliana do Nascimento Damurie da Silva,
Lucas Henrique Cavalcanti Santos, Maria Luı́sa Leandro de Lima, Mateus Gonçalves Machado,
Matheus Viana Coelho Albuquerque , Tiago da Silva Barros, Pedro Henrique Magalhães Braga,
Hansenclever de Franca Bassani, Edna Natividade da Silva Barros.1

Abstract— Este Team Description Paper (TDP) apresenta a II. UNIFICAÇ ÃO DE C ÓDIGOS ROB ÔCIN
proposta desenvolvida por RoboCIn IA do Centro de In-
formática da UFPE para participar na categoria IEEE Very A unificação de códigos do RobôCIn teve inicio devido
Small Size Soccer (VSSS). Nesta equipe todas as tomadas de ao problema que começamos a ter após a criação da equipe
decisões dos robôs foram aprendidas através de algoritmos de para a categoria Small Size League (SSL), onde ambas
aprendizagem profunda por reforço que visam criar estratégias as equipes estavam trabalhando na implementação de fun-
de jogo de forma cooperativa entres os agentes. Este TDP
descreve os desenvolvimentos da equipe para aprimorar a
cionalidades semelhantes, devido a falta de comunicação e
infraestrutura de software utilizada durante as partidas e do incompatibilidade entre os códigos utilizados. Para isto foi
framework utilizado para aprendizado profundo, também é desenvolvido uma base de códigos que possa ser expandida
apresentados as especificações mecânicas e eletrônicas do robô. para ser utilizada em ambas as categorias.
Neste processo de unificação, temos a oportunidade de mi-
I. INTRODUÇ ÃO grar o nosso código de jogo para estrutura, trazendo diversos
A competição da categoria VSSS exige de cada equipe benefı́cios para a equipe VSSS IA. Apesar de nosso modulo
4 módulos principais: detecção de objetos, planejamento de estratégia funcionar de uma forma bem diferente, pode-
de ações, agente fı́sico e comunicação. Esta equipe tem mos desenvolver de forma conjunta os módulos onde temos
como objetivo a utilização de abordagens de Aprendizagem necessidades comuns, como o modulo de visão, comunicação
por Reforço (AR) [1] profundo, para o desenvolvimento da com simuladores e comunicação com os robôs, além de
inteligência artificial utilizada no planejamento de ações. também podermos utilizar a mesma interface gráfica (Fig.
Contando com o apoio da equipe principal do RobôCIn, 1) e termos um código de jogo implementado na linguagem
o desenvolvimento dos módulos não especı́ficos à AR, é C++, onde obtemos vantagens de performance em relação
desenvolvido objetivando o compartilhamento das estruturas aos códigos que utilizamos durante o desenvolvimento que
comuns entre as equipes, possibilitando o foco no desen- é realizado em Python.
volvimento dos módulos especı́ficos de AR. A unificação de códigos facilitara o intercambio de inte-
Devido a pandemia global de COVID-19, que impossibili- grantes entre equipes dentro do RobôCIn, possibilitando que
tou o acesso ao laboratório da equipe, e o formato virtual da tenhamos uma maior quantidade de integrantes capazes de
competição o foco da equipe foi no desenvolvimento de soft- tanto desenvolver a equipe e também utilizar o código para
ware. Realizamos a migração do planejamento de ações para testar e jogar durante competições. Esta implementação de
a estrutura de código unificado do RobôCIn para possibilitar um código comum é realizada também com o objetivo de
o compartilhamento de código entre diferente equipes dentro no futuro unificar as equipes de VSSS do RobôCIn, tendo
do RobôCIn e facilitando a migração de integrantes entre assim uma equipe única com abordagem hibrida.
equipes, desenvolvemos o framework rSoccer [2] de AR
para VSSS, visando incentivar a utilização desta abordagem III. FRAMEWORK RSOCCER
por outras equipes e acelerando o desenvolvimento de novos Visando melhorar nossa estratégia de treinos, criamos o
membros, e também utilizamos novas abordagens de treino rSoccer [2], um framework de AR completo baseado no
visando aumentar a performance da inteligência artificial OpenAI Gym [3]. A ideia parte dos resultados encorajadores
para situações diversas. de Bassani et al. [4] para serem de fácil adaptação para
Este TDP se divide da seguinte forma: Seção II detal- qualquer agente criado e adaptar também para ambientes da
hamos o código unificado do RobôCIn, seção III apresenta o Small Size League que pretendemos realizar algumas tarefas
framework rSoccer, seção IV explica as novas abordagens de com AR. Foram três principais desafios nesse trabalho:
estrategia utilizadas, seção V descreve as caracterı́sticas do
1) Criar um simulador VSS adaptado do simulador grSim
robô, seção VI apresenta o desenvolvimento para participar
focado para AR
da catégoria 5 vs 5 e a seção VII apresenta as conclusões do
2) Criar uma nova e completa framework de AR seguindo
nosso projeto.
o padrão criado pelo OpenAI Gym, modelando novas
1 Todos os autores estão no RobôCIn no Centro de Informática, Univer- tarefas single e multi agent
sidade Federal de Pernambuco, Brasil robocin@cin.ufpe.br 3) Criar oito ambientes benchmark para ambas categorias
a iteração fı́sica com o ambiente. O ambiente é responsável
por toda comunicação entre o agente e o simulador, por-
tanto cuida de todo pré-processamento de estado cedido
pelo simulador para ser transformado em observação para
o agente e qualquer pré-processamento necessário de ação
para o simulador. O módulo de render é responsável pela
visualização do ambiente. Veja na Fig. 3 a arquitetura geral
do rSoccer.

Fig. 1. Interface Gráfica do RobôCIn VSSS IA Após Unificação

Neste trabalho focaremos apenas na descrição da frame- Fig. 3. Arquitetura dos módulos da Framework
work e dos ambientes criados para o VSSS.1
O módulo de simulador foi desenvolvido usando como
A. Framework base o grSim [5]. Além de corrigir erros de simulação (ex.:
A framework criada é uma ferramenta para criar ambi- bola ter mesma posição que o robô), tivemos que ajustar o
entes de futebol de robô para tarefas simples em cenários simulador para ser apropriado para treinos de Aprendizagem
single-agent quanto complexos em cenários competitivos e por Reforço. As principais alterações realizadas foram:
cooperativos multi-agent. • Remoção da interface gráfica para aumentar perfo-
O ambiente de aprendizado é necessário no desenvolvi- mance, redução de uso de memória
mento de um agente por meio de AR, o aprendizado é • Operações sı́ncronas para resultados de treinos mais
realizado a partir da interação do agente com este am- consistentes
biente (Fig. 2). Para a nossa tarefa de aprender a jogar • Suporte apara diferentes números de robôs em cada time
VSSS, foi necessário o desenvolvimento de um ambiente para incrementar as possibilidades de ambientes
de VSSS onde ele tem como entrada as ações e retorna • Separar os espaços de colisões de objetos para criar
ao agente as próximas observações e uma recompensa, e grupos de colisão
a definição dessas observações e recompensas influencia o • Adicionar restrições às velocidades dos motores para ter
comportamento aprendido, dado isto o seu desenvolvimento mais consistência com o mundo real
é constante na busca de otimizar o nosso time. • Utilizar o simulador como uma biblioteca Python para
uma comunicação mais rápida e prática com o ambiente.
Apesar de termos removido a interface gráfica do simu-
lador, é interessante termos um módulo de render para visu-
alizar como os agentes estão se comportando nos ambientes.
Desenvolvemos o módulo com uma visualização 2D de cada
ambiente utilizando o a biblioteca de interface gráfica pyglet
[6].
B. Ambientes VSSS
Fig. 2. Interação Agente-Ambiente [1]
1) Goleiro: O objetivo do goleiro é impedir que o time
adversário realize um gol, interceptando a bola caso ela
O desenvolvimento da framework se deu necessário pois esteja em direção ao gol. Assim, foi desenvolvido um agente,
nossa infraestrutura anterior [4] apresentava alguns entraves utilizando técnicas de aprendizagem por reforço, para se
no desenvolvimento, principalmente para novos membros, comportar como um goleiro.
ele era de difı́cil entendimento e pouco extensı́vel. Também O algoritmo utilizado para o treinamento do agente foi
não se tinha uma total separação entre o ambiente e o o Deep Deterministic Policy Gradient (DDPG) [7]. O algo-
agente, dificultando também a implementação de diferentes ritmo DDPG é um algoritmo off-policy utilizado em espaços
algoritmos de agente. de ações contı́nuas, na qual utiliza duas redes, da mesma
Nossa framework pode ser dividida em três módulos: forma que os métodos ator-crı́tico, sendo elas: 1. Ator - No
simulador, ambientes e render. O simulador descreve toda qual, dado um estado ele retorna uma ação. 2. Crı́tico - No
1 Código disponı́vel em https://github.com/robocin/ qual, dado um estado e uma ação avalia o quão bom ou ruim
rSoccer foi essa ação realizada nesse estado.
Para o treinamento do agente foi criado um ambiente
no framework rSoccer. Nesse ambiente, além do goleiro a
ser treinado, tem-se um atacante que irá ser um adversário
ao goleiro tentando realizar gols nele. Como observações,
o goleiro recebe como entrada as posições, orientações,
velocidades de todos os robôs em campo e a velocidade
e posição da bola, e a partir dessas observações o goleiro
realiza um ação, sendo ela a velocidade percentual das rodas
do robô, e assim, definimos recompensas para as ações
realizas pelo goleiro em um dado estado, categorizando a
recompensa nas seguintes partes:
Fig. 5. Resultado do treinamento do agente de DDPG no goleiro, é
1) Se movimentar em direção ao eixo vertical da bola mostrado a taxa de gols do atacante contra o goleiro por step de treinamento.
2) Se manter mais próximo da área do goleiro
3) Defender a bola que esteja em direção ao gol
4) Tirar a bola que esteja dentro da área do goleiro compõem a recompensa do atacante. Para o treinamento,
5) Penalidade por sair da área do goleiro como em Bassani et al [4], desenvolvemos um agente de Soft
Assim, a recompensa total que o goleiro recebe é a soma Actor-Critic (SAC). Veja na Figura 6 os resultados atingidos
dessas recompensas citadas. com os agentes desenvolvidos.
Para simulação do ambiente foi utilizado o simulador
rSim, o qual nos permite simular um ambiente VSSS de
forma bem controlada com simulações bem mais rápidas que
execuções em tempo real. Uma renderização do treinamento
pode ser vista na Figura 4. Veja na Figura 5 o resultado
atingido com o agente desenvolvido.

Fig. 6. Resultados dos treinos com agentes de DDPG e SAC no atacante.


As áreas sombreadas das curvas são os desvios padrões e as curvas em
destaque são os desempenhos médios dos agentes.

3) Multi-agente: O ambiente Multi-agente define


observações, ações e recompensas iguais ao ambiente do
atacante. A diferença entre os dois é que há uma recompensa
e observação especı́fica para cada agente.
Desenvolvemos dois agentes usando DDPG e SAC para
serem treinados no ambiente. Veja na Figura 7 os resultados
atingidos com os agentes desenvolvidos. Vemos que os
resultados atingidos por um atacante individual sobressai os
resultados por uma equipe. Esse comportamento se dá por
um agente terminar atrapalhando o outro a fazer gol, uma vez
Fig. 4. Renderização do treinamento do goleiro (robô de cor azul e verde) que os três agentes são recompensados por irem em direção
contra o atacante (robô de amarelo e verde). à bola.

2) Atacante: Desenvolvemos também um ambiente para IV. ESTRATEGIA


treinar um atacante semelhante ao de [4] e usado anterior- A. CoachRL
mente por nossa equipe [8]. As observações deste ambiente Com a finalidade de extrair ainda mais as possibilidades de
são iguais a do ambiente do goleiro e as ações também são estratégias, foi utilizado um sistema de AR para determinar
as mesmas. As recompensas para nosso agente atacante são: a melhor formação dos robôs [9]. Dado que possuı́mos
1) Ir em direção à bola 3 robôs, é atribuı́do a cada um deles uma função, sendo
2) Fazer a bola ir em direção ao gol inimigo elas: goleiro, defensor e atacante. A função do CoachRL é
3) Penalidade por movimentação justamente tornar possı́vel a troca de atribuições de papeis
4) Recompensa por fazer gol dependendo da situação do jogo, isto é, tornar possı́vel que
A soma dessas recompensas multiplicadas por seus pesos o robô que esteja atuando como goleiro passe a atuar como
TABELA I
E SPECIFICAÇ ÕES DA MEC ÂNICA E ELETR ÔNICA DO ROB Ô

Caracterı́sticas Valores
Peso 150g
Dimensões 7,5cm x 7,5 cm x 5,6cm
Raio da Roda 2,5 cm
Microporcessador 2x ATmega328
Comunicação nRFL2401
Motores 2 x Micro Metal 50:1 6V
Driver do Motor TB6612FNG Dual Motor
Bateria 2 x Lipo 300mA 2S

Fig. 7. Resultados dos treinos com agentes de DDPG e SAC no ambiente


de multi-agentes. As áreas sombreadas das curvas são os desvios padrões e
as curvas em destaque são os desempenhos médios dos agentes.

atacante caso sua posição seja aquela que poderá fazer com
que o agente receba a maior recompensa possı́vel naquele
estado. Como mostrado em Pena et al. [9], a quantidade de
pênaltis cometidos diminui e a quantidade de gols aumenta
nas estratégias adotadas pela polı́tica final.
B. Exploitation nos pênaltis
Nosso robô, ao bater o pênalti da forma tradicional,
empurrando a bola até o gol, apresentava certas dificuldades
para marca-lo devido a diversos fatores, entre eles, a investida
do goleiro adversário. Então, decidimos adotar uma nova Fig. 8. Estrutura do robô, feito por meio de impressão 3D.
maneira para o robô lançar a bola ao invés de empurra-lá
até o gol, fazendo com que ele girasse em torno do próprio
eixo ou de um referencial. rádio também está presente no circuito eletrônico, o que
Este comportamento foi possı́vel devido ao funcionamento utilizamos é o módulo nRF24L01+. A imagem do circuito
da tomada de decisão por meio de redes neurais, onde uma pode ser visualizada na Fig. 9. O circuito utilizado em cada
sutil mudança no estado dada pela mudança do posiciona- robô foi impresso em placa de dupla. O desenho do circuito
mento, acarreta uma grande mudança no comportamento foi feito utilizando o Eagle [10], software especializado em
do robô. Este formato de pênalti foi feito empiricamente produzir placas de circuito impresso.
testando diferentes posições e analisando o comportamento
do agente. Adicionamos, também, a este comportamento, um
princı́pio de aleatoriedade, logo o robô irá fazer o pênalti
de diferentes maneiras em posições diferentes devido a essa
aleatoriedade, logo diminui a previsibilidade de como o robô
irá cobrar o pênalti.
V. ROB Ô
O robô utilizado pela equipe tem a configuração descrita
na Tabela I, onde temos a estrutura mecânica do chassis
desenvolvida com impressão 3D. O robô impresso em 3D do
RobôCIn que utilizamos foi descrito e disponibilizado publi-
camente no trabalho de Bassani et al. [4]. A Fig. 8 apresenta
a versão fı́sica do projeto mencionado anteriormente.
O robô foi implementado usando uma configuração lı́der
e subordinado com dois ATmega328 que dividem as respon-
sabilidades das operações locais, como a decodificação de
mensagens e passagem destas informações para os atuadores. Fig. 9. Circuito elétrico montado projetado através do Eagle Circuit CAD.
O controle de potência dos motores é feito através do driver
TB6612FNG. Este módulo driver ponte H duplo 1A para Na etapa de comunicação, onde ocorre a troca de men-
motor DC e motor de passo feito para arduino pode controlar sagens entre o computador e os robôs, optamos pelo módulo
até 2 motores DC (motor de corrente continua) com uma nRF24L01+. Essa escolha foi baseada em experiências an-
corrente constante de 1.2A (3.2A de pico). O módulo de teriores, onde em versões anteriores do robô ao utilizarmos
o rádio xBee Series 2 tı́nhamos problemas de comunicação
como interferência e uma latência alta, então optamos pelo
nRF24L01+ que nos ofereceu uma menor latência. Para a
realização da comunicação, foi definido um protocolo para a
mensagem broadcast enviada do computador para o robô.
Esse protocolo é dividido em seções de bits para conter
informações do ID do robô de destino, a velocidade de cada
motor, e se é preciso que o robô retorne o nı́vel de bateria.
Desta maneira, utilizamos uma topologia de rede em estrela
(Fig. 10) que permite se comunicar com até 5 robôs ao
mesmo tempo, que também é mais flexı́vel que o xBee na
implementação do protocolo de comunicação.

Fig. 11. Exemplo de jogo 5vs5 na framework rSoccer.

descrevemos neste TDP a nossa framework de desenvolvi-


mento de ambientes de VSSS para AR, a nossa migração
para um código de jogo unificado com outras categorias
dentro da equipe, as novas estrategias desenvolvidas para
esta competição e descrevemos nosso robô.
VIII. AGRADECIMENTOS
A equipe gostaria de agradecer o Centro de Informática
da UFPE e a FACEPE pelo apoio financeiro e de recursos
durante todo o processo do projeto. Também gostarı́amos de
agradecer à todo apoio dado pelos professores Edna Barros
e Hansenclever Bassani.
O presente trabalho foi realizado com apoio da
Coordenação de Aperfeiçoamento de Pessoal de Nı́vel Su-
perior - Brasil (CAPES) - Código de Financiamento 001.
R EFER ÊNCIAS
[1] R. S. Sutton and A. G. Barto, Reinforcement learning: An introduction.
Fig. 10. Topologia de rede estrela. Cinco robôs são diretamentes conectados MIT press, 2018.
ao computador. [2] F. B. Martins, M. G. Machado, H. F. Bassani, P. H. Braga, and
E. S. Barros, “rsoccer: A framework for studying reinforcement
learning in small and very small size robot soccer,” arXiv preprint
VI. CATEGORIA 5 VS 5 arXiv:2106.12895, 2021.
[3] G. Brockman, V. Cheung, L. Pettersson, J. Schneider, J. Schul-
A LARC2021 contará com a categoria de VSS aplicado man, J. Tang, and W. Zaremba, “Openai gym,” arXiv preprint
a um time com 5 jogadores. Para este quesito, a nossa arXiv:1606.01540, 2016.
[4] H. F. Bassani, R. A. Delgado, J. N. de O. Lima Junior, H. R. Medeiros,
framework desenvolvida suporta o desenvolvimento de am- P. H. M. Braga, M. G. Machado, L. H. C. Santos, and A. Tapp, “A
bientes de treino com 5 robôs e com o tamanho do campo framework for studying reinforcement learning and sim-to-real in robot
adequado, sendo necessário apenas formalizar este ambiente. soccer,” 2020.
[5] V. Monajjemi, A. Koochakzadeh, and S. S. Ghidary, “grsim – robocup
Para utilizar as politicas aprendidas durante o treino no small size robot soccer simulator,” in RoboCup 2011: Robot Soccer
framework, o nosso no código de jogo já possui suporte para World Cup XV, T. Röfer, N. M. Mayer, J. Savage, and U. Saranlı, Eds.
a definição de 5 jogadores. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012, pp. 450–460.
[6] “pyglet,” 2019. [Online]. Available: https://github.com/pyglet/pyglet
Ainda estamos estudando quais técnicas de AR utilizar [7] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa,
para os 2 novos jogadores da categoria. Para o treinamento D. Silver, and D. Wierstra, “Continuous control with deep reinforce-
dos novos papéis de jogadores, desenvolveremos um novo ment learning,” arXiv preprint arXiv:1509.02971, 2015.
[8] F. B. Martins, H. R. de Medeiros, L. H. C. Santos, M. G. Machado,
ambiente multi-agente para especializar ”zagueiros”. A es- P. H. M. Braga, R. de Azevedo Delgado, H. de Franca Bassani, and
tratégia de troca de papéis pelo CoachRL também será E. N. da Silva Barros, “Robocin ia description paper,” 2020.
utilizada nesse contexto, tendo o coach a tarefa de decidir se [9] C. H. C. Pena, M. G. Machado, M. S. Barros, J. D. Silva, L. D. Maciel,
T. Ing Ren, E. N. Barros, P. H. Braga, and H. F. Bassani, “An analysis
cada jogador é um atacante, zagueiro ou goleiro. of reinforcement learning applied to coach task in ieee very small
size soccer,” in 2020 Latin American Robotics Symposium (LARS),
VII. CONCLUS ÃO 2020 Brazilian Symposium on Robotics (SBR) and 2020 Workshop on
Este TDP descreve o projeto desenvolvido pela equipe Robotics in Education (WRE), 2020, pp. 1–6.
para participar da categoria Very Small Size Soccer. Nós [10] “Cad eagle,” 2016. [Online]. Available: http://www.cadsoftusa.com/

Você também pode gostar