Você está na página 1de 13

Universidade do Estado do Rio de Janeiro

Centro de Tecnologia e Ciências


Instituto de Matemática e Estatística

Ferramentas para Recuperação da Informação e Extração


de Conhecimento Aplicada à Segurança Pública

Leonídia Barreto, Fernando Luiz de Assis

Orientadorª: Prof.ª Dr.ª Karla Figueiredo

Rio de Janeiro
2020 1
Sumário
 Introdução

 Motivação

 Objetivos

 Técnicas e Modelos

 Resultados

Desafios encontrados

 Trabalhos Futuros
2
 Introdução

• A Segurança, juntamente com a Saúde e a Educação é um dos pilares da


estrutura social e por isso deve sempre incluída nos programas de governo.

• Atualmente a informação e os dados da área ainda carecem de tratamento,


documentação, organização, e finalmente, de desenvolvimento de modelos
e métodos que permitam a extração de conhecimento para que seja
possível o uso inteligente dos recursos disponíveis.

• Além disso, dada a crise no Estado do Rio de Janeiro, todos os setores foram
de alguma forma afetados.

3
 Motivação
• Baixo investimento em inteligência policial e importância da computação e da
internet na resolução de crimes.

• O disque-denúncia se apresenta como a principal frente de comunicação do


cidadão com as forças policiais.

Fontes pesquisadas em 05/01/2020 4


 Objetivos
• O trabalho em questão visa, utilizando-se de ferramentas e técnicas de deep
learning, desenvolver um sistema de reconhecimento de entidades nomeadas
com foco em segurança pública.

• As bases de dados, tanto de treinamento quanto de testes, são um acervo de


relatos submetidos pela população ao aplicativo móvel do Disque-denúncia.

• Estas contém uma miríade de tipos de crimes, dos quais: tráfico de drogas,
tráfico de armas e roubos em geral e foram escritas em português coloquial e
sem restrições de linguagem.
 Técnicas e Modelos Utilizados
1. Word Embeddings

Palavra Modelo Word Embedding

Gato = [0, 1, 0, ...] V(Gato) = [-0.9, 1.3, ...]

.......
Gato
Mato
Fato

Esparso / Espalhado Denso / Concentrado

Alta dimensionalidade Baixa dimensionalidade

6
 Técnicas e Modelos Utilizados
2 – Word embeddings: word2vec
Word2vec é um conjunto de modelos de word embedding, ou seja, converte palavras em vetores, que
tem como entrada um corpus (vocabulário) e produz um espaço vetorial. Ele é capaz de tomar
vocabulários com milhares de palavras e transformar cada uma delas em um vetor no espaço,
conservando atributos e relações semânticas, morfológicas e sintáticas.

7
 Técnicas e Modelos Utilizados
3 - LSTM

• Long short-term memory ou apenas LSTM é um tipo de Rede neural recorrente, ou seja, que faz loops
em si, tornando possível a retenção da informação, como uma memória.
• No caso da LSTM, a janela de contexto pela qual a informação a ser predita depende é maior,
possibilitando a capacidade de predição em situações onde há dependência de algo já dito, por
exemplo:
As nuvens estão no céu

Eu sou francês, nasci em Marselha, ..., sou fluente em francês

Uma entrada Xt entra, passa por uma rede neural, onde


Uma LSTM conserva a informação ao longo dos loops
ocorrem loops e é gerada uma saída ht. Isso é uma RNN.
8
Fonte: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
 Técnicas e Modelos Utilizados
4 - CNN

• Redes neural convolucional é um tipo de rede neural do tipo feed-forward, ou seja, se


propaga em uma única direção.

• É capaz de expressar modelos computacionalmente grandes enquanto mantém uma


quantidade pequena de parâmetros que descrevem o comportamento de um neurônio.

• Camadas convolucionais são intercaladas com uma camada de pooling, onde ocorre a
operação chamada de max-pooling.

• O max-pooling é capaz de extrair o máximo de características apartir


de uma quantidade pequena de blocos da camada anterior.

Exemplo de Max-pooling Representação das camadas convolucionais intercaladas


com a de pooling
9
 Resultados
• A princípio a aplicação tratava de classificar sete entidades, das quais: Pessoa, Localização, Organização,
Evento, Obras de Arte, Bem de Consumo e O (que são objetos sem valor de entidade, desconsiderados na
visualização). Estas entidades foram classificadas pela API do Google Cloud Computing e posteriormente
validadas manualmente.
Distribuição de entidades
total: 210583
Accuracy: 88.263987
O 160015
CONSUMER_GOOD 4836
OTHER 21636
ORGANIZATION 2398
PERSON 9951
LOCATION 8002
EVENT 3459
WORK_OF_ART 286

Matriz de confusão (percentual)


O CONSUMER_GOOD OTHER ORGANIZATION PERSON LOCATION EVENT WORK_OF_ART
O 96,29% 0,26% 2,12% 0,07% 0,41% 0,82% 0,02% 0,00%
CONSUMER_GOOD 3,21% 72,67% 19,69% 0,23% 0,61% 3,59% 0,00% 0,00%
OTHER 25,26% 0,42% 67,24% 0,13% 2,09% 4,44% 0,42% 0,00%
ORGANIZATION 18,64% 0,14% 23,70% 29,91% 7,23% 20,38% 0,00% 0,00%
PERSON 20,46% 0,11% 12,19% 0,27% 63,81% 3,09% 0,08% 0,00%
LOCATION 14,61% 0,00% 4,51% 0,00% 0,09% 80,78% 0,00% 0,00%
EVENT 13,27% 0,20% 65,67% 0,30% 2,30% 1,40% 16,87% 0,00%
WORK_OF_ART 1,75% 3,51% 94,74% 0,00% 0,00% 0,00% 0,00% 0,00%
10
 Resultados
• Posteriormente chegou-se a conclusão que entidades de maior valor para o domínio deveriam ser analisadas,
então reduziu-se o escopo para avaliar as entidades de Pessoa, Localização e adicionou-se a entidade de
tempo.

Distribuição de entidades
Total: 90568
O 72579
Matriz de confusão(percentuais)
LOCATION 10710
PERSON 5736 O LOCATION PERSON TIME
TIME 1543
O 96,18% 2,11% 1,43% 0,29%

LOCATION 10,90% 87,11% 1,99% 0,00%


Parâmetros de Acerto PERSON 11,96% 2,87% 85,18% 0,00%
Accuracy: 0,930476
TIME 51,14% 0,00% 0,21% 48,65%
Precision: 0,827704
Recall: 0,825402
F1 score: 0,826551

12
 Desafios encontrados
• Aplicações de NLP são caracterizadas por uma grande quantidade de decisões interdependentes
e um vasto conhecimento prévio do domínio de estudo.

• Os relatos utilizados como base de dados foram concebidos em português coloquial e livre,
característico da internet. Portanto, um dos grandes desafios para a validação e para a
implementação da ferramenta são os erros de linguagem, gírias, abreviações, siglas e os
problemas decorrentes desses para a compreensão tanto dos validadores quanto da rede em si,
que recebeu embeddings de corpus mais formais como o Wikipedia e sites de noticias.

• Além dos problemas ligados à linguagem foi também constatada a necessidade de avaliar
conjuntos de objetos que formam uma compreensão única dentro de um contexto. Ex:

Rio LOCATION
de LOCATION
Janeiro LOCATION

Rio de janeiro é o local, composto por três entidades de localização em sequência. Para este
desafio, foi desenvolvido um algoritmo que indentifica entidades em sequência e avalia sua
14
capacidade de acerto.
 Trabalhos Futuros
• Os próximos passos visam estudar e aprimorar os word embeddings a
partir de um dicionário mais próximo a realidade das bases utilizadas.

• Ajustar propriedades ligadas a vetorização das palavras, a fim de obter


melhores predições.