Escolar Documentos
Profissional Documentos
Cultura Documentos
Rio de Janeiro
2020 1
Sumário
Introdução
Motivação
Objetivos
Técnicas e Modelos
Resultados
Desafios encontrados
Trabalhos Futuros
2
Introdução
• Além disso, dada a crise no Estado do Rio de Janeiro, todos os setores foram
de alguma forma afetados.
3
Motivação
• Baixo investimento em inteligência policial e importância da computação e da
internet na resolução de crimes.
• Estas contém uma miríade de tipos de crimes, dos quais: tráfico de drogas,
tráfico de armas e roubos em geral e foram escritas em português coloquial e
sem restrições de linguagem.
Técnicas e Modelos Utilizados
1. Word Embeddings
.......
Gato
Mato
Fato
6
Técnicas e Modelos Utilizados
2 – Word embeddings: word2vec
Word2vec é um conjunto de modelos de word embedding, ou seja, converte palavras em vetores, que
tem como entrada um corpus (vocabulário) e produz um espaço vetorial. Ele é capaz de tomar
vocabulários com milhares de palavras e transformar cada uma delas em um vetor no espaço,
conservando atributos e relações semânticas, morfológicas e sintáticas.
7
Técnicas e Modelos Utilizados
3 - LSTM
• Long short-term memory ou apenas LSTM é um tipo de Rede neural recorrente, ou seja, que faz loops
em si, tornando possível a retenção da informação, como uma memória.
• No caso da LSTM, a janela de contexto pela qual a informação a ser predita depende é maior,
possibilitando a capacidade de predição em situações onde há dependência de algo já dito, por
exemplo:
As nuvens estão no céu
• Camadas convolucionais são intercaladas com uma camada de pooling, onde ocorre a
operação chamada de max-pooling.
Distribuição de entidades
Total: 90568
O 72579
Matriz de confusão(percentuais)
LOCATION 10710
PERSON 5736 O LOCATION PERSON TIME
TIME 1543
O 96,18% 2,11% 1,43% 0,29%
12
Desafios encontrados
• Aplicações de NLP são caracterizadas por uma grande quantidade de decisões interdependentes
e um vasto conhecimento prévio do domínio de estudo.
• Os relatos utilizados como base de dados foram concebidos em português coloquial e livre,
característico da internet. Portanto, um dos grandes desafios para a validação e para a
implementação da ferramenta são os erros de linguagem, gírias, abreviações, siglas e os
problemas decorrentes desses para a compreensão tanto dos validadores quanto da rede em si,
que recebeu embeddings de corpus mais formais como o Wikipedia e sites de noticias.
• Além dos problemas ligados à linguagem foi também constatada a necessidade de avaliar
conjuntos de objetos que formam uma compreensão única dentro de um contexto. Ex:
Rio LOCATION
de LOCATION
Janeiro LOCATION
Rio de janeiro é o local, composto por três entidades de localização em sequência. Para este
desafio, foi desenvolvido um algoritmo que indentifica entidades em sequência e avalia sua
14
capacidade de acerto.
Trabalhos Futuros
• Os próximos passos visam estudar e aprimorar os word embeddings a
partir de um dicionário mais próximo a realidade das bases utilizadas.