Você está na página 1de 85

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS

Programa de Pós-Graduação em Informática

Úrsula Rosa Monteiro de Castro

EXPLORANDO APRENDIZAGEM SUPERVISIONADA EM DADOS


HETEROGÊNEOS PARA PREDIÇÃO DE CRIMES

Belo Horizonte
2020
Úrsula Rosa Monteiro de Castro

EXPLORANDO APRENDIZAGEM SUPERVISIONADA EM DADOS


HETEROGÊNEOS PARA PREDIÇÃO DE CRIMES

Dissertação apresentada ao Programa de


Pós-Graduação em Informática da Pontifı́cia
Universidade Católica de Minas Gerais, como
requisito parcial para obtenção do tı́tulo de
Mestre em Informática.

Orientador: Prof. Dr. Wladmir


Cardoso Brandão

Belo Horizonte
2020
FICHA CATALOGRÁFICA
Elaborada pela Biblioteca da Pontifícia Universidade Católica de Minas Gerais

Castro, Úrsula Rosa Monteiro de


C355e Explorando aprendizagem supervisionada em dados heterogêneos para
predição de crimes / Úrsula Rosa Monteiro de Castro. Belo Horizonte, 2020.
99 f. : il.

Orientador: Wladmir Cardoso Brandão


Dissertação (Mestrado) – Pontifícia Universidade Católica de Minas Gerais.
Programa de Pós-Graduação em Informática

1. Conduta criminosa - Previsão - Pesquisa. 2. Segurança pública - Brasil.


3. Tecnologia e direito. 4. Comunicações digitais. 5. Crime e criminosos -
Processamento de dados. 6. Sistemas de recuperação da informação. 7. Sistemas
de transmissão de dados. I. Brandão, Wladmir Cardoso. II. Pontifícia
Universidade Católica de Minas Gerais. Programa de Pós-Graduação em
Informática. III. Título.

CDU: 681.3.01:621.39
Ficha catalográfica elaborada por Fernanda Paim Brito - CRB 6/2999
Úrsula Rosa Monteiro de Castro

EXPLORANDO APRENDIZAGEM SUPERVISIONADA EM DADOS


HETEROGÊNEOS PARA PREDIÇÃO DE CRIMES

Dissertação apresentada ao Programa


de Pós-Graduação em Informática da
Pontifı́cia Universidade Católica de
Minas Gerais, como requisito parcial
para obtenção do tı́tulo de Mestre em
Informática.

Prof. Dr. Wladmir Cardoso Brandão –


PUC Minas (Orientador)

Prof. Dr. Pedro Olmo Stancioli Vaz De


Melo – UFMG (Banca Examinadora)

Prof. Dra. Aline Marins Paes Carvalho –


UFF (Banca Examinadora)

Prof. Dr. Luis Enrique Zárate – PUC


Minas (Banca Examinadora)

Belo Horizonte, 04 de Setembro de 2020.


Dedico esta dissertação:
Aos meu pais, Soraia e Marco.
À minha irmã, Tamı́ris.
Ao meu namorado, Fernando.
Aos meus amigos e familiares.
AGRADECIMENTOS

Agradeço primeiramente a Deus pela força espiritual para realização deste trabalho.

Aos meu pais, Soraia e Marco, pelo amor, carinho, incentivo e orgulho dos meus
estudos, muito obrigada.

À minha irmã, Tamı́ris, pelo carinho, paciência, apoio e incentivo em todos os


momentos, muito obrigada.

Ao meu namorado, Fernando, pelo amor, carinho, apoio e incentivo ao longo desta
jornada, muito obrigada.

Agradeço aos meus amigos, em especial, ao Marcos por todas as conversas, pelas
longas horas no laboratório e por toda preocupação comigo ao longo desta jornada, e ao
Patrick por sempre estar presente, mesmo estando longe fisicamente, e por todo o apoio
e incentivo ao longo desta caminhada.

Agradeço à secretaria do Mestrado em Informática da PUC Minas pelas


prestabilidade e, especialmente, agradeço à Giovana pela atenção, disponibilidade e grande
carinho.

Agradeço à Secretaria de Segurança Pública de Minas Gerais pelos dados cedidos


para a realização deste trabalho.

Agradeço ao Conselho Nacional de Desenvolvimento Cientı́fico e Tecnológico


(CNPQ) e à Coordenação de Aperfeiçoamento de Pessoal de Nı́vel Superior (CAPES)
pelo apoio financeiro.

Muito obrigada!
“...E nunca considerem seu estudo como uma
obrigação, mas sim como uma oportunidade
invejável de aprender, sobre a influência
libertadora da beleza no domı́nio do espı́rito,
para seu prazer pessoal e para o proveito da
comunidade à qual pertencerá o seu trabalho
futuro.”

Albert Einstein
RESUMO

A área de análise de crimes apoia agências de segurança pública na prevenção e


resolução efetiva de crimes, fornecendo métodos e técnicas para entender os padrões de
comportamento criminal. As estratégias de redução de crime dependem principalmente
de ações preventivas, como decidir onde realizar patrulhamento e alocar mais policiais.
A avaliação dessas ações é essencial na revisão de estratégias para garantir eficácia.
No presente trabalho, é proposto uma abordagem de aprendizagem supervisionada que
explora fontes heterogêneas de dados para entender os padrões de comportamento criminal
e prever a ocorrência de crimes. Particularmente, são selecionadas e combinadas evidências
dessas fontes de dados para prever a tendência e o número de ocorrências de tipos de crimes
por regiões geográficas. A abordagem proposta explora cinco técnicas de aprendizagem
de máquina para predição: k-Nearest Neighbor (k -NN), Support Vector Machine (SVM),
Random Forest (RF), eXtreme Gradient Boosting (XGBoost) e a rede neural Long Short
Term Memory (LSTM). Os resultados experimentais mostram que a abordagem proposta
atinge 91% de acurácia e 98% de precisão na predição de tendência de ocorrência de crimes.
Além disso, é demonstrado que fontes de dados heterogêneas podem ser efetivamente
utilizadas por técnicas supervisionadas para melhorar o desempenho da predição.

Palavras-chave: Análise criminal. Predição de crime. Aprendizagem de máquina.


Aprendizagem supervisionada.
ABSTRACT

Crime analysis is the area that supports public security agencies in preventing and
effectively solving crimes, providing methods and techniques to understand criminal
behavior patterns. Crime reduction strategies depend mainly on preventive actions, such
as deciding where to conduct patrols and allocating more police officers. The evaluation
of these actions is essential in reviewing strategies to ensure effectiveness. In this work,
we propose a supervised learning approach that explores heterogeneous sources of data to
understand criminal behavior patterns and predict the occurrence of crimes. In particular,
we select and combine evidence from these data sources to predict the trend and number of
occurrences of types of crime by geographic regions. Our approach explores five machine
learning techniques for prediction: k -Nearest Neighbor (k-NN), Support Vector Machine
(SVM), Random Forest (RF), eXtreme Gradient Boosting (XGBoost) and the Long Short
Term Memory neural network (LSTM). The experimental results show that our approach
reaches 91% accuracy and 98% precision in predicting the tendency for crimes to occur.
In addition, we demonstrate that heterogeneous data sources can be effectively used by
supervised techniques to improve prediction performance.

Keywords: Crime analysis. Crime prediction. Machine learning. Supervised learning.


LISTA DE FIGURAS

FIGURA 1 – Exemplo de hiperplano ótimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

FIGURA 2 – Exemplo de estrutura de uma Rede Neural Artificial . . . . . . . . . . . . . . . 38

FIGURA 3 – Imagem da estrutura de uma Rede LSTM . . . . . . . . . . . . . . . . . . . . . . . . 39

FIGURA 4 – Total de registros por ano - Base não oficial . . . . . . . . . . . . . . . . . . . . . . . 56

FIGURA 5 – Frequência dos tipos de crime por mês e ano - Base não oficial . . . . . . . 57

FIGURA 6 – Frequência dos registros por ano e gênero da vı́tima - Base não oficial 57

FIGURA 7 – Tipo de crime por gênero da vı́tima - Base não oficial . . . . . . . . . . . . . . 58

FIGURA 8 – Frequência de registros por mês e dias da semana por ano - Base não
oficial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

FIGURA 9 – Frequência de registros por região e perı́odo do dia por ano - Base não
oficial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

FIGURA 10 – Total de registros por ano - Base oficial . . . . . . . . . . . . . . . . . . . . . . . . . . 59

FIGURA 11 – Frequência dos tipos de crime por mês e ano - Base oficial . . . . . . . . . 60

FIGURA 12 – Frequência de registros por ano e gênero da vı́tima - Base oficial . . . . 60

FIGURA 13 – Tipo de crime por gênero da vı́tima - Base oficial . . . . . . . . . . . . . . . . . 61

FIGURA 14 – Frequência de registros por mês e dias da semana por ano - Base oficial 61

FIGURA 15 – Frequência de registros por região e perı́odo do dia por ano - Base
oficial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

FIGURA 16 – Diagrama da análise de complementariedade . . . . . . . . . . . . . . . . . . . . . 63

FIGURA 17 – Arquitetura da abordagem proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

FIGURA 1 – Primeira página de um boletim de ocorrência . . . . . . . . . . . . . . . . . . . . . . 97

FIGURA 2 – Última página de um boletim de ocorrência . . . . . . . . . . . . . . . . . . . . . . . 98

FIGURA 1 – Etapas de registro no site Onde Fui Roubado . . . . . . . . . . . . . . . . . . . . . . 99


LISTA DE TABELAS

TABELA 1 – Número de artigos em cada etapa da RSL . . . . . . . . . . . . . . . . . . . . . . . . 45

TABELA 2 – Informações dos trabalhos analisados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

TABELA 3 – Objetivo de predição dos artigos selecionados . . . . . . . . . . . . . . . . . . . . . 52

TABELA 4 – Hiperparâmentros das técnicas de aprendizagem utilizados para gerar


os modelos preditivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

TABELA 5 – Hiperparâmetros utilizados com a técnica LSTM . . . . . . . . . . . . . . . . . . 72

TABELA 6 – Métricas de avaliação dos modelos de aprendizagem supervisionada


para predição da tendência de ocorrências de crimes . . . . . . . . . . . . . . . . . . . . 74

TABELA 7 – Métricas de avaliação para predição da tendência de ocorrência de crimes 75

TABELA 8 – Métricas de avaliação de erro dos modelos de aprendizagem para


predição do número de ocorrências de crime por região . . . . . . . . . . . . . . . . . 75

TABELA 9 – Definições dos tipos de crimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85


LISTA DE QUADROS

QUADRO 1 – Principais atributos de um boletim de ocorrência . . . . . . . . . . . . . . . . . 32


QUADRO 2 – Base de dados pesquisadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
QUADRO 3 – Artigos selecionados pela revisão sistemática . . . . . . . . . . . . . . . . . . . . . 45
QUADRO 4 – Principais atributos do Onde Fui Roubado . . . . . . . . . . . . . . . . . . . . . . . 56
QUADRO 5 – Atributos selecionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
QUADRO 6 – Atributos utilizados na análise de complementariedade . . . . . . . . . . . . . 67
LISTA DE ABREVIATURAS E SIGLAS

AG - Algoritmo Genético

BO - Boletim de Ocorrência

CF - Constituição Federal

DW - Data Warehouse

DM - Mineração de dados, do inglês Data-Mining

k-NN - k-Nearest Neighbor

LSTM - Long Short Term Memory

MAE - Erro Médio Absoluto, do inglês Mean Absolute Error

MG - Minas Gerais

MSE - Erro Quadrático Médio, do inglês Mean Squared Error

PIB - Produto Interno Bruto

REDS - Registro de Evento de Defesa Social

RF - Random Forest

RSL - Revisão Sistemática da Literatura

SESP - Secretaria de Estado de Segurança Pública

SENASP - Secretaria Nacional de Segurança Pública

SVM - Support Vector Machine

SVR - Support Vector Regression

XGBoost - eXtreme Gradient Boosting


SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.1 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.3 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.4 Organização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1 Crime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Boletim de Ocorrência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3 Aprendizagem de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.1 Técnicas de Aprendizagem Supervisionada . . . . . . . . . . . . . . . . . . 33
2.3.1.1 k -Nearest Neighbor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.1.2 Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.1.3 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.1.4 eXtreme Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.1.5 Long Short Term Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.2 Métricas de avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.3 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.4 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.5 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.6 F1-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.7 Erro Quadrático Médio (MSE) . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.8 Erro Médio Absoluto (MAE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1 Revisão Sistemática da Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.1 Questão de pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.2 Condução da RSL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Análise dos resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.1 [QE1] Quais evidências estão sendo utilizadas para
identificação de padrões na predição de crimes? . . . . . . . . . . . . . 48
3.2.2 [QE2] Quais bases de dados são usadas para predição de crimes? 49
3.2.3 [QE3] Quais técnicas estão sendo utilizadas para predição de
crimes? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4 BASES DE DADOS CRIMINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55


4.1 Site Onde Fui Roubado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2 Base Não Oficial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3 Base Oficial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.4 Análise de Complementariedade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5 ABORDAGEM PROPOSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

6 EXPERIMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2 Configuração dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

7 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

8 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

REFERÊNCIAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

APÊNDICE A -- TABELA COM DEFINIÇÕES DE TIPOS DE CRIMES. . . . . . . . . 85

ANEXO A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

ANEXO B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
25

1 INTRODUÇÃO

Humanos são seres adaptados à vida em sociedade reguladas por regras e


convenções visando convivência harmoniosa para sobrevivência coletiva. Muitas dessas
regras e convenções estão relacionadas à segurança, um direito fundamental contido na
Declaração Universal dos Direitos Humanos (Nações Unidas, 2015). Particularmente no
Brasil o Artigo 6º da Constituição Federal (CF) de 1988 garante aos cidadãos o direito à
segurança e o Artigo 144º atribui a segurança pública como dever do Estado, e direito e
responsabilidade de todos os seus cidadãos (Brasil, 1988).

Segurança pública é uma preocupação mundial e um dos problemas mais crı́ticos


na sociedade contemporânea, visto que recentemente o sentimento de insegurança vem
aumentando globalmente (Oberwittler et al., 2010), grande parte em decorrência do aumento
de crimes, um rompimento da lei e da ordem que impacta negativamente a convivência
harmoniosa e pode levar ao caos, anarquia e comprometer a sobrevivência coletiva. No
Brasil, o sistema de segurança pública está em crise desde a década de 1980 (Cerqueira et
al., 2016) e um dos elementos que evidenciam essa realidade é o elevado número de crimes
de assassinato, que corresponde a 12% do total de homicı́dios no mundo (Cerqueira et al.,
2016).

O aumento da tipologia e do número de crimes em diversas cidades do Brasil


nos últimos anos gera uma sensação crescente de insegurança (Rosa et al., 2012). Há um
sentimento generalizado na sociedade brasileira de que o governo é incapaz de atender
a demanda da população por segurança pública, particularmente nas grandes cidades,
tanto que a violência está entre as principais preocupações dos brasileiros. Paralelamente,
o combate e o controle criminal não são tarefas triviais e demandam a utilização efetiva
dos recursos das agências de segurança pública.

Não obstante, a desinformação sobre crimes é um problema que prejudica os


esforços no combate e controle criminal. As estatı́sticas oficiais sobre violência no Brasil
não se aproximam da realidade, por exemplo, de acordo com a Secretaria Nacional
de Segurança Pública (SENASP), de cada dez vı́timas de crime no Brasil apenas três
registram boletim de ocorrência (BO). Em casos de crimes de furto e roubo, por exemplo,
há uma grande quantidade de ocorrências cujas vı́timas não se sentem motivadas para
registrarem oficialmente, seja pelo baixo valor do bem subtraı́do ou pela descrença no
sucesso de uma investigação que poderia recuperá-lo (Cerqueira et al., 2019). Portanto,
o número real de ocorrências de crimes é muito maior do que o número registrado nas
estatı́sticas oficiais.

Com o intuito de preencher essa lacuna de dados ausentes referente ao registro


26

oficial de crimes surgiram alguns sı́tios na Web como o Onde Fui Roubado ∗ e o
WikiCrimes † . Esses sı́tios se tornam ferramentas de utilidade pública capazes de captar
dados sobre ações criminosas. Redes sociais como Facebook e Twitter também podem ter
um papel importante para preencher essa lacuna existente, uma vez que é comum vı́timas
relatarem ocorrências de crimes em seus perfis em redes sociais. Estes relatos geralmente
contém muitos detalhes do crime, como prejuı́zos materiais, caracterı́sticas do criminoso,
localização e horário.

Nesse cenário, a proposição de métodos e técnicas capazes de capturar e usar


efetivamente informação de fontes de dados heterogêneas para reduzir a desinformação
e aumentar a capacidade das agências de segurança pública em combater e controlar a
criminalidade é crucial para resgatar a confiança dos cidadãos e diminuir o sentimento
generalizado de impotência da sociedade diante da criminalidade. Recentemente, a
utilização de Inteligência Artificial e Aprendizagem de Máquina têm se mostrado efetivas
para o tratamento de inúmeros problemas relacionados à predição (Bunker; Thabtah, 2019;
Henrique; Sobreiro; Kimura, 2019; Ali; Aittokallio, 2019). Particularmente na análise criminal,
essas técnicas aplicadas para prevenção podem trazer efetividade na alocação dos recursos
das agências para combate ao crime (Elluri; Mandalapu; Roy, 2019; Pradhan et al., 2019;
Morshed et al., 2019; Feng et al., 2019).

O presente trabalho propõe uma abordagem para predição de crimes que explora
cinco diferentes algoritmos de aprendizagem supervisionada, utilizando dados oficiais e
não oficiais. Particularmente, os algoritmos k-Nearest Neighbor (k -NN), Support Vector
Machine (SVM), Random Forest (RF), eXtreme Gradient Boosting (XGBoost) eLong
Short Term Memory (LSTM) foram utilizados para prever a tendência do aumento ou
diminuição do número de ocorrências, e o número de ocorrências de crimes por tipos de
crimes e por região geográfica. Ao trabalhar com dados de diferentes fontes, espera-se
ter uma imagem mais realista do real número de ocorrências de crimes no estado. Os
resultados experimentais mostram que a abordagem proposta atinge até 91% de acurácia
e 98% de precisão, com uma pequena vantagem para os resultados obtidos pelo LSTM.

1.1 Problema

O problema tratado no presente trabalho é o de predição de crimes. Em


particular, pretende-se responder a seguinte pergunta: qual a efetividade de algoritmos
de aprendizagem supervisionada para predição da tendência e número de ocorrências de
crimes por tipo e por região geográfica utilizando fontes de dados heterogêneas, registros
criminais oficiais e não oficiais?

http://www.ondefuiroubado.com.br

http://www.wikicrimes.org/main.html
27

1.2 Objetivo

O objetivo deste trabalho é propor uma abordagem para predição da tendência e


do número de ocorrências de crimes utilizando algoritmos de aprendizagem supervisionada
e fontes de dados heterogêneas, registros oficiais e registros não oficiais coletados da Web,
sobre crimes. Para tanto, os seguintes objetivos especı́ficos são alcançados:

a) Revisão sistemática da literatura para identificação do estágio atual de pesquisa


sobre predição de crimes a partir de bases de dados heterogêneas;
b) Identificação, obtenção e caracterização de bases de dados heterogêneas sobre crimes;
c) Análise de complementariedade das bases de dados obtidas;
d) Identificação e seleção de caracterı́sticas apropriadas para predição de tendência e
número de ocorrências de crimes por tipo e região;
e) Avaliação de efetividade de algoritmos de aprendizagem supervisionada para
predição de crimes.

1.3 Justificativa

O sentimento de insegurança vem aumentando em todo mundo (Oberwittler


et al., 2010). No Brasil, o elevado número de crimes violentos justificam esse
sentimento (Cerqueira et al., 2016). Na América Latina o paı́s se destaca pelos seus elevados
gastos com o combate ao crime (Caprirolo; Jaitman; Mello, 2017). De acordo com o Instituto
de Pesquisa Econômica Aplicada (IPEA) e o Fórum Brasileiro de Segurança Pública,
estima-se que 5,9% do Produto Interno Bruto (PIB) brasileiro seja gasto a cada ano no
combate a crimes violentos, valor equivalente ao montante investido em educação (Cerqueira
et al., 2019).

Segundo estatı́sticas da Secretaria de Estado de Segurança Pública de Minas Gerais


(SESP-MG) no ano de 2016 houve um aumento significativo de crimes violentos, como
estupro, homicı́dio, sequestro e roubo no Estado em relação aos anos anteriores (Minas
Gerais, 2019). Apesar do combate a esse tipo de crime e de sua retração nos anos
posteriores, as estatı́sticas relacionadas à esses crimes violentos ainda apresentam-se
elevadas quando comparadas às estatı́sticas de décadas anteriores e as de outros paı́ses.
Ressalta-se que no contexto brasileiro Minas Gerais é um dos cinco Estados com menor
taxa de homicı́dio, demonstrando o grande desafio que é a segurança pública no paı́s.

Um importante aspecto que prejudica os esforços no combate ao crime é a


desinformação, a ausência de registros de todos os crimes que ocorrem nas cidades.
Segundo estatı́sticas da Secretaria Nacional de Segurança Pública (SENASP), apenas
30% dos crimes são reportados às agências de segurança pública (Cerqueira et al., 2019).
28

Nesse cenário, a investigação de evidências que caracterizam crimes e a implementação de


novas abordagens que possam auxiliar na prevenção e no combate ao crime explorando
múltiplas fontes de registros criminais se torna fundamental para o combate e controle
efetivo da criminalidade.

1.4 Organização

Este trabalho encontra-se dividido em 8 capı́tulos. O Capı́tulo 1 apresentou


uma introdução ao problema tratado pelo presente trabalho. O Capı́tulo 2 apresenta
o referencial teórico, abordando conceitos relevantes para o entendimento do trabalho.
O Capı́tulo 3 apresenta uma revisão sistemática da literatura relacionada ao tema do
presente trabalho. O Capı́tulo 4 apresenta uma caracterização das base de dados criminais
heterogêneas utilizadas pela abordagem proposta. O Capı́tulo 5 apresenta a abordagem
de predição de crimes proposta neste trabalho. Os Capı́tulos 6 e 7 apresentam as
configurações dos experimentos e os resultados da avaliação da abordagem proposta para
predição de crimes utilizando as bases de dados heterogêneas. E, finalmente, o Capı́tulo
8 apresenta as considerações finais, bem como direções para trabalhos futuros.
29

2 REFERENCIAL TEÓRICO

Este capı́tulo apresenta os principais conceitos abordados pelo trabalho, a


fim de fundamentar teoricamente o domı́nio do problema. Particularmente, são
apresentados os conceitos de crime, boletim de ocorrência e aprendizado de máquina,
especialmente algoritmos supervisionados. Tal conceituação tem como objetivo apresentar
as fundamentações teóricas necessárias para o entendimento do trabalho.

2.1 Crime

Ivins (1911) afirma que o crime é o ponto de conflito entre o indivı́duo e a sociedade,
e que se intensifica com a complexidade das relações sociais e da natureza humana. Ivins
(1911) argumenta sobre o que é o crime, e conclui que como uma possı́vel definição o
crime é um ato, um fato, é um ato ofensivo, no que diz respeito ao indivı́duo, é uma
demonstração de caráter, para o presente da sociedade, é uma lesão, para o futuro da
sociedade, é uma ameaça. De acordo com Stevenson (2010), crime é uma atividade que
envolve violar a lei; é um ato ou atividade ilegal que possa ser punida por lei; é um ato
que é moralmente errado. Rucman (2019) define o crime como um ato ilegı́timo ou um
processo que causa ou pode causar danos graves. Nesse ato ou processo, um criminoso
está ciente das consequências ou teria que prevê-las.

Existe uma diversidade de conceitos para crime, podendo este ser definido sob uma
perspectiva legal, formal, material ou dogmática. No direito penal norte-americano, por
exemplo, o crime é definido como a violação ou negligência de obrigação legal, de tal
importância pública, em que o direito toma conhecimento e implementa punição (May,
1881). No Brasil, na perspectiva legal o Artigo 1ºda Lei de Introdução do Código Penal
Brasileiro (Brasil, 1940) define crime como: “infração penal que a lei comina pena de
reclusão ou de detenção, quer isoladamente, quer alternativa ou cumuladamente com a
pena de multa”. Sob o aspecto formal, o crime pode ser conceituado como um fato gerado
por uma conduta humana que se encontra descrito em um tipo penal a qual se comina
uma pena. Numa perspectiva material crime pode ser definido como o fato gerado por
uma conduta humana que lesiona ou expõe a perigo de lesão um bem jurı́dico penalmente
tutelado. Dentro da perspectiva dogmática é adotado de forma majoritária pela doutrina
a teoria tripartido, que conceitua o crime como fato tı́pico, antijurı́dico e culpável (Greco,
2016). De acordo com Herrera (2007), a maioria dos códigos penais do mundo definem o
crime, na perspectiva dogmática, de acordo com a teoria tripartido.

O Direito Penal, por representar a mais firme resposta do Estado, tem caráter
subsidiário quanto aos outros ramos do direito e fragmentário quanto ao bem jurı́dico
protegido, protegendo os bens mais sagrados para o convı́vio em sociedade. Assim,
30

o Código Penal regulamenta a proteção a determinados bens, definindo condutas de


fragmentos criminosos, que seguem uma ordem dos bens mais caros à sociedade para
o menos caro (Greco, 2016). No atual Código Penal Brasileiro (Brasil, 1940) os crimes
estão agrupados por sua natureza em 11 categorias, ou tı́tulos, conforme é descrito abaixo
e na Tabela 9 do Apêndice A:

Tı́tulo I - Dos crimes contra a pessoa: esse tı́tulo visa proteger o objeto jurı́dico à pessoa
delimitando os casos à vida, a integridade à sua saúde fı́sica e mental; a estar sã e
salva de perigos. Exemplo: homicı́dio, aborto, lesão corporal, maus tratos, rixa, etc;

Tı́tulo II - Dos crimes contra o patrimônio: esse tı́tulo visa proteger o patrimônio alheio.
Exemplo: furto, roubo, extorsão, dano, apropriação indébita, estelionato, etc;

Tı́tulo III - Dos crimes contra a propriedade imaterial: esse tı́tulo visa proteger tudo que
é fruto de criação intelectual. Exemplo: violação de direito autoral e usurpação de
nome ou pseudônimo alheio;.

Tı́tulo IV - Dos crimes contra a organização do trabalho: esse tı́tulo visa proteger o livre
exercı́cio da profissão do trabalho e suas relações trabalhistas. Exemplo: atentado
contra a liberdade de trabalho, paralisação de trabalho de interesse coletivo, exercı́cio
de atividade com infração de decisão administrativa, etc;

Tı́tulo V - Dos crimes contra o sentimento religioso e contra o respeito aos mortos: esse
tı́tulo subdivide-se em dois capı́tulos, o primeiro busca proteger a liberdade de
crença, de culto, organização religiosa; o segundo, busca proteger a memória do
morto perante a famı́lia. Exemplo: ultraje a culto e impedimento ou pertubação
de ato a ele relativo, violação de sepultura, destruição, subtração ou ocultação de
cadáver, etc;

Tı́tulo VI - Dos crimes contra a dignidade sexual: esse tı́tulo visa proteger a dignidade
e liberdade sexual da pessoa. Exemplo: estupro, assédio sexual, favorecimento da
prostituição ou outra forma de exploração sexual, etc;

Tı́tulo VII - Dos crimes contra a famı́lia: esse tı́tulo busca proteger o organismo familiar,
especificadamente como proteção a organização jurı́dica matrimonial, assistência
familiar, a segurança do estado de filiação e poder familiar (tutela e curatela).
Exemplo: bigamia, simulação de casamento, sonegação de estado de filiação,
abandono material, subtração de incapazes, etc;

Tı́tulo VIII - Dos crimes contra a incolumidade pública: esse tı́tulo busca proteger e
evitar atos que causem perigo comum ou coloquem em risco a segurança pública.
Exemplo: incêndio, inundação, difusão de doença ou praga, etc;
31

Tı́tulo IX - Dos crimes contra a paz pública: esse tı́tulo visa proteger a paz pública,
o sentimento de segurança e tranquilidade da sociedade. Exemplo: incitação ao
crime, apologia de crime ou criminoso, associação criminosa e constituição de milı́cia
privada;

Tı́tulo X - Dos crimes contra a fé pública: esse tı́tulo visa proteger a fé pública, a
crença do povo em documentos e a credibilidade relacionada a função exercida
pelos funcionários públicos. Exemplo: moeda falsa, falsificação de papéis públicos,
falsificação de cartão, fraude em certames de interesse público, etc;

Tı́tulo XI - Dos crimes contra a administração pública: esse tı́tulo busca proteger
a probidade administrativa, o interesse público e a boa aplicação dos recursos
da coletividade. Exemplo: peculato, corrupção, desacato, contrabando, fraude
processual, motim de presos, etc.

Neste trabalho, serão utilizados apenas os crimes dos tipos de “furto” e “roubo”,
os quais são considerados crimes contra o patrimônio. De acordo com o Código Penal
Brasileiro (Brasil, 1940), o crime de furto é quando há subtração do patrimônio de outra
pessoa sem nenhuma violência, já o crime de roubo é caracterizado pela subtração de
patrimônio mediante grave ameaça e/ou violência.

2.2 Boletim de Ocorrência

Boletim de Ocorrência (BO) é o documento oficial utilizado pela Secretaria de


Segurança para o registro da notı́cia do crime. Definindo de forma literal, é um documento
formal, que aborda detalhadamente os fatos e ocorrências que demandam intervenção
policial, sendo que essas se conceituam como sendo qualquer forma que afete a ordem
pública, exigindo medidas policiais (SEDS-MG, 2008). Em Belo Horizonte, desde 2005,
toda ocorrência criminal passou a ser registrada como Registro de Evento de Defesa Social
(REDS).

Após o registro de uma ocorrência, o delegado de polı́cia analisa os documentos,


e, após uma análise criminal detalhada dos fatos, a autoridade decide em instaurar ou
não o procedimento policial. Esse procedimento pode ser um inquérito policial, termo
circunstanciado ou procedimento de adolescente infrator. Ao instaurar o procedimento,
os fatos são formalizados e são colhidos os depoimentos da vı́tima, testemunhas e suspeitos
(Tavares, 2020).

As Figuras do Anexo A são um exemplo da estrutura de um boletim de ocorrência.


Como é possı́vel observar, esses registros são compostos por dados da ocorrência, dados
dos envolvidos, histórico da ocorrência, dados dos oficiais que registraram a ocorrência,
32

entre outros. Porém, a Secretária de Defesa do Estado ao divulgar a base de REDS deve
manter sigilo sobre alguns dados contidos nos boletins. Nas Figuras do Anexo A, estão
destacados em vermelho os campos que são concedidos na divulgação da base de REDS e
são apresentados no Quadro 1.

Quadro 1 – Principais atributos de um boletim de ocorrência

Atributo Descrição
REDS Número identificador do Registro de Evento de
Defesa Social
BO número Número identificador do boletim de ocorrência
Municı́pio Municı́pio em que está sendo registrada a ocorrência
Provável descrição da ocorrência O tipo da ocorrência. Se for uma ocorrência criminal,
principal corresponde ao tipo de crime que ocorreu
Data do fato Data em que o fato ocorreu
Hora do fato Horário em que o fato ocorreu
Local Endereço do local em que o fato ocorreu
Número, KM, Complemento, Complementos do endereço do local em que o fato
Bairro, CEP, Munı́cipio, UF, ocorreu
Paı́s
Latitute Latitude de onde o fato ocorreu
Longitude Longitude de onde o fato ocorreu
Sexo Gênero do envolvido na ocorrência
Tipo envolvimento O tipo de envolvimento da pessoa com o fato que está
sendo registrado, ou seja, se é a vı́tima, testemunha
ou autor

2.3 Aprendizagem de Máquina

De acordo com Alpaydin (2010), aprendizagem de máquina é a programação de


computadores que tem como finalidade otimizar um critério de desempenho, utilizando
experiências passadas, as quais denominamos como dados de entrada. Técnicas de
aprendizagem de máquina utilizam conceitos de inteligência artificial, e/ou métodos de
probabilidade e estatı́stica, e/ou redes neurais para resolver tarefas de aprendizagem
(Mitchell, 1997). A aprendizagem de máquina tem como objetivo aprender um determinado
comportamento ou padrão automaticamente a partir de exemplos ou observações. Em
outras palavras, a ideia básica é que as técnicas de aprendizagem sejam capazes de
aprender a solucionar os problemas sem que sejam explicitamente reprogramadas.

Aprendizagem de máquina abrange um conjunto diversificado de tarefas de


aprendizado, desde aprender a classificar e-mails como spam, aprender a reconhecer
rostos em imagens e predizer valores das ações da bolsa de valores. Cada problema de
aprendizado de máquina pode ser definido como o problema de melhorar alguma métrica
33

de desempenho ao executar uma tarefa, por meio de algum tipo experiência de treinamento
(Mitchell, 1997).

Segundo Kantardzic (2011), existem dois principais paradigmas de aprendizagem


de máquina, são eles:

a) aprendizado supervisionado: é utilizado para estimar uma dependência


desconhecida, a partir de amostras de entrada e saı́da conhecidas. Classificação,
regressão e predição são tarefas comuns suportadas por esse tipo de aprendizagem.
O termo“supervisionado”indica que os valores de saı́da para os dados de treinamento
são conhecidos.

b) aprendizado não supervisionado: são fornecidas às técnicas apenas as amostras com
valores de entrada e não há ideia do resultado durante o processo de aprendizagem.
O objetivo deste tipo de aprendizado é descobrir a estrutura “natural” nos dados
de entrada. Um exemplo de tarefa não supervisionada é a clusterização (Kantardzic,
2011; Alpaydin, 2010).

c) aprendizado semi-supervisionado: está entre o aprendizado supervisionado e o não


supervisionado. São utilizados amostras sem rótulos e amostras com rótulos, ou
seja, utiliza-se amostras de entrada em que a saı́da não é conhecida e amostras em
que se conhece a saı́da. A maioria das técnicas semi-supervisionadas são baseadas
na extensão do aprendizado supervisionado e não supervisionado para incluir
informações adicionais tı́picas do outro paradigma de aprendizado. Reconhecimento
de fala e filtragem de spam são exemplos de tarefas semi-supervisionada (Zhu;
Goldberg, 2009; Chapelle; Schölkopf; Zien, 2006).

d) aprendizado por reforço: é aprender o que fazer, aprendizado de um mapeamento


de situações para ações de modo a maximizar uma recompensa ou sinal de reforço.
Não é informado a técnica qual ação tomar, deve-se descobrir quais ações geram
mais recompensas experimentando-as. Um exemplo de utilização de aprendizado
por reforço é o treinando de um agente jogador de damas (Sutton, 1992; Sutton; Barto,
2018).

2.3.1 Técnicas de Aprendizagem Supervisionada

Existem várias técnicas relatadas na literatura cientı́fica que podem ser utilizadas
para prever e classificar eventos. Neste trabalho, foram utilizadas cinco técnicas
supervisionadas bem conhecidas e que geralmente fornecem resultados efetivos quando
utilizadas para predição.
34

2.3.1.1 k -Nearest Neighbor

O k -Nearest Neighbor (k -NN) é um classificador versátil e robusto, frequentemente


usado como referência para classificadores mais complexos, como redes neurais. Em
particular, é uma abordagem de aprendizagem supervisionada não paramétrica que
classifica as instâncias com base na similaridade entre elas. As predições são feitas para
uma nova instância pesquisando todo o conjunto de treinamento, para obter os k casos
(vizinhos) mais semelhantes (Duda; Hart; Stork, 2001; Zhang et al., 2017).

A lógica do método k -NN é que espera-se que uma amostra de teste x tenha o
mesmo rótulo que a amostra de treinamento localizada na região próxima de x. Este
método também é chamado de aprendiz baseado em instância, pois ele não é treinado a
priori, uma vez que sua saı́da é calculada apenas quando se deseja saber a classe de algum
novo objeto. Apesar da simplicidade, esta técnica apresenta bons resultados em diversos
cenários e normalmente se comporta bem quando cada classe possui diversos objetos e a
superfı́cie de decisão é irregular (Kantardzic, 2011).

O k -NN possui um único hiperparâmetro, o número de vizinhos mais próximos


(k) de uma instância que é necessária classificar. Alguns autores sugerem que o valor

de k possa assumir k = N /2, onde N representa o número de amostras no conjunto
de treinamento. Embora não exista uma regra para se definir o k, valores grandes
ajudam a reduzir o efeito de ruı́dos no conjunto de treinamento. No entanto, uma solução
aprimorada é estimar o valor de k utilizando k-fold cross-validation, minimizando o erro
de validação (Celisse; Mary-Huard, 2018; Zhang et al., 2018).

Em resumo, o k -NN requer apenas um parâmetro (k), um conjunto de amostras de


treinamento rotulado e uma métrica de distância para determinar distâncias em um espaço
n-dimensional. O funcionamento do k -NN é baseado nas seguintes etapas: i) determine
o parâmetro k; ii) calcule a distância entre cada amostra de teste e todas as amostras
de treinamento; iii) classifique a distância e determine os vizinhos mais próximos com
base no k-ésimo limite; iv) determine a classe para cada um dos vizinho mais próximos; e
v)use a maioria simples da classe de vizinhos mais próximos como o valor de predição da
classificação da amostra de teste (Kantardzic, 2011).

2.3.1.2 Support Vector Machine

O Support Vector Machine (SVM) é um algoritmo de aprendizagem supervisionada,


que resolve problemas de classificação e regressão tanto lineares quanto não-lineares.
O SVM é eficiente para muitas tarefas de classificação, mas apresenta um alto custo
computacional para conjuntos de dados de alta dimensão (Hsu; Chang; Lin, 2003).

O objetivo do SVM é separar os dados das classes em uma superfı́cie de decisão


35

linear e encontrar o hiperplano ótimo, maximizando a distância entre as instâncias de


diferentes classes (Kantardzic, 2011). É definido como hiperplano ótimo aquele com a maior
margem de separação entre as classes, na Figura 1 a linha vermelha representa o hiperplano
ótimo. Resumindo, um modelo SVM é uma representação dos dados como pontos no
espaço, mapeados de uma forma que exemplos de classes diferentes são divididos com a
maior distância possı́vel através de hiperplanos. Ao mapear um dado desconhecido nesse
espaço, o SVM é capaz de determinar sua classe de acordo com qual lado do hiperplano
o registro estiver posicionado.

Figura 1: Exemplo de hiperplano ótimo

Fonte: Elaborada pela autora.

Os classificadores SVM possuem alguns hiperparâmetros, como a função kernel,


o parâmetro de regularização (C) para evitar classificação incorreta e o parâmetro
Gamma. A função kernel mapeia os dados originais para encontrar a melhor separação
do espaço mapeado (hiperplano), e o parâmetro Gamma gerencia a influência das
instâncias de treinamento, ou seja, um valor de Gamma baixo considera instâncias
distantes do hiperplano, enquanto um valor alto encontra apenas as instâncias fechadas
do hiperplano (Hsu; Chang; Lin, 2008; Syarif; Prugel-Bennett; Wills, 2016). Para um alto
valor de C seleciona-se uma pequena margem para o hiperplano, e para um baixo valor
de C seleciona-se uma margem grande para o hiperplano (Hsu; Chang; Lin, 2008; Syarif;
Prugel-Bennett; Wills, 2016). Geralmente, o parâmetro Gamma é estimado como γ = 1/p,
em que p é o número de atributos (dimensões dos dados).

2.3.1.3 Random Forest

O algoritmo Random Forest (RF) é uma abordagem ensemble baseada em árvores


de decisão proposta por Breiman (2001). Esta é uma abordagem robusta de aprendizado
supervisionado e comumente usada para tarefas de regressão e de classificação (Breiman,
2001). Abordagens ensemble são técnicas de aprendizado que constroem um conjunto
36

de classificadores ou “preditores fracos” e combinam suas saı́das para classificar um novo


exemplo (Dietterich, 2000).

Árvore de decisão é uma estrutura hierárquica que consiste de nós e arestas


direcionadas. Cada nó folha, os nós finais da árvore, que não possuem arestas que partem
deles, contém um rótulo de classe. Os restantes são condições de testes de atributo
que separam os dados de acordo com suas caracterı́sticas, representadas pelos valores
dos atributos, usando arestas direcionadas para apontar os registros para novos nós, de
acordo com o resultado do teste. Para classificar um registro, a árvore parte de um nó
raiz e aplica a condição de teste para seu atributo, seguindo o caminho apropriado (galho)
baseado no resultado do teste, até que seja alcançado um nó folha, que contém o rótulo
da classe (Kantardzic, 2011).

O RF constrói diversas árvores de decisão aleatoriamente formando uma floresta


aleatória. Notavelmente, uma floresta aleatória é composta por um conjunto de árvores de
decisão (preditores fracos), em que cada árvore depende dos valores de um vetor aleatório
amostrado e com distribuição igual entre as árvores. A saı́da de cada árvore no conjunto
converge para um único resultado que corresponde à maioria das árvores (Ho, 1995). Este
algoritmo utiliza o método bagging para a tomada de decisão final, com o objetivo de
reduzir a variância do conjunto de dados (Breiman, 2001).

No método bagging diferentes subconjuntos de treinamento são aleatoriamente


construı́dos, com reposição a partir do conjunto completo de treinamento. Cada
subconjunto é utilizado como entrada para os classificadores base. Ao final, todos os
classificadores extraı́dos são combinados usando um voto majoritário (Breiman, 1996).

As abordagens do RF têm dois hiperparâmetros que afetam o comportamento


do modelo de classificação, o número de árvores (ntree) e o número de atributos
(mtry) usados em cada divisão. O parâmetro ntree não deve ser definido como um
número pequeno, para garantir que cada observação (amostra) possa ser prevista algumas
vezes (Kohavi; John, 1997; Kulkarni; Sinha, 2013). O parâmetro mtry é o número de atributos
amostrados aleatoriamente em cada divisão. Para tarefas de classificação, a literatura

sugere um valor de mtry como mtry = p, onde p é o número de atributos em N é o
número de amostras.

Em geral, este algoritmo tende a ter uma maior precisão quanto maior for o número
de árvores de decisão. Entretanto, é importante ressaltar que em algum momento o
aumento no número de novas árvores poderá não trazer resultados positivos.
37

2.3.1.4 eXtreme Gradient Boosting

O eXtreme Gradient Boosting (XGBoost) é um algoritmo supervisionado altamente


robusto, que com eficiência, lida com problemas de regressão e classificação, e tem sido
bastante utilizado nas aplicações de aprendizagem supervisionada (Chen; Guestrin, 2016;
Zhou et al., 2019). A popularidade do XGBoost vem de sua escalabilidade em todos os
cenários, e da capacidade de resolver vários problemas de ciência de dados de maneira
rápida e precisa. O XGBoost é uma implementação de árvores de decisão com gradiente
(gradient-boosted decision trees - GBDT) projetadas para velocidade e desempenho.

A ideia básica do boosting é combinar diversas de árvores simples com baixa


precisão para criar um modelo final mais preciso. E o gradiente é usado para minimizar
a função de custo (loss function).Toda iteração gera uma nova árvore para o modelo.
A máquina de Gradient Boosting utiliza o gradiente descendente para gerar a nova
árvore com base em todas as árvores anteriores, direcionando a função objetivo para
a minimização de erros (Friedman, 2001). Nós podamos uma árvore do XGBoost baseado
nos seus ganhos. Calcula-se então a diferença entre o ganho associado ao ramo mais baixo
na árvore e o valor Gamma. Se a diferença entre o ganho e o Gamma for negativa,
remove-se o ramo, caso contrário, não remove-se o ramo.

O classificador XGBoost possui alguns hiperparâmetros, como o tamanho da árvore


(stree), a taxa de aprendizado (lr) e o Gamma. A escolha da lr é crucial e deve ser
significativamente pequena (lr = 0,1) (Bühlmann; Yu, 2010), enquanto o parâmetro Gamma
especifica a redução mı́nima de perda necessária para a divisão de um nó.

2.3.1.5 Long Short Term Memory

Long Short Term Memory (LSTM) é um modelo da famı́lia de redes neurais


profundas e recorrentes (deep and recurrent model of neural networks), introduzido por
Hochreiter e Schmidhuber (1997), e com o objetivo de um melhor desempenho. Esse
modelo é bem conhecido por sua excelente capacidade de memorizar padrões seletivamente
por longos perı́odos de tempo (long-term). No entanto, devido à sua estrutura complexa,
a execução do LSTM geralmente leva muito tempo (Fu; Zhang; Li, 2016).

Redes neurais artificiais (RNA) utilizam técnicas baseadas no comportamento dos


neurônios do cérebro humano para resolver tarefas de predição, reconhecimento de padrões
e classificação (Aggarwal, 2018; Jain; Mao; Mohiuddin, 1996). RNA utiliza camadas de
neurônios matemáticos, pelas quais a informação é passada, sendo que a saı́da da camada
anterior fornece entrada para a próxima camada. Na Figura 2 pode-se ver um exemplo
de estrutura de uma rede neural. A primeira camada da rede é chamada de camada de
entrada, e a última é chamada de camada de saı́da. As demais camadas, entre a primeira
38

e a última, são definidas como camadas ocultas.


Figura 2: Exemplo de estrutura de uma Rede Neural Artificial

Fonte: Elaborada pela autora.

Resumindo o funcionamento de uma RNA feed-forward, primeiro inserimos os


dados na rede por meio da camada de entrada, que passa a informação para as camadas
ocultas, onde os neurônios combinam os dados da camada de entrada com um conjunto
de coeficientes e atribui diferentes pesos para as entradas. Os resultados dessas entradas
são somados, e a soma passa pela função de ativação de um neurônio, que determina a
extensão em que um sinal deve progredir na rede para afetar o resultado final. A função
de ativação mapeia os valores resultantes no intervalo desejado, dependendo da função de
ativação escolhida. Finalmente, as camadas ocultas ligam-se a camada de saı́da e então
obtemos os resultados (Aggarwal, 2018).

As redes recorrentes diferem das redes feed-forward tradicionais no sentido de que


elas não possuem apenas conexões neurais em uma única direção, em outras palavras,
nas redes recorrentes os neurônios podem passar dados para uma camada anterior ou
para a mesma camada (Nelson; Pereira; de Oliveira, 2017). Nesse caso, os dados não fluem
de uma única maneira, e os efeitos práticos disso são a existência da memória de curto
prazo, além da memória de longo prazo que as redes neurais já possuem em consequência
do treinamento. Nos modelos LSTM, as informações fluem por meio de um mecanismo
conhecido como estados da célula. Assim, estes modelos podem lembrar ou esquecer,
seletivamente (Aggarwal, 2018). As informações em um estado de célula especı́fico têm três
dependências diferentes, as quais podem ser generalizada para qualquer problema, são elas:
i) o estado anterior da célula (as informações presentes na memória); ii) o estado oculto
anterior (é o mesmo que a saı́da da célula anterior); e iii) a entrada na etapa de tempo
39

atual (as novas informações que estão sendo fornecidas naquele momento). Na Figura
3 pode-se ver a estrutura de uma rede LSTM. Nesta Figura há duas linhas principais,
sendo que a linha destacada em vermelho correspondente à célula de memória (memória
de longo prazo) e a linha destacada em laranja correspondente à memória de curto prazo.
Entre essas duas linhas tem-se três gates que controlam a passagem de informação: a)
forget gate: determina quais partes da célula de memória são importantes e quais devem
ser esquecidas; b) input gate: determina quais informações novas serão passadas para a
célula de memória; e c) output gate: utiliza a memória de curto prazo para determinar
quais informações são importante para a saı́da.

Figura 3: Imagem da estrutura de uma Rede LSTM

Fonte: Pang et al. (2018) (adaptada)

O LSTM possui alguns hiperparâmetros que podem afetar sua acurácia e o


desempenho, como o tamanho da janela (timesteps), o tamanho do lote (batchsize),
o número de neurônios da camada oculta (units), e o número de épocas (epoch) (Peng
et al., 2018; Cao; Li; Li, 2019). O número de units influencia no ajuste do modelo. O
parâmetro timesteps corresponde a quantidade de observações (amostras) do passado
que serão utilizadas para realizar a predição, este parâmetro deve ser definido de acordo
com os dados de cada problema. É importante ressaltar que esta janela é deslizante, isto
é, toda vez que o LSTM aprendeu com o timestepx e fez a predição, a janela desliza
um timestepx+1 para a direita e realiza todo o procedimento novamente. Uma epoch
corresponde a um passo para frente (forward pass) para computar os valores das saı́das;
e um passo para trás (backward pass) para atualizar os pesos, por todo o conjunto de
treinamento. E por fim, o batchsize é a quantidade de observações de treinamento em
uma época. Quanto maior o tamanho do lote, mais espaço em memória será preciso.

2.3.2 Métricas de avaliação

Os resultados dos algoritmos de aprendizagem supervisionada precisam ser


avaliados e analisados cuidadosamente. As métricas de avaliação acurácia, precisão,
40

erro quadrático médio, e erro médio absoluto, são usualmente utilizadas para avaliar
os resultados de abordagens de aprendizagem supervisionadas, permitindo a comparação
entre diferentes algoritmos. Para o cálculo da acurácia, precisão e recall são utilizados os
termos:

• Verdadeiros positivos (VP): quando o modelo prevê um caso positivo corretamente,


por exemplo: um modelo previu que uma imagem é de um crime e ela é;

• Verdadeiros negativos (VN): quando o modelo prevê um caso negativo corretamente,


por exemplo: um modelo previu que uma imagem não é de um crime e ela realmente
não é;

• Falsos positivos (FP): quando o modelo prevê erroneamente um caso positivo, por
exemplo: um modelo previu que uma imagem é de um crime, quando na verdade
não é um crime; e

• Falsos negativos (FN): quando o modelo prevê erroneamente um caso negativo, por
exemplo: um modelo previu que uma imagem não é de um crime, quando na verdade
é um crime.

2.3.3 Acurácia

Acurácia (ACC) é uma das medidas mais utilizadas para avaliar o desempenho da
classificação e é definida como uma razão entre o número de predições corretas e o número
total de predições, conforme a Equação 2.1:

VP +VN
ACC = (2.1)
V P + FP + V N + FN
onde, V P = Verdadeiros Positivos, V N = Verdadeiros Negativos, F P = Falsos
Positivos e F N = Falsos Negativos (Kantardzic, 2011).

2.3.4 Precisão

A Precisão (P r) é outra métrica muito utilizada para avaliação da qualidade dos


modelos, e mede a proporção de instâncias classificadas em determinada classe que são
realmente da classe, conforme a Equação 2.2:

VP
Pr = (2.2)
V P + FP

onde, V P = Verdadeiros Positivos e F P = Falsos Positivos (Kantardzic, 2011).


41

2.3.5 Recall

O Recall mede a proporção de instâncias corretamente classificadas dentre todas


as instâncias de uma classe, conforme a Equação 2.3:

VP
Recall = (2.3)
V P + FN

onde, V P = Verdadeiros Positivos e F N = Falsos Negativos (Kantardzic, 2011).

2.3.6 F1-score

F1-score (F 1) é a média harmônica entre a precisão e o recall (Kantardzic, 2011),


conforme a Equação 2.4:

P r ∗ Recall
F1 = 2 ∗ (2.4)
P r + Recall

2.3.7 Erro Quadrático Médio (MSE)

O Erro Quadrático Médio (MSE) encontra o erro quadrático médio entre os


valores preditos e os valores alvos. Em outras palavras, diferenças menores têm menos
importância, enquanto diferenças maiores recebem mais peso. O MSE é definido conforme
a Equação 2.5:

n
1 X
M SE = ( ) (yi − ŷi )2 (2.5)
n i=1

onde, yi corresponde aos valores alvo e ŷi aos valores preditos.

2.3.8 Erro Médio Absoluto (MAE)

O Erro Médio Absoluto (MAE) encontra a distância absoluta média entre os valores
preditos e os valores alvos. Em outras palavras, em vez de atribuir um peso de acordo com
a magnitude da diferença, é atribuı́do o mesmo peso a todas as diferenças, de maneira
linear. O MAE é definido conforme a Equação 2.6:

n
1 X
M AE = ( ) |yi − ŷi | (2.6)
n i=1

onde, yi corresponde aos valores alvo e ŷi aos valores preditos.


43

3 TRABALHOS RELACIONADOS

Neste capı́tulo são apresentados os principais trabalhos selecionados na literatura


que utilizam abordagens de predição de crimes.

3.1 Revisão Sistemática da Literatura

Uma revisão sistemática da literatura (RSL) é uma revisão metodologicamente


rigorosa dos resultados de pesquisa sobre um tema especı́fico de interesse (Kitchenham;
Charters, 2007). Esse método é utilizado com a finalidade de identificar, interpretar e
avaliar um conjunto de trabalhos cientı́ficos disponı́veis em um determinado domı́nio de
pesquisa. E ao final, se obtém um arcabouço com as principais abordagens e técnicas para
o estudo em questão.

3.1.1 Questão de pesquisa

Esta pesquisa tem como objetivo realizar um levantamento bibliográfico a fim de


obter um panorama sobre quais as técnicas e as evidências estão sendo utilizadas para
predição de crimes, além de identificar quais destes métodos podem ser utilizados com
bases heterogêneas. A partir deste objetivo, foi definida a questão principal [QP] desta
revisão:

[QP1 ] Qual o atual panorama de pesquisa utilizando bases heterogêneas para predição
de crimes?

Para auxiliar na resposta desta [QP], foram definidas algumas questões especı́ficas [QE]:

[QE1 ] Quais evidências estão sendo utilizadas para identificação de padrões na predição
de crimes?

[QE2 ] Quais bases de dados são usadas para predição de crimes?

[QE3 ] Quais técnicas estão sendo utilizadas para predição de crimes?

3.1.2 Condução da RSL

Foi realizado o levantamento dos trabalhos publicados a partir do ano de 1997. A


seleção deste ano foi baseado no ano em que se iniciou o trabalho de digitação e organização
da base de dados da polı́cia.
44

A escolha destas bases incluiu os principais repositórios digitais na área de


computação: Association Computing Machinery ∗ (ACM) e Institute of Electrical and
Electronics Engineers † (IEEE). O Quadro 2 apresenta os repositórios digitais e a forma
de pesquisa adotada:

Quadro 2 – Base de dados pesquisadas

Bibliotecas Forma de pesquisa


ACM Busca automática de 1997 a 2019
IEEE Busca automática de 1997 a 2019
Fonte: Dados da pesquisa.

Para a pesquisa automática nas bases de dados selecionadas foram utilizadas as


seguintes palavras-chaves nas buscas: “criminal ”, “crime”, “behavior ”, “event”, “pattern”,
“predict”, “heterogeneous data source”, “heterogeneous dataset”, “technic”, “technique” e
“method ”.

As strings, compostas por estas palavras, utilizadas nas buscas foram as


seguintes: “(criminal OR crime) AND (behavior OR event OR pattern) AND predict* ”,
“((heterogeneous AND data AND source) OR (heterogeneous AND dataset)) AND
(technic OR technique OR method) AND (crime OR criminal)”.

A metodologia utilizada para realizar a pesquisa seguiu 4 etapas: (Etapa 1):


Eliminação por tı́tulo; (Etapa 2): Eliminação por resumo; (Etapa 3): Eliminação por
leitura diagonal; (Etapa 4): Eliminação por leitura completa. E foram automaticamente
excluı́dos da pesquisa os artigos que: (1) Não estão no idioma em Português ou Inglês;
(2) Não informam a base de dados utilizada; (3) Não utilizam base de dados reais.

Na Etapa 4, onde se faz a leitura completa do artigo, foram definidos critérios de


qualidade para definir se o artigo em questão atende ao objetivo da pesquisa. Cada critério
foi avaliado como ”SIM”, ”PARCIALMENTE”ou ”NÃO”, e pontuados, respectivamente,
com o valor de 1, 0,5 ou 0. Os artigos que alcançaram uma nota menor que 60% foram
eliminados. Os critérios de qualidade criados para este trabalho foram: (Critério 1): O
artigo está bem escrito e possui uma quantidade considerável de informação? (Critério
2): O estudo possui uma amostragem de dados significante/relevante para a pesquisa?
(Critério 3): Foi utilizado método estatı́stico para avaliação do modelo? (Critério 4): Os
resultados apontam informações relevantes para o estudo?

A Tabela 1 contém o número de artigos inicialmente encontrados e quantos foram


mantidos em cada uma das fases de seleção:


https://www.acm.org/

https://www.ieee.org//
45

Tabela 1: Número de artigos em cada etapa da RSL

Repositórios Seleção Etapa 1 Etapa 2 Etapa 3 Etapa 4


ACM 105 37 23 16 8
IEEE 250 104 60 23 12
Total 355 141 83 39 20
Fonte: Dados da pesquisa.

3.2 Análise dos resultados

Durante a pesquisa sistemática foram selecionados 20 artigos relacionados com


predição de crimes que atendiam aos critérios de inclusão e respondiam as [QE]s
estipuladas. Na Tabela 3 o nome do(s) autor(es), o ano e o local da publicação dos
trabalhos selecionados são apresentados.

Quadro 3 – Artigos selecionados pela revisão sistemática


Autor(es) Local de publicação Repositório
Wang e Brown (2011) Transactions on Neural Networks and Learning Systems IEEE
Yu et al. (2011) 11th International Conference on Data Mining Workshops IEEE
Bogomolov et al. (2014) ICMI’14: International Conference on Multimodal Interaction ACM
Aghababaei e Makrehchi (2015) International Conference on Data Mining Workshop (ICDMW) IEEE
Clougherty et al. (2015) Systems and Information Engineering Design Symposium IEEE
Aghababaei e Makrehchi (2016) International Conference on Web Intelligence (WI) IEEE
Boni e Gerber (2016a) International Conference on Systems, Man, and Cybernetics (SMC) IEEE
Boni e Gerber (2016b) 15th International Conference on Machine Learning and Applications (ICMLA) IEEE
Sivaranjani, Sivakumari e Aasha (2016) International Conference on Emerging Technological Trends (ICETT) IEEE
Parvez, Mosharraf e Ali (2016) International Conference on Information and Communication Technologies and Development ACM
Baculo et al. (2017) 2nd International Conference on Computational Intelligence and Applications IEEE
Marzan et al. (2017) International Conference on Algorithms, Computing and Systems ACM
Zhuang et al. (2017) International Conference on Big Knowledge (ICBK) IEEE
Belesiotis, Papadakis e Skoutas (2018) ACM Transactions on Spatial Algorithms and Systems ACM
Huang et al. (2018) 7th ACM International Conference on Information and Knowledge Management ACM
Elluri, Mandalapu e Roy (2019) International Conference on Smart Computing (SMARTCOMP) IEEE
Feng et al. (2019) IEEE Access (Volume:7) IEEE
Morshed et al. (2019) 34th ACM/SIGAPP Symposium on Applied Computing ACM
Pradhan et al. (2019) 23rd International Database Applications & Engineering Symposium ACM
Xiong et al. (2019) 27th International Conference on Advances in Geographic Information Systems ACM
Fonte: Dados da pesquisa.

Após a Etapa 4, é possı́vel então responder as questões de pesquisa desta RSL. Em


relação às questões [QE1], [QE2] e [QE3], na Tabela 2 são apresentados os atributos, as
bases de dados e as técnicas que foram utilizadas em cada estudo. A seguir, as respostas
para as questões especı́ficas são apresentas.

Tabela 2 – Informações dos trabalhos analisados


Ano Artigo Método(s) Base(s) de dados utilizada(s) Atributos utilizados
2011 Wang e Utilizou dois modelos: Utilizou três bases de dados: dados Onze atributos do tipo
Brown (2011) S-TGAM e GLM oficiais de crimes de Charlottesville distância e do tipo
(abr/2001 - fev/2005), foi considerado demográfico
somente os registros de crimes do tipo
invasão, base geográfica e demográfica
de Charlottesville
continua na próxima página...
46

Tabela 2 – Continuação da página anterior


Ano Artigo Método(s) Base(s) de dados utilizada(s) Atributos utilizados
2011 Yu et al. Utilizou cinco classificadores: Utilizou a base de dados oficial da Tipo de crime,
(2011) INN, J48, SVM, Rede neural e polı́cia dos Estados Unidos, o nome da localização, hora e data
Naive Bayes cidade a qual os dados pertencem foi
mantido em sigilo, utilizou o tipo de
crime de roubo residencial
2014 Bogomolov et Utilizou Logistic Regression, Utilizou três bases de dados: uma Utilizou caracterı́sticas
al. (2014) SVM, Redes neurais e Random base com a divisão geográfica da área das regiões geográficas
Forest metropolitana de Londres, uma base (média da idade da
oficial com dados de perfis dos bairros população, quantidade
de Londres contendo sessenta e oito de pessoas em relação
métricas sobre a população, e uma base ao gênero, quantidade de
de dados criminais que inclui contém moradores) e atributos
a localização geográfica de todos os da distribuição de casos
crimes denunciados mas não especifica criminais
a data exata, apenas o mês e o ano
(jan/2012 - jan/2013)
2015 Aghababaei Utilizou LDA para Utilizou uma base de dados criminais Data e hora em que o
e Makrehchi identificação de tópicos nos da cidade de Chicago, Illinois, USA crime ocorreu, latitude e
(2015) twittes, e o classificador binário (jul/2010 - nov/2013) e posts históricos longitude de onde o crime
linearSVC para predição do Twitter sobre a cidade de Chicago ocorreu e tipo de crime
2015 Clougherty et Utilizou KDE, lógica de Utilizou a base de dados oficial da Hora, data, localização do
al. (2015) regressão e Random Forest cidade de Charlottesville, Virgı́nia crime
para análise espacial e (jan/1990 - fev/2015), utilizou
temporal somente os crimes sexuais
2016 Aghababaei Utilizou o classificador linear Utilizou duas bases de dados: uma Hora, tipo de crime e local
e Makrehchi SVC base de dados criminais oficiais das do crime
(2016) cidades de São Francisco, Chicago,
Filadélfia e Houston e posts históricos
do Twitter sobre as cidades
2016 Boni e Gerber Propôs um classificador Utilizou três bases de dados: uma Atributos de atividades
(2016a) binário que considera crimes base de dados composta por posts diárias (atributos
históricos, componentes do Twitter, outra com dados do temporais)
temporais e atributos de Foursquare e outra com dados oficiais
atividades diárias individuais da polı́cia da cidade de Chicago, USA
(jul/2013 - abr/2014), composta por
vinte tipos de crimes
2016 Boni e Gerber Abordou cinco modelos: dois Utilizou uma base de dados oficial Atributos de distância,
(2016b) modelos globais e três modelos da cidade de Chicago (jul/2017 - hora, localização e tipo de
especı́ficos da área abr/2014), composta por dezessete crime
tipos de crime
2016 Parvez, Utilizou modelo probabilı́stico Utilizou uma base de dados oficial Local, hora, data, tipo de
Mosharraf e baseado em padrões de crimes da cidade de Dhaka, Bangladesh crime
Ali (2016) anteriores (jun/2013 - jun/2014)
2016 Sivaranjani, Utilizou os algoritmos Utilizou uma base de dados oficial da Tipo de crime, local, ano,
Sivakumari e k-NN, K-Means, Clustering Índia (2000 - 2014), composta por número total de crimes
Aasha (2016) aglomerativo hierárquico e vinte tipos de crimes
DBSCAN
2017 (Baculo et al., Utilizou cinco classificadores: Utilizou a base de dados oficial da ”District”,
2017) BayeNet, Naive Bayes, J48, cidade de Manila, Filipinas (2012 - ”LocationType”, ”Time”,
Random Forest e Decision 2016), composta por seis tipos de ”IsHoliday”, ”Rain”
Stump crimes
continua na próxima página...
47

Tabela 2 – Continuação da página anterior


Ano Artigo Método(s) Base(s) de dados utilizada(s) Atributos utilizados
2017 Marzan et al. Utilizou o algoritmo Apriori Utilizou a base de dados oficial de Tipo de crime,
(2017) para encontrar padrões e dezesseis distritos de Manila, Filipinas localização, tipo da
para predição de crimes (2012 - 2016), composta por seis tipos localização, ano, número
foi utilizado: regressão de crimes da semana, nome do dia,
linear, processos gaussianos, longitude, latitude, se é
Perceptron e SMOreg feriado, chuva
2017 Zhuang et al. Propôs um modelo LSTM e Utilizou uma base de dados oficial Longitude e latitude
(2017) comparou com: Decision Tree, da cidade de Portland, Oregon, USA
Naive Bayes, Random Forest, (mar/2012 - dez/2016)
k-NN, Logistic Regression e
Multilayer Perceptron
2018 Belesiotis, Utilizou Ridge regression, Utilizou uma base de dados criminais Atributos demográficos
Papadakis Random Forest e Support da polı́cia do Reino Unido e mais cinco sobre cada região, tipo
e Skoutas Vector Regression bases de dados encontradas na web: de lugares de interesse
(2018) uma base com dados demográficos público, quantidade
das regiões do Reino Unido, uma lugares de interesse
base de dados com informações de público por região,
lugares de interesse público, base de quantidade de pessoas
dados relacionada às caracterı́sticas de que costumam frequentar
transporte e mobilidade por região, cada um desses lugares
base de dados com informações sobre a de interesse público,
natureza e tipo de uma região, e uma tamanho total de
base de dados composta por imagens cada tipo de estrada,
das regiões quantidade pontos de
ônibus, estações de metrô
e bicicletas por área,
quantidade de pessoas
que costumam estar
em cada estação de
transporte, localização
das fotos de cada região
e quantidade de fotos por
região
2018 Huang et al. Propõem um framework Utilizou três bases de dados: base Dia da semana em que
(2018) DeepCrime baseado em de dados criminais de Nova Iorque, o crime ocorreu, tipo
redes neurais recorrentes USA (jan/2014 - dez/2014), uma base de crime, quantidade de
e compara o resultado de dados com informações de lugares reclamações, urbanas e
da abordagem com as de interesse público, e uma base quantidade de lugares
seguintes abordagens: Support de dados com reclamações urbanas de interesse público por
Vector Regression (SVR), (por exemplo: estacionamento ilegal, região
ARIMA, Logistic Regression, entrada de automóveis bloqueada,
Multilayer Perceptron, Tensor entre outras)
Decomposition (TriMine),
Wide and Deep Learning, e
Gated Recurrent Unit (GRU)
2019 Elluri, Utilizou Multilayer Utilizou uma base de dados criminais Gênero, raça e idade
Mandalapu e Perceptron, Árvore de Decisão, de Nova Iorque, USA (jan/2018 - da vı́tima, Gênero, raça
Roy (2019) Logistic Regression, Random dez/2018) e uma base composta por e idade do suspeito,
Forest, SVM, LSTM, Rede dados sobre o clima da cidade dia, horário e local em
Neural Recorrente, Gated que o crime ocorreu,
Recurrent Unit (GRU) e Rede temperatura do dia em
Neural Convolucional que o crime ocorreu
continua na próxima página...
48

Tabela 2 – Continuação da página anterior


Ano Artigo Método(s) Base(s) de dados utilizada(s) Atributos utilizados
2019 Feng et al. Utilizou rede neural Utilizou três bases de dados criminais Data e hora em que o
(2019) tradicional, Long Short oficiais, sendo uma de crimes que crime ocorreu, tipo de
Term Memory e um modelo ocorreram em São Francisco, USA, crime, descrição sobre
de séries temporais, Prophet uma referente a Chicago, USA e por o crime, dia da semana,
último uma de crimes da cidade de distrito, endereço, latitude
Filadélfia, USA e longitude em que o crime
ocorreu, identificador de
como o incidente foi
resolvido, identificador se
o autor foi preso ou não,
identificador se o crime é
doméstico ou não
2019 Morshed et Utiliza um novo algoritmo Utilizou uma base criminal oficial de Data e hora em que o
al. (2019) de segmentação espacial e Chicago, USA (jan/2001 - dez/2018) crime ocorreu, tipo de
temporal baseada em limites e uma base composta por tweets crime, descrição sobre o
(TbSTS) para a segmentação relacionados a crimes crime, latitude e longitude
de trajetória de crime e rede de onde o crime ocorreu,
neural Long Short Term descrição do local em que
Memory (LSTM) o crime ocorreu e o ano
2019 Pradhan et Utilizou k-NN, Multi-class Utilizou uma base de dados oficiais de Dia da semana em que
al. (2019) Logistic Regression, Árvore crimes de São Francisco nos Estados o crime ocorreu, distrito
de Decisão, Random Forest e Unidos policial no qual o crime
Naive Bayes ocorreu, tipo de crime,
endereço, latitude e
longitude, e a solução do
crime (se o criminoso foi
preso ou não)
2019 Xiong et al. Utilizou ARIMA e LSTM Utilizou uma base de dados oficial Latitude e longitude do
(2019) de crimes que ocorreram no campus local do crime, e horário
da Universidade do Sul da Califórnia em que o crime ocorreu
(fev/2010 - ago/2016) e uma base de
dados criminais oficial de Los Angeles,
USA (jan/2014 - dez/2016)
Fonte: Dados da pesquisa.

3.2.1 [QE1] Quais evidências estão sendo utilizadas para identificação de


padrões na predição de crimes?

Analisando a Tabela 2, pode-se observar que o atributo que informa a localização


e o horário do crime ocorrido são muito usados na modelagem de um bom modelo
de predição. Além dos atributos que são caracterı́sticos de uma base criminal oficial
(por exemplo: tipo de crime, hora, data, localização), outros atributos podem ser
incrementadas a esses dados, tendo como resultado uma melhora na identificação de
padrões e na predição. Em Marzan et al. (2017), os autores integraram cinco atributos
à base de dados oficial. Os atributos que foram incrementados eram informações sobre
se era feriado, o clima, o número da semana, o ano e o dia da semana em que o crime
ocorreu. Com o uso do algoritmo Apriori os autores encontraram que os crimes sexuais
são mais prováveis de acontecerem em dias de feriado e que não estão chovendo, e em
áreas residenciais. Baculo et al. (2017), utilizaram os mesmos atributos que os autores
49

do trabalho anterior. Neste trabalho, os autores observaram que em Manila o pico de


ocorrência de crimes é entre 20h do dia anterior e 4h da manhã, durante os finais de
semana e durante Julho e Setembro. Em Pradhan et al. (2019), e Feng et al. (2019), os
autores utilizaram além dos atributos mencionados anteriores a informação de solução do
crime, que informa se o criminoso foi preso ou não.

Boni e Gerber (2016a), utilizaram informações sobre a rotina das pessoas através
de posts do Twitter. Os autores com base nos tweets históricos coletados, reconstruı́ram
a rotina diária de cada usuário. Ao final do trabalho, eles concluı́ram que esses atributos
melhoram o modelo de predição para a maioria dos crimes (15 de 20 tipos de crimes).

Em Wang e Brown (2011), além dos atributos da base criminal oficial foram
considerados atributos geográficos e demográficos. Com esses atributos, os autores
encontraram dois padrões criminais, sendo eles: casas mais próximas das rodovias tem
maior probabilidade de serem invadidas; e a vizinhança com casas de valor médio de 50
mil dólares também tem maior probabilidade de serem invadidas. Belesiotis, Papadakis e
Skoutas (2018) também combinaram dados criminais oficiais com dados demográficos, e
ainda utilizaram informações de mais quatro bases de dados. Os autores concluı́ram que
utilizar diversos atributos de diferentes origens pode revelar informações valiosas e fazer
predições precisas sobre a distribuição espacial dos tipos de crimes em centros urbanos.

Huang et al. (2018), utilizaram os atributos do dia da semana em que o


crime ocorreu, o tipo de crime, quantidade de reclamações urbanas (por exemplo:
congestionamento) e quantidade de lugares de interesse público por região. Os autores
acreditam que a combinação de vários atributos podem fornecer informações úteis para
capturar padrões criminais. Por exemplo, é provável que a ocorrência de um assalto
cause congestionamento no trânsito devido ao controle temporário do tráfego pela polı́cia.
Além disso, informações sobre pontos de interesse público na cidade podem caracterizar
o funcionamento de cada região da cidade.

Com base na análise dos trabalhos selecionados, pode-se afirmar que o uso de
atributos além das de bases oficiais melhoram a identificação de padrões na predição de
crimes.

3.2.2 [QE2] Quais bases de dados são usadas para predição de crimes?

É possı́vel observar na Tabela 2 que todos os estudos utilizam base de dados


criminais oficiais. Em oito estudos os autores utilizaram outras bases de dados, além
da base criminal oficial, com o objetivo de propor um melhor modelo de predição de
crimes. Em Boni e Gerber (2016a), os autores utilizaram dados oficiais criminais da
cidade de Chicago, Illinoiis, USA, posts do Twitter sobre a cidade e a informação do
50

espaço fı́sico da cidade contida no Foursquare. Os tweets foram coletados, e mapeados


individualmente para o espaço fı́sico. A partir das informações coletadas do Twitter e
do Foursquare, os autores reconstruı́ram a rotina diária dos usuários de quais o tweets
foram coletados. Como foi dito na resposta da questão anterior, o uso destas bases
ocasionou uma melhora no modelo de predição. Assim como os autores anteriores, a
base de dados utilizada por Aghababaei e Makrehchi (2015) e Morshed et al. (2019),
foi composta por tweets coletados relacionados a crimes que ocorreram na cidade de
Chicago, além de dados criminais oficiais da cidade. Os autores de (Aghababaei; Makrehchi,
2015) utilizaram o modelo LDA (Latent Dirichtlet Allocation – Alocação de Dirichlet
Latente), um algoritmo para detecção automática de tópicos em textos, para a captura de
tópicos que representariam os posts coletados. Estes mesmos autores, em outro trabalho
(Aghababaei; Makrehchi, 2016), utilizaram os mesmos tipos de base de dados, uma base oficial
e uma base composta por tweets históricos sobre as cidades de São Francisco, Chicago,
Filadélfia e Houston nos USA.

No estudo de Wang e Brown (2011), foram utilizadas três bases de dados, sendo
elas: base oficial de crimes de invasão da cidade Charlottesville, Virgı́nia, USA; base
geográfica da cidade, com a localização de estradas, rodovias interestaduais, pequenos
negócios e escolas; e uma base demográfica, com informação do censo sobre a população,
média de valores das casas, raça e casamentos. Os autores Belesiotis, Papadakis e Skoutas
(2018) também utilizaram base de dados criminais oficiais, no caso do Reino Unido, e base
com dados demográficos, com informações do censo da região. Além destas duas bases,
os autores utilizaram mais três bases, as quais são: base com informações de lugares de
interesses públicos, com informações de quantas pessoas costumam frequentar o local e
onde é localizado; base com caracterı́sticas de transporte e mobilidade por região, com
informação do número de pontos de ônibus, estações de metrô e bicicletas existem por
região; base de imagens da região; e uma base com informações sobre a natureza e tipo
de uma região.

Assim como Belesiotis, Papadakis e Skoutas (2018), os autores Huang et al. (2018),
também utilizaram uma base de dados com informações de lugares de interesse público
em Nova Iorque, USA. Além desta base, os autores também utilizaram dados oficiais de
crimes que ocorreram na cidade e uma base composta por reclamações urbanas, como por
exemplo entrada de automóveis bloqueada.

Em Bogomolov et al. (2014), os autores utilizaram, além da base de dados criminais


oficial, uma base com a divisão geográfica e uma base com dados dos perfis dos bairros
de Londres, UK a qual contém sessenta e oito métricas sobre a população.

A partir da análise dos trabalhos, pode-se observar que menos da metade dos
estudos selecionados utilizam bases heterogêneas. É importante ressaltar, que foi
51

observado uma contribuição significativa a partir do uso de outras bases para a solução
do problema de predição de crimes.

3.2.3 [QE3] Quais técnicas estão sendo utilizadas para predição de


crimes?

A maioria dos trabalhos selecionados transformam o problema de predição em um


problema de classificação. Como por exemplo em Baculo et al. (2017), após os autores
encontrarem alguns padrões, eles utilizaram os classificadores BayesNet, Naive Bayes, J48,
Decision Stump e Random Forest, e os resultados mostraram que, em geral, o classificador
Random Forest obteve o melhor resultado. Os modelos propostos nesse estudo, podem
prever a localização e os possı́veis fatores que podem afetar a ocorrência de crimes. Boni e
Gerber (2016a), e Aghababaei e Makrehchi (2015), também transformaram o problema de
predição em um de classificação, para o qual, em cada trabalho, foi proposto um modelo
de classificador binário que classifica se em um determinado ponto da cidade irá ocorrer
ou não um crime.

Estudos que realizaram uma análise espaço temporal para predição de crimes,
utilizaram técnicas diferentes. Os autores Zhuang et al. (2017) propuseram um modelo
para previsão de crimes com a rede neural LSTM que obteve resultados melhores
de acurácia e precisão quando comparado com outros algoritmos convencionais de
aprendizagem de máquina. Já Parvez, Mosharraf e Ali (2016), propuseram um modelo
probabilı́stico baseado em padrões de crimes anteriores, o qual obteve ótimos resultados
na análise estatı́stica. Clougherty et al. (2015), utilizaram Logistic Regression e Random
Forest para avaliar a correlação entre locais de crimes sexuais, condição climática e outras
variáveis temporais.

Em Sivaranjani, Sivakumari e Aasha (2016), os autores utilizaram K-Means,


clusterização aglomerativa e DBSCAN para agrupar atividades criminais. Em seguida,
fazem uso do k-NN para a predição de crimes.

Pradhan et al. (2019) também utilizaram o k-NN para a predição de crimes. Além
do k-NN, os autores compararam os resultados de predições de crimes obtidos pelos
métodos: Multi-class Logistic Regression, Árvore de Decisão, Random Forest e Naive
Bayes. Assim como em Baculo et al. (2017), o RF obteve o melhor resultado quando se
comparado com as outras técnicas. O mesmo resultado foi encontrado pelos autores de
Bogomolov et al. (2014) quando compararam os resultados do RF com Logistic Regression,
SVM e Redes Neurais.

Os autores de Huang et al. (2018) propuseram uma abordagem de predição de


crimes chamada DeepCrime baseada em redes neurais recorrentes. No trabalho, os autores
compararam os resultados da abordagem proposta com os seguintes métodos: Support
52

Vector Regression (SVR), ARIMA, Logistic Regression, Multilayer Perceptron, Tensor


Decomposition, Wide and Deep Learning e Gated Recurrent Unit (GRU). Os resultados
mostraram que o DeepCrime superou as outras abordagens.

Os autores de Elluri, Mandalapu e Roy (2019), Feng et al. (2019), Morshed et


al. (2019) e Xiong et al. (2019) utilizaram a rede neural LSTM para predição de crimes.
No trabalho (Elluri; Mandalapu; Roy, 2019), os autores compararam os resultados da rede
neural com algoritmos mais tradicionais de aprendizagem supervisionada e concluı́ram
que tanto os modelos tradicionais quanto os modelos de redes neurais apresentam boa
performance ao realizar este tipo de tarefa, e podem ser utilizados pelas autoridades
policiais no combate ao crime. Já no trabalho (Feng et al., 2019), os autores compararam
os resultados da LSTM com os resultados de uma rede neural tradicional, e concluı́ram
que a LSTM teve o melhor desempenho.

Na Tabela 3, pode-se observar que cada trabalho selecionado tem um objetivo


diferente ao propor um modelo de predição de crimes. Considerando a análise dos artigos
selecionados, pode-se dizer que diversas técnicas de aprendizagem de máquina estão sendo
utilizadas para diferentes objetivos de predição de crimes. E não se pode afirmar que existe
um modelo especı́fico para este tipo de predição.

Tabela 3 – Objetivo de predição dos artigos selecionados

Artigo Objetivo(s)
Wang e Brown (2011) Propõem um modelo para predição de locais e horários futuros
de ocorrências criminais, predizendo a probabilidade de um
crime ocorrer em um determinado local e hora.
Yu et al. (2011) Propõem uma abordagem que prediz se o crime do tipo de
roubo residencial irá ocorrer em uma determinada área e em
qual área irá aumentar a ocorrência desse tipo de crime.
Bogomolov et al. (2014) Propõem uma abordagem que utiliza dados sobre
comportamentos humanos junto com dados de ocorrências
criminais e realiza a predição se um determinado ponto da
cidade será um ponto com altas ocorrências de crimes ou não
no próximo mês.
Aghababaei e Makrehchi (2015) Propõem uma abordagem que explora tópicos de discussão no
Twitter relacionados a cidade e os utiliza para realizar predição
da tendência de crimes na cidade.
continua na próxima página...
53

Tabela 3 – Continuação da página anterior

Artigo Objetivo(s)
Clougherty et al. (2015) Propõem uma abordagem que analisa os aspectos espaciais
e temporais de ocorrências de agressões sexuais; avalia a
correlação entre locais de crimes e condições meteorológicas;
encontra padrões sazonais nos dados de crimes; e realiza
predição de onde e quando tem maior probabilidade de
ocorrerem os crimes sexuais na cidade.
Aghababaei e Makrehchi (2016) Propõem uma abordagem que coleta tweets sobre a cidade
e junto com dados criminais oficiais realiza a predição da
tendência da taxa de crime na cidade.
Boni e Gerber (2016a) Propõem uma abordagem que mapeia os tweets para o ambiente
fı́sico, depois reconstrói as rotinas diárias dos indivı́duos e
realiza uma predição binária, se ocorre ou não ocorre um crime
em determinados pontos da cidade.
Boni e Gerber (2016b) Propõem uma abordagem de predição de crimes especı́ficos por
áreas da cidade, o modelo proposto estima o risco relativo de
um tipo de crime em um ponto da cidade.
Sivaranjani, Sivakumari e Aasha (2016) Propõem uma abordagem de predição de vinte tipos de crimes
em seis cidades da Índia. Utilizou técnicas de clusterização para
detectar crimes e técnicas de classificação para predizer crimes.
Parvez, Mosharraf e Ali (2016) Propõem uma abordagem que explora dados históricos de
crimes e realiza a predição da probabilidade de um crime
ocorrer em uma determinada região e em um momento
especı́fico do dia.
Baculo et al. (2017) Propõem uma abordagem de predição que identifica os pontos
mais crı́ticos da cidade em relação a ocorrência de crimes e
prediz a hora e o local em que o crime deve ocorrer.
Marzan et al. (2017) Propõem uma abordagem que identifica as áreas de maior
criminalidade, identifica padrões de crimes frequentes e utiliza
essas informações junto com dados oficiais para predizer a
tendência do número de crimes.
Zhuang et al. (2017) Propõem uma abordagem que detecta padrões espaciais e
temporais, e realiza a predição de pontos crı́ticos de crimes
em regiões geográficas da cidade.
Belesiotis, Papadakis e Skoutas (2018) Propõem uma abordagem de predição da distribuição espacial
de cada tipo de crime em grandes centros urbanos, e destacam
quais atributos afetam mais a predição de acordo com o tipo
de crime que está sendo predito.
continua na próxima página...
54

Tabela 3 – Continuação da página anterior

Artigo Objetivo(s)
Huang et al. (2018) Propõem um framework (DeepCrime) que captura as
dependências da evolução no tempo entre as ocorrências
de crimes em diferentes intervalos de tempo, codifica
as dependências temporais da sequência da evolução das
ocorrências, modela as interações região geográfica e tipo de
crimes, e realiza a predição da probabilidade da ocorrência de
crime de cada tipo de crime em cada região da cidade.
Elluri, Mandalapu e Roy (2019) Propõem uma abordagem que realiza uma análise estatı́stica
dos dados e combina informações temporais e meteorológicas
para realizar a predição de qual tipo de crime irá ocorrer em
determinada área da cidade.
Feng et al. (2019) Propõem uma abordagem que realiza uma análise estatı́stica,
cria um mapa interativo para visualização das ocorrências de
crimes na cidade, no qual os crimes são agrupados de acordo
com as informações de latitude e longitude, e realiza predição
da tendência de crimes na cidade.
Morshed et al. (2019) Propõem um sistema (VisCrime) que de análise visual de dados
criminais criando trajetórias do crime a partir de fontes de
dados heterogêneas e realiza a predição de possı́veis trajetórias
futuras de ocorrências de crimes.
Pradhan et al. (2019) Propõem uma abordagem que realiza uma análise exploratória
dos dados para identificar padrões criminais e realiza a predição
de qual tipo de crime pode ocorrer na cidade.
Xiong et al. (2019) Propõem uma abordagem que divide a área da cidade em
regiões heterogêneas com base na quantidade de ocorrências de
crimes e realiza a predição da quantidade de crimes por região
definida pela abordagem.
Fonte: Dados da pesquisa.
55

4 BASES DE DADOS CRIMINAIS

Neste capı́tulo são apresentados o site de onde foram coletados os dados não oficiais,
e os conjuntos de dados dos crimes de “furto” e “roubo’ utilizados pela abordagem de
predição, incluindo a análise de complementaridade, a qual deu origem a um novo conjunto
de dados. Para a realização deste trabalho utiliza-se um conjunto de registros criminais
oficiais coletados com a Secretaria de Segurança do Estado de Minas de Gerais, e um
conjunto de dados não oficiais coletados do site Onde Fui Roubado.

Neste trabalho, serão utilizados apenas os crimes dos tipos de “furto” e “roubo”, os
quais são crimes contra o patrimônio. De acordo com o Código Penal Brasileiro (Brasil,
1940), o crime de furto é quando há subtração do patrimônio de outra pessoa sem nenhuma
violência, já o crime de roubo é caracterizado pela subtração de patrimônio mediante grave
ameaça e/ou violência.

4.1 Site Onde Fui Roubado

O site Onde Fui Roubado∗ é uma ferramenta colaborativa de utilidade pública


que tem como objetivo captar dados sobre ações criminosas. A finalidade do site é de
alertar a população e ajudar os órgãos responsáveis no combate e prevenção ao crime.
O objetivo desta plataforma é bem simples, caso uma pessoa seja vı́tima de um crime,
esta pessoa vai ao site e cadastra o fato que ocorreu com ela, automaticamente essa
informação é compartilhada no site. Essa ferramenta foi desenvolvida por uma startup
e possui registros de crimes que ocorreram em diversas cidades de todo o Brasil. Foi
escolhido coletar dados deste site devido a viabilidade da coleta e o número de registros
que este site possui, além de estar disponı́vel para todo o Brasil.

Ao escolher registrar uma ocorrência de crime no site, a vı́tima precisa seguir


algumas etapas, ilustradas na Figura 1 do Anexo B. Em primeiro lugar, é necessário
informar o endereço em que o crime ocorreu, feito isso, é solicitado informar a data e o
horário da ocorrência. Ainda há a possibilidade de registrar alguma descrição sobre o
ocorrido. Em seguida, informa o objeto que foi levado entre as possibilidades disponı́veis
no site, de acordo com a Figura 1d do Anexo B. No final, informa-se o valor do prejuı́zo,
o sexo da vı́tima, se a vı́tima registrou boletim de ocorrência ou não e, opcionalmente, o
e-mail da vı́tima. Os principais campos estão apresentados no Quadro 4.


http://www.ondefuiroubado.com.br
56

Quadro 4 – Principais atributos do Onde Fui Roubado

Atributo Descrição
Endereço Endereço do local em que o crime ocorreu
Data do ocorrido Data em que o crime ocorreu
Hora do ocorrido Horário em que o crime ocorreu
Tipo de crime Tipo do crime que ocorreu e será registrado
Descrição Se a vı́tima quiser ela pode descrever como o crime ocorreu
Objetos roubados A vı́tima pode selecionar quais objetos foram levados
Prejuı́zo A vı́tima pode informar o valor do prejuı́zo causado pelo
crime que ocorreu
Sexo Gênero da vı́tima
Fez boletim de ocorrência? A vı́tima pode informar se registrou oficialmente ou não o
crime ocorrido

4.2 Base Não Oficial

Os dados coletados do site Onde Fui Roubado contém dois tipos de crimes, “roubo”
e “furto”. Esta base de dados é composta por 6.529 registros, referentes aos registros de
crimes da cidade de Belo Horizonte (MG) no perı́odo de Janeiro de 2012 a Dezembro de
2017. Na Figura 4, é representado como esses registros estão distribuı́dos por ano. Nesta
base, o ano de 2014 é o ano com o maior número de registros, e o ano de 2012 é o ano
com o menor número. O pequeno número de registros no ano de 2012 é devido ao fato de
que a ferramenta era nova e ainda pouco conhecida. Pode-se observar que entre os anos
de 2012∼2014, e entre 2015∼2016, houve um aumento no número de registros. Contudo,
é possı́vel observar que entre os anos 2014∼2015, e entre 2016∼2017, houve uma queda
de 37,05% e 55,57%, respectivamente, na quantidade de registros.

Figura 4: Total de registros por ano - Base não oficial


57

Figura 5: Frequência dos tipos de crime por mês e ano - Base não oficial

A maioria dos registros desta base são do tipo roubo (59,66%), como é exibido na
Figura 5, a frequência deste tipo de crime é sempre alta em todos os anos. Belo Horizonte
(MG) tem aproximadamente 2.375.151 habitantes, de acordo com o último censo de 2010,
e 53% da população são do gênero feminino. Contudo, como pode-se ver na Figura 6, em
todos os anos a maioria dos registros foram registrados por vı́timas do gênero masculino,
totalizando 61,19% das vı́timas nesta base de dados. E como é possı́vel observar na Figura
7, a maioria dos homens, nesta base, são vı́timas de roubo.

Figura 6: Frequência dos registros por ano e gênero da vı́tima - Base não oficial

Na maioria dos anos, quarta-feira foi o dia da semana com o maior número de
registros, com exceção dos anos 2014 e 2017. Nestes dois anos, o dia com o maior número
de ocorrências foi, respectivamente, quinta-feira e terça-feira, como é possı́vel observar na
Figura 8. Em Belo Horizonte, por ano, tem-se 17 dias de feriados e em geral, nesta base,
apenas 225 crimes ocorreram em dias que eram feriado na cidade.
58

Figura 7: Tipo de crime por gênero da vı́tima - Base não oficial

Figura 8: Frequência de registros por mês e dias da semana por ano - Base não oficial

A região Centro-Sul é a terceira região com mais população, e como pode-se ver na
Figura 9, esta região tem o maior número de ocorrência em todos os anos. Em todas as
regiões da cidade 48,1% dos crimes ocorreram no perı́odo da noite, e somente 10% deles
aconteceram no perı́odo da madrugada.
59

Figura 9: Frequência de registros por região e perı́odo do dia por ano - Base não oficial

4.3 Base Oficial

O conjunto de dados oficiais é composto por 520.378 registros de roubo e furto,


referentes aos registros de crimes da cidade de Belo Horizonte (MG) no perı́odo de Janeiro
de 2012 a Novembro de 2017. Na Figura 10, pode-se ver a distribuição do número de
registros de crimes ao longo dos anos nesta base.

Figura 10: Total de registros por ano - Base oficial

Nesta base, ao contrário do conjunto de dados não oficiais, a maioria dos registros
desse conjunto de dados é do tipo de crime furto, representando 64,57% dos dados. Na
Figura 11, pode-se ver que esse tipo de crime tem mais registros a cada ano e, entre os
anos de 2012∼2016, houve uma redução no número desses registros. Em vez disso, os
registros de roubos aumentaram entre os anos de 2012∼2016. Em Belo Horizonte, os dias
60

de feriado representam 4,66% dos dias do ano e em geral, neste conjunto de dados, apenas
13.407 crimes ocorreram em dias que eram feriado na cidade.

Figura 11: Frequência dos tipos de crime por mês e ano - Base oficial

O gênero masculino é a minoria na população de Belo Horizonte, mas, assim como


no outro conjunto de dados, os homens são a maioria entre as vı́timas de crimes em todos
os anos. É possı́vel observar na Figura 12 que 57,68% das vı́timas nesta base são do gênero
masculino. Sendo que, como é apresentado na Figura 13, na maioria das ocorrências os
homens são vı́timas de roubo.

Figura 12: Frequência de registros por ano e gênero da vı́tima - Base oficial

Na Figura 14, é possı́vel observar que na maioria do anos, com exceção do ano de
2015, segunda-feira foi o dia da semana com o maior número de ocorrências. Já no ano
de 2015, o dia com o maior número de registros foi quarta-feira.
61

Figura 13: Tipo de crime por gênero da vı́tima - Base oficial

Figura 14: Frequência de registros por mês e dias da semana por ano - Base oficial

Na Figura 15, está ilustrado o perı́odo do dia das ocorrências em cada região e
é possı́vel observar que a região Leste, a qual tem a maior população da cidade, é a
região com mais registros em todos os anos. Em todas as regiões, os crimes registrados
geralmente aconteceram à tarde e principalmente à noite. Os crimes geralmente ocorrem
nesses perı́odos, pois, geralmente, é ao final da tarde e ao inı́cio da noite que ocorre um
maior deslocamento de pessoas, muitas vezes desatentas, criando situações favoráveis para
os criminosos.
62

Figura 15: Frequência de registros por região e perı́odo do dia por ano - Base oficial

4.4 Análise de Complementariedade

Nesta seção, é fornecida uma análise de complementaridade dos conjuntos de dados


sobre crimes. Em particular, foi verificado como os conjuntos de dados se complementam,
verificando se há uma interseção entre seus registros. Para realizar essa análise, foram
utilizados os seguintes atributos de registro: latitude, longitude, data e o perı́odo do dia
em que o crime ocorreu, gênero da vı́tima e tipo de crime.

Sabendo que um mesmo endereço de uma ocorrência criminal pode ser tratado de
formas diferentes em cada sistema, e, como consequência, possuir latitudes e longitudes
diferentes em cada sistema, definiu-se uma abordagem para definir se os registros em
questão são iguais. A fim de determinar se existem registros iguais nas duas bases,
utilizou-se a latitude e longitude dos registros criminais com a precisão de um bloco
geográfico (quarteirão). Consegue-se obter esta precisão de um quarteirão ao considerar
três casas decimais da latitude e longitude. Deve-se ressaltar que essa é uma abordagem
de verificar se há interseção, mas ainda assim os registros podem não ser o mesmo.

Como pode-se observar na Figura 16, a análise de complementaridade foi realizada


com os seguintes atributos: data e perı́odo do dia em que o crime ocorreu, gênero da
vı́tima, tipo de crime, e latitude e longitude com precisão de um bloco geográfico. E o
resultado dessa análise foi que os conjuntos de dados não oficiais e oficiais possuem apenas
trinta e seis registros em comum, o que significa que são significativamente complementares
entre si. Com base no resultado encontrado na análise de complementariedade, pode-se
dizer que geralmente a vı́tima que registra a ocorrência de um crime na Web, de forma
não oficial, não registra o crime oficialmente e vice-versa.
63

Figura 16: Diagrama da análise de complementariedade

Portanto, a partir da combinação dos registros das duas bases de dados, foi obtido
um conjunto de dados combinado que chamamos de CRIME dataset. Por combinação,
entende-se como a fusão dos dois conjuntos de dados, da união de seus registros, removendo
os registros duplicados.
65

5 ABORDAGEM PROPOSTA

Neste capı́tulo é apresentada a abordagem proposta neste trabalho para predição


de tendência e número de ocorrências por região geográfica. A abordagem proposta foi
desenvolvida em seis componentes, as quais estão ilustradas na Figura 17 e descritas a
seguir.
Figura 17: Arquitetura da abordagem proposta

Fonte: Elaborada pela autora.

A primeira etapa da abordagem é a Coleta dos Dados. Neste trabalho, serão


utilizados registros não oficiais e oficiais, os quais tem as respectivas origens: o site Onde
Fui Roubado, e registros de boletins de ocorrência.

Para coletar os dados do website Onde Fui Roubado foi desenvolvido um


web-crawler utilizando a linguagem Python, possibilitando a coleta de todos os registros
do site. Ao final da coleta, todos os dados obtidos foram guardados no NOF dataset. Em
parceria com a Secretaria de Segurança do Estado de Minas Gerais, teve-se acesso aos
dados oficiais de registros de crimes de Belo Horizonte. Foi realizada a coleta dos registros
e então guardados no OF dataset.

Foram coletados, do site Onde Fui Roubado, 6.529 registros de crimes ocorridos na
cidade de Belo Horizonte, do estado de Minas Gerais, referentes a seis anos (janeiro/2012
a dezembro/20017). Dos dados oficiais, foram coletados 520.378 registros de ocorrências
de crimes na cidade de Belo Horizonte durante os anos de 2012 a 2017.

Na segunda etapa, os registros de crimes coletados na primeira etapa passam


por uma filtragem. Nessa filtragem seleciona-se os atributos mais adequados para esta
pesquisa e existentes em ambos datasets, e descartamos alguns registros. Os atributos
selecionados são apresentados no Quadro 5.

Em particular, são descartados registros incompletos, por exemplo, registros sem


66

Quadro 5 – Atributos selecionados

Atributo Descrição
Tipo do Crime Tipo de crime, no caso, roubo e furto
Gênero Gênero da vı́tima
Data Data em que o crime ocorreu
Hora Horário em que o crime ocorreu
Bairro Bairro da cidade no qual crime ocorreu
Latitute Latitude de onde o crime ocorreu
Longitude Longitude de onde o crime ocorreu

informações de tempo ou espaço, bem como registros fora de uma região geográfica de
interesse. Além disso, um procedimento de pré-processamento remove erros, incluindo
dados duplicados e ruidosos, e realiza transformações de texto e codificação. Por exemplo,
a cidade de “Nova York” pode ser expressa como “N.Y.”e “NY ” em registros diferentes,
e esses formulários devem ser transformados em um único texto normalizado. Esse
procedimento é fundamental para melhorar a eficácia do treinamento e da predição das
técnicas de aprendizagem usadas na próxima etapa.

No componente de Transformação dos Atributos, realiza-se algumas transformações


nos atributos data, hora e bairro, selecionados no componente anterior, dando origem a
novos atributos.

O atributo data deu origem ao dia da semana, o mês em que o crime ocorreu e
se o dia do crime era feriado na cidade. Foi realizado uma discretização nos atributos
hora e bairro. O atributo hora foi categorizado em perı́odos do dia, sendo eles: manhã
(06:00 - 11:59), tarde (12:00 - 17:59), noite (18:00 - 23:59) e madrugada (00:00 - 05:59).
Já o atributo bairro foi categorizado em regiões da cidade. A cidade de Belo Horizonte é
composta por nove regiões, sendo elas: Barreiro, Centro-Sul, Leste, Nordeste, Noroeste,
Norte, Oeste, Pampulha e Venda Nova. A informação sobre os bairros que pertencem a
uma determinada região foi obtida a partir dos dados da prefeitura de Belo Horizonte∗ .

O objetivo com os novos atributos é caracterizar melhor os registros de crimes. Os


crimes que ocorrem durante a semana podem ter caracterı́sticas diferentes dos crimes que
ocorrem aos fins de semana, assim como todos os meses do ano e feriados na cidade têm
frequências e informações diferentes relacionadas à ocorrência de crimes. Sobre o perı́odo
do dia, acreditamos que os crimes que ocorreram no mesmo intervalo de tempo tenham
um padrão semelhante. A finalidade de usar a região como um atributo visa agrupar os
bairros com as mesmas caracterı́sticas e padrões de comportamento.

Na quarta etapa, é realizada uma caracterização dos datasets e uma análise de


complementariedade, os quais foram apresentados detalhadamente no Capı́tulo 4. A

https://bairrosdebelohorizonte.webnode.com.br/bairros-por-regional-administrativa-/
67

análise de complementariedade verifica se os dois conjuntos de dados são complementares,


ou seja, se os conjuntos de dados são quase ou totalmente diferentes. Ao fim desta etapa,
cria-se um terceiro conjunto de dados, o CRIME dataset, que é composto pela união dos
outros dois conjuntos de dados sem os dados duplicados. No Quadro 6 são apresentados
os atributos usados como atributos de predição nos três conjuntos de dados.

Quadro 6 – Atributos utilizados na análise de complementariedade

Atributo Descrição
Tipo de crime Tipo de crime, por exemplo, roubo e furto
Gênero Gênero da vı́tima
É Feriado (1) se o crime ocorreu em um feriado; (0) caso contrário
Dia da Semana (1) se o crime ocorreu no fim de semana; (0) caso contrário
Perı́odo do Dia Perı́odo do dia em que o crime ocorreu
Região Região da cidade onde o crime ocorreu

Na quinta etapa, os atributos de predição apresentados anteriormente são usados


para treinar classificadores supervisionados. O componente Modelo de Predição fornece
um modelo de classificação usado para prever a tendência do número de crimes e a
ocorrência de crimes por tipo de crime e região. Como resultado do modelo tem-se:
a tendência do número de crimes por tipo de crime e por região quando comparado aos
dados do mês anterior, representada por três classes: i) −1: se houver uma queda no
número de ocorrências; ii) 0: se o número de ocorrências se manter o mesmo; e iii) 1: se
houver um aumento no número de ocorrências; e a quantidade de ocorrências por tipo
de crime e por região geográfica da cidade. Para abordar a predição do crime como um
problema de classificação, segue-se a estrutura geral da aprendizagem discriminativa (Liu,
2009).

Os crimes relatados nas cidades podem variar significativamente de mês para mês,
e é comum que os departamentos de segurança realizem análises de crimes por meses e por
um intervalo de meses. Portanto, em particular, o objetivo é aprender uma hipótese ideal
h : X → Y, mapeando o espaço de entrada X para o espaço de saı́da Y. Para esse fim,
uma infinidade de algoritmos de aprendizado podem ser implementados. Neste trabalho,
usa-se k -NN, SVM, RF, XGBoost e LSTM.

Por fim, na sexta etapa, o componente Avaliação da Predição de Crime avalia a


eficácia dos modelos de predição. Além disso, é relatada a eficácia dos modelos em termos
das métricas de precisão e acurácia, e avaliados os resultados das predições utilizando as
métricas de erro, erro médio absoluto (MAE) e erro médio quadrático (MSE).
69

6 EXPERIMENTOS

Neste capı́tulo é apresentado o pré-processamento realizado para um treinamento


supervisionado eficaz, e as configurações realizadas para a execução dos experimentos.
Os experimentos foram realizados para responder à seguinte [QP]: Qual a efetividade
de técnicas de aprendizagem supervisionada para predição de tendência e o número de
ocorrências de crimes por região geográfica? Por predição da tendência entende-se como,
comparando a quantidade do mês atual de determinado crime que ocorreu em determinada
região da cidade com a quantidade do mês passado se houve um aumento, uma queda ou
se permaneceu estável. E por predição do número de ocorrências, entende-se pela predição
da quantidade de determinado tipo de crime por região geográfica.

6.1 Pré-Processamento

As técnicas de aprendizagem supervisionada geralmente requerem uma codificação


dos dados de entrada para um treinamento eficaz. Para treinar cada uma das técnicas de
aprendizado utilizada na abordagem de predição de crimes, foram realizadas as seguintes
transformações de dados nos três conjuntos de dados:

i) Foi codificado o atributo dia da semana em perı́odo da semana: dias da semana


(segunda, terça, quarta, quinta e sexta-feira) ou dias de fim de semana (sábado e
domingo);
ii) Foi codificado o atributo região de acordo com a densidade de cada região geográfica
fornecida pelo IBGE (Censo 2010);
iii) Foram convertidos os atributos perı́odo do dia, perı́odo da semana, e região em
dados numéricos.

6.2 Configuração dos Experimentos

Para avaliar a abordagem preditiva, foram realizados experimentos para responder


à pergunta de pesquisa, mencionada anteriormente no Capı́tulo 1, na Seção 1.1: qual a
eficácia das técnicas de aprendizado supervisionado para prever a tendência e o número
de ocorrências de crimes por região geográfica?

Para a realizar a tarefa de predição da tendência e o número de ocorrências de


crimes por região geográfica foram selecionados os seguintes atributos: perı́odo da semana,
perı́odo do dia, região, se é feriado ou não, tipo de crime, data, mês e ano em que o crime
ocorreu, a quantidade de crimes por tipo de crime, e tendência (−1: se houve uma queda,
0: se manteve, 1: se houve um aumento). É importante ressaltar que as bases de dados
70

utilizadas estão desbalanceadas e que não foi realizado nenhum pré-processamento com o
objetivo de balanceá-las.

Como mencionado anteriormente, foram utilizadas cinco técnicas diferentes para


gerar os modelos de predição: k -NN, SVM, RF, XGBoost e LSTM. Além disso, é relatado
a eficácia em termos de precisão e acurácia, e em termos de erros, MAE e MSE, para
todos os modelos. Para realizar os experimentos, o conjunto de dados de crimes foram
filtrados pelo atributo ano para se obter o ano que contém registros em todas as regiões
geográficas, ou seja, 2016 para o NOF dataset e 2017 para o OF dataset.

Além disso, foram utilizadas sete configurações para os conjuntos de treinamento


e teste, e cada uma definida com base no ano filtrado dos datasets NOF e OF. No
caso do CRIME dataset, devido ao ano em que a melhor distribuição dos dados em
cada conjunto de dados é diferente, foram replicadas as configurações dos conjuntos de
treinamento e teste dos datasets NOF e OF. Além disso, os hiperparâmetros de cada
técnica de aprendizagem supervisionada usada foram definidos para gerar os modelos de
predição para cada esquema de configuração de treinamento e teste. A Tabela 4 contém
os hiperparâmetros usados em cada dataset, para cada esquema de configuração e para as
técnicas: k -NN, SVM, RF e XGBoost.

Como mencionado na Seção 2.3.1.5, o LSTM é de alta complexidade, com isso, não
foram utilizadas as sete configurações de experimentos com o LSTM. Tendo em vista que
para realizar os mesmos experimentos com o LSTM teria um alto custo computacional
optou-se por realizar os experimentos com apenas uma configuração. Para definir qual
configuração seria a escolhida, foram realizados os primeiros experimentos com os modelos
k -NN, SVM, RF e XGBoost, em seguida os modelos foram avaliados por meio das métricas
de acurácia e precisão, e selecionou-se a configuração que obteve os melhores resultados.

No k -NN, foi utilizado a distância de Manhattan∗ como parâmetro de


distância. Além disso, foi realizado 10-fold cross-validation (Jain, 1991) para definir os
hiperparâmetros do k -NN, RF e LSTM. O método k-fold cross-validation divide o conjunto
de treinamento (reamostragem) em k subconjuntos. A partir desses subconjuntos, o
método hold-out é repetido k vezes, para que, a cada vez, um dos subconjuntos k seja
usado para o teste, enquanto o restante (k − 1) é usado para o treinamento do modelo. O
método hold-out a cada iteração guarda a métrica de acurácia, retornando o conjunto de
parâmetros que obteve a melhor acurácia.

Para o XGBoost, foi definida a taxa de aprendizado como lr = 0, 1 e usado


o método grid-search (Hsu; Chang; Lin, 2003) para definir os hiperparâmetros stree e
Gamma. Além disso, o grid-search também foi usado para definir os parâmetros do
SVM e do RF. O método de grid-search obtém o melhor conjunto de parâmetros das

Pn
Formulação da distância de Manhattan: d(x,y) = i=1 |xi − yi |
71

Tabela 4: Hiperparâmentros das técnicas de aprendizagem utilizados para gerar os modelos


preditivos

Esquema de Configuração k -NN SVM RF XGBoost


Dataset
Treinamento Teste k C Gamma ntree mtry Gamma stree
Nov/2016 Dez/2016 6 1,00 0,07 2 100 0,50 3
Set - Nov/2016 Dez/2016 8 0,10 0,0005 2 7 0,30 4
Jun - Nov/2016 Dez/2016 11 0,07 0,0005 17 8 0,50 2
NOF

Jan - Nov/2016 Dez/2016 13 0,07 0,0005 2 50 0,50 2


Jan - Set/2016 Out - Dez/2016 8 2,50 0,09 2 115 0,30 2
Jan - Jun/2016 Jul - Dez/2016 29 1,00 0,0007 25 5 0,50 4
Jan - Mar/2016 Abr - Dez/2016 16 2,50 0,10 15 25 0,30 3
Out/2017 Nov/2017 146 9,30 0,01 2 5 0,50 2
Ago - Out/2017 Nov/2017 119 3,30 0,01 2 5 0,50 2
Mai - Out/2017 Nov/2017 70 0,30 0,30 2 40 0,50 4
OF

Jan - Out/2017 Nov/2017 134 0,30 0,30 9 96 0,30 3


Jan - Set/2017 Out - Nov/2017 12 35,00 0,005 2 7 0,50 3
Jan - Jun/2017 Jul - Nov/2017 2 1,50 0,03 2 5 0,50 4
Jan - Mar/2017 Abr - Nov/2017 2 4,30 0,03 13 73 0,30 2
Nov/2016 Dez/2016 215 0,50 0,09 11 5 0,30 2
Set - Nov/2016 Dez/2016 118 0,10 0,0001 2 5 0,40 3
Jun - Nov/2016 Dez/2016 6 0,10 0,20 55 9 0,50 3
Jan - Nov/2016 Dez/2016 11 6,90 0,10 2 2 0,40 2
Jan - Set/2016 Out - Dez/2016 383 6,20 0,10 11 5 0,50 2
Jan - Jun/2016 Jul - Dez/2016 114 90,00 0,05 25 3 0,50 2
CRIME

Jan - Mar/2016 Abr - Dez/2016 50 50,00 0,03 2 5 0,30 2


Out/2017 Nov/2017 144 6,30 0,10 11 80 0,50 2
Ago - Out/2017 Nov/2017 110 4,70 0,07 2 98 0,30 2
Mai - Out/2017 Nov/2017 185 20,00 0,005 3 95 0,50 3
Jan - Out/2017 Nov/2017 193 17,00 0,05 70 5 0,30 2
Jan - Set/2017 Out - Nov/2017 4 8,40 0,03 2 55 0,50 4
Jan - Jun/2017 Jul - Nov/2017 453 68,00 0,01 23 4 0,50 4
Jan - Mar/2017 Abr - Nov/2017 383 0,30 0,0007 15 30 0,30 3

técnicas combinando um determinado intervalo de parâmetros para cada modelo. De


forma semelhante ao cross-validation, esse método armazena a métrica de acurácia para
cada iteração de parâmetros, retornando a combinação com a melhor acurácia.

Para o LSTM, foi definido o tamanho da janela do tamanho de uma semana


(timesteps = 7), a função de ativação como sendo a função Sigmoide e a taxa de
aprendizado como lr = 0, 1. Além disso, para definir os hiperparâmetros do LSTM,
foi utilizado o grid-search em conjunto com o cross-validation. A Tabela 5 contém os
hiperparâmetros utilizados para cada dataset na execução do LSTM. Em especial para
o LSTM, os experimentos foram divididos por região e por perı́odo do dia, em outras
palavras, tem-se uma série temporal por região e por perı́odo do dia. Sendo assim, a
predição da tendência e do número de ocorrências de crimes é por região geográfica e por
perı́odo do dia.
72

Tabela 5: Hiperparâmetros utilizados com a técnica LSTM

LSTM
Dataset Região
Batchsize Epoch U nits
Pampulha 50 1.000 120
Barreiro 100 500 120
Norte 100 500 120
Nordeste 100 500 120
NOF

Leste 100 1.000 80


Centro-Sul 50 500 200
Oeste 100 500 280
Noroeste 50 500 120
Venda Nova 100 1.000 200
Pampulha 50 2.000 200
Barreiro 50 1.000 80
Norte 50 2.000 80
Nordeste 50 2.000 120
OF

Leste 50 2.000 200


Centro-Sul 50 2.000 200
Oeste 50 2.000 280
Noroeste 50 2.000 120
Venda Nova 50 2.000 80
Pampulha 50 1.000 280
Barreiro 100 500 280
Norte 50 2.000 80
Nordeste 100 500 200
Leste 50 2.000 280
Centro-Sul 100 500 200
Oeste 100 500 280
Noroeste 100 500 120
CRIME

Venda Nova 100 500 280


Pampulha 100 2.000 80
Barreiro 50 1.000 200
Norte 100 2.000 280
Nordeste 50 1.000 200
Leste 50 2.000 200
Centro-Sul 100 2.000 80
Oeste 50 1.000 280
Noroeste 50 1.000 280
Venda Nova 50 1.000 280
73

7 RESULTADOS

Neste capı́tulo são apresentados os resultados dos experimentos realizados para


avaliar a abordagem de predição da tendência e do número de ocorrências por tipo de
crimes e por região geográfica.

Como mencionado no Capı́tulo 6, inicialmente, foram avaliados os resultados das


abordagens k-NN, SVM, RF e XGBoost com diferentes esquemas de configuração de
treinamento e teste para cada dataset, reportando as métricas de acurácia, precisão, recall
e F1-score. Os resultados das métricas de acurácia , precisão, recall e F1-score de cada
esquema de configuração estão na Tabela 6. Os resultados do esquema de configuração
com o melhor desempenho para cada dataset são destacados.

Com base nos resultados da Tabela 6, pode-se observar que as quatro técnicas de
aprendizagem supervisionada apresentam um bom desempenho em todos os conjuntos de
dados.

Em particular, as técnicas atingem até 78% no dataset NOF, e 89% no OF dataset.


No CRIME dataset, o k -NN, RF e XGBoost atingiram até 78% e 89% de acurácia em 2016
e 2017, respectivamente, superando a abordagem SVM. Da mesma forma, em relação a
precisão, os modelos atingiram até 84% de precisão no dataset NOF e até 98% no conjunto
de dados OF. No CRIME dataset, os modelos atingem até 98% de precisão (2017), e o
modelo k -NN atingiu 84% de precisão (2016). Analisando os resultados da métrica recall,
todas as técnicas atingem até 78% no dataset NOF, e 89% no OF dataset, com exceção
do k -NN. No CRIME dataset, o RF atingiu até 89% de recall com os dados de 2016, já
com os dados de 2017, o k -NN, RF e XGBoost atingiram até 89% de recall. Em relação
ao F1-score, as quatro técnicas atingem até 80% no dataset NOF, enquanto no dataset
OF o RF e XGBoost atingiram até 91%. No CRIME dataset, o k -NN e RF atingiram
até 80% com os dados de 2016, enquanto com os dados de 2017, o k -NN, RF e XGBoost
atingiram até 91% de F1-score.

Como é possı́vel observar na Tabela 6, a configuração com os melhores resultados


de acurácia, precisão, recall e F1-score em todas as bases de dados é a que utiliza para
treinamento os dados dos primeiros meses do ano, de cada base, e utiliza para teste o
último mês do ano de cada conjunto de dados. Sendo assim, realizamos os experimentos
de predição com o LSTM utilizando esta configuração. Os resultados das métricas de
avaliação, acurácia, precisão, MAE e MSE de todos as abordagens são apresentados nas
Tabelas 7 e 8. Os melhores resultados de desempenho e os menores valores de erro, para
cada dataset e esquema de configuração, são destacados.

Com base nos resultados da Tabela 7, é possı́vel observar que assim como as outras
abordagens o LSTM apresenta um bom desempenho em todos os conjuntos de dados. Em
74

Tabela 6: Métricas de avaliação dos modelos de aprendizagem supervisionada para predição da


tendência de ocorrências de crimes
Esquema de Configuração Acurácia Precisão
Dataset
Treinamento Teste k -NN SVM RF XGBoost k -NN SVM RF XGBoost
Nov/2016 Dez/2016 0,78 0,78 0,70 0,78 0,84 0,84 0,84 0,84
Set - Nov/2016 Dez/2016 0,78 0,78 0,78 0,73 0,84 0,84 0,84 0,78
Jun - Nov/2016 Dez/2016 0,78 0,78 0,78 0,78 0,84 0,84 0,84 0,84
NOF

Jan - Nov/2016 Dez/2016 0,78 0,78 0,78 0,78 0,84 0,84 0,84 0,84
Jan - Set/2016 Out - Dez/2016 0,48 0,45 0,47 0,45 0,54 0,44 0,49 0,49
Jan - Jun/2016 Jul - Dez/2016 0,54 0,50 0,50 0,58 0,61 0,50 0,51 0,61
Jan - Mar/2016 Abr - Dez/2016 0,54 0,54 0,56 0,33 0,66 0,57 0,53 0,41
Out/2017 Nov/2017 0,72 0,67 0,89 0,89 0,96 0,95 0,97 0,97
Ago - Out/2017 Nov/2017 0,78 0,67 0,89 0,89 0,96 0,95 0,97 0,97
Mai - Out/2017 Nov/2017 0,67 0,67 0,84 0,89 0,95 0,95 0,96 0,97
OF

Jan - Out/2017 Nov/2017 0,84 0,61 0,78 0,89 0,96 0,92 0,96 0,97
Jan - Set/2017 Out - Nov/2017 0,64 0,59 0,53 0,61 0,98 0,97 0,52 0,95
Jan - Jun/2017 Jul - Nov/2017 0,72 0,56 0,64 0,48 0,82 0,93 0,89 0,48
Jan - Mar/2017 Abr - Nov/2017 0,63 0,62 0,73 0,81 0,70 0,57 0,74 0,82
Nov/2016 Dez/2016 0,73 0,73 0,78 0,78 0,81 0,81 0,83 0,78
Set - Nov/2016 Dez/2016 0,67 0,67 0,67 0,67 0,81 0,81 0,74 0,81
Jun - Nov/2016 Dez/2016 0,78 0,73 0,73 0,73 0,84 0,81 0,81 0,81
Jan - Nov/2016 Dez/2016 0,78 0,67 0,56 0,67 0,84 0,81 0,70 0,81
Jan - Set/2016 Out - Dez/2016 0,41 0,50 0,56 0,45 0,57 0,61 0,64 0,59
Jan - Jun/2016 Jul - Dez/2016 0,55 0,63 0,67 0,61 0,68 0,72 0,69 0,72
CRIME

Jan - Mar/2016 Abr - Dez/2016 0,58 0,59 0,89 0,57 0,76 0,71 0,63 0,69
Out/2017 Nov/2017 0,89 0,84 0,89 0,89 0,97 0,96 0,97 0,97
Ago - Out/2017 Nov/2017 0,84 0,72 0,84 0,84 0,75 0,75 0,75 0,75
Mai - Out/2017 Nov/2017 0,84 0,67 0,84 0,84 0,86 0,85 0,86 0,86
Jan - Out/2017 Nov/2017 0,78 0,73 0,78 0,84 0,86 0,85 0,86 0,86
Jan - Set/2017 Out - Nov/2017 0,89 0,72 0,81 0,75 0,94 0,97 0,98 0,98
Jan - Jun/2017 Jul - Nov/2017 0,50 0,47 0,65 0,51 0,67 0,65 0,69 0,71
Jan - Mar/2017 Abr - Nov/2017 0,47 0,47 0,69 0,66 0,67 0,67 0,76 0,76
Recall F1-score
Treinamento Teste k -NN SVM RF XGBoost k -NN SVM RF XGBoost
Nov/2016 Dez/2016 0,78 0,78 0,78 0,78 0,80 0,80 0,80 0,80
Set - Nov/2016 Dez/2016 0,78 0,78 0,78 0,73 0,80 0,80 0,80 0,72
Jun - Nov/2016 Dez/2016 0,78 0,78 0,78 0,78 0,80 0,80 0,80 0,80
NOF

Jan - Nov/2016 Dez/2016 0,78 0,78 0,78 0,78 0,80 0,80 0,80 0,80
Jan - Set/2016 Out - Dez/2016 0,48 0,45 0,47 0,45 0,49 0,43 0,46 0,44
Jan - Jun/2016 Jul - Dez/2016 0,54 0,50 0,50 0,58 0,50 0,45 0,46 0,51
Jan - Mar/2016 Abr - Dez/2016 0,54 0,54 0,56 0,33 0,51 0,51 0,56 0,34
Out/2017 Nov/2017 0,72 0,67 0,89 0,89 0,76 0,69 0,91 0,91
Ago - Out/2017 Nov/2017 0,78 0,67 0,89 0,89 0,82 0,69 0,91 0,91
Mai - Out/2017 Nov/2017 0,67 0,67 0,84 0,89 0,69 0,69 0,87 0,91
OF

Jan - Out/2017 Nov/2017 0,84 0,61 0,78 0,89 0,87 0,64 0,82 0,91
Jan - Set/2017 Out - Nov/2017 0,64 0,59 0,67 0,61 0,69 0,64 0,54 0,71
Jan - Jun/2017 Jul - Nov/2017 0,72 0,89 0,86 0,48 0,72 0,90 0,87 0,46
Jan - Mar/2017 Abr - Nov/2017 0,63 0,62 0,73 0,81 0,63 0,55 0,73 0,81
Nov/2016 Dez/2016 0,73 0,73 0,78 0,78 0,75 0,75 0,80 0,78
Set - Nov/2016 Dez/2016 0,67 0,67 0,67 0,67 0,72 0,72 0,70 0,72
Jun - Nov/2016 Dez/2016 0,78 0,73 0,73 0,73 0,80 0,75 0,75 0,75
Jan - Nov/2016 Dez/2016 0,78 0,67 0,56 0,67 0,80 0,72 0,62 0,72
Jan - Set/2016 Out - Dez/2016 0,41 0,50 0,56 0,45 0,44 0,53 0,58 0,47
Jan - Jun/2016 Jul - Dez/2016 0,55 0,63 0,67 0,61 0,54 0,66 0,67 0,62
CRIME

Jan - Mar/2016 Abr - Dez/2016 0,58 0,59 0,89 0,57 0,58 0,63 0,63 0,56
Out/2017 Nov/2017 0,89 0,84 0,89 0,89 0,91 0,87 0,91 0,91
Ago - Out/2017 Nov/2017 0,84 0,72 0,84 0,84 0,90 0,81 0,90 0,90
Mai - Out/2017 Nov/2017 0,84 0,67 0,84 0,84 0,83 0,68 0,83 0,83
Jan - Out/2017 Nov/2017 0,78 0,73 0,78 0,84 0,79 0,74 0,79 0,83
Jan - Set/2017 Out - Nov/2017 0,89 0,72 0,81 0,75 0,92 0,80 0,86 0,81
Jan - Jun/2017 Jul - Nov/2017 0,50 0,47 0,65 0,51 0,52 0,52 0,66 0,52
Jan - Mar/2017 Abr - Nov/2017 0,47 0,47 0,69 0,66 0,50 0,50 0,71 0,67

particular, o LSTM atingiu 91% de acurácia e recall no dataset OF e no CRIME dataset


(2017), e atingiu 86% no dataset NOF e no CRIME (2016). Além do mais, em relação
a acurácia e ao recall o LSTM superou as outras quatro abordagens de aprendizagem.
75

Tabela 7: Métricas de avaliação para predição da tendência de ocorrência de crimes


Esquema de Configuração Acurácia Precisão
Dataset
Treinamento Teste k -NN SVM RF XGB LSTM k -NN SVM RF XGB LSTM
NOF Jan - Nov/2016 Dez/2016 0,78 0,78 0,78 0,78 0,86 0,84 0,84 0,84 0,84 0,86
OF Jan - Out/2017 Nov/2017 0,84 0,61 0,78 0,89 0,91 0,92 0,96 0,97 0,98 0,95
Jan - Nov/2016 Dez/2016 0,78 0,67 0,56 0,67 0,86 0,84 0,81 0,70 0,81 0,86
CRIME
Jan - Out/2017 Nov/2017 0,78 0,73 0,78 0,84 0,91 0,86 0,85 0,86 0,85 0,95
Recall F1-score
Treinamento Teste k -NN SVM RF XGB LSTM k -NN SVM RF XGB LSTM
NOF Jan - Nov/2016 Dez/2016 0,78 0,78 0,78 0,78 0,86 0,80 0,80 0,80 0,80 0,83
OF Jan - Out/2017 Nov/2017 0,84 0,61 0,78 0,89 0,91 0,87 0,64 0,82 0,91 0,92
Jan - Nov/2016 Dez/2016 0,78 0,67 0,56 0,67 0,86 0,80 0,72 0,62 0,72 0,83
CRIME
Jan - Out/2017 Nov/2017 0,78 0,73 0,78 0,84 0,91 0,79 0,74 0,79 0,83 0,92

Tabela 8: Métricas de avaliação de erro dos modelos de aprendizagem para predição do número
de ocorrências de crime por região

MAE MSE
Dataset Região
k -NN SVM RF XGB LSTM k -NN SVM RF XGB LSTM
Pampulha 3,250 0,130 3,250 3,250 0,232 1,215 0,025 1,215 1,215 0,108
Barreiro 0,267 0,045 0,267 0,267 0,051 0,155 0,002 0,155 0,155 0,023
Norte 0,300 0,089 0,300 0,300 0,049 0,210 0,008 0,210 0,210 0,003
Nordeste 1,500 0,059 1,500 1,500 0,127 3,879 0,004 3,879 3,879 0,035
NOF

Leste 0,300 0,089 0,300 0,300 0,049 0,210 0,008 0,210 0,210 0,003
Centro-Sul 3,217 0,163 3,217 3,217 0,127 2,127 0,055 2,127 2,127 0,017
Oeste 1,467 0,104 1,467 1,467 0,136 4,777 0,018 4,777 4,777 0,035
Noroeste 1,333 0,067 1,333 1,333 0,120 1,966 0,005 1,966 1,966 0,029
Venda Nova 0,900 0,089 0,900 0,900 0,042 0,810 0,008 0,810 0,8100 0,003
Pampulha 0,132 0,190 0,138 0,132 0,163 1,450 0,068 0,035 0,035 0,051
Barreiro 0,106 0,150 0,163 0,114 0,102 0,762 0,595 0,282 0,692 0,039
Norte 0,056 0,123 0,110 0,090 0,187 0,006 0,020 0,016 0,224 0,054
Nordeste 0,104 1,204 0,140 0,150 0,176 0,243 1,934 0,685 0,040 0,052
OF

Leste 0,092 0,103 0,084 0,103 0,018 0,010 0,017 0,009 0,017 0,001
Centro-Sul 0,034 0,034 0,034 0,034 0,169 0,234 0,234 0,234 0,234 0,047
Oeste 0,094 0,097 0,073 0,097 0,153 0,016 0,032 0,014 0,017 0,043
Noroeste 0,173 0,234 0,171 0,191 0,158 0,070 0,074 0,059 0,063 0,042
Venda Nova 0,100 0,117 0,107 0,102 0,197 0,324 0,329 0,326 0,499 0,062
Pampulha 0,007 0,009 0,009 0,008 0,055 2,575 1,380 3,314 1,380 0,028
Barreiro 0,006 0,006 0,006 0,003 0,013 0,947 0,947 0,947 2,275 0,005
Norte 0,004 0,004 0,004 0,004 0,014 1,586 1,586 1,586 1,586 0,011
Nordeste 0,005 0,005 0,005 0,005 0,029 2,385 2,385 2,385 2,385 0,007
Leste 0,419 0,438 0,441 0,441 0,099 0,287 0,296 0,297 0,297 0,017
Centro-Sul 0,013 0,013 0,013 0,013 0,054 3,124 3,124 3,124 3,124 0,005
Oeste 0,006 0,007 0,007 0,007 0,038 0,576 0,670 0,670 0,670 0,010
Noroeste 0,007 0,007 0,007 0,007 0,043 1,655 1,655 1,655 1,655 0,014
CRIME

Venda Nova 0,004 0,004 0,004 0,004 0,011 1,586 1,586 1,586 1,586 0,003
Pampulha 0,138 0,190 1,013 0,164 0,247 0,034 0,064 0,663 0,043 0,111
Barreiro 0,114 0,189 0,115 0,114 0,274 0,196 0,907 0,024 0,196 0,116
Norte 0,091 0,094 0,114 0,091 0,242 0,224 0,013 0,017 0,224 0,099
Nordeste 0,148 0,156 0,165 0,152 0,246 1,100 0,377 0,044 0,041 0,106
Leste 0,107 0,107 0,085 0,107 0,045 0,019 0,019 0,009 0,019 0,007
Centro-Sul 0,343 0,343 0,343 0,343 0,309 0,237 0,237 0,237 0,237 0,135
Oeste 0,100 0,100 0,100 0,100 0,200 0,017 0,017 0,017 0,017 0,081
Noroeste 0,192 0,192 0,191 0,192 0,268 0,065 0,064 0,063 0,065 0,104
Venda Nova 0,092 0,084 0,089 0,092 0,265 0,498 0,321 0,273 0,498 0,118
76

Da mesma forma, em relação a precisão o LSTM superou as outras técnicas no dataset


NOF e no CRIME dataset (2016), atingindo 86% de precisão. Em relação ao F1-score, o
LSTM obteve o melhor resultado atingindo até 92% no dataset OF e no CRIME dataset
(2017). Enquanto o LSTM obteve os melhores resultados nos quesitos acurácia, recall e
F1-score, os modelos k -NN, SVM, RF e XGBoost obtiveram os melhores resultados no
quesito precisão no dataset OF.

Em relação aos resultados da Tabela 8, o SVM e o LSTM atingiram os melhores


resultados em relação as métricas MAE e MSE no conjunto de dados NOF. Já no conjunto
de dados OF, o LSTM teve os melhores resultados de MAE e MSE, em relação as outras
quatro abordagens. No dataset CRIME, o modelo k -NN obteve os melhores resultados
em relação ao MAE com os dados de 2016 e 2017, entretanto em relação ao MSE o
LSTM superou as outras técnicas em todas as regiões com os dados de 2016, e com o
CRIME (2017) os modelos RF e LSTM obtiveram os melhores resultados. Analisando
os resultados das métricas MAE e MSE obtidos pelas técnicas nas regiões com o maior
número de registros em cada dataset, pode-se observar que no caso do dataset NOF os
modelos k -NN, SVM, RF e XGBoost obtiveram os maiores valores de MAE e MSE na
região Centro-Sul, que é a região com o maior número de registros nesse dataset. Já
no dataset OF, o modelo LSTM obteve os menores valores de MAE e MSE na região
Leste, que é a região com o maior número de registros nesse dataset. Em relação aos
valores de erros obtidos com o CRIME dataset (2016), pode-se observar que todos os
modelos obtiveram altos valores de MAE na região Leste e altos valores de MSE na região
Centro-Sul. Em contrapartida, com o CRIME dataset (2017) pode-se observar que todos
os modelos obtiveram baixos valores de MAE e MSE na região Leste.

Com base nos resultados das métricas de avaliações, os modelos de aprendizagem


supervisionada apresentam bom desempenho ao realizar a tarefa de predição da tendência
e número de ocorrências por tipo de crime e por região geográfica. Destacando a
efetividade do modelo LSTM, que apesar de não superar todas outras técnicas, em todos
os conjuntos de dados, no quesito precisão, em geral, este modelo apresentou uma melhor
eficácia ao predizer crimes por região.
77

8 CONCLUSÃO

Este trabalho explorou técnicas de aprendizado supervisionada em fontes de


dados criminais heterogêneas para predição de crimes. Em particular, foi proposta uma
abordagem de predição, que coleta registros de crimes da Web ∗ e os utiliza como fonte de
evidências para predição da tendência e do número de ocorrências por tipos de crimes e
por regiões geográficas.

Resultados experimentais mostraram que a utilização de bases de dados


heterogêneas de registros oficiais e não oficiais é útil no contexto de predição de crimes.
Além disso, as técnicas de aprendizagem supervisionada usadas pela abordagem proposta
foram avaliadas minuciosamente, e os resultados dessa avaliação mostraram que as técnicas
avaliadas apresentaram elevado desempenho, com uma pequena vantagem para o LSTM,
capaz de fornecer uma acurácia de até 91%, precisão de até 95%, recall de até 91%,
F 1 − score de até 92%, o menor MAE de 0,011 e o menor MSE de 0,001.

Experimentos também mostraram que há uma relação quantitativa, temporal e de


densidade entre os dados e o desempenho do treinamento, ou seja, com mais registros
para o treinamento, as técnicas de aprendizagem supervisionada podem ajustar melhor o
viés do aprendizado, fornecendo melhores predições. Como principais contribuições deste
trabalho podemos destacar:

i) o desenvolvimento de um crawler, utilizado para coleta de registros não oficiais;

ii) uso de fontes de dados heterogêneas de registros oficiais e não oficiais para predição
de crimes;

iii) análise de complementaridade apresentando a viabilidade de utilização de diferentes


fontes de dados combinadas em um único conjunto de dados;

iv) proposta de uma abordagem de predição capaz de predizer a tendência e número de


ocorrências de diferentes tipos de crimes em diferentes regiões geográficas;

v) avaliação minuciosa de cinco técnicas de aprendizagem de máquina usadas pela


abordagem de predição.

Como trabalhos futuros, pretende-se utilizar a técnica de regressão linear e


comparar os novos resultados com os resultados obtidos neste trabalho e incorporar
diferentes propriedades geográficas dos crimes como evidências em nossa abordagem de
predição e estender as fontes de dados para abranger mais tipos de crimes. Por fim,
também pretendemos usar mais fontes de dados heterogêneas, como por exemplo, uma
base com dados de ocorrência de eventos na cidade.

Onde Fui Roubado: www.ondefuiroubado.com.br
79

REFERÊNCIAS

Aggarwal, C. C. Neural Networks and Deep Learning: A Textbook. Cham:


Springer International Publishing, 2018. 271–313 p. ISBN 978-3-319-94463-0.
Aghababaei, S.; Makrehchi, M. Temporal topic inference for trend prediction. In:
Proceedings of the 2015 IEEE International Conference on Data Mining
Workshop (ICDMW). USA: IEEE Computer Society, 2015. (ICDMW ’15), p. 877–884.
ISBN 9781467384933. Disponı́vel em: <https://doi.org/10.1109/ICDMW.2015.214>.
Aghababaei, S.; Makrehchi, M. Mining social media content for crime prediction. In: 2016
IEEE/WIC/ACM International Conference on Web Intelligence (WI).
Omaha, NE, USA: IEEE Computer Society, 2016. p. 526–531. ISBN 978-1-5090-4470-2.
Ali, M.; Aittokallio, T. Machine learning and feature selection for drug response
prediction in precision oncology applications. Biophys Rev, p. 31–39, 2019.
Alpaydin, E. Introduction to Machine Learning. 2nd. ed. Cambridge: The MIT
Press, 2010. ISBN 026201243X.
Baculo, M. J. C. et al. Geospatial-temporal analysis and classification of criminal data
in manila. In: Proceedings of the 2nd IEEE International Conference on
Computational Intelligence and Applications. Beijing, China: IEEE Computer
Society, 2017. (ICCIA’17), p. 6–11. ISBN 978-1-5386-2030-4.
Belesiotis, A.; Papadakis, G.; Skoutas, D. Analyzing and predicting spatial crime
distribution using crowdsourced and open data. ACM Trans. Spatial Algorithms
Syst., Association for Computing Machinery, New York, NY, USA, v. 3, n. 4, abr. 2018.
ISSN 2374-0353. Disponı́vel em: <https://doi.org/10.1145/3190345>.
Bogomolov, A. et al. Once upon a crime: Towards crime prediction from demographics
and mobile data. In: Proceedings of the 16th International Conference
on Multimodal Interaction. Istanbul, Turkey: Association for Computing
Machinery, 2014. (ICMI ’14), p. 427–434. ISBN 9781450328852. Disponı́vel em:
<https://doi.org/10.1145/2663204.2663254>.
Boni, M.; Gerber, M. Predicting crime with routine activity patterns inferred from
social media. In: 2016 IEEE International Conference on Systems, Man,
and Cybernetics (SMC). Budapest, Hungary: IEEE Computer Society, 2016. p.
001233–001238. ISBN 978-1-5090-1897-0.
Boni, M. A.; Gerber, M. S. Area-specific crime prediction models. In: 2016 15th
IEEE International Conference on Machine Learning and Applications
(ICMLA). Anaheim, CA, USA: IEEE Computer Society, 2016. p. 671–676. ISBN
978-1-5090-6167-9.
Brasil. Lei de introdução do Código Penal (decreto-lei n. 2.848, de
7-12-1940). Código Penal. 1940.
80

Brasil. Constituição da República Federativa do Brasil. 1988.

Breiman, L. Bagging predictors. Mach. Learn., Kluwer Academic Publishers, USA,


v. 24, n. 2, p. 123–140, ago. 1996. ISSN 0885-6125.

Breiman, L. Random forests. Machine Learning, v. 45, n. 1, p. 5–32, 2001.

Bühlmann, P.; Yu, B. Boosting. Wiley Interdisciplinary Reviews:


Computational Statistics, v. 2, n. 1, p. 69–74, 2010.

Bunker, R. P.; Thabtah, F. A machine learning framework for sport result prediction.
Applied Computing and Informatics, v. 15, n. 1, p. 27 – 33, 2019. ISSN 2210-8327.

Cao, J.; Li, Z.; Li, J. Financial time series forecasting model based on CEEMDAN and
LSTM. Physica A: Statistical Mechanics and its Applications, v. 519, n. C,
p. 127–139, 2019.

Caprirolo, D.; Jaitman, L.; Mello, M. Custos de bem-estar do crime no Brasil Um


paı́s de contrastes. Banco Interamericano de Desenvolvimento, 2017. Disponı́vel em:
<https://publications.iadb.org/bitstream/handle/11319/8131/Custos-de-bem-estar-do-
crime-no-Brasil-um-pais-de-contrastes.pdf?sequence=1>.

Celisse, A.; Mary-Huard, T. Theoretical analysis of cross-validation for estimating the


risk of the k-nearest neighbor classifier. Journal of Machine Learning Research,
v. 18, p. 1–54, 2018.

Cerqueira, D. et al. Atlas da Violência 2016. Brası́lia, 2016. Disponı́vel em:


<http://www.ipea.gov.br/atlasviolencia/download/1/2016>.

Cerqueira, D. et al. Atlas da Violência 2019. Brası́lia, 2019. Disponı́vel em:


<http://www.forumseguranca.org.br>.

Chapelle, O.; Schölkopf, B.; Zien, A. Semi-Supervised Learning. The MIT Press,
2006. Disponı́vel em: <https://doi.org/10.7551/mitpress/9780262033589.001.0001>.
ISBN 9780262255899.

Chen, T.; Guestrin, C. Xgboost: A scalable tree boosting system. In: Proceedings
of the 22nd ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining. New York, NY, USA: Association for Computing
Machinery, 2016. (KDD ’16), p. 785–794. ISBN 9781450342322.

Clougherty, E. et al. Spatial and temporal analysis of sex crimes in charlottesville,


virginia. In: 2015 Systems and Information Engineering Design Symposium.
Charlottesville, VA, USA: IEEE, 2015. p. 69–74. ISBN 978-1-4799-1832-4.

Dietterich, T. G. Ensemble methods in machine learning. In: Multiple Classifier


Systems. Berlin, Heidelberg: Springer Berlin Heidelberg, 2000. p. 1–15. ISBN
978-3-540-45014-6.

Duda, R. O.; Hart, P. E.; Stork, D. G. Pattern Classification (2nd Edition). 2ed.
ed. USA: Wiley-Interscience, 2001. ISBN 0471056693.
81

Elluri, L.; Mandalapu, V.; Roy, N. Developing machine learning based predictive
models for smart policing. In: 2019 IEEE International Conference on Smart
Computing (SMARTCOMP). Washington, DC, USA, USA: IEEE Computer Society,
2019. p. 198–204.

Feng, M. et al. Big data analytics and mining for effective visualization and trends
forecasting of crime data. IEEE Access, IEEE, v. 7, p. 106111–106123, 2019.

Friedman, J. H. Greedy function approximation: A gradient boosting machine. The


Annals of Statistics, v. 29, n. 5, p. 1189–1232, 2001.

Fu, R.; Zhang, Z.; Li, L. Using lstm and gru neural network methods for traffic flow
prediction. In: 2016 31st Youth Academic Annual Conference of Chinese
Association of Automation (YAC). Wuhan, China: IEEE, 2016. p. 324–328. ISBN
978-1-5090-4423-8.

Greco, R. Curso de Direiro Penal Parte Geral. Niterói, Rio de Janeiro: Ed.
Impetus, 2016. ISBN 978-85-7626-865-9.

Henrique, B. M.; Sobreiro, V. A.; Kimura, H. Literature review: Machine learning


techniques applied to financial market prediction. Expert Systems with
Applications, v. 124, p. 226 – 251, 2019. ISSN 0957-4174.

Herrera, E. M. S. La Dogmatica De La Teoria Del Delito - Evolucion


Cientifica Del Sistema Del Delito. Bogotá: Procuradurı́a General de la Nacion,
2007. ISBN 9587102274.

Ho, T. K. Random decision forests. In: Proceedings of the 3rd International


Conference on Document Analysis and Recognition. Montreal, Quebec,
Canada, Canada: IEEE Computer Society, 1995. (ICDAR’95), p. 278–282. ISBN
0-8186-7128-9.

Hochreiter, S.; Schmidhuber, J. Long short-term memory. Neural Computation, v. 9,


n. 8, p. 1735–1780, 1997. Disponı́vel em: <https://doi.org/10.1162/neco.1997.9.8.1735>.

Hsu, C.-W.; Chang, C.-C.; Lin, C.-J. A Practical Guide to Support Vector
Classification. National Taiwan University, Taipei, Taiwan, 2003.

Hsu, C.-W.; Chang, C.-C.; Lin, C.-J. A Practical Guide to Support Vector
Classication. National Taiwan University, Taipei, Taiwan, 2008.

Huang, C. et al. Deepcrime: Attentive hierarchical recurrent networks for crime


prediction. In: Proceedings of the 27th ACM International Conference on
Information and Knowledge Management. New York, NY, USA: Association for
Computing Machinery, 2018. (CIKM ’18), p. 1423–1432. ISBN 9781450360142.

Ivins, W. M. What is crime? Proceedings of the Academy of Political Science


in the City of New York, The Academy of Political Science, v. 1, n. 4, p. 531–558,
1911. ISSN 15487237. Disponı́vel em: <http://www.jstor.org/stable/1172065>.

Jain, A. K.; Mao, J.; Mohiuddin, K. M. Artificial neural networks: A tutorial.


Computer, IEEE Computer Society Press, Washington, DC, USA, v. 29, n. 3, p. 31–44,
mar. 1996. ISSN 0018-9162. Disponı́vel em: <https://doi.org/10.1109/2.485891>.
82

Jain, R. The art of computer systems performance analysis: Techniques


for experimental design, measurement, simulation, and modeling. New
York, NY: Wiley-Interscience, 1991. ISBN 0471503363.

Kantardzic, M. Data Mining: Concepts, Models, Methods, and Algorithms.


2nd. ed. USA: Wiley-IEEE Press, 2011. ISBN 9780470890455, 9780471228523.

Kitchenham, B.; Charters, S. Guidelines for performing Systematic Literature


Reviews in Software Engineering. 2007.

Kohavi, R.; John, G. H. Wrappers for feature subset selection. Artificial


Intelligence, v. 97, n. 1, p. 273–324, 1997.

Kulkarni, V. Y.; Sinha, P. K. Random forest classifiers: A survey and future research
directions. In: International Journal of Advanced Computing. Virgin Islands,
British: Recent Science, 2013. v. 36, p. 1144–1153. ISSN 2051-0845.

Liu, T.-Y. Learning to rank for information retrieval. Foundations and Trends in
Information Retrieval, v. 3, n. 3, p. 225–331, 2009.

Marzan, C. S. et al. Time series analysis and crime pattern forecasting of city crime
data. In: Proceedings of the International Conference on Algorithms,
Computing and Systems. New York, NY, USA: ACM, 2017. (ICACS ’17), p. 113–118.
ISBN 978-1-4503-5284-0.

May, J. The Law of Crimes. Universidade de Michigan: Little, Brown 1881.



Minas Gerais. Crimes Violentos – Registros. 2019. Disponı́vel em:
<http://www.numeros.mg.gov.br>.

Mitchell, T. M. Machine Learning. New York: McGraw-Hill, 1997. ISBN


978-0-07-042807-2.

Morshed, A. et al. Viscrimepredict: A system for crime trajectory prediction and


visualisation from heterogeneous data sources. In: Proceedings of the 34th
ACM/SIGAPP Symposium on Applied Computing. New York, NY, USA: ACM,
2019. (SAC ’19), p. 1099–1106. ISBN 9781450359337.

Nações Unidas. Declaração Universal de Direitos Humanos. 2015.

Nelson, D. M. Q.; Pereira, A. C. M.; de Oliveira, R. A. Stock market’s price movement


prediction with lstm neural networks. In: 2017 International Joint Conference
on Neural Networks (IJCNN). Anchorage, AK, USA: IEEE, 2017. p. 1419–1426.
ISBN 978-1-5090-6182-2.

Oberwittler, D. et al. Social insecurities and fear of crime: A cross-national study on the
impact of welfare state policies on crime-related anxieties. European Sociological
Review, v. 27, n. 3, p. 327–345, 2010.

Pang, X. et al. An innovative neural network approach for stock market prediction. The
Journal of Supercomputing, Springer Nature, v. 76, p. 2098–2118, January 2018.
83

Parvez, M. R.; Mosharraf, T.; Ali, M. E. A novel approach to identify spatio-temporal


crime pattern in dhaka city. In: Proceedings of the Eighth International
Conference on Information and Communication Technologies and
Development. New York, NY, USA: ACM, 2016. (ICTD ’16), p. 41:1–41:4. ISBN
978-1-4503-4306-0. Disponı́vel em: <http://doi.acm.org/10.1145/2909609.2909624>.

Peng, L. et al. Effective long short-term memory with differential evolution algorithm for
electricity price prediction. Energy, v. 162, p. 1301 – 1314, 2018. ISSN 0360-5442.

Pradhan, I. et al. Exploratory data analysis and crime prediction for smart cities.
In: Proceedings of the 23rd International Database Applications
& Engineering Symposium. New York, NY, USA: Association for
Computing Machinery, 2019. (IDEAS ’19). ISBN 9781450362498. Disponı́vel em:
<https://doi.org/10.1145/3331076.3331114>.

Rosa, E. M. et al. Violência urbana, insegurança e medo: da necessidade de estratégias


coletivas. Psicologia: Ciência e Profissão, Scielo, Brası́lia, v. 32, p. 826 – 839,
2012. ISSN 1414-9893.

Rucman, A. B. What is crime? a search for an answer encompassing civilisational


legitimacy and social harm. Crime, Law and Social Change, Springer Nature, v. 72,
p. 211–226, Sept 2019.

SEDS-MG, S. d. E. d. D. S. d. M. G. DIRETRIZ INTEGRADA DE AÇÕES E


OPERAÇÕES DO SIDS. 2008.

Sivaranjani, S.; Sivakumari, S.; Aasha, M. Crime prediction and forecasting in tamilnadu
using clustering approaches. In: 2016 International Conference on Emerging
Technological Trends (ICETT). Kollam, India: IEEE, 2016. p. 1–6. ISBN
978-1-5090-3751-3.

Stevenson, A. (Ed.). Oxford Dictionary of English. 3. ed. New York: Oxford


University Press, 2010.

Sutton, R. S. Introduction: The challenge of reinforcement learning. In: SUTTON, R. S.


(Ed.). Reinforcement Learning. Boston, MA: Springer US, 1992. p. 1–3. ISBN
978-1-4615-3618-5. Disponı́vel em: <https://doi.org/10.1007/978-1-4615-3618-5 1>.

Sutton, R. S.; Barto, A. G. Reinforcement Learning: An Introduction.


Cambridge, MA, USA: A Bradford Book, 2018. ISBN 0262039249.

Syarif, I.; Prugel-Bennett, A.; Wills, G. Svm parameter optimization using grid search
and genetic algorithm to improve classification performance. Telecommunication
Computing Electronics and Control, v. 14, p. 1502–1509, 2016.

Tavares, J. Fundamentos de Teoria do Delito. 2. ed. São Paulo: Tirant lo Blanch,


2020. ISBN 978-65-9901-330-0.

Wang, X.; Brown, D. E. The spatio-temporal generalized additive model for criminal
incidents. In: Proceedings of 2011 IEEE International Conference on
Intelligence and Security Informatics. Beijing, China: IEEE, 2011. v. 2, p.
42–47. ISBN 978-1-4577-0085-9.
84

Xiong, C. et al. On predicting crime with heterogeneous spatial patterns: Methods and
evaluation. In: Proceedings of the 27th ACM SIGSPATIAL International
Conference on Advances in Geographic Information Systems. New York,
NY, USA: Association for Computing Machinery, 2019. (SIGSPATIAL ’19), p. 43–51.
ISBN 9781450369091. Disponı́vel em: <https://doi.org/10.1145/3347146.3359374>.

Yu, C. H. et al. Crime forecasting using data mining techniques. In: 2011 IEEE 11th
International Conference on Data Mining Workshops. Vancouver, BC,
Canada: IEEE, 2011. p. 779–786. ISBN 978-1-4673-0005-6.

Zhang, S. et al. Learning k for knn classification. ACM Trans. Intell. Syst.
Technol., ACM, v. 8, n. 3, p. 43:1–43:19, jan 2017. ISSN 2157-6904.

Zhang, S. et al. Efficient knn classification with different numbers of nearest neighbors.
IEEE Transactions on Neural Networks and Learning Systems, IEEE,
v. 29, n. 5, p. 1774–1785, May 2018. ISSN 2162-2388.

Zhou, J. et al. Feasibility of stochastic gradient boosting approach for evaluating seismic
liquefaction potential based on spt and cpt case histories. Journal of Performance
of Constructed Facilities, v. 33, n. 3, p. 04019024, 2019.

Zhu, X.; Goldberg, A. B. Introduction to semi-supervised learning. Synthesis Lectures


on Artificial Intelligence and Machine Learning, v. 3, n. 1, p. 1–130, 2009.
Disponı́vel em: <https://doi.org/10.2200/S00196ED1V01Y200906AIM006>.

Zhuang, Y. et al. Crime hot spot forecasting: A recurrent model with spatial and
temporal information. In: 2017 IEEE International Conference on Big
Knowledge (ICBK). Hefei, China: IEEE, 2017. p. 143–150. ISBN 978-1-5386-3120-1.
85

APÊNDICE A -- TABELA COM DEFINIÇÕES DE TIPOS DE CRIMES

Tabela elaborada pela autora com definições dos tipos de crimes de acordo com o
atual Código Penal (Brasil, 1940).

Tabela 9 – Definições dos tipos de crimes


Tı́tulo Tipo de crime Definição
Homicı́dio Matar alguém

Feminicı́dio Quando o crime de homicı́dio é cometido contra a


mulher por razões da condição de sexo feminino
Induzimento, Induzir ou instigar alguém a suicidar-se ou
instigação ou auxı́lio prestar-lhe auxı́lio para que o faça
a suicı́dio
Infanticı́dio Matar, sob a influência do estado, puerperal, o
próprio filho, durante o parto ou logo após
Aborto Provocar aborto em si mesma ou consentir que
outrem lho provoque; Provocar aborto, sem o
consentimento da gestante ou com o consentimento
Tı́tulo I
Dos crimes da gestante
contra a pessoa Lesão Corporal Ofender a integridade corporal ou a saúde de
outrem
Perigo de contágio Expor alguém, por meio de relações sexuais ou
venéreo qualquer ato libidinoso, a contágio de moléstia
venérea, de que sabe ou deve saber está
contaminado
Perigo de contágio de Praticar, com o fim de transmitir a outrem moléstia
moléstia grave grave de que está contaminado, ato capaz de
produzir o contágio
Perigo para a vida ou Expor a vida ou a saúde de outrem a perigo direto
saúde de outrem e iminente
Abandono de Abandonar pessoa que está sob seu cuidado,
incapaz guarda, vigilância ou autoridade, e, por
qualquer motivo, incapaz de defender-se dos
riscos resultantes do abandono
Exposição ou Expor ou abandonar recém-nascido, para ocultar
abandono de desonra própria
recém-nascido
continua na próxima página...
86

Tabela 9 – Continuação da página anterior

Tı́tulo Tipo de crime Definição


Omissão de socorro Deixar de prestar assistência, quando possı́vel
fazê-lo sem risco pessoal, à criança abandonada
ou extraviada, ou à pessoa inválida ou ferida, ao
desamparo ou em grave e iminente perigo; ou não
pedir, nesses casos, o socorro da autoridade pública
Maus-tratos Expor a perigo a vida ou a saúde de pessoa
sob sua autoridade, guarda ou vigilância, para
fim de educação, ensino, tratamento ou custódia,
Tı́tulo I quer privando-a de alimentação ou cuidados
Dos crimes
contra a pessoa indispensáveis, quer sujeitando-a a trabalho
excessivo ou inadequado, quer abusando de meios
de correção ou disciplina
Rixa Participar de rixa, salvo para separar os
contendores
Calúnia Caluniar alguém, imputando-lhe falsamente fato
definido como crime
Difamação Difamar alguém, imputando-lhe fato ofensivo à sua
reputação
Injúria Injuriar alguém, ofendendo-lhe a dignidade ou o
decoro
Constrangimento Constranger alguém, mediante violência ou grave
Ilegal ameaça, ou depois de lhe haver reduzido, por
qualquer outro meio, a capacidade de resistência,
a não fazer o que a lei permite, ou a fazer o que ela
não manda
Ameaça Ameaçar alguém, por palavra, escrito ou gesto, ou
qualquer outro meio simbólico, de causar-lhe mal
injusto e grave
Sequestro e cárcere Privar alguém de sua liberdade, mediante sequestro
privado ou cárcere privado
Tráfico de pessoas Agenciar, aliciar, recrutar, transportar, comprar,
alojar, ou acolher pessoa, mediante grave ameaça,
violência, coação, fraude ou abuso
Violação de Entrar ou permanecer, clandestina ou
domicı́lio astuciosamente, ou contra a vontade expressa
ou tácita de quem de direito, em casa alheia ou em
suas dependências
Violação de Devassar indevidamente o conteúdo de
correspondência correspondência fechada, dirigida a outrem
continua na próxima página...
87

Tabela 9 – Continuação da página anterior

Tı́tulo Tipo de crime Definição


Divulgação de Divulgar alguém, conteúdo de documento
segredo particular ou de correspondência confidencial, de
Tı́tulo I que é destinatário ou detentor, e cuja divulgação
Dos crimes possa produzir dano a outrem
contra a pessoa
Violação de segredo Revelar alguém, segredo, de quem tem ciência em
profissional razão de função, ministério, ofı́cio ou profissão, e
cuja revelação possa produzir dano a outrem
Invasão de Invadir dispositivo informático alheio, mediante
dispositivo violação indevida de mecanismo de segurança
informático
Furto Subtrair, para si ou para outrem, coisa alheia móvel
Roubo Subtrair, para si ou para outrem, coisa alheia
móvel, mediante grave ameaça ou violência a pessoa
Extorsão Constranger alguém, mediante violência ou grave
ameaça, e com o intuito de obter para si ou
para outrem indevida vantagem econômica, a fazer,
Tı́tulo II
Dos crimes tolerar que se faça ou deixar de fazer alguma coisa
contra o
patrimônio Alteração de limites Suprimir ou deslocar tapume, marco, ou qualquer
outro sinal indicativo de linha divisória, para
apropriar-se, no todo ou em parte, de coisa imóvel
alheia
Dano Destruir, ou inutilizar, ou deteriorar coisa alheia
Introdução ou Introduzir ou deixar animais em propriedade alheia
abandono de animais
em propriedade
alheia
Alteração de local Altera, sem licença, o aspecto de local
especialmente especialmente protegido por lei
protegido
Apropriação Apropriar-se de coisa alheia móvel, de que tem a
indébita posse ou a detenção
Apropriação Deixar de repassar à previdência social as
indébita contribuições recolhidas dos contribuintes
previdenciária
Estelionato Obter, para si ou para outrem, vantagem ilı́cita,
em prejuı́zo alheio, induzindo ou mantendo alguém
em erro, mediante artifı́cio, ou qualquer outro meio
fraudulento
continua na próxima página...
88

Tabela 9 – Continuação da página anterior

Tı́tulo Tipo de crime Definição


Abuso de incapazes Abusar, em proveito próprio ou alheio, de
necessidade, paixão ou inexperiência de menor,
Tı́tulo II
Dos crimes ou da alienação ou debilidade mental de outrem,
contra o
patrimônio induzindo qualquer deles à prática de ato suscetı́vel
de produzir efeito jurı́dico
Fraude no comércio Enganar, no exercı́cio de atividade comercial, o
adquirente ou consumidor
Receptação Adquirir, receber, transportar, conduzir ou ocultar,
coisa que sabe ser produto de crime, ou influir para
que terceiro, de boa-fé, a adquira, receba ou oculte
Tı́tulo III Violação de direito Violar direitos de autor e os que lhe são conexos
Dos crimes autoral
contra a
propriedade Usurpação de nome Procede-se mediante queixa no crime de violação
imaterial
ou pseudônimo de direito autoral
alheio
Atentado contra Constranger alguém, mediante violência ou grave
a liberdade de ameaça a exercer ou não exercer arte, ofı́cio,
trabalho profissão ou indústria, ou a trabalhar ou
Tı́tulo IV
Dos crimes não trabalhar durante certo perı́odo ou em
contra a determinados dias; a abrir ou fechar o seu
organização do
trabalho estabelecimento de trabalho
Atentado contra Constranger alguém, mediante violência ou grave
a liberdade de ameaça a celebrar contrato de trabalho, ou a
contrato de trabalho não fornecer a outrem ou não adquirir de outrem
e boicotagem matéria-prima ou produto industrial ou agrı́cola
violenta
Atentado contra Constranger alguém, mediante violência ou grave
a liberdade de ameaça a participar ou deixar de participar de
associação determinado sindicato ou associação profissional
Paralisação de Participar de suspensão ou abandono coletivo de
trabalho, seguida trabalho, praticando violência contra pessoa ou
de violência ou contra coisa
perturbação da
ordem
Paralisação de Participar de suspensão ou abandono coletivo de
trabalho de interesse trabalho, provocando a interrupção de obra pública
coletivo ou serviço de interesse coletivo
continua na próxima página...
89

Tabela 9 – Continuação da página anterior

Tı́tulo Tipo de crime Definição


Invasão de Invadir ou ocupar estabelecimento industrial,
Tı́tulo IV
Dos crimes estabelecimento comercial ou agrı́cola, com o intuito de impedir
contra a industrial, comercial ou embaraçar o curso normal do trabalho, ou com
organização do
trabalho ou agrı́cola; o mesmo fim de danificar o estabelecimento ou as
Sabotagem coisas nele existentes ou delas dispor
Exercı́cio de Exercer atividade, de que está impedido por decisão
atividade com administrativa
infração de decisão
administrativa
Aliciamento para o Recrutar trabalhadores, mediante fraude, com o
fim de emigração fim de levá-los para território estrangeiro
Aliciamento de Aliciar trabalhadores, com o fim de levá-los de uma
trabalhadores de um para outra localidade do território nacional
local para outro do
território nacional
Tı́tulo V Ultraje a culto e Escarnecer de alguém publicamente, por motivo de
Dos crimes impedimento ou crença ou função religiosa; impedir ou perturbar
contra o
sentimento pertubação de ato a cerimônia ou prática de culto religioso
religioso
e contra o ele relativo
respeito aos Impedimento ou Impedir ou perturbar enterro ou cerimônia
mortos
perturbação de funerária
cerimônia funerária
Violação de Violar ou profanar sepultura ou uma funerária
sepultura
Destruição, Destruir, subtrair ou ocultar cadáver ou parte dele
subtração ou
ocultação de cadáver
Vilipêndio a cadáver Tratar com desprezo o cadáver ou suas cinzas
Estupro Constranger alguém, mediante violência ou grave
ameaça, a ter conjunção carnal ou a praticar
ou permitir que com ele se pratique outro ato
libidinoso
Tı́tulo VI
Dos crimes Violação sexual Ter conjunção carnal ou praticar outro ato
contra a mediante fraude libidinoso com alguém, mediante fraude ou outro
liberdade
sexual meio que impeça ou dificulte a livre manifestação
de vontade da vı́tima
continua na próxima página...
90

Tabela 9 – Continuação da página anterior

Tı́tulo Tipo de crime Definição


Assédio sexual Constranger alguém com o intuito de obter
vantagem ou favorecimento sexual, prevalecendo-se
o agente da sua condição de superior hierárquico
ou ascendência inerentes ao exercı́cio do emprego,
Tı́tulo VI
Dos crimes cargo ou função
contra a Estupro de Ter conjunção carnal ou praticar outro ato
liberdade
sexual vulnerável libidinoso com menor de 14 anos
Satisfação de lascı́via Praticar, na presença de alguém menor de 14 anos,
mediante presença ou induzi-lo a presenciar conjunção carnal ou outro
de criança ou ato libidinoso, a fim de satisfazer lascı́via própria
adolescente ou de outrem
Favorecimento da Submeter, induzir ou atrair à prostituição ou de
prostituição ou de outra forma de exploração sexual alguém menor
outra forma de de 18 anos ou que, por enfermidade ou deficiência
exploração sexual mental, não tem o necessário discernimento para a
de criança ou prática do ato, facilitá-la, impedir ou dificultar que
adolescente ou de a abandone
vulnerável
Favorecimento da Induzir ou atrair à prostituição ou outra forma de
prostituição ou outra exploração sexual, facilitá-la, impedir ou dificultar
forma de exploração que alguém a abandone
sexual
Rufianismo Tirar proveito da prostituição alheia, participando
diretamente de seus lucros ou fazendo-se sustentar,
no todo ou em parte, por quem a exerça
Tráfico interno ou Promover, com o fim de obter vantagem econômica,
internacional de a entrada ilegal de estrangeiro em território
pessoa para fim de nacional ou de brasileiro em paı́s estrangeiro
exploração sexual
Ato obsceno Praticar ato obsceno em lugar público, ou aberto
ou exposto ao público
Escrito ou objeto Fazer, importar, exportar, adquirir ou ter sob sua
obsceno guarda, para fim de comércio, de distribuição, ou
de exposição pública, escrito, desenho, pintura,
estampa ou qualquer objeto obsceno
Tı́tulo VII Bigmaia Contrair alguém, sendo casado, novo casamento
Dos crimes
contra a Induzimento a erro Contrair casamento, induzindo em erro essencial
famı́lia essencial e ocultação o outro contraente, ou ocultando-lhe impedimento
de impedimento que não seja casamento anterior
continua na próxima página...
91

Tabela 9 – Continuação da página anterior

Tı́tulo Tipo de crime Definição


Simulação de Atribuir-se falsamente autoridade para celebração
autoridade para de casamento
celebração de
casamento
Simulação de Simular casamento mediante engano de outra
Tı́tulo VII
Dos crimes casamento pessoa
contra a
famı́lia Registro de Promover no registro civil a inscrição de nascimento
nascimento inexistente
inexistente
Sonegação de estado Deixar em asilo de expostos ou outra instituição
de filiação de assistência filho próprio ou alheio, ocultando-lhe
filiação ou atribuindo-lhe outra, com o fim de
prejudicar direito inerente ao estado civil
Abandono material Deixar de prover a subsistência do cônjuge, ou de
filho menor de 18 anos ou inapto para o trabalho,
ou de ascendente inválido ou maior de 60 anos,
não lhes proporcionando os recursos necessários
ou faltando ao pagamento de pensão alimentı́cia
judicialmente acordada
Entrega de filho Entregar filho menor de 18 anos a pessoa em cuja
menor a pessoa companhia saiba ou deva saber que o menor fica
inidônea moral ou materialmente em perigo
Abandono Deixar de prover à instrução primária de filho em
intelectual idade escolar
Subtração de Subtrair menor de 18 anos ou interdito ao poder de
incapazes quem o tem sob sua guarda em virtude de lei ou de
ordem judicial
Incêndio Causar incêndio, expondo a perigo a vida, a
integridade fı́sica ou o patrimônio de outrem
Explosão Expor a perigo a vida, a integridade fı́sica
ou o patrimônio de outrem, mediante explosão,
arremesso ou simples colocação de engenho de
dinamite ou de substância de efeito análogos
Tı́tulo VIII
Dos crimes Uso de gás tóxico ou Expor a perigo a vida, a integridade fı́sica ou o
contra a asfixiante patrimônio de outrem, usando de gás tóxico ou
incolumidade
pública asfixiante
Inundação Causar inundação, expondo a perigo a vida, a
integridade fı́sica ou o patrimônio de outrem
continua na próxima página...
92

Tabela 9 – Continuação da página anterior

Tı́tulo Tipo de crime Definição


Desabamento ou Causar desabamento ou desmoronamento, expondo
desmoronamento a perigo a vida, a integridade fı́sica ou o patrimônio
de outrem
Difusão de doença ou Difundir doença ou praga que possa causar dano
praga a floresta, plantação ou animais de utilidade
econômica
Perigo de desastre Impedir ou perturbar serviço de estrada de ferro
Tı́tulo VIII
Dos crimes ferroviário
contra a Atentado contra Expor a perigo embarcação ou aeronave, ou
incolumidade
pública a segurança de praticar qualquer ato tendente a impedir ou
transporte marı́timo, dificultar navegação marı́tima, fluvial ou aérea
fluvial ou aéreo
Arremesso de Arremessar projétil contra veı́culo, em movimento,
projétil destinado ao transporte público por terra, água ou
pelo ar
Epidemia Causar epidemia, mediante a propagação de germes
patogênicos
Infração de medida Infringir determinação do poder público, destinada
sanitária preventiva a impedir introdução ou propagação de doença
contagiosa
Omissão de Deixar o médico de denunciar à autoridade pública
notificação de doença cuja notificação é compulsória
doença
Envenenamento Envenenar água potável ou de substância
de água potável alimentı́cia ou medicinal destinada a consumo
ou de substância
alimentı́cia ou
medicinal
Charlatanismo Inculcar ou anunciar cura por meio secreto ou
infalı́vel
Curandeirismo Exercer o curandeirismo: prescrevendo,
ministrando ou aplicando qualquer substância;
usando gestos, palavras ou qualquer outro meio;
fazendo diagnósticos
Incitação ao crime Incitar, publicamente, a prática de crime
Tı́tulo IX
Dos crimes Apologia de crime ou Fazer, publicamente, apologia de fato criminoso ou
contra a
paz pública criminoso de autor de crime
Associação Associarem-se 3 ou mais pessoas, para o fim
criminosa especı́fico de cometer crimes
continua na próxima página...
93

Tabela 9 – Continuação da página anterior

Tı́tulo Tipo de crime Definição


Tı́tulo IX Constituição de Constituir, organizar, integrar, manter ou custear
Dos crimes
contra a milı́cia privada organização paramilitar, milı́cia particular, grupo
paz pública
ou esquadrão com a finalidade de praticar qualquer
dos crimes previstos no Código Penal
Moeda falsa Falsificar, fabricando-a ou alterando-a, moeda
metálica ou papel-moeda de curso legal no paı́s ou
no estrangeiro
Falsificação de Falsificar, fabricando-a ou alterando-os: sele
papéis públicos destinado a controle tributário, papel selo; papel de
crédito público que não seja moeda de curso legal;
vale postal
Petrechos de Fabricar, adquirir, fornecer, possuir ou guardar
Tı́tulo X falsificação objeto especialmente destinado à falsificação
Dos crimes
contra a Falsificação de Falsificar, no todo ou em parte, documento público,
fé pública documento público ou alterar documento público verdadeiro
Falsificação Falsificar, no todo ou em parte, documento
de documento particular, ou alterar documento particular
particular verdadeiro
Falsidade ideológica Omitir em documento público ou particular,
declaração que dele devia constar, ou nele inserir
ou fazer inserir declaração falsa ou diversa da que
devia ser escrita, com o fim de prejudicar direito,
criar obrigação ou alterar a verdade sobre fato
juridicamente relevante
Uso de documento Fazer uso de qualquer dos papéis falsificados ou
falso alterados
Falsa identidade Atribuir-se ou atribuir a terceiro falsa identidade
para obter vantagem
Fraudes em certames Utilizar ou divulgar, indevidamente, com o fim de
de interesse público beneficiar a si ou a outrem, ou de comprometer a
credibilidade do certame, conteúdo sigiloso
Tı́tulo XI Peculato Apropriar-se o funcionário público de dinheiro,
Dos crimes valor ou qualquer outro bem móvel, público ou
contra a
administração particular, de que tem a posse em razão do cargo,
pública
ou desviá-lo, em proveito próprio ou alheio
Concussão Exigir, para si ou para outrem, direta ou
indiretamente, vantagem indevida
continua na próxima página...
94

Tabela 9 – Continuação da página anterior

Tı́tulo Tipo de crime Definição


Corrupção Solicitar ou receber, para si ou para outrem, direta
ou indiretamente, vantagem indevida, ou aceitar
promessa de tal vantagem
Prevaricação Retardar ou deixar de praticar, indevidamente, ato
de ofı́cio, ou praticá-lo contra disposição expressa
de lei, para satisfazer interesse ou sentimento
pessoal
Abandono de função Abandonar cargo público
Tı́tulo XI
Dos crimes Violação de sigilo Revelar fato de que tem ciência em razão do cargo
contra a funcional e que deva permanecer em segredo, ou facilitar-lhe
administração
pública a revelação
Resistência Opor-se à execução de ato legal, mediante
violência ou ameaça a funcionário competente para
executá-lo
Desobediência Desobedecer a ordem legal de funcionário público
Desacato Desacatar funcionário público no exercı́cio da
função ou em razão dela
Contrabando Importar ou exportar mercadoria proibida
Denunciação Dar causa à instauração de investigação policial,
caluniosa de processo judicial, instauração de investigação
administrativa, imputando-lhe crime de que o sabe
inocente
Falso testemunho ou Fazer afirmação falsa, ou nega ou calar a verdade,
falsa perı́cia como testemunho, perito, contador, tradutor ou
intérprete em processo judicial
Fraude processual Inovar artificiosamente o estado de lugar, de coisa
ou de pessoa, com o fim de induzir a erro o juiz ou
o perito
Favorecimento Auxiliar a subtrair-se à ação de autoridade pública
pessoal autor de crime a que é cominada pena de reclusão
Fuga de pessoa presa Promover ou facilitar a fuga de pessoa legalmente
ou submetida a presa ou submetida a medida de segurança
medida de segurança detentiva
Motim de presos Amotinarem-se presos, perturbando a ordem ou
disciplina da prisão
continua na próxima página...
95

Tabela 9 – Continuação da página anterior

Tı́tulo Tipo de crime Definição


Tı́tulo XI Exploração de Solicitar ou receber dinheiro ou qualquer outra
Dos crimes
contra a prestı́gio utilidade, a pretexto de influir em juiz, jurado,
administração
pública órgão do Ministério Público, funcionário de justiça,
perito, tradutor, intérprete ou testemunha
Fonte: Código Penal Brasileiro.
97

ANEXO A

Figura 1: Imagem da primeira página de um boletim de ocorrência de MG

Fonte: Arquivo da autora.


98

Figura 2: Imagem da última página um boletim de ocorrência de MG

Fonte: Arquivo da autora.


99

ANEXO B

Figura 1: Etapas de registro no site Onde Fui Roubado

(b) Etapa 2: Data e horário em que o crime


ocorreu
(a) Etapa 1: Local onde ocorreu o crime

(d) Etapa 4: Outras informações

(c) Etapa 3: Objetos roubados


Fonte: Aplicativo Onde Fui Roubado.

Você também pode gostar