Escolar Documentos
Profissional Documentos
Cultura Documentos
Belo Horizonte
2020
Úrsula Rosa Monteiro de Castro
Belo Horizonte
2020
FICHA CATALOGRÁFICA
Elaborada pela Biblioteca da Pontifícia Universidade Católica de Minas Gerais
CDU: 681.3.01:621.39
Ficha catalográfica elaborada por Fernanda Paim Brito - CRB 6/2999
Úrsula Rosa Monteiro de Castro
Agradeço primeiramente a Deus pela força espiritual para realização deste trabalho.
Aos meu pais, Soraia e Marco, pelo amor, carinho, incentivo e orgulho dos meus
estudos, muito obrigada.
Ao meu namorado, Fernando, pelo amor, carinho, apoio e incentivo ao longo desta
jornada, muito obrigada.
Agradeço aos meus amigos, em especial, ao Marcos por todas as conversas, pelas
longas horas no laboratório e por toda preocupação comigo ao longo desta jornada, e ao
Patrick por sempre estar presente, mesmo estando longe fisicamente, e por todo o apoio
e incentivo ao longo desta caminhada.
Muito obrigada!
“...E nunca considerem seu estudo como uma
obrigação, mas sim como uma oportunidade
invejável de aprender, sobre a influência
libertadora da beleza no domı́nio do espı́rito,
para seu prazer pessoal e para o proveito da
comunidade à qual pertencerá o seu trabalho
futuro.”
Albert Einstein
RESUMO
Crime analysis is the area that supports public security agencies in preventing and
effectively solving crimes, providing methods and techniques to understand criminal
behavior patterns. Crime reduction strategies depend mainly on preventive actions, such
as deciding where to conduct patrols and allocating more police officers. The evaluation
of these actions is essential in reviewing strategies to ensure effectiveness. In this work,
we propose a supervised learning approach that explores heterogeneous sources of data to
understand criminal behavior patterns and predict the occurrence of crimes. In particular,
we select and combine evidence from these data sources to predict the trend and number of
occurrences of types of crime by geographic regions. Our approach explores five machine
learning techniques for prediction: k -Nearest Neighbor (k-NN), Support Vector Machine
(SVM), Random Forest (RF), eXtreme Gradient Boosting (XGBoost) and the Long Short
Term Memory neural network (LSTM). The experimental results show that our approach
reaches 91% accuracy and 98% precision in predicting the tendency for crimes to occur.
In addition, we demonstrate that heterogeneous data sources can be effectively used by
supervised techniques to improve prediction performance.
FIGURA 5 – Frequência dos tipos de crime por mês e ano - Base não oficial . . . . . . . 57
FIGURA 6 – Frequência dos registros por ano e gênero da vı́tima - Base não oficial 57
FIGURA 8 – Frequência de registros por mês e dias da semana por ano - Base não
oficial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
FIGURA 9 – Frequência de registros por região e perı́odo do dia por ano - Base não
oficial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
FIGURA 11 – Frequência dos tipos de crime por mês e ano - Base oficial . . . . . . . . . 60
FIGURA 14 – Frequência de registros por mês e dias da semana por ano - Base oficial 61
FIGURA 15 – Frequência de registros por região e perı́odo do dia por ano - Base
oficial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
AG - Algoritmo Genético
BO - Boletim de Ocorrência
CF - Constituição Federal
DW - Data Warehouse
MG - Minas Gerais
RF - Random Forest
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.1 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.3 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.4 Organização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1 Crime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Boletim de Ocorrência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3 Aprendizagem de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.1 Técnicas de Aprendizagem Supervisionada . . . . . . . . . . . . . . . . . . 33
2.3.1.1 k -Nearest Neighbor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.1.2 Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.1.3 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.1.4 eXtreme Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.1.5 Long Short Term Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.2 Métricas de avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.3 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.4 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.5 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.6 F1-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.7 Erro Quadrático Médio (MSE) . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.8 Erro Médio Absoluto (MAE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1 Revisão Sistemática da Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.1 Questão de pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.2 Condução da RSL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Análise dos resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.1 [QE1] Quais evidências estão sendo utilizadas para
identificação de padrões na predição de crimes? . . . . . . . . . . . . . 48
3.2.2 [QE2] Quais bases de dados são usadas para predição de crimes? 49
3.2.3 [QE3] Quais técnicas estão sendo utilizadas para predição de
crimes? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 ABORDAGEM PROPOSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6 EXPERIMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2 Configuração dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
8 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
REFERÊNCIAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
ANEXO A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
ANEXO B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
25
1 INTRODUÇÃO
oficial de crimes surgiram alguns sı́tios na Web como o Onde Fui Roubado ∗ e o
WikiCrimes † . Esses sı́tios se tornam ferramentas de utilidade pública capazes de captar
dados sobre ações criminosas. Redes sociais como Facebook e Twitter também podem ter
um papel importante para preencher essa lacuna existente, uma vez que é comum vı́timas
relatarem ocorrências de crimes em seus perfis em redes sociais. Estes relatos geralmente
contém muitos detalhes do crime, como prejuı́zos materiais, caracterı́sticas do criminoso,
localização e horário.
O presente trabalho propõe uma abordagem para predição de crimes que explora
cinco diferentes algoritmos de aprendizagem supervisionada, utilizando dados oficiais e
não oficiais. Particularmente, os algoritmos k-Nearest Neighbor (k -NN), Support Vector
Machine (SVM), Random Forest (RF), eXtreme Gradient Boosting (XGBoost) eLong
Short Term Memory (LSTM) foram utilizados para prever a tendência do aumento ou
diminuição do número de ocorrências, e o número de ocorrências de crimes por tipos de
crimes e por região geográfica. Ao trabalhar com dados de diferentes fontes, espera-se
ter uma imagem mais realista do real número de ocorrências de crimes no estado. Os
resultados experimentais mostram que a abordagem proposta atinge até 91% de acurácia
e 98% de precisão, com uma pequena vantagem para os resultados obtidos pelo LSTM.
1.1 Problema
1.2 Objetivo
1.3 Justificativa
1.4 Organização
2 REFERENCIAL TEÓRICO
2.1 Crime
Ivins (1911) afirma que o crime é o ponto de conflito entre o indivı́duo e a sociedade,
e que se intensifica com a complexidade das relações sociais e da natureza humana. Ivins
(1911) argumenta sobre o que é o crime, e conclui que como uma possı́vel definição o
crime é um ato, um fato, é um ato ofensivo, no que diz respeito ao indivı́duo, é uma
demonstração de caráter, para o presente da sociedade, é uma lesão, para o futuro da
sociedade, é uma ameaça. De acordo com Stevenson (2010), crime é uma atividade que
envolve violar a lei; é um ato ou atividade ilegal que possa ser punida por lei; é um ato
que é moralmente errado. Rucman (2019) define o crime como um ato ilegı́timo ou um
processo que causa ou pode causar danos graves. Nesse ato ou processo, um criminoso
está ciente das consequências ou teria que prevê-las.
Existe uma diversidade de conceitos para crime, podendo este ser definido sob uma
perspectiva legal, formal, material ou dogmática. No direito penal norte-americano, por
exemplo, o crime é definido como a violação ou negligência de obrigação legal, de tal
importância pública, em que o direito toma conhecimento e implementa punição (May,
1881). No Brasil, na perspectiva legal o Artigo 1ºda Lei de Introdução do Código Penal
Brasileiro (Brasil, 1940) define crime como: “infração penal que a lei comina pena de
reclusão ou de detenção, quer isoladamente, quer alternativa ou cumuladamente com a
pena de multa”. Sob o aspecto formal, o crime pode ser conceituado como um fato gerado
por uma conduta humana que se encontra descrito em um tipo penal a qual se comina
uma pena. Numa perspectiva material crime pode ser definido como o fato gerado por
uma conduta humana que lesiona ou expõe a perigo de lesão um bem jurı́dico penalmente
tutelado. Dentro da perspectiva dogmática é adotado de forma majoritária pela doutrina
a teoria tripartido, que conceitua o crime como fato tı́pico, antijurı́dico e culpável (Greco,
2016). De acordo com Herrera (2007), a maioria dos códigos penais do mundo definem o
crime, na perspectiva dogmática, de acordo com a teoria tripartido.
O Direito Penal, por representar a mais firme resposta do Estado, tem caráter
subsidiário quanto aos outros ramos do direito e fragmentário quanto ao bem jurı́dico
protegido, protegendo os bens mais sagrados para o convı́vio em sociedade. Assim,
30
Tı́tulo I - Dos crimes contra a pessoa: esse tı́tulo visa proteger o objeto jurı́dico à pessoa
delimitando os casos à vida, a integridade à sua saúde fı́sica e mental; a estar sã e
salva de perigos. Exemplo: homicı́dio, aborto, lesão corporal, maus tratos, rixa, etc;
Tı́tulo II - Dos crimes contra o patrimônio: esse tı́tulo visa proteger o patrimônio alheio.
Exemplo: furto, roubo, extorsão, dano, apropriação indébita, estelionato, etc;
Tı́tulo III - Dos crimes contra a propriedade imaterial: esse tı́tulo visa proteger tudo que
é fruto de criação intelectual. Exemplo: violação de direito autoral e usurpação de
nome ou pseudônimo alheio;.
Tı́tulo IV - Dos crimes contra a organização do trabalho: esse tı́tulo visa proteger o livre
exercı́cio da profissão do trabalho e suas relações trabalhistas. Exemplo: atentado
contra a liberdade de trabalho, paralisação de trabalho de interesse coletivo, exercı́cio
de atividade com infração de decisão administrativa, etc;
Tı́tulo V - Dos crimes contra o sentimento religioso e contra o respeito aos mortos: esse
tı́tulo subdivide-se em dois capı́tulos, o primeiro busca proteger a liberdade de
crença, de culto, organização religiosa; o segundo, busca proteger a memória do
morto perante a famı́lia. Exemplo: ultraje a culto e impedimento ou pertubação
de ato a ele relativo, violação de sepultura, destruição, subtração ou ocultação de
cadáver, etc;
Tı́tulo VI - Dos crimes contra a dignidade sexual: esse tı́tulo visa proteger a dignidade
e liberdade sexual da pessoa. Exemplo: estupro, assédio sexual, favorecimento da
prostituição ou outra forma de exploração sexual, etc;
Tı́tulo VII - Dos crimes contra a famı́lia: esse tı́tulo busca proteger o organismo familiar,
especificadamente como proteção a organização jurı́dica matrimonial, assistência
familiar, a segurança do estado de filiação e poder familiar (tutela e curatela).
Exemplo: bigamia, simulação de casamento, sonegação de estado de filiação,
abandono material, subtração de incapazes, etc;
Tı́tulo VIII - Dos crimes contra a incolumidade pública: esse tı́tulo busca proteger e
evitar atos que causem perigo comum ou coloquem em risco a segurança pública.
Exemplo: incêndio, inundação, difusão de doença ou praga, etc;
31
Tı́tulo IX - Dos crimes contra a paz pública: esse tı́tulo visa proteger a paz pública,
o sentimento de segurança e tranquilidade da sociedade. Exemplo: incitação ao
crime, apologia de crime ou criminoso, associação criminosa e constituição de milı́cia
privada;
Tı́tulo X - Dos crimes contra a fé pública: esse tı́tulo visa proteger a fé pública, a
crença do povo em documentos e a credibilidade relacionada a função exercida
pelos funcionários públicos. Exemplo: moeda falsa, falsificação de papéis públicos,
falsificação de cartão, fraude em certames de interesse público, etc;
Tı́tulo XI - Dos crimes contra a administração pública: esse tı́tulo busca proteger
a probidade administrativa, o interesse público e a boa aplicação dos recursos
da coletividade. Exemplo: peculato, corrupção, desacato, contrabando, fraude
processual, motim de presos, etc.
Neste trabalho, serão utilizados apenas os crimes dos tipos de “furto” e “roubo”,
os quais são considerados crimes contra o patrimônio. De acordo com o Código Penal
Brasileiro (Brasil, 1940), o crime de furto é quando há subtração do patrimônio de outra
pessoa sem nenhuma violência, já o crime de roubo é caracterizado pela subtração de
patrimônio mediante grave ameaça e/ou violência.
entre outros. Porém, a Secretária de Defesa do Estado ao divulgar a base de REDS deve
manter sigilo sobre alguns dados contidos nos boletins. Nas Figuras do Anexo A, estão
destacados em vermelho os campos que são concedidos na divulgação da base de REDS e
são apresentados no Quadro 1.
Atributo Descrição
REDS Número identificador do Registro de Evento de
Defesa Social
BO número Número identificador do boletim de ocorrência
Municı́pio Municı́pio em que está sendo registrada a ocorrência
Provável descrição da ocorrência O tipo da ocorrência. Se for uma ocorrência criminal,
principal corresponde ao tipo de crime que ocorreu
Data do fato Data em que o fato ocorreu
Hora do fato Horário em que o fato ocorreu
Local Endereço do local em que o fato ocorreu
Número, KM, Complemento, Complementos do endereço do local em que o fato
Bairro, CEP, Munı́cipio, UF, ocorreu
Paı́s
Latitute Latitude de onde o fato ocorreu
Longitude Longitude de onde o fato ocorreu
Sexo Gênero do envolvido na ocorrência
Tipo envolvimento O tipo de envolvimento da pessoa com o fato que está
sendo registrado, ou seja, se é a vı́tima, testemunha
ou autor
de desempenho ao executar uma tarefa, por meio de algum tipo experiência de treinamento
(Mitchell, 1997).
b) aprendizado não supervisionado: são fornecidas às técnicas apenas as amostras com
valores de entrada e não há ideia do resultado durante o processo de aprendizagem.
O objetivo deste tipo de aprendizado é descobrir a estrutura “natural” nos dados
de entrada. Um exemplo de tarefa não supervisionada é a clusterização (Kantardzic,
2011; Alpaydin, 2010).
Existem várias técnicas relatadas na literatura cientı́fica que podem ser utilizadas
para prever e classificar eventos. Neste trabalho, foram utilizadas cinco técnicas
supervisionadas bem conhecidas e que geralmente fornecem resultados efetivos quando
utilizadas para predição.
34
A lógica do método k -NN é que espera-se que uma amostra de teste x tenha o
mesmo rótulo que a amostra de treinamento localizada na região próxima de x. Este
método também é chamado de aprendiz baseado em instância, pois ele não é treinado a
priori, uma vez que sua saı́da é calculada apenas quando se deseja saber a classe de algum
novo objeto. Apesar da simplicidade, esta técnica apresenta bons resultados em diversos
cenários e normalmente se comporta bem quando cada classe possui diversos objetos e a
superfı́cie de decisão é irregular (Kantardzic, 2011).
Em geral, este algoritmo tende a ter uma maior precisão quanto maior for o número
de árvores de decisão. Entretanto, é importante ressaltar que em algum momento o
aumento no número de novas árvores poderá não trazer resultados positivos.
37
atual (as novas informações que estão sendo fornecidas naquele momento). Na Figura
3 pode-se ver a estrutura de uma rede LSTM. Nesta Figura há duas linhas principais,
sendo que a linha destacada em vermelho correspondente à célula de memória (memória
de longo prazo) e a linha destacada em laranja correspondente à memória de curto prazo.
Entre essas duas linhas tem-se três gates que controlam a passagem de informação: a)
forget gate: determina quais partes da célula de memória são importantes e quais devem
ser esquecidas; b) input gate: determina quais informações novas serão passadas para a
célula de memória; e c) output gate: utiliza a memória de curto prazo para determinar
quais informações são importante para a saı́da.
erro quadrático médio, e erro médio absoluto, são usualmente utilizadas para avaliar
os resultados de abordagens de aprendizagem supervisionadas, permitindo a comparação
entre diferentes algoritmos. Para o cálculo da acurácia, precisão e recall são utilizados os
termos:
• Falsos positivos (FP): quando o modelo prevê erroneamente um caso positivo, por
exemplo: um modelo previu que uma imagem é de um crime, quando na verdade
não é um crime; e
• Falsos negativos (FN): quando o modelo prevê erroneamente um caso negativo, por
exemplo: um modelo previu que uma imagem não é de um crime, quando na verdade
é um crime.
2.3.3 Acurácia
Acurácia (ACC) é uma das medidas mais utilizadas para avaliar o desempenho da
classificação e é definida como uma razão entre o número de predições corretas e o número
total de predições, conforme a Equação 2.1:
VP +VN
ACC = (2.1)
V P + FP + V N + FN
onde, V P = Verdadeiros Positivos, V N = Verdadeiros Negativos, F P = Falsos
Positivos e F N = Falsos Negativos (Kantardzic, 2011).
2.3.4 Precisão
VP
Pr = (2.2)
V P + FP
2.3.5 Recall
VP
Recall = (2.3)
V P + FN
2.3.6 F1-score
P r ∗ Recall
F1 = 2 ∗ (2.4)
P r + Recall
n
1 X
M SE = ( ) (yi − ŷi )2 (2.5)
n i=1
O Erro Médio Absoluto (MAE) encontra a distância absoluta média entre os valores
preditos e os valores alvos. Em outras palavras, em vez de atribuir um peso de acordo com
a magnitude da diferença, é atribuı́do o mesmo peso a todas as diferenças, de maneira
linear. O MAE é definido conforme a Equação 2.6:
n
1 X
M AE = ( ) |yi − ŷi | (2.6)
n i=1
3 TRABALHOS RELACIONADOS
[QP1 ] Qual o atual panorama de pesquisa utilizando bases heterogêneas para predição
de crimes?
Para auxiliar na resposta desta [QP], foram definidas algumas questões especı́ficas [QE]:
[QE1 ] Quais evidências estão sendo utilizadas para identificação de padrões na predição
de crimes?
∗
https://www.acm.org/
†
https://www.ieee.org//
45
Boni e Gerber (2016a), utilizaram informações sobre a rotina das pessoas através
de posts do Twitter. Os autores com base nos tweets históricos coletados, reconstruı́ram
a rotina diária de cada usuário. Ao final do trabalho, eles concluı́ram que esses atributos
melhoram o modelo de predição para a maioria dos crimes (15 de 20 tipos de crimes).
Em Wang e Brown (2011), além dos atributos da base criminal oficial foram
considerados atributos geográficos e demográficos. Com esses atributos, os autores
encontraram dois padrões criminais, sendo eles: casas mais próximas das rodovias tem
maior probabilidade de serem invadidas; e a vizinhança com casas de valor médio de 50
mil dólares também tem maior probabilidade de serem invadidas. Belesiotis, Papadakis e
Skoutas (2018) também combinaram dados criminais oficiais com dados demográficos, e
ainda utilizaram informações de mais quatro bases de dados. Os autores concluı́ram que
utilizar diversos atributos de diferentes origens pode revelar informações valiosas e fazer
predições precisas sobre a distribuição espacial dos tipos de crimes em centros urbanos.
Com base na análise dos trabalhos selecionados, pode-se afirmar que o uso de
atributos além das de bases oficiais melhoram a identificação de padrões na predição de
crimes.
3.2.2 [QE2] Quais bases de dados são usadas para predição de crimes?
No estudo de Wang e Brown (2011), foram utilizadas três bases de dados, sendo
elas: base oficial de crimes de invasão da cidade Charlottesville, Virgı́nia, USA; base
geográfica da cidade, com a localização de estradas, rodovias interestaduais, pequenos
negócios e escolas; e uma base demográfica, com informação do censo sobre a população,
média de valores das casas, raça e casamentos. Os autores Belesiotis, Papadakis e Skoutas
(2018) também utilizaram base de dados criminais oficiais, no caso do Reino Unido, e base
com dados demográficos, com informações do censo da região. Além destas duas bases,
os autores utilizaram mais três bases, as quais são: base com informações de lugares de
interesses públicos, com informações de quantas pessoas costumam frequentar o local e
onde é localizado; base com caracterı́sticas de transporte e mobilidade por região, com
informação do número de pontos de ônibus, estações de metrô e bicicletas existem por
região; base de imagens da região; e uma base com informações sobre a natureza e tipo
de uma região.
Assim como Belesiotis, Papadakis e Skoutas (2018), os autores Huang et al. (2018),
também utilizaram uma base de dados com informações de lugares de interesse público
em Nova Iorque, USA. Além desta base, os autores também utilizaram dados oficiais de
crimes que ocorreram na cidade e uma base composta por reclamações urbanas, como por
exemplo entrada de automóveis bloqueada.
A partir da análise dos trabalhos, pode-se observar que menos da metade dos
estudos selecionados utilizam bases heterogêneas. É importante ressaltar, que foi
51
observado uma contribuição significativa a partir do uso de outras bases para a solução
do problema de predição de crimes.
Estudos que realizaram uma análise espaço temporal para predição de crimes,
utilizaram técnicas diferentes. Os autores Zhuang et al. (2017) propuseram um modelo
para previsão de crimes com a rede neural LSTM que obteve resultados melhores
de acurácia e precisão quando comparado com outros algoritmos convencionais de
aprendizagem de máquina. Já Parvez, Mosharraf e Ali (2016), propuseram um modelo
probabilı́stico baseado em padrões de crimes anteriores, o qual obteve ótimos resultados
na análise estatı́stica. Clougherty et al. (2015), utilizaram Logistic Regression e Random
Forest para avaliar a correlação entre locais de crimes sexuais, condição climática e outras
variáveis temporais.
Pradhan et al. (2019) também utilizaram o k-NN para a predição de crimes. Além
do k-NN, os autores compararam os resultados de predições de crimes obtidos pelos
métodos: Multi-class Logistic Regression, Árvore de Decisão, Random Forest e Naive
Bayes. Assim como em Baculo et al. (2017), o RF obteve o melhor resultado quando se
comparado com as outras técnicas. O mesmo resultado foi encontrado pelos autores de
Bogomolov et al. (2014) quando compararam os resultados do RF com Logistic Regression,
SVM e Redes Neurais.
Artigo Objetivo(s)
Wang e Brown (2011) Propõem um modelo para predição de locais e horários futuros
de ocorrências criminais, predizendo a probabilidade de um
crime ocorrer em um determinado local e hora.
Yu et al. (2011) Propõem uma abordagem que prediz se o crime do tipo de
roubo residencial irá ocorrer em uma determinada área e em
qual área irá aumentar a ocorrência desse tipo de crime.
Bogomolov et al. (2014) Propõem uma abordagem que utiliza dados sobre
comportamentos humanos junto com dados de ocorrências
criminais e realiza a predição se um determinado ponto da
cidade será um ponto com altas ocorrências de crimes ou não
no próximo mês.
Aghababaei e Makrehchi (2015) Propõem uma abordagem que explora tópicos de discussão no
Twitter relacionados a cidade e os utiliza para realizar predição
da tendência de crimes na cidade.
continua na próxima página...
53
Artigo Objetivo(s)
Clougherty et al. (2015) Propõem uma abordagem que analisa os aspectos espaciais
e temporais de ocorrências de agressões sexuais; avalia a
correlação entre locais de crimes e condições meteorológicas;
encontra padrões sazonais nos dados de crimes; e realiza
predição de onde e quando tem maior probabilidade de
ocorrerem os crimes sexuais na cidade.
Aghababaei e Makrehchi (2016) Propõem uma abordagem que coleta tweets sobre a cidade
e junto com dados criminais oficiais realiza a predição da
tendência da taxa de crime na cidade.
Boni e Gerber (2016a) Propõem uma abordagem que mapeia os tweets para o ambiente
fı́sico, depois reconstrói as rotinas diárias dos indivı́duos e
realiza uma predição binária, se ocorre ou não ocorre um crime
em determinados pontos da cidade.
Boni e Gerber (2016b) Propõem uma abordagem de predição de crimes especı́ficos por
áreas da cidade, o modelo proposto estima o risco relativo de
um tipo de crime em um ponto da cidade.
Sivaranjani, Sivakumari e Aasha (2016) Propõem uma abordagem de predição de vinte tipos de crimes
em seis cidades da Índia. Utilizou técnicas de clusterização para
detectar crimes e técnicas de classificação para predizer crimes.
Parvez, Mosharraf e Ali (2016) Propõem uma abordagem que explora dados históricos de
crimes e realiza a predição da probabilidade de um crime
ocorrer em uma determinada região e em um momento
especı́fico do dia.
Baculo et al. (2017) Propõem uma abordagem de predição que identifica os pontos
mais crı́ticos da cidade em relação a ocorrência de crimes e
prediz a hora e o local em que o crime deve ocorrer.
Marzan et al. (2017) Propõem uma abordagem que identifica as áreas de maior
criminalidade, identifica padrões de crimes frequentes e utiliza
essas informações junto com dados oficiais para predizer a
tendência do número de crimes.
Zhuang et al. (2017) Propõem uma abordagem que detecta padrões espaciais e
temporais, e realiza a predição de pontos crı́ticos de crimes
em regiões geográficas da cidade.
Belesiotis, Papadakis e Skoutas (2018) Propõem uma abordagem de predição da distribuição espacial
de cada tipo de crime em grandes centros urbanos, e destacam
quais atributos afetam mais a predição de acordo com o tipo
de crime que está sendo predito.
continua na próxima página...
54
Artigo Objetivo(s)
Huang et al. (2018) Propõem um framework (DeepCrime) que captura as
dependências da evolução no tempo entre as ocorrências
de crimes em diferentes intervalos de tempo, codifica
as dependências temporais da sequência da evolução das
ocorrências, modela as interações região geográfica e tipo de
crimes, e realiza a predição da probabilidade da ocorrência de
crime de cada tipo de crime em cada região da cidade.
Elluri, Mandalapu e Roy (2019) Propõem uma abordagem que realiza uma análise estatı́stica
dos dados e combina informações temporais e meteorológicas
para realizar a predição de qual tipo de crime irá ocorrer em
determinada área da cidade.
Feng et al. (2019) Propõem uma abordagem que realiza uma análise estatı́stica,
cria um mapa interativo para visualização das ocorrências de
crimes na cidade, no qual os crimes são agrupados de acordo
com as informações de latitude e longitude, e realiza predição
da tendência de crimes na cidade.
Morshed et al. (2019) Propõem um sistema (VisCrime) que de análise visual de dados
criminais criando trajetórias do crime a partir de fontes de
dados heterogêneas e realiza a predição de possı́veis trajetórias
futuras de ocorrências de crimes.
Pradhan et al. (2019) Propõem uma abordagem que realiza uma análise exploratória
dos dados para identificar padrões criminais e realiza a predição
de qual tipo de crime pode ocorrer na cidade.
Xiong et al. (2019) Propõem uma abordagem que divide a área da cidade em
regiões heterogêneas com base na quantidade de ocorrências de
crimes e realiza a predição da quantidade de crimes por região
definida pela abordagem.
Fonte: Dados da pesquisa.
55
Neste capı́tulo são apresentados o site de onde foram coletados os dados não oficiais,
e os conjuntos de dados dos crimes de “furto” e “roubo’ utilizados pela abordagem de
predição, incluindo a análise de complementaridade, a qual deu origem a um novo conjunto
de dados. Para a realização deste trabalho utiliza-se um conjunto de registros criminais
oficiais coletados com a Secretaria de Segurança do Estado de Minas de Gerais, e um
conjunto de dados não oficiais coletados do site Onde Fui Roubado.
Neste trabalho, serão utilizados apenas os crimes dos tipos de “furto” e “roubo”, os
quais são crimes contra o patrimônio. De acordo com o Código Penal Brasileiro (Brasil,
1940), o crime de furto é quando há subtração do patrimônio de outra pessoa sem nenhuma
violência, já o crime de roubo é caracterizado pela subtração de patrimônio mediante grave
ameaça e/ou violência.
∗
http://www.ondefuiroubado.com.br
56
Atributo Descrição
Endereço Endereço do local em que o crime ocorreu
Data do ocorrido Data em que o crime ocorreu
Hora do ocorrido Horário em que o crime ocorreu
Tipo de crime Tipo do crime que ocorreu e será registrado
Descrição Se a vı́tima quiser ela pode descrever como o crime ocorreu
Objetos roubados A vı́tima pode selecionar quais objetos foram levados
Prejuı́zo A vı́tima pode informar o valor do prejuı́zo causado pelo
crime que ocorreu
Sexo Gênero da vı́tima
Fez boletim de ocorrência? A vı́tima pode informar se registrou oficialmente ou não o
crime ocorrido
Os dados coletados do site Onde Fui Roubado contém dois tipos de crimes, “roubo”
e “furto”. Esta base de dados é composta por 6.529 registros, referentes aos registros de
crimes da cidade de Belo Horizonte (MG) no perı́odo de Janeiro de 2012 a Dezembro de
2017. Na Figura 4, é representado como esses registros estão distribuı́dos por ano. Nesta
base, o ano de 2014 é o ano com o maior número de registros, e o ano de 2012 é o ano
com o menor número. O pequeno número de registros no ano de 2012 é devido ao fato de
que a ferramenta era nova e ainda pouco conhecida. Pode-se observar que entre os anos
de 2012∼2014, e entre 2015∼2016, houve um aumento no número de registros. Contudo,
é possı́vel observar que entre os anos 2014∼2015, e entre 2016∼2017, houve uma queda
de 37,05% e 55,57%, respectivamente, na quantidade de registros.
Figura 5: Frequência dos tipos de crime por mês e ano - Base não oficial
A maioria dos registros desta base são do tipo roubo (59,66%), como é exibido na
Figura 5, a frequência deste tipo de crime é sempre alta em todos os anos. Belo Horizonte
(MG) tem aproximadamente 2.375.151 habitantes, de acordo com o último censo de 2010,
e 53% da população são do gênero feminino. Contudo, como pode-se ver na Figura 6, em
todos os anos a maioria dos registros foram registrados por vı́timas do gênero masculino,
totalizando 61,19% das vı́timas nesta base de dados. E como é possı́vel observar na Figura
7, a maioria dos homens, nesta base, são vı́timas de roubo.
Figura 6: Frequência dos registros por ano e gênero da vı́tima - Base não oficial
Na maioria dos anos, quarta-feira foi o dia da semana com o maior número de
registros, com exceção dos anos 2014 e 2017. Nestes dois anos, o dia com o maior número
de ocorrências foi, respectivamente, quinta-feira e terça-feira, como é possı́vel observar na
Figura 8. Em Belo Horizonte, por ano, tem-se 17 dias de feriados e em geral, nesta base,
apenas 225 crimes ocorreram em dias que eram feriado na cidade.
58
Figura 8: Frequência de registros por mês e dias da semana por ano - Base não oficial
A região Centro-Sul é a terceira região com mais população, e como pode-se ver na
Figura 9, esta região tem o maior número de ocorrência em todos os anos. Em todas as
regiões da cidade 48,1% dos crimes ocorreram no perı́odo da noite, e somente 10% deles
aconteceram no perı́odo da madrugada.
59
Figura 9: Frequência de registros por região e perı́odo do dia por ano - Base não oficial
Nesta base, ao contrário do conjunto de dados não oficiais, a maioria dos registros
desse conjunto de dados é do tipo de crime furto, representando 64,57% dos dados. Na
Figura 11, pode-se ver que esse tipo de crime tem mais registros a cada ano e, entre os
anos de 2012∼2016, houve uma redução no número desses registros. Em vez disso, os
registros de roubos aumentaram entre os anos de 2012∼2016. Em Belo Horizonte, os dias
60
de feriado representam 4,66% dos dias do ano e em geral, neste conjunto de dados, apenas
13.407 crimes ocorreram em dias que eram feriado na cidade.
Figura 11: Frequência dos tipos de crime por mês e ano - Base oficial
Figura 12: Frequência de registros por ano e gênero da vı́tima - Base oficial
Na Figura 14, é possı́vel observar que na maioria do anos, com exceção do ano de
2015, segunda-feira foi o dia da semana com o maior número de ocorrências. Já no ano
de 2015, o dia com o maior número de registros foi quarta-feira.
61
Figura 14: Frequência de registros por mês e dias da semana por ano - Base oficial
Na Figura 15, está ilustrado o perı́odo do dia das ocorrências em cada região e
é possı́vel observar que a região Leste, a qual tem a maior população da cidade, é a
região com mais registros em todos os anos. Em todas as regiões, os crimes registrados
geralmente aconteceram à tarde e principalmente à noite. Os crimes geralmente ocorrem
nesses perı́odos, pois, geralmente, é ao final da tarde e ao inı́cio da noite que ocorre um
maior deslocamento de pessoas, muitas vezes desatentas, criando situações favoráveis para
os criminosos.
62
Figura 15: Frequência de registros por região e perı́odo do dia por ano - Base oficial
Sabendo que um mesmo endereço de uma ocorrência criminal pode ser tratado de
formas diferentes em cada sistema, e, como consequência, possuir latitudes e longitudes
diferentes em cada sistema, definiu-se uma abordagem para definir se os registros em
questão são iguais. A fim de determinar se existem registros iguais nas duas bases,
utilizou-se a latitude e longitude dos registros criminais com a precisão de um bloco
geográfico (quarteirão). Consegue-se obter esta precisão de um quarteirão ao considerar
três casas decimais da latitude e longitude. Deve-se ressaltar que essa é uma abordagem
de verificar se há interseção, mas ainda assim os registros podem não ser o mesmo.
Portanto, a partir da combinação dos registros das duas bases de dados, foi obtido
um conjunto de dados combinado que chamamos de CRIME dataset. Por combinação,
entende-se como a fusão dos dois conjuntos de dados, da união de seus registros, removendo
os registros duplicados.
65
5 ABORDAGEM PROPOSTA
Foram coletados, do site Onde Fui Roubado, 6.529 registros de crimes ocorridos na
cidade de Belo Horizonte, do estado de Minas Gerais, referentes a seis anos (janeiro/2012
a dezembro/20017). Dos dados oficiais, foram coletados 520.378 registros de ocorrências
de crimes na cidade de Belo Horizonte durante os anos de 2012 a 2017.
Atributo Descrição
Tipo do Crime Tipo de crime, no caso, roubo e furto
Gênero Gênero da vı́tima
Data Data em que o crime ocorreu
Hora Horário em que o crime ocorreu
Bairro Bairro da cidade no qual crime ocorreu
Latitute Latitude de onde o crime ocorreu
Longitude Longitude de onde o crime ocorreu
informações de tempo ou espaço, bem como registros fora de uma região geográfica de
interesse. Além disso, um procedimento de pré-processamento remove erros, incluindo
dados duplicados e ruidosos, e realiza transformações de texto e codificação. Por exemplo,
a cidade de “Nova York” pode ser expressa como “N.Y.”e “NY ” em registros diferentes,
e esses formulários devem ser transformados em um único texto normalizado. Esse
procedimento é fundamental para melhorar a eficácia do treinamento e da predição das
técnicas de aprendizagem usadas na próxima etapa.
O atributo data deu origem ao dia da semana, o mês em que o crime ocorreu e
se o dia do crime era feriado na cidade. Foi realizado uma discretização nos atributos
hora e bairro. O atributo hora foi categorizado em perı́odos do dia, sendo eles: manhã
(06:00 - 11:59), tarde (12:00 - 17:59), noite (18:00 - 23:59) e madrugada (00:00 - 05:59).
Já o atributo bairro foi categorizado em regiões da cidade. A cidade de Belo Horizonte é
composta por nove regiões, sendo elas: Barreiro, Centro-Sul, Leste, Nordeste, Noroeste,
Norte, Oeste, Pampulha e Venda Nova. A informação sobre os bairros que pertencem a
uma determinada região foi obtida a partir dos dados da prefeitura de Belo Horizonte∗ .
Atributo Descrição
Tipo de crime Tipo de crime, por exemplo, roubo e furto
Gênero Gênero da vı́tima
É Feriado (1) se o crime ocorreu em um feriado; (0) caso contrário
Dia da Semana (1) se o crime ocorreu no fim de semana; (0) caso contrário
Perı́odo do Dia Perı́odo do dia em que o crime ocorreu
Região Região da cidade onde o crime ocorreu
Os crimes relatados nas cidades podem variar significativamente de mês para mês,
e é comum que os departamentos de segurança realizem análises de crimes por meses e por
um intervalo de meses. Portanto, em particular, o objetivo é aprender uma hipótese ideal
h : X → Y, mapeando o espaço de entrada X para o espaço de saı́da Y. Para esse fim,
uma infinidade de algoritmos de aprendizado podem ser implementados. Neste trabalho,
usa-se k -NN, SVM, RF, XGBoost e LSTM.
6 EXPERIMENTOS
6.1 Pré-Processamento
utilizadas estão desbalanceadas e que não foi realizado nenhum pré-processamento com o
objetivo de balanceá-las.
Como mencionado na Seção 2.3.1.5, o LSTM é de alta complexidade, com isso, não
foram utilizadas as sete configurações de experimentos com o LSTM. Tendo em vista que
para realizar os mesmos experimentos com o LSTM teria um alto custo computacional
optou-se por realizar os experimentos com apenas uma configuração. Para definir qual
configuração seria a escolhida, foram realizados os primeiros experimentos com os modelos
k -NN, SVM, RF e XGBoost, em seguida os modelos foram avaliados por meio das métricas
de acurácia e precisão, e selecionou-se a configuração que obteve os melhores resultados.
LSTM
Dataset Região
Batchsize Epoch U nits
Pampulha 50 1.000 120
Barreiro 100 500 120
Norte 100 500 120
Nordeste 100 500 120
NOF
7 RESULTADOS
Com base nos resultados da Tabela 6, pode-se observar que as quatro técnicas de
aprendizagem supervisionada apresentam um bom desempenho em todos os conjuntos de
dados.
Com base nos resultados da Tabela 7, é possı́vel observar que assim como as outras
abordagens o LSTM apresenta um bom desempenho em todos os conjuntos de dados. Em
74
Jan - Nov/2016 Dez/2016 0,78 0,78 0,78 0,78 0,84 0,84 0,84 0,84
Jan - Set/2016 Out - Dez/2016 0,48 0,45 0,47 0,45 0,54 0,44 0,49 0,49
Jan - Jun/2016 Jul - Dez/2016 0,54 0,50 0,50 0,58 0,61 0,50 0,51 0,61
Jan - Mar/2016 Abr - Dez/2016 0,54 0,54 0,56 0,33 0,66 0,57 0,53 0,41
Out/2017 Nov/2017 0,72 0,67 0,89 0,89 0,96 0,95 0,97 0,97
Ago - Out/2017 Nov/2017 0,78 0,67 0,89 0,89 0,96 0,95 0,97 0,97
Mai - Out/2017 Nov/2017 0,67 0,67 0,84 0,89 0,95 0,95 0,96 0,97
OF
Jan - Out/2017 Nov/2017 0,84 0,61 0,78 0,89 0,96 0,92 0,96 0,97
Jan - Set/2017 Out - Nov/2017 0,64 0,59 0,53 0,61 0,98 0,97 0,52 0,95
Jan - Jun/2017 Jul - Nov/2017 0,72 0,56 0,64 0,48 0,82 0,93 0,89 0,48
Jan - Mar/2017 Abr - Nov/2017 0,63 0,62 0,73 0,81 0,70 0,57 0,74 0,82
Nov/2016 Dez/2016 0,73 0,73 0,78 0,78 0,81 0,81 0,83 0,78
Set - Nov/2016 Dez/2016 0,67 0,67 0,67 0,67 0,81 0,81 0,74 0,81
Jun - Nov/2016 Dez/2016 0,78 0,73 0,73 0,73 0,84 0,81 0,81 0,81
Jan - Nov/2016 Dez/2016 0,78 0,67 0,56 0,67 0,84 0,81 0,70 0,81
Jan - Set/2016 Out - Dez/2016 0,41 0,50 0,56 0,45 0,57 0,61 0,64 0,59
Jan - Jun/2016 Jul - Dez/2016 0,55 0,63 0,67 0,61 0,68 0,72 0,69 0,72
CRIME
Jan - Mar/2016 Abr - Dez/2016 0,58 0,59 0,89 0,57 0,76 0,71 0,63 0,69
Out/2017 Nov/2017 0,89 0,84 0,89 0,89 0,97 0,96 0,97 0,97
Ago - Out/2017 Nov/2017 0,84 0,72 0,84 0,84 0,75 0,75 0,75 0,75
Mai - Out/2017 Nov/2017 0,84 0,67 0,84 0,84 0,86 0,85 0,86 0,86
Jan - Out/2017 Nov/2017 0,78 0,73 0,78 0,84 0,86 0,85 0,86 0,86
Jan - Set/2017 Out - Nov/2017 0,89 0,72 0,81 0,75 0,94 0,97 0,98 0,98
Jan - Jun/2017 Jul - Nov/2017 0,50 0,47 0,65 0,51 0,67 0,65 0,69 0,71
Jan - Mar/2017 Abr - Nov/2017 0,47 0,47 0,69 0,66 0,67 0,67 0,76 0,76
Recall F1-score
Treinamento Teste k -NN SVM RF XGBoost k -NN SVM RF XGBoost
Nov/2016 Dez/2016 0,78 0,78 0,78 0,78 0,80 0,80 0,80 0,80
Set - Nov/2016 Dez/2016 0,78 0,78 0,78 0,73 0,80 0,80 0,80 0,72
Jun - Nov/2016 Dez/2016 0,78 0,78 0,78 0,78 0,80 0,80 0,80 0,80
NOF
Jan - Nov/2016 Dez/2016 0,78 0,78 0,78 0,78 0,80 0,80 0,80 0,80
Jan - Set/2016 Out - Dez/2016 0,48 0,45 0,47 0,45 0,49 0,43 0,46 0,44
Jan - Jun/2016 Jul - Dez/2016 0,54 0,50 0,50 0,58 0,50 0,45 0,46 0,51
Jan - Mar/2016 Abr - Dez/2016 0,54 0,54 0,56 0,33 0,51 0,51 0,56 0,34
Out/2017 Nov/2017 0,72 0,67 0,89 0,89 0,76 0,69 0,91 0,91
Ago - Out/2017 Nov/2017 0,78 0,67 0,89 0,89 0,82 0,69 0,91 0,91
Mai - Out/2017 Nov/2017 0,67 0,67 0,84 0,89 0,69 0,69 0,87 0,91
OF
Jan - Out/2017 Nov/2017 0,84 0,61 0,78 0,89 0,87 0,64 0,82 0,91
Jan - Set/2017 Out - Nov/2017 0,64 0,59 0,67 0,61 0,69 0,64 0,54 0,71
Jan - Jun/2017 Jul - Nov/2017 0,72 0,89 0,86 0,48 0,72 0,90 0,87 0,46
Jan - Mar/2017 Abr - Nov/2017 0,63 0,62 0,73 0,81 0,63 0,55 0,73 0,81
Nov/2016 Dez/2016 0,73 0,73 0,78 0,78 0,75 0,75 0,80 0,78
Set - Nov/2016 Dez/2016 0,67 0,67 0,67 0,67 0,72 0,72 0,70 0,72
Jun - Nov/2016 Dez/2016 0,78 0,73 0,73 0,73 0,80 0,75 0,75 0,75
Jan - Nov/2016 Dez/2016 0,78 0,67 0,56 0,67 0,80 0,72 0,62 0,72
Jan - Set/2016 Out - Dez/2016 0,41 0,50 0,56 0,45 0,44 0,53 0,58 0,47
Jan - Jun/2016 Jul - Dez/2016 0,55 0,63 0,67 0,61 0,54 0,66 0,67 0,62
CRIME
Jan - Mar/2016 Abr - Dez/2016 0,58 0,59 0,89 0,57 0,58 0,63 0,63 0,56
Out/2017 Nov/2017 0,89 0,84 0,89 0,89 0,91 0,87 0,91 0,91
Ago - Out/2017 Nov/2017 0,84 0,72 0,84 0,84 0,90 0,81 0,90 0,90
Mai - Out/2017 Nov/2017 0,84 0,67 0,84 0,84 0,83 0,68 0,83 0,83
Jan - Out/2017 Nov/2017 0,78 0,73 0,78 0,84 0,79 0,74 0,79 0,83
Jan - Set/2017 Out - Nov/2017 0,89 0,72 0,81 0,75 0,92 0,80 0,86 0,81
Jan - Jun/2017 Jul - Nov/2017 0,50 0,47 0,65 0,51 0,52 0,52 0,66 0,52
Jan - Mar/2017 Abr - Nov/2017 0,47 0,47 0,69 0,66 0,50 0,50 0,71 0,67
Tabela 8: Métricas de avaliação de erro dos modelos de aprendizagem para predição do número
de ocorrências de crime por região
MAE MSE
Dataset Região
k -NN SVM RF XGB LSTM k -NN SVM RF XGB LSTM
Pampulha 3,250 0,130 3,250 3,250 0,232 1,215 0,025 1,215 1,215 0,108
Barreiro 0,267 0,045 0,267 0,267 0,051 0,155 0,002 0,155 0,155 0,023
Norte 0,300 0,089 0,300 0,300 0,049 0,210 0,008 0,210 0,210 0,003
Nordeste 1,500 0,059 1,500 1,500 0,127 3,879 0,004 3,879 3,879 0,035
NOF
Leste 0,300 0,089 0,300 0,300 0,049 0,210 0,008 0,210 0,210 0,003
Centro-Sul 3,217 0,163 3,217 3,217 0,127 2,127 0,055 2,127 2,127 0,017
Oeste 1,467 0,104 1,467 1,467 0,136 4,777 0,018 4,777 4,777 0,035
Noroeste 1,333 0,067 1,333 1,333 0,120 1,966 0,005 1,966 1,966 0,029
Venda Nova 0,900 0,089 0,900 0,900 0,042 0,810 0,008 0,810 0,8100 0,003
Pampulha 0,132 0,190 0,138 0,132 0,163 1,450 0,068 0,035 0,035 0,051
Barreiro 0,106 0,150 0,163 0,114 0,102 0,762 0,595 0,282 0,692 0,039
Norte 0,056 0,123 0,110 0,090 0,187 0,006 0,020 0,016 0,224 0,054
Nordeste 0,104 1,204 0,140 0,150 0,176 0,243 1,934 0,685 0,040 0,052
OF
Leste 0,092 0,103 0,084 0,103 0,018 0,010 0,017 0,009 0,017 0,001
Centro-Sul 0,034 0,034 0,034 0,034 0,169 0,234 0,234 0,234 0,234 0,047
Oeste 0,094 0,097 0,073 0,097 0,153 0,016 0,032 0,014 0,017 0,043
Noroeste 0,173 0,234 0,171 0,191 0,158 0,070 0,074 0,059 0,063 0,042
Venda Nova 0,100 0,117 0,107 0,102 0,197 0,324 0,329 0,326 0,499 0,062
Pampulha 0,007 0,009 0,009 0,008 0,055 2,575 1,380 3,314 1,380 0,028
Barreiro 0,006 0,006 0,006 0,003 0,013 0,947 0,947 0,947 2,275 0,005
Norte 0,004 0,004 0,004 0,004 0,014 1,586 1,586 1,586 1,586 0,011
Nordeste 0,005 0,005 0,005 0,005 0,029 2,385 2,385 2,385 2,385 0,007
Leste 0,419 0,438 0,441 0,441 0,099 0,287 0,296 0,297 0,297 0,017
Centro-Sul 0,013 0,013 0,013 0,013 0,054 3,124 3,124 3,124 3,124 0,005
Oeste 0,006 0,007 0,007 0,007 0,038 0,576 0,670 0,670 0,670 0,010
Noroeste 0,007 0,007 0,007 0,007 0,043 1,655 1,655 1,655 1,655 0,014
CRIME
Venda Nova 0,004 0,004 0,004 0,004 0,011 1,586 1,586 1,586 1,586 0,003
Pampulha 0,138 0,190 1,013 0,164 0,247 0,034 0,064 0,663 0,043 0,111
Barreiro 0,114 0,189 0,115 0,114 0,274 0,196 0,907 0,024 0,196 0,116
Norte 0,091 0,094 0,114 0,091 0,242 0,224 0,013 0,017 0,224 0,099
Nordeste 0,148 0,156 0,165 0,152 0,246 1,100 0,377 0,044 0,041 0,106
Leste 0,107 0,107 0,085 0,107 0,045 0,019 0,019 0,009 0,019 0,007
Centro-Sul 0,343 0,343 0,343 0,343 0,309 0,237 0,237 0,237 0,237 0,135
Oeste 0,100 0,100 0,100 0,100 0,200 0,017 0,017 0,017 0,017 0,081
Noroeste 0,192 0,192 0,191 0,192 0,268 0,065 0,064 0,063 0,065 0,104
Venda Nova 0,092 0,084 0,089 0,092 0,265 0,498 0,321 0,273 0,498 0,118
76
8 CONCLUSÃO
ii) uso de fontes de dados heterogêneas de registros oficiais e não oficiais para predição
de crimes;
REFERÊNCIAS
Bunker, R. P.; Thabtah, F. A machine learning framework for sport result prediction.
Applied Computing and Informatics, v. 15, n. 1, p. 27 – 33, 2019. ISSN 2210-8327.
Cao, J.; Li, Z.; Li, J. Financial time series forecasting model based on CEEMDAN and
LSTM. Physica A: Statistical Mechanics and its Applications, v. 519, n. C,
p. 127–139, 2019.
Chapelle, O.; Schölkopf, B.; Zien, A. Semi-Supervised Learning. The MIT Press,
2006. Disponı́vel em: <https://doi.org/10.7551/mitpress/9780262033589.001.0001>.
ISBN 9780262255899.
Chen, T.; Guestrin, C. Xgboost: A scalable tree boosting system. In: Proceedings
of the 22nd ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining. New York, NY, USA: Association for Computing
Machinery, 2016. (KDD ’16), p. 785–794. ISBN 9781450342322.
Duda, R. O.; Hart, P. E.; Stork, D. G. Pattern Classification (2nd Edition). 2ed.
ed. USA: Wiley-Interscience, 2001. ISBN 0471056693.
81
Elluri, L.; Mandalapu, V.; Roy, N. Developing machine learning based predictive
models for smart policing. In: 2019 IEEE International Conference on Smart
Computing (SMARTCOMP). Washington, DC, USA, USA: IEEE Computer Society,
2019. p. 198–204.
Feng, M. et al. Big data analytics and mining for effective visualization and trends
forecasting of crime data. IEEE Access, IEEE, v. 7, p. 106111–106123, 2019.
Fu, R.; Zhang, Z.; Li, L. Using lstm and gru neural network methods for traffic flow
prediction. In: 2016 31st Youth Academic Annual Conference of Chinese
Association of Automation (YAC). Wuhan, China: IEEE, 2016. p. 324–328. ISBN
978-1-5090-4423-8.
Greco, R. Curso de Direiro Penal Parte Geral. Niterói, Rio de Janeiro: Ed.
Impetus, 2016. ISBN 978-85-7626-865-9.
Hsu, C.-W.; Chang, C.-C.; Lin, C.-J. A Practical Guide to Support Vector
Classification. National Taiwan University, Taipei, Taiwan, 2003.
Hsu, C.-W.; Chang, C.-C.; Lin, C.-J. A Practical Guide to Support Vector
Classication. National Taiwan University, Taipei, Taiwan, 2008.
Kulkarni, V. Y.; Sinha, P. K. Random forest classifiers: A survey and future research
directions. In: International Journal of Advanced Computing. Virgin Islands,
British: Recent Science, 2013. v. 36, p. 1144–1153. ISSN 2051-0845.
Liu, T.-Y. Learning to rank for information retrieval. Foundations and Trends in
Information Retrieval, v. 3, n. 3, p. 225–331, 2009.
Marzan, C. S. et al. Time series analysis and crime pattern forecasting of city crime
data. In: Proceedings of the International Conference on Algorithms,
Computing and Systems. New York, NY, USA: ACM, 2017. (ICACS ’17), p. 113–118.
ISBN 978-1-4503-5284-0.
Oberwittler, D. et al. Social insecurities and fear of crime: A cross-national study on the
impact of welfare state policies on crime-related anxieties. European Sociological
Review, v. 27, n. 3, p. 327–345, 2010.
Pang, X. et al. An innovative neural network approach for stock market prediction. The
Journal of Supercomputing, Springer Nature, v. 76, p. 2098–2118, January 2018.
83
Peng, L. et al. Effective long short-term memory with differential evolution algorithm for
electricity price prediction. Energy, v. 162, p. 1301 – 1314, 2018. ISSN 0360-5442.
Pradhan, I. et al. Exploratory data analysis and crime prediction for smart cities.
In: Proceedings of the 23rd International Database Applications
& Engineering Symposium. New York, NY, USA: Association for
Computing Machinery, 2019. (IDEAS ’19). ISBN 9781450362498. Disponı́vel em:
<https://doi.org/10.1145/3331076.3331114>.
Sivaranjani, S.; Sivakumari, S.; Aasha, M. Crime prediction and forecasting in tamilnadu
using clustering approaches. In: 2016 International Conference on Emerging
Technological Trends (ICETT). Kollam, India: IEEE, 2016. p. 1–6. ISBN
978-1-5090-3751-3.
Syarif, I.; Prugel-Bennett, A.; Wills, G. Svm parameter optimization using grid search
and genetic algorithm to improve classification performance. Telecommunication
Computing Electronics and Control, v. 14, p. 1502–1509, 2016.
Wang, X.; Brown, D. E. The spatio-temporal generalized additive model for criminal
incidents. In: Proceedings of 2011 IEEE International Conference on
Intelligence and Security Informatics. Beijing, China: IEEE, 2011. v. 2, p.
42–47. ISBN 978-1-4577-0085-9.
84
Xiong, C. et al. On predicting crime with heterogeneous spatial patterns: Methods and
evaluation. In: Proceedings of the 27th ACM SIGSPATIAL International
Conference on Advances in Geographic Information Systems. New York,
NY, USA: Association for Computing Machinery, 2019. (SIGSPATIAL ’19), p. 43–51.
ISBN 9781450369091. Disponı́vel em: <https://doi.org/10.1145/3347146.3359374>.
Yu, C. H. et al. Crime forecasting using data mining techniques. In: 2011 IEEE 11th
International Conference on Data Mining Workshops. Vancouver, BC,
Canada: IEEE, 2011. p. 779–786. ISBN 978-1-4673-0005-6.
Zhang, S. et al. Learning k for knn classification. ACM Trans. Intell. Syst.
Technol., ACM, v. 8, n. 3, p. 43:1–43:19, jan 2017. ISSN 2157-6904.
Zhang, S. et al. Efficient knn classification with different numbers of nearest neighbors.
IEEE Transactions on Neural Networks and Learning Systems, IEEE,
v. 29, n. 5, p. 1774–1785, May 2018. ISSN 2162-2388.
Zhou, J. et al. Feasibility of stochastic gradient boosting approach for evaluating seismic
liquefaction potential based on spt and cpt case histories. Journal of Performance
of Constructed Facilities, v. 33, n. 3, p. 04019024, 2019.
Zhuang, Y. et al. Crime hot spot forecasting: A recurrent model with spatial and
temporal information. In: 2017 IEEE International Conference on Big
Knowledge (ICBK). Hefei, China: IEEE, 2017. p. 143–150. ISBN 978-1-5386-3120-1.
85
Tabela elaborada pela autora com definições dos tipos de crimes de acordo com o
atual Código Penal (Brasil, 1940).
ANEXO A
ANEXO B