Você está na página 1de 34

23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI

21 - ETRI Journal - Wiley …

Um modelo multidimensional de análise e previsão de padrões


espaciais do crime baseado na classificação
Gaurav Hajela , Meenu Chawla, Akhtar Rasool

Publicado pela primeira vez:26 de novembro de 2020 https://doi.org/10.4218/etrij.2019-0306Citações: 3

Abstrato
Este artigo apresenta uma análise de padrões espaciais multidimensionais de eventos criminais
em São Francisco. Nossa análise inclui o impacto da resolução espacial na identificação de
pontos críticos, efeitos temporais nos padrões espaciais do crime e relações entre várias
categorias de crimes. Neste trabalho, a previsão do crime é vista como um problema de
classificação. Quando são feitas previsões para uma categoria específica, um modelo baseado
em classificação binária é elaborado e, quando todas as categorias são consideradas para
análise, um modelo multiclasse é formulado. O modelo de previsão de crime proposto (HotBlock)
utiliza análise espaço-temporal para prever o crime em uma região espacial fixa durante um
período de tempo. É robusto sob variação dos parâmetros do modelo. Os resultados do HotBlock
são comparados com conjuntos de dados básicos de crimes do mundo real.

1. INTRODUÇÃO
Décadas de estudo estabeleceram firmemente que o crime apresenta padrões geográficos (isto é,
espaciais) [ 1 ]. A análise de padrões espaciais é uma abordagem de pesquisa padrão em
criminologia, assim como em ecologia, epidemiologia e outros campos. Os padrões espaciais
podem ter diferentes dimensionalidades, pois podem envolver pontos, linhas ou áreas; eles também
podem variar com a resolução. A análise dos padrões de criminalidade pode ser conduzida ao nível
dos sectores censitários, unidades de códigos postais, segmentos de rua, condados, estados ou
países. Neste trabalho, depois de considerar uma série de soluções possíveis, encontramos e
utilizamos aquela que parece ideal para a previsão do crime.

A análise de padrões espaciais pode ser baseada em densidade (baseada em área) ou baseada
em distância. No entanto, a distância euclidiana nem sempre é útil na identificação de padrões de
criminalidade urbana: os locais que estão próximos uns dos outros num mapa (em termos de
distância euclidiana) podem, de facto, estar muito isolados uns dos outros se não estiverem unidos
por ruas, se estiverem em lados opostos. de um rio com poucas pontes, ou estão em bairros
separados por alguma barreira econômica ou social invisível que separa os moradores. Por outro
lado, a análise de padrões espaciais baseada na densidade ou na área parece enquadrar-se
naturalmente no conceito intuitivo de que as cidades são constituídas por bairros. A análise baseada
na densidade pode ser categorizada como global ou local. A primeira considera a relação entre os
eventos criminais observados e a área da região em estudo; o último mede a incidência do crime em
diferentes unidades daquela região.

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 1/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

O padrão espacial é apenas um aspecto da distribuição do crime; também existem padrões


temporais. Muitos pesquisadores estudaram a variação nas taxas de criminalidade entre dia e noite,
dia da semana e fim de semana, ou entre diferentes estações do ano [ 2 , 3 ]. Os padrões espaciais
do crime são por vezes governados pelo seu aspecto temporal. Por exemplo, em países com
invernos frios, os batedores de carteira só vão à praia durante o verão, quando há grandes multidões,
e não no inverno, quando a praia está vazia. Os padrões espaço-temporais dependem, portanto, de
muitos fatores: clima, parâmetros do censo, meio ambiente, pontos de interesse em uma área e
muito mais.

O objetivo da análise espaço-temporal dos padrões de crime [ 4 ] é encontrar pontos críticos [ 5], ou
seja, áreas do mapa onde a concentração da criminalidade é maior do que em qualquer outro
lugar. Os hotspots podem ter várias dimensionalidades. Eles podem ter dimensão zero se o crime
ocorrer em locais muito específicos. Por exemplo, um mapa que mostra a localização de assaltos a
bancos normalmente mostrará a localização de vários bancos como pontos. Um local discreto
(exemplo: banco) onde os crimes são frequentes é denominado hotplace e, na análise, é
normalmente mostrado num mapa com um ponto, cujo tamanho é proporcional ao número de eventos
criminais naquele local. Assim, um banco frequentemente roubado seria mostrado por um ponto
grande, enquanto um banco que nunca foi roubado seria mostrado por um ponto minúsculo. Na
análise unidimensional do hotspot, uma rua (estrutura linear) é identificada como o hotspot. Na
análise bidimensional de hotspots, por outro lado, os hotspots podem ter qualquer formato: circular,
elíptico,

Realizamos análises espaço-temporais dos padrões de criminalidade em Nova Iorque e São


Francisco; entretanto, apenas a análise espacial de São Francisco é discutida no presente artigo. A
análise espacial é feita em quatro níveis: setor censitário, unidade de CEP, distrito e bloco de grade
(Abordagem HotBlock). As unidades de hotspot em cada nível de análise são identificadas. Também
estudamos variações diárias, semanais e sazonais nas taxas de criminalidade dessas unidades de
hotspot. É proposto um modelo de previsão de crime baseado em análise espaço-temporal, e seu
desempenho é avaliado para conjuntos de dados de Nova York e São Francisco.

2 REVISÃO DE LITERATURA
Andresen [ 6] realizaram uma análise espacial de eventos criminais ocorridos em Vancouver,
Canadá. As taxas de criminalidade em diferentes regiões espaciais foram calculadas e interpretadas
a partir de um ponto de vista que integra dois dos quadros teóricos mais populares em criminologia:
a teoria da desorganização social e a teoria da atividade rotineira. Em vez de utilizar a população
residencial da região espacial para calcular a taxa de criminalidade, o autor sugeriu empregar a
população ambiente, uma medida melhor do número esperado de pessoas em qualquer região num
determinado momento. As taxas de criminalidade para três categorias (roubo de automóveis,
arrombamento e invasão e crimes violentos) foram calculadas utilizando tanto a população
residencial como a ambiental; constatou-se que a população ambiental representou melhor a
população em risco do que a residencial.

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 2/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Mais tarde, Andresen [ 7 ] investigou a importância dos vizinhos espaciais imediatos na análise de
padrões de criminalidade locais. Alguns dos métodos padrão utilizados para testes de padrões
espaciais, como o de Moran I, são de natureza global, ou seja, fornecem uma estatística única para
toda a área de estudo, mesmo que a área de estudo seja uma coleção de muitas regiões
pequenas. Isto pode ser problemático quando uma área estatisticamente insignificante é adjacente a
uma área de grande importância. Por esta razão, Andresen utilizou Indicadores Locais de
Associação Espacial (LISA) [ 8 ] para classificar as regiões como clusters locais.

Cowen e outros [ 9 ] realizaram uma análise espaço-temporal de eventos criminais nos bairros do
condado de Miami-Dade. O modelo previu padrões de criminalidade no espaço e no tempo com
base no uso do solo e na facilidade de locomoção. A regressão dos mínimos quadrados ordinários e
a análise espacial incorporando a teoria da desorganização social e a teoria das atividades
rotineiras foram usadas para investigar a relação entre o uso da terra e as taxas de criminalidade
violenta. Um índice de caminhabilidade foi calculado com base em quatro fatores: distância do
transporte público, distância das ciclovias, densidade de interseções de ruas e acesso a
comodidades. Verificou-se que uma maior capacidade de caminhar estava correlacionada com um
maior número de agressões agravadas, enquanto o aumento na diversidade do uso da terra estava
correlacionado com aumentos tanto em agressões agravadas como em furtos.

Vildosola e outros [ 10 ] aplicaram modelagem de terreno de risco às taxas de roubo de residências


e veículos em Coral Gables, Flórida. O foco do seu trabalho foi verificar se os locais de risco
identificados pelo modelo sociológico eram de fato áreas de alta criminalidade. Esta informação
poderia ser usada para prever futuros pontos críticos para uma implantação mais eficiente de
recursos. Para identificar locais de risco na área de estudo, foram considerados diversos fatores de
risco (número de vendedores de bebidas alcoólicas, concessionárias de automóveis, postos de
gasolina, bares, escolas, mercearias e restaurantes). A regressão foi utilizada para fornecer um peso
correspondente a cada fator de risco. Verificou-se que locais de risco identificados pelo estudo
apresentavam altos índices de criminalidade de acordo com registros policiais.

Zheng e outros [ 11 ] propuseram uma nova estrutura para previsão de crimes baseada em redes
neurais. O seu modelo, denominado DeepCrime, considera toda a dinâmica do crime e foi
considerado consideravelmente mais eficiente do que as linhas de base do estado da arte. O modelo
DeepCrime enquadra uma matriz criminal que representa todas (no estudo, quatro) categorias de
sequências criminais em intervalos de tempo específicos em uma região. DeepCrime foi testado em
um conjunto de dados de Nova York. A sensibilidade do modelo foi testada variando cada parâmetro
mantendo os demais fixos. Verificou-se que o DeepCrime era robusto e que não houve grande
degradação de desempenho com pequenas alterações nos parâmetros.

3 METODOLOGIA PROPOSTA
Esta investigação aborda as seguintes questões: (a) Existe alguma correlação entre crimes em
diferentes categorias de crimes ou os eventos criminais são completamente
independentes? (Secção 3.2 ) (b) Existe alguma relação entre as características da comunidade

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 3/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

numa área e a categoria proeminente de crime nessa área? (Secção 3.2 ) (c) O nível de resolução
da análise espacial tem algum impacto nos resultados dos hotspots? (Secção 3.3 ) (d) Existe uma
influência temporal nos padrões espaciais do crime? (Seção 3.4 ) (e) A análise espaço-temporal
pode ser usada para criar um modelo de previsão de crime? (Seção 3.5 ) (f) Em caso afirmativo, o
modelo de previsão é sensível aos parâmetros espaço-temporais usados ​para análise? (Seção 4.3 ).

3.1 Descrição do conjunto de dados


Conforme discutido na Secção 1 , existem muitos indicadores que podem ser considerados em
relação à taxa de criminalidade, entre eles indicadores meteorológicos, indicadores de redes sociais
[ 12 - 14 ], indicadores baseados em censos e indicadores de histórico de criminalidade. Neste
trabalho, os dois últimos são considerados para análise. Os modelos propostos e outras linhas de
base são avaliados nos seguintes conjuntos de dados:

1. Conjunto de dados criminais de São Francisco : este conjunto de dados contém eventos
criminais coletados de janeiro de 2014 a dezembro de 2014 com 37 categorias diferentes de
crimes. Destes, 13 contêm número suficiente de instâncias para avaliação e análise dos
modelos propostos.
2. Conjunto de dados criminais da cidade de Nova York (NYC) : Este conjunto de dados contém
eventos criminais coletados de janeiro de 2014 a dezembro de 2014 com 68 categorias
diferentes de crimes. Destes, apenas quatro foram selecionados. O mesmo conjunto de quatro
categorias de crimes é considerado na linha de base (DeepCrime [ 11 ]) com a qual
comparamos nosso modelo proposto.
3. Conjunto de dados do censo de São Francisco : O conjunto de dados criminais de São
Francisco contém distritos de departamentos de polícia, enquanto os dados do censo são
organizados por código postal. Estes dados devem ser devidamente agregados de acordo
com os distritos a serem utilizados para análise. A partir dos dados do censo, extraímos
informações sobre quantas pessoas nos distritos de São Francisco têm um rendimento anual
elevado (mais de 50 000 dólares), estão abaixo do limiar da pobreza, têm um nível educacional
baixo (menos de 12º ano) (apenas homens ) ou viver em moradias de alto preço (que custam
mais de US$ 500 mil).

3.2 Taxas de criminalidade para cada categoria e análise de correlação


para São Francisco
São Francisco está dividida em distritos para policiamento. A população de cada distrito pode ser
encontrada no conjunto de dados do censo. As estatísticas do censo são relatadas de acordo com os
códigos postais; ao considerar os códigos postais pertencentes a um distrito como uma unidade, um
conjunto de dados pode ser preparado a partir de estatísticas do censo que contém a população
distrital. Este conjunto de dados, juntamente com o conjunto de dados criminais, é utilizado para
calcular as taxas de criminalidade para cada categoria em estudo, conforme mostrado na Tabela 1 .

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 4/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Tabela 1. Taxas de criminalidade (por 100.000 habitantes) para


categorias de criminalidade nos distritos de São Francisco

Categoria de Norte Parque Inglaterra Vista Ric


a
crime (2) (4) (9) para a (1)
baía
(10)

Furto/roubo 7091,75 3279.06 979,18 877,20 1

Lei de armas 115,99 80,26 76,00 104,40

Invasão 147.03 84,84 29,52 42.02

Roubo de 865,84 786,52 676,64 432.03 3


veículos

Roubo 145,40 68,79 85,59 57,78

Assalto 1354,31 754,41 577,77 574,51 2

Droga/narcótico 633,86 509.06 144,63 187,78 1

Sequestro 55,54 20,64 32,47 22,98

Pessoa 379.01 793,40 259,00 254,10 1


desaparecida

Ofensas 50,64 38,98 17,71 17.07


sexuais
(forçadas)

a Os números dos distritos mencionados entre parênteses são

usados ​no eixo X das Figuras 2 e 3 .

Pode-se inferir da Tabela 1 que os distritos de Mission e Southern têm as taxas de criminalidade
mais elevadas, enquanto Taraval, Bayview, Ingleside e Richmond estão no lado mais baixo. O roubo é
menos comum no distrito de Bayview, que tem a menor percentagem da população com rendimentos
elevados. Tenderloin tem uma grande percentagem da população com baixa escolaridade e abaixo
da linha da pobreza; também tem grandes problemas com drogas, assaltos, roubos e
transgressões. Esses resultados verificam a teoria da desorganização social que relaciona as
características da comunidade que vive em uma área com a categoria de crime e a taxa de
criminalidade [ 15]. Observa-se que a percentagem da população abaixo da linha da pobreza e a
percentagem da população masculina com baixa escolaridade tendem a ser semelhantes em todos

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 5/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

os distritos (ou seja, um distrito que tem uma baixa percentagem da população masculina com pouca
escolaridade normalmente tem uma baixa percentagem da população abaixo da linha da pobreza,
como mostra a Figura 1 ). O elevado preço da habitação (mais de 500 000 dólares) e o elevado
rendimento anual (mais de 50 000 dólares) também estão distribuídos de forma semelhante entre os
distritos, como mostra a Figura 2 . (Os limites para rendimentos elevados e preços de habitação são
simplesmente os valores médios retirados dos dados do censo de São Francisco). No entanto, os
distritos do Norte (#2) e Ingleside (#9) são anómalos em ambos os gráficos.

figura 1 Abrir no visualizador de figuras Power Point

Correspondência entre porcentagens da população com baixa

escolaridade (somente homens) e vivendo abaixo da linha da

pobreza nos distritos de São Francisco

Figura 2 Abrir no visualizador de figuras Power Point

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 6/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Correspondência entre as porcentagens da população com renda

superior a 50.000 e que vivem em casas que custam mais de

500.000 nos distritos de São Francisco

Apenas 13 das 37 categorias de crimes têm um número suficiente de ocorrências para análise de
correlação. O coeficiente de correlação de Pearson é calculado entre todos os pares destas 13
categorias; o total de casos de crime também é tratado como uma categoria separada. Fica claro na
Tabela 2 que cada categoria de crime está positivamente correlacionada com todas as outras nos
distritos. O coeficiente de correlação é alto especialmente para certos pares: Lei de Roubo e Armas,
Roubo e Invasão, Lei de Agressões e Armas, Embriaguez e Delitos Sexuais (Forçosos). Por outro
lado, as correlações entre Drogas e Roubo de Veículos, Prostituição e Roubo, Prostituição e Drogas
e Embriaguez e Roubo, embora positivas, foram muito baixas.

Tabela 2. Coeficiente de correlação de Pearson entre taxas de


criminalidade por categoria nos distritos de São Francisco

C1 _ C2 _ C3 _ C4 _ C5 _

Total C1 _

Furto/furto C 2 0,8851

Lei de armas C 3 0,8268 0,4826

Transgressão C 4 0,9224 0,6636 0,9379

Roubo de 0,6139 0,3282 0,7189 0,7391


veículos C 5

Roubo C 6 0,8847 0,5848 0,973 0,9719 0,6931

Assalto C 7 0,8945 0,5946 0,9812 0,9667 0,6712

Droga/narcótico C 8 0,7301 0,453 0,8387 0,7664 0,3137

Seqüestro C 9 0,8747 0,5844 0,9533 0,9478 0,7514

Pessoa 0,7617 0,4984 0,8021 0,8258 0,8873

desaparecida C 10

Ofensas sexuais 0,8281 0,5028 0,9411 0,9648 0,8603


(forçadas) C 11

Prostituição C 12 0,6506 0,3437 0,7885 0,8589 0,8788

Incêndio 0,8395 0,6223 0,847 0,9054 0,8695

3.3 Análise do padrão espacial do crime em São Francisco

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 7/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Conforme discutido na Seção 1 , a análise de padrões espaciais pode ser feita em diferentes
resoluções. Este estudo tem como objetivo identificar o impacto da resolução espacial na detecção
de hotspots. A análise do padrão espacial é feita em três resoluções, nomeadamente em nível de
setor censitário, código postal e distrito. (Na Seção 3.5 , será introduzida uma abordagem baseada
em grade (a abordagem HotBlock), que opera em ainda outra resolução espacial.) A melhor
resolução da análise espacial é o nível do setor censitário, conforme mostrado na Figura 3 .. Neste
trabalho, realizamos análise de densidade poligonal, um método estatístico baseado em vizinhança
que fornece uma densidade de eventos criminais dentro de cada polígono (célula raster). Uma célula
raster pode ser um setor censitário, uma área de CEP, um distrito ou até mesmo a área de estudo
completa. Os intervalos mostrados à esquerda de todos os mapas de padrões espaciais
representam a densidade do crime. Em todas as análises realizadas neste trabalho, apenas crimes
devidamente geocodificados foram incluídos no estudo e os eventos criminais são geocodificados
com taxa de acerto mais do que aceitável [ 16 ].

Figura 3 Abrir no visualizador de figuras Power Point

Análise espacial de densidade poligonal de eventos criminais em

nível de setor censitário

Na secção anterior, as taxas de criminalidade por distrito foram calculadas e discutidas. Embora as
taxas de criminalidade levem em consideração a população do distrito, os mapas de densidade
poligonal consideram a área. Pode-se inferir a partir da análise espacial no nível do setor censitário,
no nível do código postal (Figura 4 ) e no nível distrital (Figura 5 ) que as áreas identificadas como
pontos críticos na análise em uma resolução podem não ser identificadas em outra, por exemplo ,
quando uma pequena área com alta taxa de criminalidade é cercada por uma grande área com uma
taxa de criminalidade muito baixa. É por isso que a seleção do nível de análise (resolução) é vital na
análise de padrões espaciais.

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 8/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Figura 4 Abrir no visualizador de figuras Power Point

Análise espacial de densidade poligonal de eventos criminais em

nível de código postal

Figura 5 Abrir no visualizador de figuras Power Point

Análise espacial de densidade poligonal de eventos criminais em

nível distrital

Outro aspecto vital da análise espacial é investigar a correlação espacial entre padrões
espaciais. Para identificar unidades de hotspot em padrões espaciais, todas as unidades espaciais
devem ser comparadas entre si para determinar qual tem uma maior concentração relativa de
crime. A correlação espacial [ 17 ] visa identificar o número de vizinhos em torno de um ponto dentro
de uma distância especificada [ 18 ]. Essa distância desempenha um papel vital na avaliação [ 19]:
Se for tomada de forma inadequada, toda a análise estará longe da realidade. Por esse motivo,
antes de realizar a análise de hotspots utilizando a conhecida abordagem Getis-Ord, a distância é
identificada utilizando o modelo de autocorrelação espacial incremental. A abordagem Getis-Ord
identifica aglomerados intensos de eventos criminais na área de estudo. A intensidade do
agrupamento é representada por escores Z , escores Z grandes correspondendo a agrupamentos

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 9/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

mais intensos de eventos criminais. Antes de aplicar a abordagem Getis-Ord, deve-se identificar uma
distância crítica, dentro da qual se pode dizer um ponto na vizinhança do centróide. Os picos dos
escores Z são encontrados em 2.080 m e 3.360 m, conforme mostrado na Figura 6 ; estes são
usados ​para identificar os pontos de acesso mostrados na Figura 7 .

Figura 6 Abrir no visualizador de figuras Power Point

Variação do Z -Score para autocorrelação espacial incremental

Figura 7 Abrir no visualizador de figuras Power Point

Análise Getis-Ord Hotspot de eventos criminais em São Francisco

3.4 Efeito temporal no padrão espacial do crime


Outro aspecto vital que deve ser mantido em mente durante a análise do hotspot é a duração do
tempo. Os pontos críticos de longo e curto prazo têm suas vantagens e desvantagens [ 20 ].

Conforme discutido anteriormente na Seção 1 , pesquisas anteriores provaram que existe um efeito
temporal nos padrões espaciais do crime [ 21 ]. Para investigar isso, um parâmetro temporal
apropriado deve ser escolhido. Dividir os eventos criminais de acordo com a época em que ocorrem
é uma dessas abordagens. Embora isto possa ser eficaz em regiões com diferenças pronunciadas

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 10/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

entre as estações, não o utilizámos neste estudo: São Francisco não sofre mudanças climáticas
sazonais acentuadas, com a temperatura e a precipitação variando apenas ligeiramente de estação
para estação.

Outra abordagem investigativa analisa as mudanças no padrão espacial do dia da semana para o
fim de semana. Nos fins de semana, as rotinas das pessoas muitas vezes mudam drasticamente e
as pessoas que costumam ficar em casa tarde da noite podem ser encontradas do lado de fora. De
acordo com a teoria da actividade rotineira, esta mudança na rotina pode ter um impacto nos
padrões espaciais do crime, mas isto não é muito acentuado em São Francisco e Nova Iorque. O
efeito temporal nos padrões espaciais do crime em São Francisco é mostrado na Figura 8A–8D . A
Figura 8D , mostrando o crime no fim de semana em São Francisco, apresenta uma mancha azul
adicional na parte superior direita do mapa, não vista no mapa dos dias da semana
(Figura 8C); portanto, há alguma mudança nos padrões espaciais. Curiosamente, esta mudança no
fim de semana ocorre principalmente à noite (22h00-5h00), como pode ser visto comparando as
Figuras 8B e 8D . Tendências semelhantes são visíveis nos mapas de Nova Iorque mostrados na
Figura 9A–9D . Todos os eventos criminais ocorridos entre 5h00 e 22h00 estão contidos nos mapas
de densidade diurnos, enquanto aqueles ocorridos entre 22h00 e 5h00 estão contidos nos mapas de
densidade noturnos. (Uma análise semelhante é feita em [ 22 ].) As luzes da rua também podem
desempenhar um papel em eventos criminais ao ar livre que ocorrem das 19h00 às 5h00. A influência
da iluminação pública é investigada em [ 23 ] e [ 24 ], mas não é considerada no presente trabalho.

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 11/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Figura 8 Abrir no visualizador de figuras Power Point

Mapa de densidade de crimes de São Francisco: (A) Dia, (B) Noite,

(C) Dia da semana e (D) Fim de semana

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 12/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Figura 9 Abrir no visualizador de figuras Power Point

Mapa de densidade de crimes da cidade de Nova York: (A) Dia, (B)

Noite, (C) Dia da semana e (D) Fim de semana

3.5 Modelo para previsão de crimes


Considere um conjunto de dados espaço-temporais D de eventos históricos de crimes para uma
determinada cidade/país, com conjunto de características e rótulos de
classe C representando categorias de crimes. O objetivo é conseguir uma previsão de crimes mais
precisa para cada categoria em C , minimizando erros de classificação e indicando claramente a
confiança de cada previsão. Em nosso modelo de previsão de crime baseado em classificação, nos
referimos ao conjunto de regiões (potencialmente incluindo setores censitários, distritos ou, no caso
da abordagem GridIntersect, blocos de grade) na área em estudo como R e o intervalo de tempo ( o
período de tempo durante o qual todos os eventos criminais são coletados em uma instância na
matriz criminal) como T. Os conjuntos de dados criminais de São Francisco e Nova York são pré-
processados ​para terem os mesmos atributos: mês, dia, dia da semana, hora, minuto, região (distrito
no caso de São Francisco e BORO_NM (nome do bairro em que ocorreu o incidente) no caso de
Nova York), Categoria de Crime, X (latitude) e Y (longitude). Todas as instâncias em ambos os
conjuntos de dados são organizadas cronologicamente.

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 13/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

O modelo de previsão de crime proposto usando análise espaço-temporal consiste em duas fases
principais: identificação de locais de crime e previsão de crime.

3.5.1 FASE I: Identificação de focos de crime


Dado um conjunto de dados espaço-temporais D contendo a localização ( X , Y ), hora e data de
cada evento (e possivelmente outras características), procuramos identificar as regiões do mapa de
estudo onde a concentração de crime é maior. Para realizar esta tarefa, é realizada uma análise
bidimensional de hotspots. A abordagem baseada em grade proposta, denominada abordagem
HotBlock, consiste em dividir o mapa em quadrantes de acordo com a grade que melhor se ajusta ao
mapa. A grade utilizada neste estudo é uma grade quadrada G nxn , conforme mostrado na
Figura 10 .

Figura 10 Abrir no visualizador de figuras Power Point

Mapa de interseção de grade para São Francisco

No Algoritmo 1 , I é o conjunto de instâncias no conjunto de dados D. Cada instância contém um


conjunto de recursos F , incluindo latitude e longitude. Bloco é o conjunto de blocos de grade
identificados pela abordagem GridIntersect (descrita no próximo parágrafo) e é a contagem
do número de incidências de crimes da categoria C j que pertencem ao bloco de grade
. Contagem é o conjunto de todas as contagens para todos os blocos de grade e categorias de
crime.

Algoritmo 1. Algoritmo BlockInstanceCount

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 14/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

A abordagem GridIntersect primeiro simplesmente ajusta uma grade na área em estudo. As


coordenadas extremas, ou seja, os valores máximos de X e Y na área de estudo, são calculadas e
um polígono é formado. Este polígono pode ser dividido em blocos de grade de acordo com um
número predefinido de linhas e colunas ou com base em um tamanho de bloco fornecido na formação
da grade. Neste trabalho é utilizada uma grade quadrada, com blocos de grade de tamanhos
variáveis. O objetivo do Algoritmo 1 é calcular o número de ocorrências de uma determinada
categoria de crime que pertencem a cada bloco da grade. No entanto, a
abordagem GridIntersect nem sempre produzirá blocos de grade do mesmo tamanho, como fica
claro na Figura 10 .. Alguns blocos de grelha que estão próximos do limite da área de estudo podem
ter menos área do que aqueles que estão completamente dentro da área de estudo.

Algoritmo 2. Estimativa de AvgCount (o número médio de ocorrências de crimes por


bloco por categoria) para o algoritmo HotBlock

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 15/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

O Algoritmo 2 encontra o número médio de instâncias que pertencem a cada bloco da


grade para uma determinada categoria de crime C j . Este algoritmo é usado para descobrir um
limite local para a existência de uma categoria específica de crime C j ao longo de um determinado
intervalo de tempo T na região/bloco de grade Bloco b . Assim, haverá um limite local separado para
cada categoria de crime. Em vez de considerar o valor médio exato como o limite, alguma fração
dele é considerada. Esta fração é regida pela margem variável. Neste trabalho, após realizar
diversos experimentos, atribuímos à margem o valor 0,9. Um atributo adicional no conjunto de dados
fornece informações sobre se um bloco de grade é um HotBlock, ou seja, se contém um número
excepcional de eventos criminais em todas as categorias. HotCount, o limite para declarar um bloco
de grade como HotBlock, é calculado no Algoritmo 3 . O Algoritmo 4 é utilizado para identificação real
dos HotBlocks na área de estudo. Neste algoritmo, a variável Threshold é simplesmente a razão entre
HotCount e Max(Area).

P ( C j ), a probabilidade de ocorrência de uma determinada categoria C j de crime, é dada por,

(1)

onde | eu | é o número de instâncias em todas as categorias. , a expectativa do bloco Bloco b ,


é dada por,

(2)

Então,

(3)

(4)

De forma similar,

(5)

Então, o desvio padrão, a variância e o HotCount são como no Algoritmo 3 .

Algoritmo 3. Algoritmo para estimativa de HotCount, o limite para declarar um bloco


como HotBlock

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 16/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Algoritmo 4. Algoritmo de identificação HotBlock

3.5.2 FASE II: Abordagem de previsão do crime


Na fase final do modelo proposto, um conjunto de dados de treinamento é preparado a partir dos
resultados da fase I e utilizado para fornecer previsões de crimes. Neste trabalho, o modelo de
previsão de crimes utiliza classificadores de última geração como aprendizes básicos. Abordagens
de classificação foram usadas anteriormente para prever crimes em um local específico [ 25 ]. Aqui,
os modelos propostos são baseados em classificação binária e multiclasse com base no tipo de
avaliação. Por exemplo, as Tabelas 3 a 9 contêm resultados para modelos baseados na
classificação multiclasse, enquanto na Tabela 10modelos de classificação binária para as
categorias mencionadas são treinados e testados. O restante dos resultados são para modelos de
classificação multiclasse. Várias técnicas de previsão de crimes de última geração – Naive Bayes,
Decision Tree (REPTree) e abordagens de aprendizagem em conjunto, como ensacamento, votação
e empilhamento – são testadas, com e sem análise de pontos críticos.

Tabela 3. Precisão das abordagens de classificação do


conjunto de dados de São Francisco com vários tamanhos de
grade

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 17/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Abordagem 3×3 4×4 5×5 6×6

Observação 79.06 74,57 75,71 67,79

NB-k 72.09 76,27 77,14 62,71

REPTree 72.09 69,49 65,71 59,32

Ensacamento (NB) 76,74 74,57 72,85 64,40

Ensacamento (NB-k) 72.09 77,96 77,14 62,71

Ensacamento (REPTree) 76,74 79,66 72,85 54,23

Votação (NB) 79.06 74,57 75,71 67,79

Votação (NB-k) 72.09 76,27 77,14 62,71

Votação (NB + REPTree) 76,74 71,18 70,00 62,71

Votação (REPTree) 72.09 69,49 65,71 59,32

Empilhamento (NB) 79.06 76,27 75,71 50,84

Empilhamento (REPTree) 60,46 69,49 65,71 62,71

Empilhamento (NB + REPTree, 81,39 67,79 68,57 47,45

meta = NB)

Empilhamento (NB + REPTree, 69,76 71,18 67,14 62,71

meta = REPTree)

Os valores em negrito nas tabelas representam o melhor valor da métrica

de desempenho para o classificador correspondente.

Tabela 4. Precisão das abordagens de classificação do


conjunto de dados da cidade de Nova York com vários
tamanhos de grade

Abordagem 3×3 4×4 5×5 6×6

Observação 81,25 70,49 65,55 62,29

NB-k 78,12 67,21 62,22 61,47

REPTree 62,50 67,21 62,22 63,93

Ensacamento (NB) 81,25 70,49 67,77 60,65

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 18/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Abordagem 3×3 4×4 5×5 6×6

Ensacamento (NB-k) 75,00 67,21 63,33 61,47

Ensacamento (REPTree) 75,00 59.01 57,77 59,83

Votação (NB) 81,25 70,49 65,55 62,29

Votação (NB-k) 78,12 67,21 62,22 61,47

Votação (NB + REPTree) 68,75 70,49 62,22 62,29

Votação (REPTree) 62,50 67,21 62,22 63,93

Empilhamento (NB) 81,25 70,49 64,44 61,47

Empilhamento (REPTree) 53.12 45,90 62,22 54,91

Empilhamento (NB + REPTree, 71,87 59.01 62,22 65,57


meta = NB)

Os valores em negrito nas tabelas representam o melhor valor da métrica

de desempenho para o classificador correspondente.

Tabela 5. Métricas de avaliação para abordagens de


classificação no conjunto de dados de São Francisco sem
análise de hotspot

S. Abordagem Precisão Taxa TP Taxa de Precisão


Não. PF

1. Observação 48,90 0,489 0,348 0,374

2. NB-k 51,70 0,517 0,332 0,418

3. REPTree 51,84 0,518 0,343 0,432

4. Ensacamento 48,86 0,489 0,346 0,374

(NB)

5. Ensacamento 51,66 0,517 0,331 0,420


(NB-k)

6. Ensacamento 54,56 0,546 0,322 0,476

(REPTree)

7. Votação (NB) 48,90 0,489 0,348 0,374

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 19/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

S. Abordagem Precisão Taxa TP Taxa de Precisão


Não. PF

8. Votação (NB-k) 51,70 0,517 0,332 0,418

9. Votação (NB + 51,77 0,518 0,342 0,440


REPTree)

Tabela 6. Métricas de avaliação para abordagens de


classificação no conjunto de dados de São Francisco com
análise de hotspot para tamanho de grade ideal

Abordagem Precisão Taxa TP Taxa de Precisão ROC


PF

Observação 79.06 0,791 0,259 0,790 0,842

NB-k 72.09 0,721 0,345 0,717 0,862

REPTree 72.09 0,721 0,264 0,739 0,745

Ensacamento 76,74 0,767 0,295 0,768 0,814

(NB)

Ensacamento 72.09 0,721 0,345 0,717 0,851


(NB-k)

Ensacamento 76,74 0,767 0,213 0,786 0,835

(REPTree)

Votação (NB) 79.06 0,791 0,259 0,790 0,842

Votação (NB-k) 72.09 0,721 0,345 0,717 0,862

Votação (NB + 76,74 0,767 0,274 0,765 0,835

REPTree)

Votação 72.09 0,721 0,264 0,739 0,745

(REPTree)

Empilhamento 79.06 0,791 0,279 0,798 0,844

Tabela 7. Métricas de avaliação para abordagens de


classificação no conjunto de dados da cidade de Nova York sem

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 20/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

análise de hotspot

S. Abordagem Precisão Taxa TP Taxa de Precisão


Não. PF

1. Observação 45,15 0,452 0,354 0,388

2. Nota -k 47,46 0,475 0,301 0,430

3. REPTree 47,34 0,473 0,284 0,429

4. Ensacamento 45,18 0,452 0,354 0,387

(NB)

5. Ensacamento 47,49 0,475 0,301 0,430

(NB -k)

6. Ensacamento 48h30 0,483 0,275 0,444

(REPTree)

7. Votação (NB) 45,15 0,452 0,354 0,388

8. Votação (NB - 47,46 0,475 0,301 0,430

k)

9. Votação (NB + 47,31 0,473 0,312 0,420


REPTree)

10. Votação 47,34 0,473 0,284 0,429


(REPTree)

Tabela 8. Métricas de avaliação para abordagens de


classificação no conjunto de dados da cidade de Nova York
usando análise de hotspot

S. Abordagem Precisão Taxa TP Taxa de Precisão


Não. PF

1. Observação 81,25 0,813 0,225 0,813

2. NB-k 78,12 0,781 0,271 0,784

3. REPTree 62,50 0,625 0,402 0,625

4. Ensacamento 81,25 0,813 0,225 0,813


(NB)

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 21/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

S. Abordagem Precisão Taxa TP Taxa de Precisão


Não. PF

5. Ensacamento 75,00 0,750 0,293 0,748


(NB-k)

6. Ensacamento 75,00 0,750 0,268 0,750


(REPTree)

7. Votação (NB) 81,25 0,813 0,225 0,813

8. Votação (NB-k) 78,12 0,781 0,271 0,784

9. Votação (NB + 68,75 0,688 0,360 0,683

REPTree)

10 V t ã 62 50 0 625 0 402 0 625

Tabela 9. Resultados de previsão de criminalidade para o


conjunto de dados da cidade de Nova Iorque em diferentes
categorias em termos de Macro-F1 e Micro-F1

Mês Agosto Setembro Outubro

Algoritmo Macro- Micro- Macro- Micro- Macro- M


F1 F1 F1 F1 F1

Observação 0,654 0,664 0,666 0,674 0,695

Nota -k 0,655 0,661 0,671 0,677 0,688

REPTree 0,633 0,653 0,655 0,665 0,613

Ensacamento 0,656 0,664 0,647 0,664 0,691


(NB)

Ensacamento 0,652 0,658 0,668 0,678 0,688

(NB -k)

Ensacamento 0,643 0,655 0,628 0,644 0,621


(REPTree)

Votação (NB + 0,653 0,665 0,658 0,672 0,652


REPTree)

Empilhamento 0,654 0,662 0,660 0,671 0,687


(NB)

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 22/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Mês Agosto Setembro Outubro

Os valores em negrito nas tabelas representam o melhor valor da métrica

de desempenho para o classificador correspondente.

Tabela 10. Resultados de previsão de crime para categorias


individuais de crime no conjunto de dados da cidade de Nova
York em termos de pontuação F1

Algoritmo Roubo

Agosto Setembro Outubro novembro d

Observação 0,668 0,657 0,615 0,675

Nota -k 0,684 0,670 0,637 0,697

REPTree 0,668 0,626 0,606 0,519

Ensacamento 0,668 0,650 0,606 0,675

(NB)

Ensacamento 0,698 0,662 0,637 0,682


(NB -k)

Ensacamento 0,637 0,643 0,622 0,606


(REPTree)

Votação (NB + 0,668 0,657 0,606 0,625

REPTree)

Empilhamento 0,668 0,657 0,615 0,675


(NB)

Empilhamento 0,668 0,650 0,410 0,555


(REPTree)

Empilhamento 0,668 0,650 0,566 0,675

Algoritmo Agressão criminosa

Agosto Setembro Outubro novembro d

Observação 0,646 0,600 0,572 0,577

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 23/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Algoritmo Agressão criminosa

Agosto Setembro Outubro novembro d

NB-k 0,692 0,656 0,675 0,687

REPTree 0,603 0,644 0,620 0,548

Ensacamento 0,654 0,605 0,585 0,577


(NB)

Ensacamento 0,648 0,643 0,632 0,642


(NB-k)

Ensacamento 0,638 0,643 0,608 0,592

(REPTree)

Votação (NB + 0,616 0,644 0,652 0,582


REPTree)

Empilhamento 0,635 0,628 0,615 0,550


(NB)

Os valores em negrito nas tabelas representam o melhor valor da métrica

de desempenho para o classificador correspondente.

4. RESULTADOS E DISCUSSÃO
4.1 Parâmetros de desempenho
4.1.1 Métricas de avaliação padrão
Neste trabalho, métricas padrão são utilizadas para avaliar o modelo proposto: precisão, taxa de
verdadeiros positivos ( taxa TP ), taxa de falsos positivos ( taxa FP ), precisão, característica de
operação do receptor (ROC), curva de recuperação de precisão (PRC) e pontuação F1.

Para previsões melhores e mais confiáveis, um modelo deve ter alta precisão, alta taxa de TP, baixa taxa
deFP , alta precisão e uma alta pontuação F1. A curva ROC é um gráfico da taxa TP em função
da taxa FP . Neste trabalho, a área sob esta curva é chamada de valor ROC; um valor ROC grande
indica que o modelo é capaz de distinguir entre classes. O PRC mostra a compensação entre
precisão e recall para diferentes limites; uma grande área sob esta curva indica alta recuperação e
alta precisão, onde alta precisão está relacionada a uma baixa taxa de falsos positivos, e alta
recuperação está relacionada a uma baixa taxa de falsos negativos.

4.1.2 Pontuação de confiança

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 24/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

A pontuação de confiança é um indicador da força das previsões feitas pelo modelo. Esta pontuação
é derivada da fase de identificação do hotspot. Se uma instância de teste estiver localizada na região
do hotspot, a pontuação de confiança será alta; caso contrário, será baixo. É calculado da seguinte
forma:

Aqui está o número de ocorrências criminais da categoria C j que pertencem ao bloco


Bloco b e é obtido a partir do Algoritmo 2 . A pontuação de confiança será positiva para todos os
blocos da grade que apresentam mais eventos criminais do que o HotCount e negativa para o
restante. Quando CS < 0, um valor absoluto grande indica que o bloco da grade tem poucos eventos
criminais.

4.2 Previsão de crimes usando técnicas de última geração


A última fase do modelo de previsão do crime é a previsão utilizando técnicas de última
geração. Nesta fase, cada classificador é treinado com 60% dos dados e o restante é utilizado para
teste. O conjunto de dados fornecido como entrada é obtido na fase I. As previsões são feitas com e
sem análise de hotspot. Verifica-se que há uma melhoria considerável na precisão quando a análise
de pontos críticos é utilizada. Após a fase de testes, é calculada uma pontuação de confiança para
cada uma das instâncias utilizando a fórmula definida na Seção 4 . Claramente, se a localização
prevista for um hotspot, a confiança na previsão será maior.

O presente modelo é inteiramente baseado na abordagem HotBlock. Conforme discutido nas


secções anteriores, existem muitas abordagens para encontrar padrões espaciais densos de
criminalidade numa área de estudo. O nível de resolução da análise espacial desempenha um papel
muito importante na identificação destes padrões densos, porque, numa resolução mais fina, uma
unidade espacial pode ser identificada como um hotspot, mas, numa resolução mais grosseira, a
área que a contém pode não o ser. A variação nos hotspots com resolução espacial é ilustrada pela
comparação dos resultados em nível de CEP (Figura 5 ) com os de nível distrital (Figura 6). Por esta
razão, a abordagem HotBlock de dividir o mapa em blocos de tamanhos iguais (exceto aqueles que
ficam ao redor dos limites) foi selecionada. O tamanho da grade é variado para encontrar um
tamanho ideal que produza os melhores resultados de classificação. Finalmente, esta grade de
tamanho ideal é sobreposta à área de estudo usando GridIntersect, conforme discutido na seção
anterior. HotBlocks são identificados usando o Algoritmo 4 . Fica claro nas Tabelas 3 e 4 que o
tamanho da grade 3 × 3 produz os melhores resultados de classificação para ambos os conjuntos de
dados. As previsões do modelo com e sem análise de hotspot utilizando a grade ótima foram
comparadas; o modelo produz melhor desempenho com a abordagem HotBlock do que apenas com
abordagens de última geração.

Os resultados obtidos para São Francisco sem realizar análise de hotspot são mostrados na
Tabela 5 . O conjunto de dados foi pré-processado simplesmente empregando os Algoritmos 1 e 2 e

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 25/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

usado para treinar e testar o modelo de previsão de crime com diferentes abordagens de base que
podem incluir um único classificador de base ou um conjunto de classificadores. Para avaliar o
desempenho, 60% dos dados são considerados conjunto de treinamento e o restante é usado para
testar o modelo. A precisão varia de 44,51 (classificador base: Stacking com Naive Bayes) a 54,56
(classificador base: Bagging com REPTree).

O desempenho também foi avaliado utilizando todos os parâmetros para o tamanho de grade ideal
para o mapa de São Francisco, conforme discutido anteriormente nesta seção. Pode-se observar na
Tabela 6 que há uma melhoria considerável em termos de precisão e outros parâmetros de
desempenho. O melhor desempenho é observado com Stacking com Naive Bayes e REPTree como
classificadores base e Naive Bayes como metaclassificador.

Uma abordagem semelhante foi testada para o conjunto de dados de Nova Iorque. A
Tabela 7 contém os resultados do modelo de previsão de criminalidade sem utilizar a análise de
hotspots. A precisão máxima é alcançada pelo modelo Bagging com Naive Bayes (usando um
estimador de kernel) como classificador base. No entanto, quando os mesmos modelos são
aplicados ao conjunto de dados pré-processado usando análise de hotspot e experimentos de
tamanho de grade ideal, há uma melhoria considerável na precisão. Pode-se observar na
Tabela 8 que, incluindo a análise de hotspots, a precisão máxima alcançada aumenta para 81,25%.

O modelo de previsão de crime proposto baseado na análise de hotspots é comparado com o


modelo DeepCrime para o conjunto de dados de Nova Iorque. Para facilitar a comparação, são
usados ​os mesmos parâmetros de desempenho e divisão do conjunto de dados. O conjunto de
dados de treinamento contém eventos criminais até o k mês; o modelo tenta prever os eventos
criminais do ( k + 1)-ésimo mês.

O conjunto de dados criminais de Nova York é pré-processado para que cada categoria possa ser
tratada separadamente. O modelo proposto para todos os classificadores de última geração é
comparado com a linha de base (DeepCrime). Uma pontuação F1 é registrada para todos os
experimentos realizados para as categorias individuais de crime. Cada modelo é testado para
conjuntos de dados mensais de agosto a dezembro. Pode-se observar nas Tabelas 9 e 10 que o
modelo proposto supera o modelo de referência na maioria dos casos.

4.3 Análise de sensibilidade dos parâmetros


O modelo de previsão de crime proposto envolve dois parâmetros importantes: GridSize (o tamanho
da grade) e # T (o intervalo de tempo, ou seja, o número de intervalos de tempo [em dias]). O
desempenho do modelo proposto é avaliado variando cada um desses parâmetros mantendo os
demais fixos. É importante analisar a robustez do modelo sobre estes parâmetros. Todos os gráficos
na seção de análise de sensibilidade de parâmetros a seguir representam experimentos realizados
variando um parâmetro (espacial ou temporal) enquanto mantém o outro fixo. Assim, a sensibilidade
das previsões do modelo à resolução temporal e espacial é estudada nesta seção.

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 26/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

A Figura 11 mostra a variação da precisão com o número de intervalos de tempo para todas as
quatro categorias em estudo para o conjunto de dados de Nova Iorque para agosto; A
Figura 12 mostra a variação com o tamanho da grade. Observe que o valor da precisão é a média
de todas as precisões para as categorias de crime correspondentes. Pode ser visto nas
Figuras 11 e 12que a precisão é consideravelmente melhor com um menor número de passos de
tempo e menos blocos na grade (ou seja, menor resolução espacial). A razão por detrás destes
resultados é que é relativamente fácil prever eventos criminais numa grande região num futuro
próximo, mas tentar prevê-los com uma semana de antecedência obviamente diminui a precisão. Da
mesma forma, é um desafio prever eventos criminais numa região muito pequena (um bloco que
ocupa apenas uma pequena fração da rede).

Figura 11 Abrir no visualizador de figuras Power Point

Análise de sensibilidade de parâmetros temporais em termos de

precisão para o conjunto de dados de agosto da cidade de Nova

York

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 27/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Figura 12 Abrir no visualizador de figuras Power Point

Análise de sensibilidade de parâmetros espaciais em termos de

precisão para o conjunto de dados de agosto da cidade de Nova

York

As Figuras 13 e 14 mostram os resultados de experimentos realizados com dados de São


Francisco. A tendência discutida em relação ao conjunto de dados de Nova Iorque também é
observada no conjunto de dados de São Francisco.

Figura 13 Abrir no visualizador de figuras Power Point

Análise de sensibilidade de parâmetros espaciais em termos de

precisão para o conjunto de dados de agosto de São Francisco

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 28/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Figura 14 Abrir no visualizador de figuras Power Point

Análise de sensibilidade de parâmetros temporais em termos de

precisão para o conjunto de dados de agosto de São Francisco

4.4 Análise da complexidade espaçotemporal


Conforme discutido neste trabalho, o conjunto de dados inicial D contém um conjunto I de instâncias e
um conjunto F de atributos. A abordagem HotBlock realiza análise espaço-temporal em D e o
transforma em um novo conjunto de dados D ′. Nesta transformação, o conjunto completo de
instâncias I deve ser percorrido exatamente uma vez. Cada instância é um evento criminal. O conjunto
de dados D ′ é na verdade uma matriz tridimensional I ′ × C × R . Aqui, eu′ é o conjunto reduzido de
instâncias dependendo do intervalo de tempo: por exemplo, se o intervalo de tempo for um dia e o
tempo de estudo for um ano, haverá 365 instâncias em I ′. Assim, uma determinada célula da matriz
tridimensional D ′ contém o número de eventos criminais de uma determinada categoria que
aconteceram em um determinado bloco em um determinado período de tempo. A agregação dos
eventos criminais pode ser feita em D ′ dependendo do tipo de análise necessária. Por exemplo, se
for previsto o número de eventos criminais de um determinado tipo que podem acontecer num
determinado intervalo de tempo para toda a área de estudo, então os eventos criminais dessa
categoria em todas as regiões serão agregados.

5. CONCLUSÕES
Neste trabalho, é proposta uma nova abordagem baseada em classificação para a previsão do
crime. Nosso modelo, HotBlock, utiliza modelos de classificação de última geração, mas também
inclui algumas abordagens de aprendizagem em conjunto. O modelo HotBlock realiza análises
espaço-temporais do conjunto de dados antes de fornecer previsões de crimes. Assim, toda a
dinâmica do crime no cenário do mundo real é levada em conta pelo modelo proposto. Neste

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 29/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

trabalho, também buscamos correlações entre taxas de criminalidade em diferentes categorias de


crimes e estudamos o impacto da resolução espaço-temporal na análise de focos de
criminalidade. Além disso, o desempenho do modelo proposto é testado quanto à sensibilidade à
variação dos parâmetros espaço-temporais. É considerado robusto e qualquer variação no
desempenho do modelo pode ser explicada adequadamente.

CONFLITO DE INTERESSES
Os autores declaram não haver conflito potencial de interesses.

Biografias

Gaurav Hajela recebeu seu diploma de Bacharel em Engenharia em Tecnologia da Informação por
Rajiv Gandhi Proudyogiki Vishwavidyalaya, Bhopal, Índia em 2012, e seu diploma MTech em Ciência
da Computação e Engenharia do Instituto Nacional de Tecnologia Maulana Azad (MANIT), Bhopal,
Índia em 2014. Desde Em 2015, ele trabalhou no Departamento de Ciência da Computação e
Engenharia, MANIT, Bhopal, Índia, onde está cursando seu doutorado. Seus principais interesses de
pesquisa são análise de Big Data, aprendizado de máquina e previsão de séries temporais.

Meenu Chawla recebeu seu diploma de Bacharel em Engenharia em Tecnologia da Computação


pela MANIT, Bhopal, Índia em 1990, e seu diploma de MTech em Ciência da Computação e
Engenharia pelo Instituto Indiano de Tecnologia, Kanpur, Índia em 1995. Ela recebeu seu PhD na área
de Mobile e Ad Hoc Networks (Ciência da Computação) da MANIT em 2012. Ela tem mais de 25
anos de experiência em ensino e pesquisa. Atualmente é professora no Departamento de Ciência da
Computação e Engenharia da MANIT, Bhopal, Índia. Ela publicou mais de 50 artigos de pesquisa em
importantes periódicos e conferências técnicas. Seus interesses de pesquisa e ensino incluem
estrutura de dados e algoritmos, comunicação sem fio e computação móvel, redes móveis ad hoc e
de sensores, redes de rádio cognitivas e Big Data.

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 30/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Akhtar Rasool recebeu seu diploma de Bacharel em Engenharia em Ciência da Computação por
Rajiv Gandhi Proudyogiki Vishwavidyalaya, Bhopal, Índia em 2003, e seu diploma MTech em Ciência
da Computação e Engenharia pela MANIT, Bhopal, Índia em 2007. Ele recebeu seu PhD em Ciência
da Computação e Engenharia da MANIT em 2014 e atualmente é professor assistente lá. Publicou
mais de 35 artigos de pesquisa em revistas e conferências internacionais/nacionais. Suas áreas de
pesquisa incluem algoritmos de correspondência de strings, computação paralela, inteligência
artificial, ciência de dados, análise de Big Data, engenharia de software, análise e design de
algoritmos, computação em cluster e grade e computação quântica.

REFERÊNCIAS

1 W. Bernasco e C. Vandeviver , A geografia do crime e do


controle do crime , Appl. Geogr. 86 ( 2017 ) , 220-225 . _
Visualizar Web of Science® Google Acadêmico

2 X. Hu et al., Impacto da variabilidade e mudança climática


nas taxas de criminalidade em Tangshan, China , Sci. Meio
Ambiente Total. 609 ( 2017 ) , 1041-1048 . _
Visuali CAS PubMed Web of
zar Science® Google Scholar

3 D. J. Lemon e R. Partridge , O clima está relacionado ao


número de agressões observadas nos departamentos de
emergência? , Lesão 48 ( 2017 ), 2.438 – 2.442 .
Visuali CAS PubMed Web of
zar Science® Google Scholar

4 X. Zhao e J. Tang , Crime em áreas urbanas: uma


perspectiva de mineração de dados , disponível em CoRR
http://arxiv.org/abs/1804.08159, pré-impressão, 2018 .
Google Scholar

5 MR D'Orsogna e M. Perc , Física estatística do crime: uma


revisão , Phys. Vida Rev. 12 ( 2015 ) , 1-21 .
Visualiz PubMed Web of Science® Google
ar Acadêmico

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 31/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

6 M. A. Andresen , Medidas criminais e a análise espacial da


atividade criminosa , Fr. J. Criminol. 46 ( 2005 ) , 258-285 . _
Visualizar Web of Science® Google Acadêmico

7 M. A. Andresen , Estimando a probabilidade de grupos de


crimes locais: O impacto dos vizinhos espaciais imediatos , J.
Crim. Justiça 39 ( 2011 ) , 394-404 . _
Visualizar Web of Science® Google Acadêmico

8 L. Anselin , Indicadores Locais de Associação Espacial —


LISA , Geogr. Anal. 27 ( 1995 ) , 93-115 . _
Visualizar Web of Science® Google Acadêmico

9 C. Cowen , E. Louderback e S. Roy , O papel do uso da


terra e da caminhabilidade na previsão de padrões de crime:
Uma análise espaço-temporal dos bairros do condado de
Miami-Dade, 2007–2015 , Secur. J. 32 ( 2019 ) , 264-286 . _
Visualizar Web of Science® Google Acadêmico

10 D. Vildosola et al., Crime em uma cidade afluente:


aplicações de modelagem de terreno de risco para roubo
residencial e de veículos em Coral Gables, Flórida, 2004–
2016 , Appl. Cuspiu. Anal. Política 13 ( 2019 ), 441 – 459 .
Visualizar Web of Science® Google Acadêmico

11 C. Huang et al., Deep-Crime: Redes recorrentes


hierárquicas atentas para previsão de crimes , em Proc. ACM
Internacional. Conf. Inf. Gestão do Conhecimento. (Torino,
Itália), outubro de 2018 , pp .
Google Scholar

12 M. S. Gerber , Predição de crimes usando Twitter e


estimativa de densidade de kernel , Decis. Sistema de
suporte. 61 ( 2014 ) , 115-125 . _
Visualizar Web of Science® Google Acadêmico

13 L. Vomfell , WK Härdle e S. Lessmann , Melhorando as


previsões de contagem de crimes usando dados do Twitter e
de táxi , Decis. Sistema de suporte. 113 ( 2018 ) , 73-85 . _
Visualizar Web of Science® Google Acadêmico

14 M. L. Williams , P. Burnap e L. Sloan , Detecção de crime


com Big Data: As possibilidades e limitações do uso de
comunicações de código aberto para estimar padrões de
crime , Br. J. Criminol. 57 ( 2016 ) , 320-340 . _
Web of Science® Google Acadêmico

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 32/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

15 L. GA Alves , HV Ribeiro e FA Rodrigues , Previsão do


crime através de métricas urbanas e aprendizagem
estatística , Phys. A 505 ( 2018 ) , 435-443 . _
Visualizar Web of Science® Google Acadêmico

16 J. H. Ratcliffe , Geocodificação do crime e uma primeira


estimativa de uma taxa de acerto mínima aceitável , Int. J.
Geogr. Inf. Ciência. 18 ( 2004 ) , 61-72 . _
Visualizar Web of Science® Google Acadêmico

17 JK Ord e A. Getis , Estatísticas de autocorrelação espacial


local: questões de distribuição e uma
aplicação , Geogr. Anal. 27 ( 1995 ) , 286-306 . _
Visualizar Web of Science® Google Acadêmico

18 G. N. Kouziokas , A aplicação de inteligência artificial na


administração pública para previsão de áreas de transporte
com alto risco de criminalidade em ambiente
urbano , Transp. Res. Procedia 24 ( 2017 ) , 467-473 . _
Visualizar Google Scholar

19 A. Getis e JK Ord , A análise da associação espacial pelo


uso de estatísticas de
distância , Geogr. Anal. 24 ( 1992 ) , 189-206 . _
Visualizar Web of Science® Google Acadêmico

20 G. Mohler , Mapas de hotspots de processos de pontos


marcados para previsão de homicídios e crimes com armas de
fogo em Chicago , Int. J. Previsão. 30 ( 2014 ) , 491-497 . _
Visualizar Web of Science® Google Acadêmico

21 K. Leong e A. Sung , Uma revisão das abordagens de


análise de padrões espaço-temporais na análise do
crime , Int. eJ. Crime. Ciência. 9 ( 2015 ) , 1-33 . _
Google Scholar

22 A. Rummens , W. Hardyns e L. Pauwels , O uso da análise


preditiva na previsão de crimes espaço-temporais: Construindo
e testando um modelo em um contexto
urbano , Appl. Geogr. 86 ( 2017 ) , 255-261 . _
Visualizar Web of Science® Google Acadêmico

23 T. Lawson , R. Rogerson e M. Barnacle , Uma comparação


entre a relação custo-benefício do CCTV e a melhoria da
iluminação pública como meio de redução do
crime , Comput. Meio Ambiente. Sistema
Urbano 68 ( 2018 ) , 17-25 . _

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 33/34
23/09/2023, 16:11 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Visualizar Web of Science® Google Acadêmico

24 Y. Xu et al., O impacto das luzes da rua nos padrões


espaço-temporais do crime em Detroit,
Michigan , Cities 79 ( 2018 ) , 45-52 .
Visualizar Web of Science® Google Acadêmico

25 R. Iqbal et al., Um estudo experimental de algoritmos de


classificação para previsão de crimes, Indian , J.
Sci. Tecnologia. 6 ( 2013 ) , 4219-4225 . _

https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0306 34/34

Você também pode gostar