Análise da Criminalidade no RJ

INSTITUTO BRASILEIRO DE GEOGRAFIA E
ESTATÍSTICA
ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS
BACHARELADO EM ESTATÍSTICA
TRABALHO FINAL DE ANÁLISE MULTIVARIADA:

Diagnostico da Criminalidade no Rio de Janeiro no ano de 2018
AUTORIA:
LETÍCIA MARIA CORREIA BORGES
ISAAC VICTOR SILVA RODRIGUES
PROFESSORA: SANDRA CANTON CARDOSO
Rio de Janeiro, 2019.

Conteúdo
1 Introdução 2
2 Base de Dados 2
3 Análise Exploratória 5
4 METODOLOGIA 10
4.1 Análise Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2 Análise de Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2.1 Método de Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2.2 Métodos K-means e C-means . . . . . . . . . . . . . . . . . . . . . . . . 12
5 Construção dos Clusters 14

5.1 Análise Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5.2 Método de Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.3 Método K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.4 Método C-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6 Análises finais para os clusters do método K-means 27
7 Conclusão 33
Referências 36
Resumo
Uma área de interesse para melhorar a qualidade de vida no Rio de Janeiro é o estudo
da criminalidade. O Estado apresenta altas taxas de criminalidades e para se pensar em
polı́ticas públicas de qualidade é necessário o diagnostico do crime local. Neste traba-
lho utilizamos dados de criminalidade para as diferentes Áreas Integradas de Segurança
Pública(AISP) existentes no Rio de Janeiro e com o auxilio de diversos recursos da Análise
Multivariada obtivemos resultados interessantes quanto a AISP e a ocorrência crimes,
correlação entre tipos de crimes, caracterı́sticas gerais de diferentes grupos de AISP, cor-
relação entre diferentes AISP.
Palavras-chave. Criminalidade; Analise Fatorial; Clusterização
1 Introdução
A violência e a criminalidade são temas cada vez mais debatidos no cenário nacional,
tornando-se um dos principais problemas contemporâneos no Brasil e em muitos outros paı́ses
[dos Santos, 2011].
De acordo com a pesquisa de opinião FBS/ DATASUS, realizada em 2017, a cada 3 bra-
sileiros, 1 tem medo de ser vı́tima de violência por parte de criminosos. Embora, o Brasil tenha
a sexta maior taxa de encarceramento do mundo com mais de 600 mil presos, a insegurança é
presente e os dados apontam aumento no número de crimes [Pekny, 2017].
O Estado do Rio de Janeiro foi escolhida como recorte espacial, devido ao aumento da
violência urbana, de acordo com os dados o Instituto e Segurança Pública (ISP, Clique Aqui
para acessar o site do ISP)1 , que disponibiliza as estatı́sticas oficiais de registros de crimes
por AISP – Áreas Integradas de Segurança Pública, criadas em 1999, com intuito de obter
um combate mais efetivo da criminalidade local. Além disso, o ISP tem missão de produzir
informações e disseminar pesquisas para implantação de polı́ticas públicas de segurança.
O objetivo deste estudo foi compreender a espacialização dos diferentes tipos de crimes
de acordo com as AISP do Estado do Rio de Janeiro a partir o emprego de análise fatorial
associado à análise de cluster.
2 Base de Dados
A base de dados utilizada foi obtida pelo site do ISP(Para acessa-la, Clique Aqui)1 ,
proveniente de ocorrências registradas pela Polı́cia Militar o Estado do Rio de Janeiro, referentes
ao ano de 2018. O ISP disponibiliza as estatı́sticas oficiais de registros de crimes por AISP -
Áreas Integradas de Segurança Pública, como pode ser visto na Tabela 1.
1
Precisa de Internet para acessar os Hiperlinks
2
Tabela 1: AISP e seus Bairros de atuação
AISP Bairros
AISP 2 Catete, Cosme Velho, Flamengo, Glória, Laranjeiras, Botafogo, Humaitá e Urca
AISP 3 Cachambi, Méier, Abolição, Encantado, Piedade, Pilares, Engenho Novo, Jacaré,
Jacarezinho, Riachuelo, Rocha, Sampaio, São Francisco Xavier, Água Santa, En-
genho de Dentro, Lins de Vasconcelos, Todos os Santos, Del Castilho, Engenho da
Rainha, Inhaúma, Maria da Graça e Tomás Coelho
AISP 4 Cajú, Mangueira, São Cristóvão, Catumbi, Cidade Nova, Estácio, Rio Comprido e
Vasco da Gama
AISP 5 Centro (parte),Santa Teresa , Gamboa, Santo Cristo, Paquetá e Saúde
AISP 6 Maracanã, Praça da Bandeira, Tijuca (parte), Alto da Boa Vista, Andaraı́, Grajaú
e Vila Isabel
AISP 7 São Gonçalo
AISP 8 Campos dos Goytacazes, São Fidélis, São João da Barra e São Francisco de Itaba-
poana
AISP 9 Campinho, Cascadura, Praça Seca, Quintino de Bocaiúva, Bento Ribeiro, Marechal
Hermes, Oswaldo Cruz, Coelho Neto, Colégio (parte), Honório Gurgel e Rocha
Miranda
AISP 10 Barra do Piraı́, Valença, Rio das Flores, Piraı́, Vassouras, Miguel Pereira, Paty do
Alferes, Mendes e Engenho Paulo de Frontin
AISP 11 Nova Friburgo, Duas Barras, Cantagalo, Cordeiro, Macuco, Santa Maria Madalena,
Trajano de Moraes e Bom Jardim
AISP 12 Niterói e Maricá
AISP 14 Anchieta, Guadalupe, Parque Anchieta, Ricardo de Albuquerque, Campo dos Afon-
sos, Deodoro, Jardim Sulacap, Magalhães Bastos, Realengo, Vila Militar, Bangu,
Gericinó, Padre Miguel e Senador Camará
AISP 15 Duque de Caxias, Campos Elyseos, Xerém e Imbariê
AISP 16 Brás de Pina (parte), Complexo do Alemão, Olaria, Penha, Penha Circular (parte),
Cordovil, Jardim América, Parada de Lucas e Vigário Geral
AISP 17 Bancários, Cacuia, Cidade Universitária, Cocotá, Freguesia, Galeão, Jardim Cari-
oca, Jardim Guanabara, Moneró, Pitangueira,Portuguesa, Praia da Bandeira, Ri-
beira, Tauá e Zumbi
AISP 18 Anil, Cidade de Deus, Curicica, Gardênia Azul, Jacarepaguá, Taquara, Freguesia,
Pechincha, Tanque e Vila Valqueire
AISP 19 Copacabana (parte) e Leme
AISP 20 Nova Iguaçu, Mesquita e Nilópolis
AISP 21 São João e Mereti
3
AISP 22 Benfica, Bonsucesso, Higienópolis, Manguinhos, Maré e Ramos
AISP 23 Ipanema, Leblon, Gávea, Jardim Botânico, Lagoa, Rocinha, São Conrado e Vidigal
AISP 24 Seropédica, Itaguaı́, Paracambi, Queimados e Japeri
AISP 25 Araruama, Saquarema, São João da Aldeia, Cabo Frio, Armação dos Búzios, Iguaba
Grande e Arraial do Cabo
AISP 26 Petrópolis
AISP 27 Paciência, Santa Cruz e Sepetiba
AISP 28 Barra Mansa, Volta Redonda e Pinheiral
AISP 29 Laje do Muriaé, Porciúncula, Itaperuna, Italva e Cardoso Moreira
AISP 30 São José do Vale do Rio Preto, Teresópolis, Carmo e Sumidouro
AISP 31 Barra da Tijuca, Itanhangá, Joá, Recreio do Bandeirantes, Grumari, Vargem
Grande, Vargem Pequena e Camorim
AISP 32 Casimiro de Abreu, Conceição de Macabú, Macaé, Rio das Ostras, Quissamã e
Carapebus
AISP 33 Mangaratiba, Angra dos Reis, Paraty e Rio Claro
AISP 34 Magé e Guapimirim
AISP 35 Tanguá, Itaboraı́, Rio Bonito, Silva Jardim e Cachoeiras de Macacu
AIPS 36 Itaocara, Santo Antônio de Pádua, Aperibé, Miracema, Cambuci e São Sebastião
do Alto
AISP 37 Resende, Itatiaia, Porto Real e Quatis
AISP 38 Paraı́ba do Sul, Três Rios e Sapucaia
AISP 39 Belford Roxo*
AISP 40 Campo Grande, Cosmos, Inhoaı́ba, Santı́ssimo e Senador Vasconcelos
AISP 41 Colégio (parte), Irajá, Vicente de Carvalho, Vila Kosmos, Vila da Penha , Vista
Alegre, Anchieta, Guadalupe, Parque Anchieta, Ricardo de Albuquerque, Acari,
Barros Filho, Costa Barros, Parque Colúmbia e Pavuna
Fonte: Elaboração própria utilizando os dados site do ISP,
para acessar o arquivo fonte Clique Aqui.1
Os batalhões da Polı́cia Militar (PM) são atendidos pelas delegacias monitoradas pela
Secretaria de Segurança Pública do Rio de Janeiro (SESP/RJ) através do Instituto de Segurança
Pública, que estão na mesma área da divisão territorial do censo, dessa forma facilitou a análise
estatı́stica por área. Com o decorrer dos anos o ISP foi acumulando dados das ocorrências de
crimes nas diferentes regiões do Rio de Janeiro. Esses crimes são registrados em qualquer
delegacia e, ao decorrer de cada mês, esses registros são enviados para a base de dados do
ISP. Os crimes são divididos em diversas variáveis consoante ao seu tipo, a base é atualizada
mensalmente e, hoje em dia, talvez seja a base de dados criminais mais completa existente no
Estado do Rio de Janeiro.As variáveis selecionadas para análise por tipo de crime podem ser
4
observadas na Tabela 2.
Tabela 2: Variáveis retiradas da base de dados existente

no site do ISP e suas descrições
Variáveis Descrição
roubo veiculo Taxa de Roubo de veı́culo por 100 mil veı́culos
roubo carga Taxa de Roubo de carga por 100 mil habitantes
roubo em coletivo Taxa de Roubo em coletivo por 100 mil habitantes
outros roubos Todos os outros roubos com exceção dos
já listados nesta tabela por 100 mil habitantes
ameaca Taxa de Ameaça por 100 mil habitantes
pessoas desaparecidas Taxa de Pessoas desaparecidas por 100 mil habitantes
letalidade violenta Taxa de Letalidade violenta por 100 mil habitantes
lesao corp dolosa Taxa de Lesão corporal dolosa por 100 mil habitantes
Fonte: Elaboração própria utilizando o dicionário de dados do
site do ISP, para acessar o dicionário oficial Clique Aqui.1
3 Análise Exploratória
De acordo com a análise dos crimes selecionados no presente estudo, o Estado do Rio de
Janeiro obteve um aumento de 2, 54% da criminalidade no ano de 2018 com relação ao ano
anterior(Figura 2).
Figura 1: Aumento da ocorrência dos crimes estudados no trabalho.
Fonte: Elaboração própria utilizando o a base de dados do site do ISP,

para acessar a base oficial Clique Aqui.
5
Figura 2: Comparação do número de ocorrências dos crimes por ano.

Conforme os números da Figura 2 indicador de letalidade violenta (corresponde a soma

as vı́timas de homicı́dio doloso, roubo seguido de morte, lesão corporal seguida de morte e
morte por intervenção de agente do Estado) apresentou pequena queda em relação a 2017.
Além disso, dentro de letalidade violenta, houve 71 feminicı́dios (1, 1%) em 2018, contra 68
(1%) em 2017. O Roubo de Veı́culo foi 4, 2% menor em comparação ao ano anterior, Roubo
de Carga apresentou uma queda maior, 13, 4% interrompendo a tendência de crescimento do
crime nos últimos 7 anos e Roubos em Coletivo obteve um aumento de 2, 5%. A variável outros
roubos(Ver Tabela 2) é o crime que apresenta maior número ocorrências e teve aumento de 3%
em 2018 em comparação com 2017.
A lesão corporal dolosa se caracteriza como o resultado da ação de uma pessoa contra
outra e que, de alguma maneira, prejudique a integridade corporal ou a saúde da vı́tima. Obteve
um aumento de 4, 5% em 2018 com relação ao ano anterior e de acordo com o Dossiê mulher
realizado pelo ISP( Para acessar os Dossiês,Clique Aqui para acessar o de 2017 e Clique
Aqui para acessar o de 2018)1 , 65, 5% das vı́timas são do sexo feminino. A ameaça apresentou
um aumento de 9, 7%, sendo 67, 6% das vitimas do sexo feminino.
Analisando as AISP com maiores taxas de criminalidade no Estado do Rio de Janeiro, 7%
dos crimes ocorreram na AISP 15 (Duque de Caxias), 8% na AISP 20 (Nova Iguaçu, Mesquita
e Nilópolis) e 8% AISP 7 (São Gonçalo). As localidades podem ser verificadas na Tabela 1,
especificamente no arquivo existente na Fonte desta Tabela, também pode ver as localidades
no mapa da Figura 3.
6
Figura 3: Mapa do Estado do Rio de Janeiro indicando as AISPs que apresentaram maiores
ı́ndices de criminalidade no ano de 2018.

As três AISPs apresentam os maiores indicadores de criminalidade em todo Estado, no

entanto, houve uma variação com relação ao ano anterior. A AISP 15 (Duque de Caxias) teve a
maior redução de letalidade violenta 15, 2% e uma redução de 21, 3% de roubo de carga. Houve
um aumento de 26, 9% de ameaças no local e 20, 9% de outros roubos (sendo o segundo maior
aumento de roubo de rua em todo Estado).
A AISP 20 (Nova Iguaçu, Mesquita e Nilópolis) apresentou queda de outros roubo, 13, 6%
com relação ao ano anterior, letalidade violenta 12% e uma redução significativa de 48, 8% em
roubos de carga. No entanto, houve um aumento de 20, 3% no crime de lesão corporal dolosa,
12% no roubo de veı́culos e 20% em ameaças. A AISP 07 (São Gonçalo) apresentou o aumento
de 17, 7% em outros roubos, 23% roubo em coletivo e 14, 2% em roubo de carga. Porém, teve
uma redução de 14, 2% em lesão corporal dolosa, 4, 5% em letalidade violenta e 10, 5% em
ameaça. Todas as variações são relativas as taxas do ano de 2018 com 2017.
A AISP 09 (Madureira e adjacências, Ver Figura 4) apresentou maior queda em roubo
de veı́culos 24, 1%, outros roubos 24, 8% e 56, 8% em roubo de cargas. A AISP 41 (Pavuna e
adjacências) apresentou redução em 49, 3% em roubo de carga e 23, 3% em letalidade violenta
, no entanto, obteve um aumento de 21, 2% em roubo de veı́culos.
7
Figura 4: Mapa do Municı́pio do Rio de Janeiro indicando as AISPs que apresentaram maior
variação de crimes no ano de 2018 em comparação com 2017

As AISP que apresentaram melhores taxas(Figura 5) de criminalidade e conseguiram

realizar maiores reduções em relação aos dois últimos anos foram a AISP 10 ( Vassouras e
adjacências) e AISP 30 (Teresópolis e adjacências).
Figura 5: Mapa do Estado do Rio de Janeiro indicando as AISPs que apresentaram menores
taxas de criminalidade.

Antes de utilizar as técnicas multivariadas foi realizado algumas análises estatı́sticas,

como pode ser visto na Figura 6 e Tabela 3.
Tabela 3: Valores descritivos das variáveis de interesse.
8
Variáveis Min. 1st Qu. Mediana Média 3rd Qu. Max.
roubo veiculo 7 101 473 1336 2003 6104
furto veiculos 54 169 319 405 554 1285
lesao corp dolosa 564 1044 1487 1623 1958 5185
roubo carga 5 28 66 235 306 1701
roubo em coletivo 0 38 194 402 572 1802
ameaca 465 927 1341 1436 1667 4046
pessoas desaparecidas 14 61 103 123 170 399
outros roubos 55 982 2877 3966 5534 14587
A Tabela 3 indica que as variáveis sejam descritas por uma distribuição de probabilidade
assimétrica pois além da mediana aparentar ser diferente da média em quase todas as variáveis,
a diferença entre o mı́nimo e a mediana destoa muito da diferença entre o máximo e a mediana
das variáveis. Nota-se que apesar de em geral existirem poucos outliers, as variáveis não
estão padronizadas com destaque para a variável ‘outros roubos’. Isso indica a necessidade de
padronizar os dados para trabalharmos con grandezas comparáveis.
Figura 6: Boxplot dos crimes no Estado do Rio de Janeiro, variáveis não padronizadas.

Na Figura 7, verificamos a matriz de covariância entre as variáveis. Em particular, a

variável ‘outros roubos’ possui uma variância muito maior do que as outras. Este resultado
9
indica que é necessário padronizar as variáveis para realizar a análise multivariada.
Figura 7: Matriz e covariância entre os crimes .

4 METODOLOGIA
4.1 Análise Fatorial
Com o propósito de estudar a criminalidade do Estado do Rio de Janeiro a Análise
Fatorial (AF) foi aplicada com o objetivo de agrupar as variáveis em fatores com a mı́nima
perda de informação possı́vel. Para a implementação da Análise Fatorial primeiro é necessário
verificar se a aplicação do método tem validade para as variáveis escolhidas, para esse objetivo
utilizou-se o teste de Kaiser-Meyer-Olkin (KMO) [Mingoti, 2005]:
Pp Pp 2
j=1m=1,m6=j rjm
KM O = Pp Pp 2
Pp Pp 2
(1)
j=1 m=1,m6=j rjm + j=1 m=1,m6=j rpjm
2 2
Sendo que rjm e rpjm correspondem respectivamente às correlações simples e parciais.
A estatı́stica KMO tem por finalidade verificar se há uma estrutura de dependência que
seja bem definida entre as variáveis analisadas e que esta possa ser expressa pela matriz de
correlações ou de covariância. Se caso tenha existência, a estrutura implica que a variável pode
ser prevista pelas demais com certa margem de segurança. Portanto, o modelo somente apre-
sentará uma estrutura de dependência clara se a correlação parcial entre os pares de variáveis
for baixa [Beavers et al., 2013].
10
Tabela 4: Adequação Amostral de acordo com o KMO
Kaiser-Meyer-Olkin(KMO) Análise Fatorial

1,0 – 0,9 Muito boa
0,8 – 0,9 Boa
0,7 – 0,8 Média
0,6 – 0,7 Razoável
0,5 – 0,6 Má
< 0,5 Inaceitável
Fonte: Elaboração própria utilizando como referência o livro já citado [Mingoti, 2005] e as
notas de aula do professor Marcelo Botelho da Costa Moraes, da USP-FES clique aqui.
O resultado do teste KMO deve variar de 0 a 1, em que quanto menor for o valor, maior são
as chances de os dados não serem adequados, pois de certa forma significa que a correlação entre
as variáveis é baixa. Como visto na tese de mestrado [?], existem relações muito fortes entre a
correlação das variáveis, análise fatorial e componentes principais. Resumidamente, refletindo
sobre o fato da correlação entre as variáveis, baixa correlação entre as variáveis implica em ser
necessário um grande número de componentes principais para explicar diversidade dos dados. Se
um problema apresenta um elevado número de componentes principais, então, para representar
adequadamente a diversidade com análise fatorial também escolherı́amos um grande número
de fatores. Uma das decisões mais importantes a serem tomadas durante a execução da Análise
Fatorial é o número de fatores a ser definido. Muitas vezes as cargas fatoriais apresentam valores
muito elevados em mais de um fator, o que acaba levando divisão de fatores inconclusivos e isso
é reflexo de baixa correlação entre as variáveis, caracterı́sticas que não são iguais estão sendo
representadas por um único fator, tal problema pode sumir quando se toma um número maior
de fatores. Utilizando um número maior de fatores, de certa foram, damos mais liberdade para
as caracterı́sticas dos dados se manifestar, fazendo com que as incertezas diminuam.
O equilı́brio ideal entre o número de fatores e a interpretabilidade é muito importante
e pode ser difı́cil de definir. Em muitos casos requer uma análise exploratória prévia para
uma crı́tica adequada quanto a este número. Abordagens como primeiro fazer componentes
principais pode ajudar a abordar um problema desconhecido, mas é sempre importante ler
sobre o contexto do problema e definir quantos fatores de fato são necessários para representar
o problema em questão.
O método rotação dos fatores, tem como principal objetivo tornar o resultado empı́rico,
ou seja, facilitar a interpretação conservando as suas propriedades estatı́sticas. é o mais usado
e possui o objetivo de minimizar o número de varáveis que apresentam altas cargas em cada
fator. O presente trabalho utilizará a análise fatorial para agrupar os tipos de crimes. Depois
da rotação e interpretação dos fatores .
11
4.2 Análise de Cluster
A análise de agrupamento também conhecida como análise de conglomerados, classificação
ou cluster, tem como objetivo dividir os elementos da amostra, ou população, em grupos de
forma que os elementos pertencentes a um mesmo grupo sejam similares entre si com respeito
às variáveis (caracterı́sticas) que neles foram medidas, e os elementos em grupos diferentes
sejam heterogêneos em relação a estas mesmas caracterı́sticas [Mingoti, 2005]. A medida de
similaridade utilizada foi a Distância Euclidiana, onde Xl e XK , l 6= k é definida por :
p
d(Xl , Xk ) = (Xl − Xk )0 (Xl − Xk ) (2)
v
u p
uX
d(Xl , Xk ) = t (Xil − Xik )2 (3)
i=1
ou seja, os dois elementos amostrais são comparados em cada variável pertencente ao vetor
de observações. As técnicas de análise de cluster são frequentemente classificadas em dois ti-
pos: técnicas hierárquicas e não hierárquicas. No presente trabalho foi realizado o método
hierárquico como análise exploratória dos dados com o intuito de identificar possı́veis agrupa-
mentos, assim como o número de grupos.
A técnica hierárquica parte do princı́pio de que no inı́cio do processo de agrupamento
tem-se n conglomerados, ou seja, cada elemento do conjunto de dados observados é considerado
como sendo um conglomerado isolado. Em cada passo do algoritmo, os elementos amostrais vão
sendo agrupados, formando novos conglomerados até o momento no qual todos os elementos
considerados estão num único grupo [Mingoti, 2005].
4.2.1 Método de Ward
Para a técnica hierárquica utilizamos o Método e Ward. Segundo [Hair Jr, 2009], o
método de Ward consiste em um procedimento de agrupamento hierárquico no qual a medida
de similaridade usada para juntar agrupamentos é calculada como a soma de quadrados entre
os dois agrupamentos feita sobre todas as variáveis. Esse método tende a resultar em agrupa-
mentos de tamanhos aproximadamente iguais devido a sua minimização de variação interna.
Basicamente repetimos, de certa forma, as Equações 2 e 3 para os pontos médios dos agrupa-
mentos, acada iteração, criamos um novo agrupamento e repetimos o processo. Ao fim teremos
um único agrupamento e o processo de agrupar nos dará pistas dos clusters. Para se obtr um
número de clusters definido paramos o processo em uma iteração definida.
4.2.2 Métodos K-means e C-means
Após a aplicação do método hierárquico e a definição do número de clusters, foi realizada a

aplicação do método K-médias e Fuzzy c-means. No método k-médias cada elemento amostral
é alocado em um determinado cluster cujo o centroide (vetor de médias amostral) é o mais
12
próximo do vetor de valores observados para o respectivo elemento. O método K-Médias
aplicado utiliza como semente inicial os centroides provenientes da partição do método Ward.
O método C-means ou Fuzzy, assim como o k-médias, é um método interativo que utilizou
o número de cluster proveniente da técnica hierárquica. O c-means procura a partição que
minimiza a função objetivo abaixo:
c X
X n
J= (uij )m d(Xj , Vi ) (4)
i=1 j=1
Onde:
Vi é a semente do conglomerado i, i = 1, 2, ..., c;
m > 1 é o parâmetro Fuzzy;
uij é a probabilidade do elemento Xj pertença ao conglomerado cujo protótipo é Vi z’;
d(.) é a distância euclidiana.
Para encontrar as probabilidades que minimizam a função J utiliza-se:
C
X d(Xj , Vi ) m−12
Ui,j = [ ( ) ]−1 (5)
k=1
d(X j , Vk )
No método c-means, para cada elemento amostral, estima-se a probabilidade de que

o mesmo pertença a cada um dos clusters. Assim, é possı́vel identificar elementos que se
assemelham a mais de um grupo e pode-se usar como critério para determinar o grupo com maior
probabilidade de pertencimento do elemento. Como critério de validação dos agrupamentos,
cuja finalidade é verificar a qualidade de uma partição gerada pelo algoritmo. Neste trabalho
utilizou-se os critérios de Silhueta Simplificada (método K-médias) e Silhueta Fuzzy (método
c-means). A silhueta simplificada é utilizada no algoritmo k-médias e é dado por:
N
1 X
CS = S(q) (6)
N q−1
Onde: S(q) é a silhueta do q − ésimo AISP , que é obtido como:
b(q) − a(q)
S(q) = (7)
max{a(q), b(q)}
Onde a(q) é a dissimilaridade do q − ésimo elemento ao centroide do agrupamento ao qual
está associado e b(q) é a dissimilaridade do q − ésimo elemento ao centroide do agrupamento
mais próximo.
Por sua vez, o critério de silhueta fuzzy é calculada:
PN 0 0 α
1 q=1 (b (q) − a (q)) s(q)
CSF = PN (8)
N 0 0
q=1 (b (q) − a (q))
α
Onde: a > 0 e a0 (q) é o grau de pertinência do q-ésimo elemento ao centroide do agrupa-
13
mento ao qual está associado e b0 (q) é o grau de pertinência do q-ésimo elemento em relação
ao centroide do agrupamento mais semelhante.
5 Construção dos Clusters

5.1 Análise Fatorial
A análise da matriz de correlação, como mostra a Figura 8 indica que todas as variáveis
são correlacionadas positivamente. Além disso, em geral, as correlações entre duas variáveis
distintas são acima de 0, 6. Utilizando a função corrplot , do pacote corrplot no software R,
foi possı́vel ilustrar as correlações assim como os possı́veis fatores, agrupamento dos crimes.
Note que, o resultado visto nesta Figura é muito promissor pois parece que as variáveis de
roubos ficarão juntas em um fator e os crimes contra vida ficarão em outro fator, no entanto,
os resultados da analise fatorial serão mostrado com detalhes mais adiante.
O teste KMO foi realizado nos tipos de crimes sendo que o resultado do teste apontou
um valor de 0.85 indicando que os dados são adequados para o método de análise fatorial. Pelo
gráfico scree plot, Figura 9, indica que os dois fatores são considerados eficientes, pois possuem
autovalores > 1 e conjuntamente representam ∼ 87, 8% da variação dos dados.
Figura 8: Correlação entre os crimes
Fonte: Elaboração Própria utilizando o software de programação R e o pacote corrplot
14
Figura 9: Screeplot dos dados
Fonte: Elaboração Própria Utilizando o Software R e o Pacote stats
Na Tabela 5 apresentada abaixo, é possı́vel verificar as cargas fatoriais e as cargas rotaci-

onadas pelo método Varimax, foram marcadas em negrito as maiores entre os dois fatores para
cada variável, ou seja, aquelas que indicam maior explicação da variável pelo fator.
Tabela 5: Cargas Fatoriais rotacionadas pelo método Va-

rimax.
Variável Fator (MR1) Fator (MR2)

letalidade violenta 0, 55 0, 69
roubo veiculo 0, 87 0, 38
lesao corp dolosa 0, 27 0, 95
roubo carga 0, 90 0, 18
roubo em coletivo 0, 85 0, 23
ameaca 0, 17 0, 96
pessoas desaparecidas 0, 47 0, 83
outros roubos 0, 87 0, 39
Fonte: Elaboração Própria Utilizando o Software R e o
Pacote psych.
Na Figura 10, como forma de auxiliar para corroborar as interpretações da tabela anterior,
o Fator 1 (MR1) agrupou as variáveis relacionadas aos roubos e o fator 2 (MR2) agrupou as
variáveis relacionadas aos crimes contra vida.
15
Figura 10: Ilustração dos Fatores.
Fonte: Elaboração Própria
5.2 Método de Ward

Após definidas as oito variáveis que foram resumidas em apenas dois fatores, foi realizada
a análise de cluster com o objetivo de agrupar as AISP que possuem caracterı́sticas parecidas
com relação aos crimes selecionados para o estudo, a medida de similaridade utilizada foi a
distância Euclidiana, considerando o métodos Ward, que minimiza a variância entre os clusters
avaliados, como pode ser observado na Figura 11.
Figura 11: Matriz de distâncias euclidianas padronizadas
Fonte: Elaboração Própria utilizando o software de programação R e o pacote factoextra
Para encontrar o número ideal de grupos de AISP, foi aplicada o método hierárquico
(dendrograma) e a análise do screeplot, Figura 12, onde indicam que o número de clusters é
k = 2. Optamos por usar k = 4 para uma melhor divisão entre os grupos e para ter um resultado
mais consistente. Ao aplicarmos o método de Ward para encontrar 4 clusters encontramos os
clusters existentes no Dendrograma Circular da Figura 13. As cores dos ramos do Dendrograma
indicam os locais de corte entre os diferentes grupos. A cor preta, o primeiro ramo,mais ao
centro, especifica o local de corte apara 2 clusters, já as cores roxa, verde, azul e rosa indicam os
quatro clusters de divisão. Notamos nesta divisão que 3 AISP ficam isoladas no cluster roxo,
que o maior cluster é o verde oliva e os restantes tem mais ou menos o mesmo tamanho.
16
Figura 12: Screenplot para clusters.
Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.
Figura 13: Dendograma para o método de Ward, os números ao redor indicam o AISP. Neste
gráfico podemos ver a divisão dos clusters com clareza e com o auxilio da Tabela 1 podemos
localizar os Bairros mais similares(pela a definição de Ward). Vale lembrar que a cor dos
clusters neste gráfico não segue a mesma ordem da do gráfico na Figura 14
Fonte: Elaboração Própria Utilizando o Software R e o Pacote Circlize.
17
Em seguida, após a realização da Análise Fatorial sobre as variáveis e a análise de cluster
sob as unidades de investigação podemos colocar os dois resultado em um Heatmap para enten-
der melhor o contexto dos clusters. O Heatmap é nada mais do que uma matriz onde nas linhas
vão as unidades de investigação e nas colunas vão as variáveis estudadas. Para representar os
resultados na cédulas opta-se por utilizar um gradiente de cor ao invez do número. A princı́pio
este gradiente pode ser definido de qualquer forma, no nosso caso, padronizamos o valor das
cédulas para cada variável independentemente e, após isto, definimos os limites do gradiente de
cor como sendo o máximo e o minimo após esta padronização. As linhas e colunas do Heatmap
não tem uma organização prévia, podemos reordena-las de qualquer forma desde que não tro-
quemos uma cédula especifica por outra. Dito isso, o Heatmap permite que sejam exibidos os
dendrogramas (ramificações na horizontal, nas linhas) e a divisão dos fatores(ramificações nas
colunas). Segue então a Figura 14 com o Heatmap das variáveis x unidades de investigação.
Figura 14: Heatmap dos AISP(Linhas) em função das diferentes variáveis(Colunas), As rami-
ficações nas bordas do Heatmap são respectivamente a divisão de clusters dos AISP(Ramificação
nas Linhas) e a divisão de fatores(Ramificação nas Colunas). Vale lembrar que a cor dos
clusters neste gráfico não segue a mesma ordem da do gráfico na Figura 13
Fonte: Elaboração Própria Utilizando o Software R e o Pacote Heatpmaply.
18
Neste Heatmap temos um resultado muito interessantes, notamos que o cluster que possui
3 AISP é também representado pelas cédulas de máximo nas diferentes variáveis. Notamos
também que os clusters de tamanho mediano possuem estatı́sticas de crimes mais medianas e
por fim, o maior cluster parece ter os bairros mais “seguros”.
Em seguida, podemos verificar a Silhueta e os Clusters na Figura 15 para o método
de Ward e os clusters com o auxilio das funções do software R. Notamos que mesmo sem
ajustar a silhueta obtemos um bom resultado de Clusters. Repare que o cluster dos 3 membros
continua muito destacado com relação aos demais, confirmando o resultado do Heatmap deles
serem outlies com alta criminalidade. Já na Figura 16 temos o mesmo método mas com o
ajuste na silhueta, notamos um resultado um pouco melhor. Para finalizar a análise de método
hierárquico podemos fazer o radar plot das variáveis para cada cluster. A Figura 17 representa
isso.
Figura 15: Gráfico da silhueta e dos clusters obtidos pelo o Método de Ward sem ajuste).
Vale lembrar que as cores existentes nesta imagem não tem relação com outras
imagens do artigo
19
Figura 16: Gráfico da silhueta e dos clusters obtidos pelo o Método de Ward com ajuste).
imagens do artigo
Figura 17: Gráfico de radar dos respectivos clusters feitos pelo o Método de Ward com silhueta
ajustada. Para cada cluster, a linha Vermelha representa o máximo de cada variável, a linha
Preta representa a média em cada variável, a linha Azul a mediana e a linha Verde o minimo
para cada cluster. Os números na lateral são os AISP existentes no Cluster.
Fonte: Elaboração Própria Utilizando o Software R e o Pacote fbsm.
20
5.3 Método K-means
Utilizando a análise de cluster com o K-means ( método não hierárquico, utilizamos o
pacote stats do R para fazer este método), foi definido de acordo com o método hierárquico 4
clusters. Observamos resultados muito parecidos com o método hierárquicos, como pode ser
visto nas Figuras 18 e 19. A semelhança é grande principalmente na imagem com a silhueta
ajustada.
Diferentemente do Ward, o K-means apresentou clusters praticamente desconexos entre
si mesmo sem a melhora na silhueta verificamos que a silhueta e os cluster bem definidos, sem
e com a padronização, sendo possı́vel verificar a qualidade das partições geradas. Portanto, foi
utilizado os dados não padronizados pois os resultados são satisfatórios.
Figura 18: Gráfico da silhueta e dos clusters obtidos pelo o Método de K-means sem ajuste).
imagens do artigo
Figura 19: Gráfico da silhueta e dos clusters obtidos pelo o Método de K-means com ajuste).
imagens do artigo
Na Tabela 6 pode-se observar as medidas descritivas dos fatores em cada cluster, utili-
21
zando o método de K-means. O cluster 1 possui a média do fator de roubos e do fator de crimes
violentos consideravelmente alto e o cluster 3 possui as menores médias nos dois fatores.
Tabela 6: AISP por cluster do K-means ajustado
Grupos AISP Média Fator Roubos Média Fator Crimes violentos

Cluster 1 7, 15 e 20 14.498, 3 3.854, 3
Cluster 2 3, 9, 12, 14, 10.352, 1 3.854, 5
16, 21, 39 e 41
Cluster 3 8, 18, 24, 25, 3.583, 3 2.839, 8
27, 32, 35 e 40
Cluster 4 2, 4, 5, 6, 10, 11, 4.414, 5 3.228, 8
17, 19, 22, 23, 26,
28, 29, 30, 31, 33,
34, 36, 37e 38
Fonte: Elaboração Própria Utilizando o Software R
Na Figura 20 , observa-se os crimes separadamente dentro de cada cluster do método

K-means. A análise mais detalhada dos clusters gerados será realizada depois após a definição
do método de agrupamento que será utilizada.
22
Figura 20: Gráfico de radar dos respectivos clusters feitos pelo o Método do K-means com
silhueta ajustada. Para cada cluster, a linha Vermelha representa o máximo de cada variável,
a linha Preta representa a média em cada variável, a linha Azul a mediana e a linha Verde o
minimo para cada cluster. Os números na lateral são os AISP existentes no Cluster.
5.4 Método C-means

Na análise utilizando o método c-means (Fuzzy) foi definido 4 agrupamentos, como pode
ser vistos na Tabela 7 e Figura 21, onde é possı́vel analisar a probabilidade de pertencimento
de cada AISP em relação aos clusters.
Tabela 7: Resultado do método Fuzzy C-means
AISP Cluster 1 Cluster 2 Cluster 3 Cluster 4 Alocação

2 0, 121873844 0, 027468196 0, 009107184 0, 841551 4
3 0, 013747738 0, 890184428 0, 06461756 0, 03145 2
4 0, 153795248 0, 040712897 0, 013766174 0, 791726 4
5 0, 133312357 0, 300397007 0, 068875126 0, 497416 4
6 0, 108442835 0, 170115741 0, 037890219 0, 683551 4
7 0, 027036825 0, 148783052 0, 780883544 0, 043297 3
8 0, 566177661 0, 024830539 0, 009781723 0, 39921 1
23
9 0, 002287478 0, 983771676 0, 008352133 0, 005589 2
10 0, 930012155 0, 009504848 0, 004466618 0, 056016 1
11 0, 952744048 0, 006230171 0, 00289914 0, 038127 1
12 0, 075059013 0, 590232296 0, 086165629 0, 248543 2
14 0, 005614603 0, 954776597 0, 026314526 0, 013294 2
15 0, 01257476 0, 147623443 0, 81635937 0, 023442 3
16 0, 095896264 0, 135361493 0, 030872245 0, 73787 4
17 0, 904987801 0, 009942316 0, 004243808 0, 080826 1
18 0, 134201812 0, 129346059 0, 038501273 0, 697951 4
19 0, 85336249 0, 014779026 0, 006229987 0, 125628 1
20 0, 01704125 0, 103827244 0, 850524368 0, 028607 3
21 0, 109939284 0, 246902749 0, 049336126 0, 593822 4
22 0, 138044303 0, 041389236 0, 013609701 0, 806957 4
23 0, 828613145 0, 016517171 0, 006883818 0, 147986 1
24 0, 179383236 0, 026353984 0, 009541303 0, 784721 4
25 0, 488882704 0, 044151219 0, 018238496 0, 448728 1
26 0, 964284727 0, 004592457 0, 002120749 0, 029002 1
27 0, 42488665 0, 056410126 0, 023479986 0, 495223 4
28 0, 974264698 0, 002929812 0, 00131273 0, 021493 1
29 0, 961048533 0, 005313493 0, 002479876 0, 031158 1
30 0, 962585707 0, 00504852 0, 002355062 0, 030011 1
31 0, 212346735 0, 022359826 0, 008138296 0, 757155 4
32 0, 454527697 0, 027877992 0, 010822014 0, 506772 4
33 0, 992827048 0, 000824852 0, 000366705 0, 005981 1
34 0, 827442042 0, 013116533 0, 005399609 0, 154042 1
35 0, 218936826 0, 026611634 0, 009505636 0, 744946 4
36 0, 922750841 0, 01102217 0, 005135029 0, 061092 1
37 0, 968346492 0, 004072866 0, 001852402 0, 025728 1
38 0, 944344359 0, 00773125 0, 003591303 0, 044333 1
39 0, 117574702 0, 090957961 0, 025055607 0, 766412 4
40 0, 105119712 0, 026772534 0, 009082067 0, 859026 4
41 0, 041240595 0, 655742094 0, 22004592 0, 082971 2
Fonte: Elaboração Própria Utilizando o Software R e o Pacote ppclust.
24
Figura 21: Heatmap dos AISP(Linhas) em função dos seus clusters de pertencimento(Colunas)
ditado por seu grau de pertencimento pelo o método do C-means, As ramificações nas bordas
do Heatmap são respectivamente a divisão de clusters dos AISP(Ramificação nas Linhas).
Fonte: Elaboração Própria Utilizando o Software R e o Pacote Heatpmaply.
Para validação do agrupamento foi realizado a silhueta para os dados não padronizados e
padronizados, Figuras 22 e 23. Como é possı́vel observar os resultados ficaram muito parecidos
com o método hierárquico e K-means (não hierárquico), no entanto, no método C-means (Fuzzy)
a qualidade das partições com a silhueta não padronizada não foi tão satisfatória em comparação
aos outros métodos já testados.
25
Figura 22: Gráfico da silhueta e dos clusters obtidos pelo o Método de C-means sem ajuste).
imagens do artigo
Figura 23: Gráfico da silhueta e dos clusters obtidos pelo o Método de C-means com ajuste).
imagens do artigo
Na Figura 24 ,observando os crimes nos clusters formados pelo método de C-means(Fuzzy).

Onde a análise de forma detalhada será realizada após a decisão do método de agrupamento.
26
Figura 24: Gráfico de radar dos respectivos clusters feitos pelo o Método do C-means com
silhueta ajustada. Para cada cluster, a linha Vermelha representa o máximo de cada variável,
a linha Preta representa a média em cada variável, a linha Azul a mediana e a linha Verde o
minimo para cada cluster. Os números na lateral são os AISP existentes no Cluster.
6 Análises finais para os clusters do método K-means

Portanto, os resultados encontrados nos três métodos : Hierárquico, K-Means (Não
hierárquico)e C-Means (Não hierárquico) são muito parecidos mas não foram exatamente igual.
Diante de todos os testes e resultados encontrados o método de agrupamento que será utilizado
é o K-Means. Sendo assim, os clusters foram agrupados como mostra a tabela ().
27
Grupos AISP Principais Unidades Territoriaisz
Cluster 1 7,15 e 20 São Gonçalo, Duque de Caxias,
Nova Iguaçu, Mesquita e Nilópolis
Cluster 2 3,9,12,14,16,21, Méier, Cachambi, Todos os Santos, Abolição,
39 e 41 Piedade, Jacaré, São Francisco Xavier, En-
genho de Dentro, Água Santa, Del Castilho,
Maria da Graça, Tomais Coelho, Madureira,
Oswaldo Cruz, Cascadura, Quintino, Bento
Ribeiro, Marechal Hermes, Rocha Miranda,
Colégio, Honório Gurgel, Coelho Neto, Niterói,
Maricá, Deodoro, Bangu, Padre Miguel, Re-
alengo, Jardim Sulacap, Vila Militar, Penha,
Complexo do Alemão, São João de Meriti, Bel-
ford Roxo, Irajá, Vicente de Carvalho, Guada-
lupe, Anchieta e Pavuna 2
Cluster 3 8,18,24,25,27,32, Campo dos Goytacazes, Vila Valqueire, Praça
35 e 40 Seca, Tanque, Cidade de Deus, Curicica, Ta-
quara, Jacarepaguá, Freguesia, Pechincha, Ja-
peri, Queimados, Seropédica, Paciência, Santa
Cruz, Guaratiba, Sepetiba, Macaé, Rio das
Ostras, Tanguá, Itaboraı́, Rio Bonito, Campo
Grande, Cosmos e Santı́ssimo. 2
Cluster 4 2,4,5,6,10,11,17,19, Catete, Flamengo, Glória, Botafogo, Laranjei-
22,23,26,28,29, 30, ras, Humaitá, Urca, Copacabana, Leme, Roci-
31,33,34,36,37 e 38 nha, Ipanema, Leblon, Gávea, Jardim Botânico,
Lagoa, São Conrado, Vidigal, Cidade Nova, São
Cristóvão, Estácio, Maracanã, Tijuca, Alto da
Boa Vista, Andaraı́, Grajaú, Vila Isabel, Mi-
guel Pereira, Nova Friburgo, Cidade Univer-
sitária, Galeão, Bonsucesso, Manguinhos, Maré,
Ramos, Petrópolis, Volta Redonda, Bom Je-
sus de Itabapoana, Teresópolis, Barra da Ti-
juca, Itanhangá, Joá, Recreio dos Bandeirantes,
Grumari, Paraty, Mangaratiba, Magé, São Se-
bastião do Alto, Santo Antônio de Pádua, Ita-
tiaia, Paraı́ba do Sul e Três Rios 2
Fonte: Elaboração Própria.
2
Algumas unidades territoriais foram omitidas devido a quantidade, porém todas podem ser encontradas no
quadro 1 (identificação da AISP).
28
Para o primeiro cluster foram considerados 3 AISPs com uma representatividade de 7,7%
do total. No segundo e no terceiro cluster, foram alocados 8 AISPs, e finalmente no quarto
obteve 20 AISPs, que representa 51,3% do total.
Figura 25: Distribuição de AISP em cada cluster para o método K-Médias
O cluster 1 agrupa as AISP com maiores taxas de criminalidade do Estado do Rio de

Janeiro, apresenta alta concentração de ‘outros roubos’, Roubo de veı́culos e lesão corporal
dolosa.
Figura 26: Média dos crimes no cluster 1
29
O cluster 2 possui a média de crimes mais baixa que o cluster 1, além disso, os crimes
que mais se destacam são: Outros roubos , roubo de veı́culos, lesão corporal dolosa e ameaças.
30
31
32
7 Conclusão
A necessidade de entender os problemas do Estado do Rio de Janeiro é crucial para
promover politicas de melhoria da qualidade de vida. Nos anos do século XX e XXI o Estado
do Rio de Janeiro foi palco de tristes histórias de violência e criminalidade, em particular, a
cidade do Rio de Janeiro é considerada por muitos um lugar perigoso demais de se morar.
Dito isso, trabalhos como este aqui ajudam a entender problemas sociais e propor medidas de
contensão. Vale lembrar que, a violência muitas vezes não tem origem nela mesmo, muitas
vezes é fruto de problemas secundários que acaba levando a pessoa a cometer crimes como
furto. Então, o diagnostico do crime é apenas um passo para promover uma real melhora
de vida. Infelizmente este trabalho não serve para compreender outros problemas sociais que
podem está diretamente relacionados com o aumento da criminalidade em uma determinada
região. Um estudo futuro sobre isto, considerando renda per capita média por região ou mesmo
nı́vel de escolaridade bem como acesso a outras Polı́ticas Publicas que facilitam a vida das
pessoas e desestimula a entrada na vida criminosa, pode considerar este trabalho para obter
uma compreensão melhor do crime.
As secções do relatório já são conclusivas por si só, então seremos breves na conclusão.
Primeiro, notamos que o modelo fatorial é muito viável para este problema, pois os fatores se
agruparam como esperávamos que deveria se agrupar. Roubos com Roubos e crimes contra a
vida com crimes contra vida. Tentamos adicionar mais variáveis no relatório mas não conse-
guimos, as variáveis que escolhemos pareceram não melhorar o resultado que já estava bom.
Com tudo, não utilizamos todas as variáveis existentes no banco de dados e, mais importante,
não fizemos um estudo de serie temporal extenso, para saber como os clusters ou os fatores
33
variam com passar dos anos. Talvez seja possı́vel identificar resultados interessantes que es-
tejam relacionados com atitudes do estado, aumento da inflação, etc... Por fim, não fizemos
analise discriminante pois quando quando concluı́mos o estudo notamos que ele já estava muito
extenso e, por limitações obvias de tempo, não foi possı́vel dedicar mais tempo neste trabalho.
Não fizemos análises pela os departamentos de polı́cias, apenas fizemos pelas AISP’s. Talvez
pelos departamentos tenha um resultado similar e bom, com mais refinamento pois o número
de departamentos é muito maior do que o número de AISP’s. Contudo, mesmo ainda exis-
tindo estes pontos não abordados no trabalho, tivemos ótimos resultados. Estes pontos não
abordados ficam como perspectivas futuras do trabalho.
O método de Ward apresentou um resultado de clusters muito similares ao resultado do
método de K-means. O leitor pode ver os clusters com a silhueta não ajustada para Ward
na Figura 15, nesta Figura notamos que existem 3 regiões que estão muito destacadas, em
comparação com as outras e formam um cluster único. Por outro lado existem 3 clusters que
são mais similares entre si e estão mais próximos. Existe até uma sobreposição mı́nima entre
2 deles. Na Figura 14 o leitor pode ver o dendrograma nas linhas, representando a divisão de
clusters por método de Ward daı́, por este Heatmap notamos que o cluster de 3 regiões é o mais
perigoso de todos, e os outros clusters são formados segundo um grau de ‘mais perigoso’ para
‘menos perigoso’.
A divisão por clusters considerando o método K-means que obtivemos foi muito inte-
ressante, como o leitor pode ver na Figura 20 cada existem caracterı́sticas intrı́nseca de cada
cluster feito pelo o método K-means. Na realidade a o maior motivo de escolhemos o K-means
foi porque ele se assemelhou muito com o resultado com o cluster ajustado mas, considerando
todos os métodos pós ajuste, eles possuem resultados parecidos. Voltando para a Figura 20
nela notamos que o maior cluster de todos possui diferenças muito pequenas entre o minimo e
o máximo interno em quase todas as variáveis (com exceção da variável roubos em coletivo).
Isso é ótimo pois, indica que dentro do cluster tem uma pequena variabilidade em quase todas
as variáveis, ou seja, as regiões são muito similares entre si. Esse efeito se reflete similar nos
outros 3 clusters também. Além disso, é de conhecimento popular que as regiões do cluster
mais violento são realmente violentas, logo, o resultado teórico confirmou um conhecimento
popular. Curiosamente este resultado para o K-means remete a Figura do Heatmap já des-
crita nesta conclusão, os clusters foram formados seguindo nı́veis de criminalidade, do menos
perigoso para o mais perigoso.
Olhando agora para problemas em C-means, na Figura 21, notamos que alguns dos in-
divı́duos que estão no quarto cluster possuem grau de pertencimento similar no primeiro cluster.
Isso acaba por se refletir no calculo da silhueta não ajustada para o C=means, Figura 22, pois
notamos que um dos clusters não fica com uma resultado bom, em quanto os outros clusters
ficam com um resultado satisfatório.
Por fim, na parte 6 do relatório notamos que a variável ‘outros roubos’ tem uma frequência
muito maior do que a das outras variáveis. Note que, assim como notado no gráfico de radar da
34
K-means, nestes gráficos em barra notamos diferença distintas com relação as variáveis em cada
cluster. É interessante notar que, em dois dos clusters, parece que os crimes de ‘ameaça’ e de
‘letalidade violenta’ estão correlacionados, pois quando um aumenta o outro também aumenta.
35
Referências
[Beavers et al., 2013] Beavers, A. S., Lounsbury, J. W., Richards, J. K., Huck, S. W., Skolits,
G. J., and Esquivel, S. L. (2013). Practical considerations for using exploratory factor analysis
in educational research. Practical assessment, research & evaluation, 18.
[dos Santos, 2011] dos Santos, Marcelo Justus e dos Santos Filho, J. I. (2011). Convergência
das taxas de crimes no território brasileiro. Revista Economia.
[Hair Jr, 2009] Hair Jr, J. F. (2009). Multivariate Data Analysis Joseph F. Hair Jr. William
C. Black Barry J. Babin Rolph E. Anderson Seventh Edition, volume 7. Prentice Hall.
[Mingoti, 2005] Mingoti, S. A. (2005). Análise de dados através de métodos de estatı́stica

multivariada: uma abordagem aplicada. Editora UFMG.
[Pekny, 2017] Pekny, Ana Carolina e de Mattos Ricardo, C. (2017). Mapeamento dos principais
desafios de violência e criminalidade no brasil - 2017. Fundação Friedrich Ebert públicação
no site da ONG Soudapaz.
36

Análise da Criminalidade no RJ

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise da Criminalidade no RJ

Enviado por

Direitos autorais:

Formatos disponíveis

INSTITUTO BRASILEIRO DE GEOGRAFIA E

TRABALHO FINAL DE ANÁLISE MULTIVARIADA:

PROFESSORA: SANDRA CANTON CARDOSO

Rio de Janeiro, 2019.

5 Construção dos Clusters 14

6 Análises finais para os clusters do método K-means 27

Tabela 2: Variáveis retiradas da base de dados existente

Figura 1: Aumento da ocorrência dos crimes estudados no trabalho.

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,

Conforme os números da Figura 2 indicador de letalidade violenta (corresponde a soma

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,

As três AISPs apresentam os maiores indicadores de criminalidade em todo Estado, no

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,

As AISP que apresentaram melhores taxas(Figura 5) de criminalidade e conseguiram

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,

Antes de utilizar as técnicas multivariadas foi realizado algumas análises estatı́sticas,

Tabela 3: Valores descritivos das variáveis de interesse.

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,

Na Figura 7, verificamos a matriz de covariância entre as variáveis. Em particular, a

Figura 7: Matriz e covariância entre os crimes .

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,

Kaiser-Meyer-Olkin(KMO) Análise Fatorial

4.2.1 Método de Ward

4.2.2 Métodos K-means e C-means

Após a aplicação do método hierárquico e a definição do número de clusters, foi realizada a

No método c-means, para cada elemento amostral, estima-se a probabilidade de que

Onde: S(q) é a silhueta do q − ésimo AISP , que é obtido como:

Onde: a > 0 e a0 (q) é o grau de pertinência do q-ésimo elemento ao centroide do agrupa-

5 Construção dos Clusters

Figura 8: Correlação entre os crimes

Fonte: Elaboração Própria utilizando o software de programação R e o pacote corrplot

Fonte: Elaboração Própria Utilizando o Software R e o Pacote stats

Na Tabela 5 apresentada abaixo, é possı́vel verificar as cargas fatoriais e as cargas rotaci-

Tabela 5: Cargas Fatoriais rotacionadas pelo método Va-

Variável Fator (MR1) Fator (MR2)

Fonte: Elaboração Própria

5.2 Método de Ward

Figura 11: Matriz de distâncias euclidianas padronizadas

Fonte: Elaboração Própria utilizando o software de programação R e o pacote factoextra

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

Fonte: Elaboração Própria Utilizando o Software R e o Pacote Circlize.

Fonte: Elaboração Própria Utilizando o Software R e o Pacote Heatpmaply.

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

Fonte: Elaboração Própria Utilizando o Software R e o Pacote fbsm.

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

Tabela 6: AISP por cluster do K-means ajustado

Grupos AISP Média Fator Roubos Média Fator Crimes violentos

Na Figura 20 , observa-se os crimes separadamente dentro de cada cluster do método

Fonte: Elaboração Própria Utilizando o Software R e o Pacote fbsm.

5.4 Método C-means

Tabela 7: Resultado do método Fuzzy C-means

AISP Cluster 1 Cluster 2 Cluster 3 Cluster 4 Alocação

Fonte: Elaboração Própria Utilizando o Software R e o Pacote Heatpmaply.

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

Na Figura 24 ,observando os crimes nos clusters formados pelo método de C-means(Fuzzy).

Fonte: Elaboração Própria Utilizando o Software R e o Pacote fbsm.

6 Análises finais para os clusters do método K-means

Figura 25: Distribuição de AISP em cada cluster para o método K-Médias

Fonte: Elaboração Própria.