Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTATÍSTICA
ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS
BACHARELADO EM ESTATÍSTICA
AUTORIA:
LETÍCIA MARIA CORREIA BORGES
ISAAC VICTOR SILVA RODRIGUES
2 Base de Dados 2
3 Análise Exploratória 5
4 METODOLOGIA 10
4.1 Análise Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2 Análise de Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2.1 Método de Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2.2 Métodos K-means e C-means . . . . . . . . . . . . . . . . . . . . . . . . 12
7 Conclusão 33
Referências 36
Resumo
Uma área de interesse para melhorar a qualidade de vida no Rio de Janeiro é o estudo
da criminalidade. O Estado apresenta altas taxas de criminalidades e para se pensar em
polı́ticas públicas de qualidade é necessário o diagnostico do crime local. Neste traba-
lho utilizamos dados de criminalidade para as diferentes Áreas Integradas de Segurança
Pública(AISP) existentes no Rio de Janeiro e com o auxilio de diversos recursos da Análise
Multivariada obtivemos resultados interessantes quanto a AISP e a ocorrência crimes,
correlação entre tipos de crimes, caracterı́sticas gerais de diferentes grupos de AISP, cor-
relação entre diferentes AISP.
Palavras-chave. Criminalidade; Analise Fatorial; Clusterização
1 Introdução
A violência e a criminalidade são temas cada vez mais debatidos no cenário nacional,
tornando-se um dos principais problemas contemporâneos no Brasil e em muitos outros paı́ses
[dos Santos, 2011].
De acordo com a pesquisa de opinião FBS/ DATASUS, realizada em 2017, a cada 3 bra-
sileiros, 1 tem medo de ser vı́tima de violência por parte de criminosos. Embora, o Brasil tenha
a sexta maior taxa de encarceramento do mundo com mais de 600 mil presos, a insegurança é
presente e os dados apontam aumento no número de crimes [Pekny, 2017].
O Estado do Rio de Janeiro foi escolhida como recorte espacial, devido ao aumento da
violência urbana, de acordo com os dados o Instituto e Segurança Pública (ISP, Clique Aqui
para acessar o site do ISP)1 , que disponibiliza as estatı́sticas oficiais de registros de crimes
por AISP – Áreas Integradas de Segurança Pública, criadas em 1999, com intuito de obter
um combate mais efetivo da criminalidade local. Além disso, o ISP tem missão de produzir
informações e disseminar pesquisas para implantação de polı́ticas públicas de segurança.
O objetivo deste estudo foi compreender a espacialização dos diferentes tipos de crimes
de acordo com as AISP do Estado do Rio de Janeiro a partir o emprego de análise fatorial
associado à análise de cluster.
2 Base de Dados
A base de dados utilizada foi obtida pelo site do ISP(Para acessa-la, Clique Aqui)1 ,
proveniente de ocorrências registradas pela Polı́cia Militar o Estado do Rio de Janeiro, referentes
ao ano de 2018. O ISP disponibiliza as estatı́sticas oficiais de registros de crimes por AISP -
Áreas Integradas de Segurança Pública, como pode ser visto na Tabela 1.
1
Precisa de Internet para acessar os Hiperlinks
2
Tabela 1: AISP e seus Bairros de atuação
AISP Bairros
AISP 2 Catete, Cosme Velho, Flamengo, Glória, Laranjeiras, Botafogo, Humaitá e Urca
AISP 3 Cachambi, Méier, Abolição, Encantado, Piedade, Pilares, Engenho Novo, Jacaré,
Jacarezinho, Riachuelo, Rocha, Sampaio, São Francisco Xavier, Água Santa, En-
genho de Dentro, Lins de Vasconcelos, Todos os Santos, Del Castilho, Engenho da
Rainha, Inhaúma, Maria da Graça e Tomás Coelho
AISP 4 Cajú, Mangueira, São Cristóvão, Catumbi, Cidade Nova, Estácio, Rio Comprido e
Vasco da Gama
AISP 5 Centro (parte),Santa Teresa , Gamboa, Santo Cristo, Paquetá e Saúde
AISP 6 Maracanã, Praça da Bandeira, Tijuca (parte), Alto da Boa Vista, Andaraı́, Grajaú
e Vila Isabel
AISP 7 São Gonçalo
AISP 8 Campos dos Goytacazes, São Fidélis, São João da Barra e São Francisco de Itaba-
poana
AISP 9 Campinho, Cascadura, Praça Seca, Quintino de Bocaiúva, Bento Ribeiro, Marechal
Hermes, Oswaldo Cruz, Coelho Neto, Colégio (parte), Honório Gurgel e Rocha
Miranda
AISP 10 Barra do Piraı́, Valença, Rio das Flores, Piraı́, Vassouras, Miguel Pereira, Paty do
Alferes, Mendes e Engenho Paulo de Frontin
AISP 11 Nova Friburgo, Duas Barras, Cantagalo, Cordeiro, Macuco, Santa Maria Madalena,
Trajano de Moraes e Bom Jardim
AISP 12 Niterói e Maricá
AISP 14 Anchieta, Guadalupe, Parque Anchieta, Ricardo de Albuquerque, Campo dos Afon-
sos, Deodoro, Jardim Sulacap, Magalhães Bastos, Realengo, Vila Militar, Bangu,
Gericinó, Padre Miguel e Senador Camará
AISP 15 Duque de Caxias, Campos Elyseos, Xerém e Imbariê
AISP 16 Brás de Pina (parte), Complexo do Alemão, Olaria, Penha, Penha Circular (parte),
Cordovil, Jardim América, Parada de Lucas e Vigário Geral
AISP 17 Bancários, Cacuia, Cidade Universitária, Cocotá, Freguesia, Galeão, Jardim Cari-
oca, Jardim Guanabara, Moneró, Pitangueira,Portuguesa, Praia da Bandeira, Ri-
beira, Tauá e Zumbi
AISP 18 Anil, Cidade de Deus, Curicica, Gardênia Azul, Jacarepaguá, Taquara, Freguesia,
Pechincha, Tanque e Vila Valqueire
AISP 19 Copacabana (parte) e Leme
AISP 20 Nova Iguaçu, Mesquita e Nilópolis
AISP 21 São João e Mereti
3
AISP 22 Benfica, Bonsucesso, Higienópolis, Manguinhos, Maré e Ramos
AISP 23 Ipanema, Leblon, Gávea, Jardim Botânico, Lagoa, Rocinha, São Conrado e Vidigal
AISP 24 Seropédica, Itaguaı́, Paracambi, Queimados e Japeri
AISP 25 Araruama, Saquarema, São João da Aldeia, Cabo Frio, Armação dos Búzios, Iguaba
Grande e Arraial do Cabo
AISP 26 Petrópolis
AISP 27 Paciência, Santa Cruz e Sepetiba
AISP 28 Barra Mansa, Volta Redonda e Pinheiral
AISP 29 Laje do Muriaé, Porciúncula, Itaperuna, Italva e Cardoso Moreira
AISP 30 São José do Vale do Rio Preto, Teresópolis, Carmo e Sumidouro
AISP 31 Barra da Tijuca, Itanhangá, Joá, Recreio do Bandeirantes, Grumari, Vargem
Grande, Vargem Pequena e Camorim
AISP 32 Casimiro de Abreu, Conceição de Macabú, Macaé, Rio das Ostras, Quissamã e
Carapebus
AISP 33 Mangaratiba, Angra dos Reis, Paraty e Rio Claro
AISP 34 Magé e Guapimirim
AISP 35 Tanguá, Itaboraı́, Rio Bonito, Silva Jardim e Cachoeiras de Macacu
AIPS 36 Itaocara, Santo Antônio de Pádua, Aperibé, Miracema, Cambuci e São Sebastião
do Alto
AISP 37 Resende, Itatiaia, Porto Real e Quatis
AISP 38 Paraı́ba do Sul, Três Rios e Sapucaia
AISP 39 Belford Roxo*
AISP 40 Campo Grande, Cosmos, Inhoaı́ba, Santı́ssimo e Senador Vasconcelos
AISP 41 Colégio (parte), Irajá, Vicente de Carvalho, Vila Kosmos, Vila da Penha , Vista
Alegre, Anchieta, Guadalupe, Parque Anchieta, Ricardo de Albuquerque, Acari,
Barros Filho, Costa Barros, Parque Colúmbia e Pavuna
Fonte: Elaboração própria utilizando os dados site do ISP,
para acessar o arquivo fonte Clique Aqui.1
Os batalhões da Polı́cia Militar (PM) são atendidos pelas delegacias monitoradas pela
Secretaria de Segurança Pública do Rio de Janeiro (SESP/RJ) através do Instituto de Segurança
Pública, que estão na mesma área da divisão territorial do censo, dessa forma facilitou a análise
estatı́stica por área. Com o decorrer dos anos o ISP foi acumulando dados das ocorrências de
crimes nas diferentes regiões do Rio de Janeiro. Esses crimes são registrados em qualquer
delegacia e, ao decorrer de cada mês, esses registros são enviados para a base de dados do
ISP. Os crimes são divididos em diversas variáveis consoante ao seu tipo, a base é atualizada
mensalmente e, hoje em dia, talvez seja a base de dados criminais mais completa existente no
Estado do Rio de Janeiro.As variáveis selecionadas para análise por tipo de crime podem ser
4
observadas na Tabela 2.
Variáveis Descrição
roubo veiculo Taxa de Roubo de veı́culo por 100 mil veı́culos
roubo carga Taxa de Roubo de carga por 100 mil habitantes
roubo em coletivo Taxa de Roubo em coletivo por 100 mil habitantes
outros roubos Todos os outros roubos com exceção dos
já listados nesta tabela por 100 mil habitantes
ameaca Taxa de Ameaça por 100 mil habitantes
pessoas desaparecidas Taxa de Pessoas desaparecidas por 100 mil habitantes
letalidade violenta Taxa de Letalidade violenta por 100 mil habitantes
lesao corp dolosa Taxa de Lesão corporal dolosa por 100 mil habitantes
Fonte: Elaboração própria utilizando o dicionário de dados do
site do ISP, para acessar o dicionário oficial Clique Aqui.1
3 Análise Exploratória
De acordo com a análise dos crimes selecionados no presente estudo, o Estado do Rio de
Janeiro obteve um aumento de 2, 54% da criminalidade no ano de 2018 com relação ao ano
anterior(Figura 2).
5
Figura 2: Comparação do número de ocorrências dos crimes por ano.
6
Figura 3: Mapa do Estado do Rio de Janeiro indicando as AISPs que apresentaram maiores
ı́ndices de criminalidade no ano de 2018.
7
Figura 4: Mapa do Municı́pio do Rio de Janeiro indicando as AISPs que apresentaram maior
variação de crimes no ano de 2018 em comparação com 2017
Figura 5: Mapa do Estado do Rio de Janeiro indicando as AISPs que apresentaram menores
taxas de criminalidade.
8
Variáveis Min. 1st Qu. Mediana Média 3rd Qu. Max.
roubo veiculo 7 101 473 1336 2003 6104
furto veiculos 54 169 319 405 554 1285
lesao corp dolosa 564 1044 1487 1623 1958 5185
roubo carga 5 28 66 235 306 1701
roubo em coletivo 0 38 194 402 572 1802
ameaca 465 927 1341 1436 1667 4046
pessoas desaparecidas 14 61 103 123 170 399
outros roubos 55 982 2877 3966 5534 14587
Fonte: Elaboração própria utilizando o a base de dados do site do ISP,
para acessar a base oficial Clique Aqui.
A Tabela 3 indica que as variáveis sejam descritas por uma distribuição de probabilidade
assimétrica pois além da mediana aparentar ser diferente da média em quase todas as variáveis,
a diferença entre o mı́nimo e a mediana destoa muito da diferença entre o máximo e a mediana
das variáveis. Nota-se que apesar de em geral existirem poucos outliers, as variáveis não
estão padronizadas com destaque para a variável ‘outros roubos’. Isso indica a necessidade de
padronizar os dados para trabalharmos con grandezas comparáveis.
Figura 6: Boxplot dos crimes no Estado do Rio de Janeiro, variáveis não padronizadas.
9
indica que é necessário padronizar as variáveis para realizar a análise multivariada.
4 METODOLOGIA
4.1 Análise Fatorial
Com o propósito de estudar a criminalidade do Estado do Rio de Janeiro a Análise
Fatorial (AF) foi aplicada com o objetivo de agrupar as variáveis em fatores com a mı́nima
perda de informação possı́vel. Para a implementação da Análise Fatorial primeiro é necessário
verificar se a aplicação do método tem validade para as variáveis escolhidas, para esse objetivo
utilizou-se o teste de Kaiser-Meyer-Olkin (KMO) [Mingoti, 2005]:
Pp Pp 2
j=1m=1,m6=j rjm
KM O = Pp Pp 2
Pp Pp 2
(1)
j=1 m=1,m6=j rjm + j=1 m=1,m6=j rpjm
2 2
Sendo que rjm e rpjm correspondem respectivamente às correlações simples e parciais.
A estatı́stica KMO tem por finalidade verificar se há uma estrutura de dependência que
seja bem definida entre as variáveis analisadas e que esta possa ser expressa pela matriz de
correlações ou de covariância. Se caso tenha existência, a estrutura implica que a variável pode
ser prevista pelas demais com certa margem de segurança. Portanto, o modelo somente apre-
sentará uma estrutura de dependência clara se a correlação parcial entre os pares de variáveis
for baixa [Beavers et al., 2013].
10
Tabela 4: Adequação Amostral de acordo com o KMO
O resultado do teste KMO deve variar de 0 a 1, em que quanto menor for o valor, maior são
as chances de os dados não serem adequados, pois de certa forma significa que a correlação entre
as variáveis é baixa. Como visto na tese de mestrado [?], existem relações muito fortes entre a
correlação das variáveis, análise fatorial e componentes principais. Resumidamente, refletindo
sobre o fato da correlação entre as variáveis, baixa correlação entre as variáveis implica em ser
necessário um grande número de componentes principais para explicar diversidade dos dados. Se
um problema apresenta um elevado número de componentes principais, então, para representar
adequadamente a diversidade com análise fatorial também escolherı́amos um grande número
de fatores. Uma das decisões mais importantes a serem tomadas durante a execução da Análise
Fatorial é o número de fatores a ser definido. Muitas vezes as cargas fatoriais apresentam valores
muito elevados em mais de um fator, o que acaba levando divisão de fatores inconclusivos e isso
é reflexo de baixa correlação entre as variáveis, caracterı́sticas que não são iguais estão sendo
representadas por um único fator, tal problema pode sumir quando se toma um número maior
de fatores. Utilizando um número maior de fatores, de certa foram, damos mais liberdade para
as caracterı́sticas dos dados se manifestar, fazendo com que as incertezas diminuam.
O equilı́brio ideal entre o número de fatores e a interpretabilidade é muito importante
e pode ser difı́cil de definir. Em muitos casos requer uma análise exploratória prévia para
uma crı́tica adequada quanto a este número. Abordagens como primeiro fazer componentes
principais pode ajudar a abordar um problema desconhecido, mas é sempre importante ler
sobre o contexto do problema e definir quantos fatores de fato são necessários para representar
o problema em questão.
O método rotação dos fatores, tem como principal objetivo tornar o resultado empı́rico,
ou seja, facilitar a interpretação conservando as suas propriedades estatı́sticas. é o mais usado
e possui o objetivo de minimizar o número de varáveis que apresentam altas cargas em cada
fator. O presente trabalho utilizará a análise fatorial para agrupar os tipos de crimes. Depois
da rotação e interpretação dos fatores .
11
4.2 Análise de Cluster
A análise de agrupamento também conhecida como análise de conglomerados, classificação
ou cluster, tem como objetivo dividir os elementos da amostra, ou população, em grupos de
forma que os elementos pertencentes a um mesmo grupo sejam similares entre si com respeito
às variáveis (caracterı́sticas) que neles foram medidas, e os elementos em grupos diferentes
sejam heterogêneos em relação a estas mesmas caracterı́sticas [Mingoti, 2005]. A medida de
similaridade utilizada foi a Distância Euclidiana, onde Xl e XK , l 6= k é definida por :
p
d(Xl , Xk ) = (Xl − Xk )0 (Xl − Xk ) (2)
v
u p
uX
d(Xl , Xk ) = t (Xil − Xik )2 (3)
i=1
ou seja, os dois elementos amostrais são comparados em cada variável pertencente ao vetor
de observações. As técnicas de análise de cluster são frequentemente classificadas em dois ti-
pos: técnicas hierárquicas e não hierárquicas. No presente trabalho foi realizado o método
hierárquico como análise exploratória dos dados com o intuito de identificar possı́veis agrupa-
mentos, assim como o número de grupos.
A técnica hierárquica parte do princı́pio de que no inı́cio do processo de agrupamento
tem-se n conglomerados, ou seja, cada elemento do conjunto de dados observados é considerado
como sendo um conglomerado isolado. Em cada passo do algoritmo, os elementos amostrais vão
sendo agrupados, formando novos conglomerados até o momento no qual todos os elementos
considerados estão num único grupo [Mingoti, 2005].
Para a técnica hierárquica utilizamos o Método e Ward. Segundo [Hair Jr, 2009], o
método de Ward consiste em um procedimento de agrupamento hierárquico no qual a medida
de similaridade usada para juntar agrupamentos é calculada como a soma de quadrados entre
os dois agrupamentos feita sobre todas as variáveis. Esse método tende a resultar em agrupa-
mentos de tamanhos aproximadamente iguais devido a sua minimização de variação interna.
Basicamente repetimos, de certa forma, as Equações 2 e 3 para os pontos médios dos agrupa-
mentos, acada iteração, criamos um novo agrupamento e repetimos o processo. Ao fim teremos
um único agrupamento e o processo de agrupar nos dará pistas dos clusters. Para se obtr um
número de clusters definido paramos o processo em uma iteração definida.
12
próximo do vetor de valores observados para o respectivo elemento. O método K-Médias
aplicado utiliza como semente inicial os centroides provenientes da partição do método Ward.
O método C-means ou Fuzzy, assim como o k-médias, é um método interativo que utilizou
o número de cluster proveniente da técnica hierárquica. O c-means procura a partição que
minimiza a função objetivo abaixo:
c X
X n
J= (uij )m d(Xj , Vi ) (4)
i=1 j=1
Onde:
Vi é a semente do conglomerado i, i = 1, 2, ..., c;
m > 1 é o parâmetro Fuzzy;
uij é a probabilidade do elemento Xj pertença ao conglomerado cujo protótipo é Vi z’;
d(.) é a distância euclidiana.
Para encontrar as probabilidades que minimizam a função J utiliza-se:
C
X d(Xj , Vi ) m−12
Ui,j = [ ( ) ]−1 (5)
k=1
d(X j , Vk )
N
1 X
CS = S(q) (6)
N q−1
b(q) − a(q)
S(q) = (7)
max{a(q), b(q)}
Onde a(q) é a dissimilaridade do q − ésimo elemento ao centroide do agrupamento ao qual
está associado e b(q) é a dissimilaridade do q − ésimo elemento ao centroide do agrupamento
mais próximo.
Por sua vez, o critério de silhueta fuzzy é calculada:
PN 0 0 α
1 q=1 (b (q) − a (q)) s(q)
CSF = PN (8)
N 0 0
q=1 (b (q) − a (q))
α
13
mento ao qual está associado e b0 (q) é o grau de pertinência do q-ésimo elemento em relação
ao centroide do agrupamento mais semelhante.
14
Figura 9: Screeplot dos dados
Na Figura 10, como forma de auxiliar para corroborar as interpretações da tabela anterior,
o Fator 1 (MR1) agrupou as variáveis relacionadas aos roubos e o fator 2 (MR2) agrupou as
variáveis relacionadas aos crimes contra vida.
15
Figura 10: Ilustração dos Fatores.
Para encontrar o número ideal de grupos de AISP, foi aplicada o método hierárquico
(dendrograma) e a análise do screeplot, Figura 12, onde indicam que o número de clusters é
k = 2. Optamos por usar k = 4 para uma melhor divisão entre os grupos e para ter um resultado
mais consistente. Ao aplicarmos o método de Ward para encontrar 4 clusters encontramos os
clusters existentes no Dendrograma Circular da Figura 13. As cores dos ramos do Dendrograma
indicam os locais de corte entre os diferentes grupos. A cor preta, o primeiro ramo,mais ao
centro, especifica o local de corte apara 2 clusters, já as cores roxa, verde, azul e rosa indicam os
quatro clusters de divisão. Notamos nesta divisão que 3 AISP ficam isoladas no cluster roxo,
que o maior cluster é o verde oliva e os restantes tem mais ou menos o mesmo tamanho.
16
Figura 12: Screenplot para clusters.
Figura 13: Dendograma para o método de Ward, os números ao redor indicam o AISP. Neste
gráfico podemos ver a divisão dos clusters com clareza e com o auxilio da Tabela 1 podemos
localizar os Bairros mais similares(pela a definição de Ward). Vale lembrar que a cor dos
clusters neste gráfico não segue a mesma ordem da do gráfico na Figura 14
17
Em seguida, após a realização da Análise Fatorial sobre as variáveis e a análise de cluster
sob as unidades de investigação podemos colocar os dois resultado em um Heatmap para enten-
der melhor o contexto dos clusters. O Heatmap é nada mais do que uma matriz onde nas linhas
vão as unidades de investigação e nas colunas vão as variáveis estudadas. Para representar os
resultados na cédulas opta-se por utilizar um gradiente de cor ao invez do número. A princı́pio
este gradiente pode ser definido de qualquer forma, no nosso caso, padronizamos o valor das
cédulas para cada variável independentemente e, após isto, definimos os limites do gradiente de
cor como sendo o máximo e o minimo após esta padronização. As linhas e colunas do Heatmap
não tem uma organização prévia, podemos reordena-las de qualquer forma desde que não tro-
quemos uma cédula especifica por outra. Dito isso, o Heatmap permite que sejam exibidos os
dendrogramas (ramificações na horizontal, nas linhas) e a divisão dos fatores(ramificações nas
colunas). Segue então a Figura 14 com o Heatmap das variáveis x unidades de investigação.
Figura 14: Heatmap dos AISP(Linhas) em função das diferentes variáveis(Colunas), As rami-
ficações nas bordas do Heatmap são respectivamente a divisão de clusters dos AISP(Ramificação
nas Linhas) e a divisão de fatores(Ramificação nas Colunas). Vale lembrar que a cor dos
clusters neste gráfico não segue a mesma ordem da do gráfico na Figura 13
18
Neste Heatmap temos um resultado muito interessantes, notamos que o cluster que possui
3 AISP é também representado pelas cédulas de máximo nas diferentes variáveis. Notamos
também que os clusters de tamanho mediano possuem estatı́sticas de crimes mais medianas e
por fim, o maior cluster parece ter os bairros mais “seguros”.
Em seguida, podemos verificar a Silhueta e os Clusters na Figura 15 para o método
de Ward e os clusters com o auxilio das funções do software R. Notamos que mesmo sem
ajustar a silhueta obtemos um bom resultado de Clusters. Repare que o cluster dos 3 membros
continua muito destacado com relação aos demais, confirmando o resultado do Heatmap deles
serem outlies com alta criminalidade. Já na Figura 16 temos o mesmo método mas com o
ajuste na silhueta, notamos um resultado um pouco melhor. Para finalizar a análise de método
hierárquico podemos fazer o radar plot das variáveis para cada cluster. A Figura 17 representa
isso.
Figura 15: Gráfico da silhueta e dos clusters obtidos pelo o Método de Ward sem ajuste).
Vale lembrar que as cores existentes nesta imagem não tem relação com outras
imagens do artigo
19
Figura 16: Gráfico da silhueta e dos clusters obtidos pelo o Método de Ward com ajuste).
Vale lembrar que as cores existentes nesta imagem não tem relação com outras
imagens do artigo
Figura 17: Gráfico de radar dos respectivos clusters feitos pelo o Método de Ward com silhueta
ajustada. Para cada cluster, a linha Vermelha representa o máximo de cada variável, a linha
Preta representa a média em cada variável, a linha Azul a mediana e a linha Verde o minimo
para cada cluster. Os números na lateral são os AISP existentes no Cluster.
20
5.3 Método K-means
Utilizando a análise de cluster com o K-means ( método não hierárquico, utilizamos o
pacote stats do R para fazer este método), foi definido de acordo com o método hierárquico 4
clusters. Observamos resultados muito parecidos com o método hierárquicos, como pode ser
visto nas Figuras 18 e 19. A semelhança é grande principalmente na imagem com a silhueta
ajustada.
Diferentemente do Ward, o K-means apresentou clusters praticamente desconexos entre
si mesmo sem a melhora na silhueta verificamos que a silhueta e os cluster bem definidos, sem
e com a padronização, sendo possı́vel verificar a qualidade das partições geradas. Portanto, foi
utilizado os dados não padronizados pois os resultados são satisfatórios.
Figura 18: Gráfico da silhueta e dos clusters obtidos pelo o Método de K-means sem ajuste).
Vale lembrar que as cores existentes nesta imagem não tem relação com outras
imagens do artigo
Figura 19: Gráfico da silhueta e dos clusters obtidos pelo o Método de K-means com ajuste).
Vale lembrar que as cores existentes nesta imagem não tem relação com outras
imagens do artigo
Na Tabela 6 pode-se observar as medidas descritivas dos fatores em cada cluster, utili-
21
zando o método de K-means. O cluster 1 possui a média do fator de roubos e do fator de crimes
violentos consideravelmente alto e o cluster 3 possui as menores médias nos dois fatores.
22
Figura 20: Gráfico de radar dos respectivos clusters feitos pelo o Método do K-means com
silhueta ajustada. Para cada cluster, a linha Vermelha representa o máximo de cada variável,
a linha Preta representa a média em cada variável, a linha Azul a mediana e a linha Verde o
minimo para cada cluster. Os números na lateral são os AISP existentes no Cluster.
23
9 0, 002287478 0, 983771676 0, 008352133 0, 005589 2
10 0, 930012155 0, 009504848 0, 004466618 0, 056016 1
11 0, 952744048 0, 006230171 0, 00289914 0, 038127 1
12 0, 075059013 0, 590232296 0, 086165629 0, 248543 2
14 0, 005614603 0, 954776597 0, 026314526 0, 013294 2
15 0, 01257476 0, 147623443 0, 81635937 0, 023442 3
16 0, 095896264 0, 135361493 0, 030872245 0, 73787 4
17 0, 904987801 0, 009942316 0, 004243808 0, 080826 1
18 0, 134201812 0, 129346059 0, 038501273 0, 697951 4
19 0, 85336249 0, 014779026 0, 006229987 0, 125628 1
20 0, 01704125 0, 103827244 0, 850524368 0, 028607 3
21 0, 109939284 0, 246902749 0, 049336126 0, 593822 4
22 0, 138044303 0, 041389236 0, 013609701 0, 806957 4
23 0, 828613145 0, 016517171 0, 006883818 0, 147986 1
24 0, 179383236 0, 026353984 0, 009541303 0, 784721 4
25 0, 488882704 0, 044151219 0, 018238496 0, 448728 1
26 0, 964284727 0, 004592457 0, 002120749 0, 029002 1
27 0, 42488665 0, 056410126 0, 023479986 0, 495223 4
28 0, 974264698 0, 002929812 0, 00131273 0, 021493 1
29 0, 961048533 0, 005313493 0, 002479876 0, 031158 1
30 0, 962585707 0, 00504852 0, 002355062 0, 030011 1
31 0, 212346735 0, 022359826 0, 008138296 0, 757155 4
32 0, 454527697 0, 027877992 0, 010822014 0, 506772 4
33 0, 992827048 0, 000824852 0, 000366705 0, 005981 1
34 0, 827442042 0, 013116533 0, 005399609 0, 154042 1
35 0, 218936826 0, 026611634 0, 009505636 0, 744946 4
36 0, 922750841 0, 01102217 0, 005135029 0, 061092 1
37 0, 968346492 0, 004072866 0, 001852402 0, 025728 1
38 0, 944344359 0, 00773125 0, 003591303 0, 044333 1
39 0, 117574702 0, 090957961 0, 025055607 0, 766412 4
40 0, 105119712 0, 026772534 0, 009082067 0, 859026 4
41 0, 041240595 0, 655742094 0, 22004592 0, 082971 2
Fonte: Elaboração Própria Utilizando o Software R e o Pacote ppclust.
24
Figura 21: Heatmap dos AISP(Linhas) em função dos seus clusters de pertencimento(Colunas)
ditado por seu grau de pertencimento pelo o método do C-means, As ramificações nas bordas
do Heatmap são respectivamente a divisão de clusters dos AISP(Ramificação nas Linhas).
Para validação do agrupamento foi realizado a silhueta para os dados não padronizados e
padronizados, Figuras 22 e 23. Como é possı́vel observar os resultados ficaram muito parecidos
com o método hierárquico e K-means (não hierárquico), no entanto, no método C-means (Fuzzy)
a qualidade das partições com a silhueta não padronizada não foi tão satisfatória em comparação
aos outros métodos já testados.
25
Figura 22: Gráfico da silhueta e dos clusters obtidos pelo o Método de C-means sem ajuste).
Vale lembrar que as cores existentes nesta imagem não tem relação com outras
imagens do artigo
Figura 23: Gráfico da silhueta e dos clusters obtidos pelo o Método de C-means com ajuste).
Vale lembrar que as cores existentes nesta imagem não tem relação com outras
imagens do artigo
26
Figura 24: Gráfico de radar dos respectivos clusters feitos pelo o Método do C-means com
silhueta ajustada. Para cada cluster, a linha Vermelha representa o máximo de cada variável,
a linha Preta representa a média em cada variável, a linha Azul a mediana e a linha Verde o
minimo para cada cluster. Os números na lateral são os AISP existentes no Cluster.
27
Grupos AISP Principais Unidades Territoriaisz
Cluster 1 7,15 e 20 São Gonçalo, Duque de Caxias,
Nova Iguaçu, Mesquita e Nilópolis
Cluster 2 3,9,12,14,16,21, Méier, Cachambi, Todos os Santos, Abolição,
39 e 41 Piedade, Jacaré, São Francisco Xavier, En-
genho de Dentro, Água Santa, Del Castilho,
Maria da Graça, Tomais Coelho, Madureira,
Oswaldo Cruz, Cascadura, Quintino, Bento
Ribeiro, Marechal Hermes, Rocha Miranda,
Colégio, Honório Gurgel, Coelho Neto, Niterói,
Maricá, Deodoro, Bangu, Padre Miguel, Re-
alengo, Jardim Sulacap, Vila Militar, Penha,
Complexo do Alemão, São João de Meriti, Bel-
ford Roxo, Irajá, Vicente de Carvalho, Guada-
lupe, Anchieta e Pavuna 2
Cluster 3 8,18,24,25,27,32, Campo dos Goytacazes, Vila Valqueire, Praça
35 e 40 Seca, Tanque, Cidade de Deus, Curicica, Ta-
quara, Jacarepaguá, Freguesia, Pechincha, Ja-
peri, Queimados, Seropédica, Paciência, Santa
Cruz, Guaratiba, Sepetiba, Macaé, Rio das
Ostras, Tanguá, Itaboraı́, Rio Bonito, Campo
Grande, Cosmos e Santı́ssimo. 2
Cluster 4 2,4,5,6,10,11,17,19, Catete, Flamengo, Glória, Botafogo, Laranjei-
22,23,26,28,29, 30, ras, Humaitá, Urca, Copacabana, Leme, Roci-
31,33,34,36,37 e 38 nha, Ipanema, Leblon, Gávea, Jardim Botânico,
Lagoa, São Conrado, Vidigal, Cidade Nova, São
Cristóvão, Estácio, Maracanã, Tijuca, Alto da
Boa Vista, Andaraı́, Grajaú, Vila Isabel, Mi-
guel Pereira, Nova Friburgo, Cidade Univer-
sitária, Galeão, Bonsucesso, Manguinhos, Maré,
Ramos, Petrópolis, Volta Redonda, Bom Je-
sus de Itabapoana, Teresópolis, Barra da Ti-
juca, Itanhangá, Joá, Recreio dos Bandeirantes,
Grumari, Paraty, Mangaratiba, Magé, São Se-
bastião do Alto, Santo Antônio de Pádua, Ita-
tiaia, Paraı́ba do Sul e Três Rios 2
Fonte: Elaboração Própria.
2
Algumas unidades territoriais foram omitidas devido a quantidade, porém todas podem ser encontradas no
quadro 1 (identificação da AISP).
28
Para o primeiro cluster foram considerados 3 AISPs com uma representatividade de 7,7%
do total. No segundo e no terceiro cluster, foram alocados 8 AISPs, e finalmente no quarto
obteve 20 AISPs, que representa 51,3% do total.
29
Figura 27: Média dos crimes no cluster 1
O cluster 2 possui a média de crimes mais baixa que o cluster 1, além disso, os crimes
que mais se destacam são: Outros roubos , roubo de veı́culos, lesão corporal dolosa e ameaças.
30
Figura 29: Média dos crimes no cluster 2
31
Figura 31: Média dos crimes no cluster 3
32
Figura 33: Média dos crimes no cluster 4
7 Conclusão
A necessidade de entender os problemas do Estado do Rio de Janeiro é crucial para
promover politicas de melhoria da qualidade de vida. Nos anos do século XX e XXI o Estado
do Rio de Janeiro foi palco de tristes histórias de violência e criminalidade, em particular, a
cidade do Rio de Janeiro é considerada por muitos um lugar perigoso demais de se morar.
Dito isso, trabalhos como este aqui ajudam a entender problemas sociais e propor medidas de
contensão. Vale lembrar que, a violência muitas vezes não tem origem nela mesmo, muitas
vezes é fruto de problemas secundários que acaba levando a pessoa a cometer crimes como
furto. Então, o diagnostico do crime é apenas um passo para promover uma real melhora
de vida. Infelizmente este trabalho não serve para compreender outros problemas sociais que
podem está diretamente relacionados com o aumento da criminalidade em uma determinada
região. Um estudo futuro sobre isto, considerando renda per capita média por região ou mesmo
nı́vel de escolaridade bem como acesso a outras Polı́ticas Publicas que facilitam a vida das
pessoas e desestimula a entrada na vida criminosa, pode considerar este trabalho para obter
uma compreensão melhor do crime.
As secções do relatório já são conclusivas por si só, então seremos breves na conclusão.
Primeiro, notamos que o modelo fatorial é muito viável para este problema, pois os fatores se
agruparam como esperávamos que deveria se agrupar. Roubos com Roubos e crimes contra a
vida com crimes contra vida. Tentamos adicionar mais variáveis no relatório mas não conse-
guimos, as variáveis que escolhemos pareceram não melhorar o resultado que já estava bom.
Com tudo, não utilizamos todas as variáveis existentes no banco de dados e, mais importante,
não fizemos um estudo de serie temporal extenso, para saber como os clusters ou os fatores
33
variam com passar dos anos. Talvez seja possı́vel identificar resultados interessantes que es-
tejam relacionados com atitudes do estado, aumento da inflação, etc... Por fim, não fizemos
analise discriminante pois quando quando concluı́mos o estudo notamos que ele já estava muito
extenso e, por limitações obvias de tempo, não foi possı́vel dedicar mais tempo neste trabalho.
Não fizemos análises pela os departamentos de polı́cias, apenas fizemos pelas AISP’s. Talvez
pelos departamentos tenha um resultado similar e bom, com mais refinamento pois o número
de departamentos é muito maior do que o número de AISP’s. Contudo, mesmo ainda exis-
tindo estes pontos não abordados no trabalho, tivemos ótimos resultados. Estes pontos não
abordados ficam como perspectivas futuras do trabalho.
O método de Ward apresentou um resultado de clusters muito similares ao resultado do
método de K-means. O leitor pode ver os clusters com a silhueta não ajustada para Ward
na Figura 15, nesta Figura notamos que existem 3 regiões que estão muito destacadas, em
comparação com as outras e formam um cluster único. Por outro lado existem 3 clusters que
são mais similares entre si e estão mais próximos. Existe até uma sobreposição mı́nima entre
2 deles. Na Figura 14 o leitor pode ver o dendrograma nas linhas, representando a divisão de
clusters por método de Ward daı́, por este Heatmap notamos que o cluster de 3 regiões é o mais
perigoso de todos, e os outros clusters são formados segundo um grau de ‘mais perigoso’ para
‘menos perigoso’.
A divisão por clusters considerando o método K-means que obtivemos foi muito inte-
ressante, como o leitor pode ver na Figura 20 cada existem caracterı́sticas intrı́nseca de cada
cluster feito pelo o método K-means. Na realidade a o maior motivo de escolhemos o K-means
foi porque ele se assemelhou muito com o resultado com o cluster ajustado mas, considerando
todos os métodos pós ajuste, eles possuem resultados parecidos. Voltando para a Figura 20
nela notamos que o maior cluster de todos possui diferenças muito pequenas entre o minimo e
o máximo interno em quase todas as variáveis (com exceção da variável roubos em coletivo).
Isso é ótimo pois, indica que dentro do cluster tem uma pequena variabilidade em quase todas
as variáveis, ou seja, as regiões são muito similares entre si. Esse efeito se reflete similar nos
outros 3 clusters também. Além disso, é de conhecimento popular que as regiões do cluster
mais violento são realmente violentas, logo, o resultado teórico confirmou um conhecimento
popular. Curiosamente este resultado para o K-means remete a Figura do Heatmap já des-
crita nesta conclusão, os clusters foram formados seguindo nı́veis de criminalidade, do menos
perigoso para o mais perigoso.
Olhando agora para problemas em C-means, na Figura 21, notamos que alguns dos in-
divı́duos que estão no quarto cluster possuem grau de pertencimento similar no primeiro cluster.
Isso acaba por se refletir no calculo da silhueta não ajustada para o C=means, Figura 22, pois
notamos que um dos clusters não fica com uma resultado bom, em quanto os outros clusters
ficam com um resultado satisfatório.
Por fim, na parte 6 do relatório notamos que a variável ‘outros roubos’ tem uma frequência
muito maior do que a das outras variáveis. Note que, assim como notado no gráfico de radar da
34
K-means, nestes gráficos em barra notamos diferença distintas com relação as variáveis em cada
cluster. É interessante notar que, em dois dos clusters, parece que os crimes de ‘ameaça’ e de
‘letalidade violenta’ estão correlacionados, pois quando um aumenta o outro também aumenta.
35
Referências
[Beavers et al., 2013] Beavers, A. S., Lounsbury, J. W., Richards, J. K., Huck, S. W., Skolits,
G. J., and Esquivel, S. L. (2013). Practical considerations for using exploratory factor analysis
in educational research. Practical assessment, research & evaluation, 18.
[dos Santos, 2011] dos Santos, Marcelo Justus e dos Santos Filho, J. I. (2011). Convergência
das taxas de crimes no território brasileiro. Revista Economia.
[Hair Jr, 2009] Hair Jr, J. F. (2009). Multivariate Data Analysis Joseph F. Hair Jr. William
C. Black Barry J. Babin Rolph E. Anderson Seventh Edition, volume 7. Prentice Hall.
[Pekny, 2017] Pekny, Ana Carolina e de Mattos Ricardo, C. (2017). Mapeamento dos principais
desafios de violência e criminalidade no brasil - 2017. Fundação Friedrich Ebert públicação
no site da ONG Soudapaz.
36