Você está na página 1de 37

INSTITUTO BRASILEIRO DE GEOGRAFIA E

ESTATÍSTICA
ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS
BACHARELADO EM ESTATÍSTICA

TRABALHO FINAL DE ANÁLISE MULTIVARIADA:


Diagnostico da Criminalidade no Rio de Janeiro no ano de 2018

AUTORIA:
LETÍCIA MARIA CORREIA BORGES
ISAAC VICTOR SILVA RODRIGUES

PROFESSORA: SANDRA CANTON CARDOSO

Rio de Janeiro, 2019.


Conteúdo
1 Introdução 2

2 Base de Dados 2

3 Análise Exploratória 5

4 METODOLOGIA 10
4.1 Análise Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2 Análise de Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2.1 Método de Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2.2 Métodos K-means e C-means . . . . . . . . . . . . . . . . . . . . . . . . 12

5 Construção dos Clusters 14


5.1 Análise Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5.2 Método de Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.3 Método K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.4 Método C-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

6 Análises finais para os clusters do método K-means 27

7 Conclusão 33

Referências 36
Resumo

Uma área de interesse para melhorar a qualidade de vida no Rio de Janeiro é o estudo
da criminalidade. O Estado apresenta altas taxas de criminalidades e para se pensar em
polı́ticas públicas de qualidade é necessário o diagnostico do crime local. Neste traba-
lho utilizamos dados de criminalidade para as diferentes Áreas Integradas de Segurança
Pública(AISP) existentes no Rio de Janeiro e com o auxilio de diversos recursos da Análise
Multivariada obtivemos resultados interessantes quanto a AISP e a ocorrência crimes,
correlação entre tipos de crimes, caracterı́sticas gerais de diferentes grupos de AISP, cor-
relação entre diferentes AISP.
Palavras-chave. Criminalidade; Analise Fatorial; Clusterização

1 Introdução
A violência e a criminalidade são temas cada vez mais debatidos no cenário nacional,
tornando-se um dos principais problemas contemporâneos no Brasil e em muitos outros paı́ses
[dos Santos, 2011].
De acordo com a pesquisa de opinião FBS/ DATASUS, realizada em 2017, a cada 3 bra-
sileiros, 1 tem medo de ser vı́tima de violência por parte de criminosos. Embora, o Brasil tenha
a sexta maior taxa de encarceramento do mundo com mais de 600 mil presos, a insegurança é
presente e os dados apontam aumento no número de crimes [Pekny, 2017].
O Estado do Rio de Janeiro foi escolhida como recorte espacial, devido ao aumento da
violência urbana, de acordo com os dados o Instituto e Segurança Pública (ISP, Clique Aqui
para acessar o site do ISP)1 , que disponibiliza as estatı́sticas oficiais de registros de crimes
por AISP – Áreas Integradas de Segurança Pública, criadas em 1999, com intuito de obter
um combate mais efetivo da criminalidade local. Além disso, o ISP tem missão de produzir
informações e disseminar pesquisas para implantação de polı́ticas públicas de segurança.
O objetivo deste estudo foi compreender a espacialização dos diferentes tipos de crimes
de acordo com as AISP do Estado do Rio de Janeiro a partir o emprego de análise fatorial
associado à análise de cluster.

2 Base de Dados
A base de dados utilizada foi obtida pelo site do ISP(Para acessa-la, Clique Aqui)1 ,
proveniente de ocorrências registradas pela Polı́cia Militar o Estado do Rio de Janeiro, referentes
ao ano de 2018. O ISP disponibiliza as estatı́sticas oficiais de registros de crimes por AISP -
Áreas Integradas de Segurança Pública, como pode ser visto na Tabela 1.

1
Precisa de Internet para acessar os Hiperlinks

2
Tabela 1: AISP e seus Bairros de atuação

AISP Bairros
AISP 2 Catete, Cosme Velho, Flamengo, Glória, Laranjeiras, Botafogo, Humaitá e Urca
AISP 3 Cachambi, Méier, Abolição, Encantado, Piedade, Pilares, Engenho Novo, Jacaré,
Jacarezinho, Riachuelo, Rocha, Sampaio, São Francisco Xavier, Água Santa, En-
genho de Dentro, Lins de Vasconcelos, Todos os Santos, Del Castilho, Engenho da
Rainha, Inhaúma, Maria da Graça e Tomás Coelho
AISP 4 Cajú, Mangueira, São Cristóvão, Catumbi, Cidade Nova, Estácio, Rio Comprido e
Vasco da Gama
AISP 5 Centro (parte),Santa Teresa , Gamboa, Santo Cristo, Paquetá e Saúde
AISP 6 Maracanã, Praça da Bandeira, Tijuca (parte), Alto da Boa Vista, Andaraı́, Grajaú
e Vila Isabel
AISP 7 São Gonçalo
AISP 8 Campos dos Goytacazes, São Fidélis, São João da Barra e São Francisco de Itaba-
poana
AISP 9 Campinho, Cascadura, Praça Seca, Quintino de Bocaiúva, Bento Ribeiro, Marechal
Hermes, Oswaldo Cruz, Coelho Neto, Colégio (parte), Honório Gurgel e Rocha
Miranda
AISP 10 Barra do Piraı́, Valença, Rio das Flores, Piraı́, Vassouras, Miguel Pereira, Paty do
Alferes, Mendes e Engenho Paulo de Frontin
AISP 11 Nova Friburgo, Duas Barras, Cantagalo, Cordeiro, Macuco, Santa Maria Madalena,
Trajano de Moraes e Bom Jardim
AISP 12 Niterói e Maricá
AISP 14 Anchieta, Guadalupe, Parque Anchieta, Ricardo de Albuquerque, Campo dos Afon-
sos, Deodoro, Jardim Sulacap, Magalhães Bastos, Realengo, Vila Militar, Bangu,
Gericinó, Padre Miguel e Senador Camará
AISP 15 Duque de Caxias, Campos Elyseos, Xerém e Imbariê
AISP 16 Brás de Pina (parte), Complexo do Alemão, Olaria, Penha, Penha Circular (parte),
Cordovil, Jardim América, Parada de Lucas e Vigário Geral
AISP 17 Bancários, Cacuia, Cidade Universitária, Cocotá, Freguesia, Galeão, Jardim Cari-
oca, Jardim Guanabara, Moneró, Pitangueira,Portuguesa, Praia da Bandeira, Ri-
beira, Tauá e Zumbi
AISP 18 Anil, Cidade de Deus, Curicica, Gardênia Azul, Jacarepaguá, Taquara, Freguesia,
Pechincha, Tanque e Vila Valqueire
AISP 19 Copacabana (parte) e Leme
AISP 20 Nova Iguaçu, Mesquita e Nilópolis
AISP 21 São João e Mereti

3
AISP 22 Benfica, Bonsucesso, Higienópolis, Manguinhos, Maré e Ramos
AISP 23 Ipanema, Leblon, Gávea, Jardim Botânico, Lagoa, Rocinha, São Conrado e Vidigal
AISP 24 Seropédica, Itaguaı́, Paracambi, Queimados e Japeri
AISP 25 Araruama, Saquarema, São João da Aldeia, Cabo Frio, Armação dos Búzios, Iguaba
Grande e Arraial do Cabo
AISP 26 Petrópolis
AISP 27 Paciência, Santa Cruz e Sepetiba
AISP 28 Barra Mansa, Volta Redonda e Pinheiral
AISP 29 Laje do Muriaé, Porciúncula, Itaperuna, Italva e Cardoso Moreira
AISP 30 São José do Vale do Rio Preto, Teresópolis, Carmo e Sumidouro
AISP 31 Barra da Tijuca, Itanhangá, Joá, Recreio do Bandeirantes, Grumari, Vargem
Grande, Vargem Pequena e Camorim
AISP 32 Casimiro de Abreu, Conceição de Macabú, Macaé, Rio das Ostras, Quissamã e
Carapebus
AISP 33 Mangaratiba, Angra dos Reis, Paraty e Rio Claro
AISP 34 Magé e Guapimirim
AISP 35 Tanguá, Itaboraı́, Rio Bonito, Silva Jardim e Cachoeiras de Macacu
AIPS 36 Itaocara, Santo Antônio de Pádua, Aperibé, Miracema, Cambuci e São Sebastião
do Alto
AISP 37 Resende, Itatiaia, Porto Real e Quatis
AISP 38 Paraı́ba do Sul, Três Rios e Sapucaia
AISP 39 Belford Roxo*
AISP 40 Campo Grande, Cosmos, Inhoaı́ba, Santı́ssimo e Senador Vasconcelos
AISP 41 Colégio (parte), Irajá, Vicente de Carvalho, Vila Kosmos, Vila da Penha , Vista
Alegre, Anchieta, Guadalupe, Parque Anchieta, Ricardo de Albuquerque, Acari,
Barros Filho, Costa Barros, Parque Colúmbia e Pavuna
Fonte: Elaboração própria utilizando os dados site do ISP,
para acessar o arquivo fonte Clique Aqui.1

Os batalhões da Polı́cia Militar (PM) são atendidos pelas delegacias monitoradas pela
Secretaria de Segurança Pública do Rio de Janeiro (SESP/RJ) através do Instituto de Segurança
Pública, que estão na mesma área da divisão territorial do censo, dessa forma facilitou a análise
estatı́stica por área. Com o decorrer dos anos o ISP foi acumulando dados das ocorrências de
crimes nas diferentes regiões do Rio de Janeiro. Esses crimes são registrados em qualquer
delegacia e, ao decorrer de cada mês, esses registros são enviados para a base de dados do
ISP. Os crimes são divididos em diversas variáveis consoante ao seu tipo, a base é atualizada
mensalmente e, hoje em dia, talvez seja a base de dados criminais mais completa existente no
Estado do Rio de Janeiro.As variáveis selecionadas para análise por tipo de crime podem ser

4
observadas na Tabela 2.

Tabela 2: Variáveis retiradas da base de dados existente


no site do ISP e suas descrições

Variáveis Descrição
roubo veiculo Taxa de Roubo de veı́culo por 100 mil veı́culos
roubo carga Taxa de Roubo de carga por 100 mil habitantes
roubo em coletivo Taxa de Roubo em coletivo por 100 mil habitantes
outros roubos Todos os outros roubos com exceção dos
já listados nesta tabela por 100 mil habitantes
ameaca Taxa de Ameaça por 100 mil habitantes
pessoas desaparecidas Taxa de Pessoas desaparecidas por 100 mil habitantes
letalidade violenta Taxa de Letalidade violenta por 100 mil habitantes
lesao corp dolosa Taxa de Lesão corporal dolosa por 100 mil habitantes
Fonte: Elaboração própria utilizando o dicionário de dados do
site do ISP, para acessar o dicionário oficial Clique Aqui.1

3 Análise Exploratória
De acordo com a análise dos crimes selecionados no presente estudo, o Estado do Rio de
Janeiro obteve um aumento de 2, 54% da criminalidade no ano de 2018 com relação ao ano
anterior(Figura 2).

Figura 1: Aumento da ocorrência dos crimes estudados no trabalho.

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,


para acessar a base oficial Clique Aqui.

5
Figura 2: Comparação do número de ocorrências dos crimes por ano.

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,


para acessar a base oficial Clique Aqui.

Conforme os números da Figura 2 indicador de letalidade violenta (corresponde a soma


as vı́timas de homicı́dio doloso, roubo seguido de morte, lesão corporal seguida de morte e
morte por intervenção de agente do Estado) apresentou pequena queda em relação a 2017.
Além disso, dentro de letalidade violenta, houve 71 feminicı́dios (1, 1%) em 2018, contra 68
(1%) em 2017. O Roubo de Veı́culo foi 4, 2% menor em comparação ao ano anterior, Roubo
de Carga apresentou uma queda maior, 13, 4% interrompendo a tendência de crescimento do
crime nos últimos 7 anos e Roubos em Coletivo obteve um aumento de 2, 5%. A variável outros
roubos(Ver Tabela 2) é o crime que apresenta maior número ocorrências e teve aumento de 3%
em 2018 em comparação com 2017.
A lesão corporal dolosa se caracteriza como o resultado da ação de uma pessoa contra
outra e que, de alguma maneira, prejudique a integridade corporal ou a saúde da vı́tima. Obteve
um aumento de 4, 5% em 2018 com relação ao ano anterior e de acordo com o Dossiê mulher
realizado pelo ISP( Para acessar os Dossiês,Clique Aqui para acessar o de 2017 e Clique
Aqui para acessar o de 2018)1 , 65, 5% das vı́timas são do sexo feminino. A ameaça apresentou
um aumento de 9, 7%, sendo 67, 6% das vitimas do sexo feminino.
Analisando as AISP com maiores taxas de criminalidade no Estado do Rio de Janeiro, 7%
dos crimes ocorreram na AISP 15 (Duque de Caxias), 8% na AISP 20 (Nova Iguaçu, Mesquita
e Nilópolis) e 8% AISP 7 (São Gonçalo). As localidades podem ser verificadas na Tabela 1,
especificamente no arquivo existente na Fonte desta Tabela, também pode ver as localidades
no mapa da Figura 3.

6
Figura 3: Mapa do Estado do Rio de Janeiro indicando as AISPs que apresentaram maiores
ı́ndices de criminalidade no ano de 2018.

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,


para acessar a base oficial Clique Aqui.

As três AISPs apresentam os maiores indicadores de criminalidade em todo Estado, no


entanto, houve uma variação com relação ao ano anterior. A AISP 15 (Duque de Caxias) teve a
maior redução de letalidade violenta 15, 2% e uma redução de 21, 3% de roubo de carga. Houve
um aumento de 26, 9% de ameaças no local e 20, 9% de outros roubos (sendo o segundo maior
aumento de roubo de rua em todo Estado).
A AISP 20 (Nova Iguaçu, Mesquita e Nilópolis) apresentou queda de outros roubo, 13, 6%
com relação ao ano anterior, letalidade violenta 12% e uma redução significativa de 48, 8% em
roubos de carga. No entanto, houve um aumento de 20, 3% no crime de lesão corporal dolosa,
12% no roubo de veı́culos e 20% em ameaças. A AISP 07 (São Gonçalo) apresentou o aumento
de 17, 7% em outros roubos, 23% roubo em coletivo e 14, 2% em roubo de carga. Porém, teve
uma redução de 14, 2% em lesão corporal dolosa, 4, 5% em letalidade violenta e 10, 5% em
ameaça. Todas as variações são relativas as taxas do ano de 2018 com 2017.
A AISP 09 (Madureira e adjacências, Ver Figura 4) apresentou maior queda em roubo
de veı́culos 24, 1%, outros roubos 24, 8% e 56, 8% em roubo de cargas. A AISP 41 (Pavuna e
adjacências) apresentou redução em 49, 3% em roubo de carga e 23, 3% em letalidade violenta
, no entanto, obteve um aumento de 21, 2% em roubo de veı́culos.

7
Figura 4: Mapa do Municı́pio do Rio de Janeiro indicando as AISPs que apresentaram maior
variação de crimes no ano de 2018 em comparação com 2017

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,


para acessar a base oficial Clique Aqui.

As AISP que apresentaram melhores taxas(Figura 5) de criminalidade e conseguiram


realizar maiores reduções em relação aos dois últimos anos foram a AISP 10 ( Vassouras e
adjacências) e AISP 30 (Teresópolis e adjacências).

Figura 5: Mapa do Estado do Rio de Janeiro indicando as AISPs que apresentaram menores
taxas de criminalidade.

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,


para acessar a base oficial Clique Aqui.

Antes de utilizar as técnicas multivariadas foi realizado algumas análises estatı́sticas,


como pode ser visto na Figura 6 e Tabela 3.

Tabela 3: Valores descritivos das variáveis de interesse.

8
Variáveis Min. 1st Qu. Mediana Média 3rd Qu. Max.
roubo veiculo 7 101 473 1336 2003 6104
furto veiculos 54 169 319 405 554 1285
lesao corp dolosa 564 1044 1487 1623 1958 5185
roubo carga 5 28 66 235 306 1701
roubo em coletivo 0 38 194 402 572 1802
ameaca 465 927 1341 1436 1667 4046
pessoas desaparecidas 14 61 103 123 170 399
outros roubos 55 982 2877 3966 5534 14587
Fonte: Elaboração própria utilizando o a base de dados do site do ISP,
para acessar a base oficial Clique Aqui.

A Tabela 3 indica que as variáveis sejam descritas por uma distribuição de probabilidade
assimétrica pois além da mediana aparentar ser diferente da média em quase todas as variáveis,
a diferença entre o mı́nimo e a mediana destoa muito da diferença entre o máximo e a mediana
das variáveis. Nota-se que apesar de em geral existirem poucos outliers, as variáveis não
estão padronizadas com destaque para a variável ‘outros roubos’. Isso indica a necessidade de
padronizar os dados para trabalharmos con grandezas comparáveis.

Figura 6: Boxplot dos crimes no Estado do Rio de Janeiro, variáveis não padronizadas.

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,


para acessar a base oficial Clique Aqui.

Na Figura 7, verificamos a matriz de covariância entre as variáveis. Em particular, a


variável ‘outros roubos’ possui uma variância muito maior do que as outras. Este resultado

9
indica que é necessário padronizar as variáveis para realizar a análise multivariada.

Figura 7: Matriz e covariância entre os crimes .

Fonte: Elaboração própria utilizando o a base de dados do site do ISP,


para acessar a base oficial Clique Aqui.

4 METODOLOGIA
4.1 Análise Fatorial
Com o propósito de estudar a criminalidade do Estado do Rio de Janeiro a Análise
Fatorial (AF) foi aplicada com o objetivo de agrupar as variáveis em fatores com a mı́nima
perda de informação possı́vel. Para a implementação da Análise Fatorial primeiro é necessário
verificar se a aplicação do método tem validade para as variáveis escolhidas, para esse objetivo
utilizou-se o teste de Kaiser-Meyer-Olkin (KMO) [Mingoti, 2005]:
Pp Pp 2
j=1m=1,m6=j rjm
KM O = Pp Pp 2
Pp Pp 2
(1)
j=1 m=1,m6=j rjm + j=1 m=1,m6=j rpjm
2 2
Sendo que rjm e rpjm correspondem respectivamente às correlações simples e parciais.
A estatı́stica KMO tem por finalidade verificar se há uma estrutura de dependência que
seja bem definida entre as variáveis analisadas e que esta possa ser expressa pela matriz de
correlações ou de covariância. Se caso tenha existência, a estrutura implica que a variável pode
ser prevista pelas demais com certa margem de segurança. Portanto, o modelo somente apre-
sentará uma estrutura de dependência clara se a correlação parcial entre os pares de variáveis
for baixa [Beavers et al., 2013].

10
Tabela 4: Adequação Amostral de acordo com o KMO

Kaiser-Meyer-Olkin(KMO) Análise Fatorial


1,0 – 0,9 Muito boa
0,8 – 0,9 Boa
0,7 – 0,8 Média
0,6 – 0,7 Razoável
0,5 – 0,6 Má
< 0,5 Inaceitável
Fonte: Elaboração própria utilizando como referência o livro já citado [Mingoti, 2005] e as
notas de aula do professor Marcelo Botelho da Costa Moraes, da USP-FES clique aqui.

O resultado do teste KMO deve variar de 0 a 1, em que quanto menor for o valor, maior são
as chances de os dados não serem adequados, pois de certa forma significa que a correlação entre
as variáveis é baixa. Como visto na tese de mestrado [?], existem relações muito fortes entre a
correlação das variáveis, análise fatorial e componentes principais. Resumidamente, refletindo
sobre o fato da correlação entre as variáveis, baixa correlação entre as variáveis implica em ser
necessário um grande número de componentes principais para explicar diversidade dos dados. Se
um problema apresenta um elevado número de componentes principais, então, para representar
adequadamente a diversidade com análise fatorial também escolherı́amos um grande número
de fatores. Uma das decisões mais importantes a serem tomadas durante a execução da Análise
Fatorial é o número de fatores a ser definido. Muitas vezes as cargas fatoriais apresentam valores
muito elevados em mais de um fator, o que acaba levando divisão de fatores inconclusivos e isso
é reflexo de baixa correlação entre as variáveis, caracterı́sticas que não são iguais estão sendo
representadas por um único fator, tal problema pode sumir quando se toma um número maior
de fatores. Utilizando um número maior de fatores, de certa foram, damos mais liberdade para
as caracterı́sticas dos dados se manifestar, fazendo com que as incertezas diminuam.
O equilı́brio ideal entre o número de fatores e a interpretabilidade é muito importante
e pode ser difı́cil de definir. Em muitos casos requer uma análise exploratória prévia para
uma crı́tica adequada quanto a este número. Abordagens como primeiro fazer componentes
principais pode ajudar a abordar um problema desconhecido, mas é sempre importante ler
sobre o contexto do problema e definir quantos fatores de fato são necessários para representar
o problema em questão.
O método rotação dos fatores, tem como principal objetivo tornar o resultado empı́rico,
ou seja, facilitar a interpretação conservando as suas propriedades estatı́sticas. é o mais usado
e possui o objetivo de minimizar o número de varáveis que apresentam altas cargas em cada
fator. O presente trabalho utilizará a análise fatorial para agrupar os tipos de crimes. Depois
da rotação e interpretação dos fatores .

11
4.2 Análise de Cluster
A análise de agrupamento também conhecida como análise de conglomerados, classificação
ou cluster, tem como objetivo dividir os elementos da amostra, ou população, em grupos de
forma que os elementos pertencentes a um mesmo grupo sejam similares entre si com respeito
às variáveis (caracterı́sticas) que neles foram medidas, e os elementos em grupos diferentes
sejam heterogêneos em relação a estas mesmas caracterı́sticas [Mingoti, 2005]. A medida de
similaridade utilizada foi a Distância Euclidiana, onde Xl e XK , l 6= k é definida por :

p
d(Xl , Xk ) = (Xl − Xk )0 (Xl − Xk ) (2)
v
u p
uX
d(Xl , Xk ) = t (Xil − Xik )2 (3)
i=1

ou seja, os dois elementos amostrais são comparados em cada variável pertencente ao vetor
de observações. As técnicas de análise de cluster são frequentemente classificadas em dois ti-
pos: técnicas hierárquicas e não hierárquicas. No presente trabalho foi realizado o método
hierárquico como análise exploratória dos dados com o intuito de identificar possı́veis agrupa-
mentos, assim como o número de grupos.
A técnica hierárquica parte do princı́pio de que no inı́cio do processo de agrupamento
tem-se n conglomerados, ou seja, cada elemento do conjunto de dados observados é considerado
como sendo um conglomerado isolado. Em cada passo do algoritmo, os elementos amostrais vão
sendo agrupados, formando novos conglomerados até o momento no qual todos os elementos
considerados estão num único grupo [Mingoti, 2005].

4.2.1 Método de Ward

Para a técnica hierárquica utilizamos o Método e Ward. Segundo [Hair Jr, 2009], o
método de Ward consiste em um procedimento de agrupamento hierárquico no qual a medida
de similaridade usada para juntar agrupamentos é calculada como a soma de quadrados entre
os dois agrupamentos feita sobre todas as variáveis. Esse método tende a resultar em agrupa-
mentos de tamanhos aproximadamente iguais devido a sua minimização de variação interna.
Basicamente repetimos, de certa forma, as Equações 2 e 3 para os pontos médios dos agrupa-
mentos, acada iteração, criamos um novo agrupamento e repetimos o processo. Ao fim teremos
um único agrupamento e o processo de agrupar nos dará pistas dos clusters. Para se obtr um
número de clusters definido paramos o processo em uma iteração definida.

4.2.2 Métodos K-means e C-means

Após a aplicação do método hierárquico e a definição do número de clusters, foi realizada a


aplicação do método K-médias e Fuzzy c-means. No método k-médias cada elemento amostral
é alocado em um determinado cluster cujo o centroide (vetor de médias amostral) é o mais

12
próximo do vetor de valores observados para o respectivo elemento. O método K-Médias
aplicado utiliza como semente inicial os centroides provenientes da partição do método Ward.
O método C-means ou Fuzzy, assim como o k-médias, é um método interativo que utilizou
o número de cluster proveniente da técnica hierárquica. O c-means procura a partição que
minimiza a função objetivo abaixo:
c X
X n
J= (uij )m d(Xj , Vi ) (4)
i=1 j=1

Onde:
Vi é a semente do conglomerado i, i = 1, 2, ..., c;
m > 1 é o parâmetro Fuzzy;
uij é a probabilidade do elemento Xj pertença ao conglomerado cujo protótipo é Vi z’;
d(.) é a distância euclidiana.
Para encontrar as probabilidades que minimizam a função J utiliza-se:

C
X d(Xj , Vi ) m−12
Ui,j = [ ( ) ]−1 (5)
k=1
d(X j , Vk )

No método c-means, para cada elemento amostral, estima-se a probabilidade de que


o mesmo pertença a cada um dos clusters. Assim, é possı́vel identificar elementos que se
assemelham a mais de um grupo e pode-se usar como critério para determinar o grupo com maior
probabilidade de pertencimento do elemento. Como critério de validação dos agrupamentos,
cuja finalidade é verificar a qualidade de uma partição gerada pelo algoritmo. Neste trabalho
utilizou-se os critérios de Silhueta Simplificada (método K-médias) e Silhueta Fuzzy (método
c-means). A silhueta simplificada é utilizada no algoritmo k-médias e é dado por:

N
1 X
CS = S(q) (6)
N q−1

Onde: S(q) é a silhueta do q − ésimo AISP , que é obtido como:

b(q) − a(q)
S(q) = (7)
max{a(q), b(q)}
Onde a(q) é a dissimilaridade do q − ésimo elemento ao centroide do agrupamento ao qual
está associado e b(q) é a dissimilaridade do q − ésimo elemento ao centroide do agrupamento
mais próximo.
Por sua vez, o critério de silhueta fuzzy é calculada:
PN 0 0 α
1 q=1 (b (q) − a (q)) s(q)
CSF = PN (8)
N 0 0
q=1 (b (q) − a (q))
α

Onde: a > 0 e a0 (q) é o grau de pertinência do q-ésimo elemento ao centroide do agrupa-

13
mento ao qual está associado e b0 (q) é o grau de pertinência do q-ésimo elemento em relação
ao centroide do agrupamento mais semelhante.

5 Construção dos Clusters


5.1 Análise Fatorial
A análise da matriz de correlação, como mostra a Figura 8 indica que todas as variáveis
são correlacionadas positivamente. Além disso, em geral, as correlações entre duas variáveis
distintas são acima de 0, 6. Utilizando a função corrplot , do pacote corrplot no software R,
foi possı́vel ilustrar as correlações assim como os possı́veis fatores, agrupamento dos crimes.
Note que, o resultado visto nesta Figura é muito promissor pois parece que as variáveis de
roubos ficarão juntas em um fator e os crimes contra vida ficarão em outro fator, no entanto,
os resultados da analise fatorial serão mostrado com detalhes mais adiante.
O teste KMO foi realizado nos tipos de crimes sendo que o resultado do teste apontou
um valor de 0.85 indicando que os dados são adequados para o método de análise fatorial. Pelo
gráfico scree plot, Figura 9, indica que os dois fatores são considerados eficientes, pois possuem
autovalores > 1 e conjuntamente representam ∼ 87, 8% da variação dos dados.

Figura 8: Correlação entre os crimes

Fonte: Elaboração Própria utilizando o software de programação R e o pacote corrplot

14
Figura 9: Screeplot dos dados

Fonte: Elaboração Própria Utilizando o Software R e o Pacote stats

Na Tabela 5 apresentada abaixo, é possı́vel verificar as cargas fatoriais e as cargas rotaci-


onadas pelo método Varimax, foram marcadas em negrito as maiores entre os dois fatores para
cada variável, ou seja, aquelas que indicam maior explicação da variável pelo fator.

Tabela 5: Cargas Fatoriais rotacionadas pelo método Va-


rimax.

Variável Fator (MR1) Fator (MR2)


letalidade violenta 0, 55 0, 69
roubo veiculo 0, 87 0, 38
lesao corp dolosa 0, 27 0, 95
roubo carga 0, 90 0, 18
roubo em coletivo 0, 85 0, 23
ameaca 0, 17 0, 96
pessoas desaparecidas 0, 47 0, 83
outros roubos 0, 87 0, 39
Fonte: Elaboração Própria Utilizando o Software R e o
Pacote psych.

Na Figura 10, como forma de auxiliar para corroborar as interpretações da tabela anterior,
o Fator 1 (MR1) agrupou as variáveis relacionadas aos roubos e o fator 2 (MR2) agrupou as
variáveis relacionadas aos crimes contra vida.

15
Figura 10: Ilustração dos Fatores.

Fonte: Elaboração Própria

5.2 Método de Ward


Após definidas as oito variáveis que foram resumidas em apenas dois fatores, foi realizada
a análise de cluster com o objetivo de agrupar as AISP que possuem caracterı́sticas parecidas
com relação aos crimes selecionados para o estudo, a medida de similaridade utilizada foi a
distância Euclidiana, considerando o métodos Ward, que minimiza a variância entre os clusters
avaliados, como pode ser observado na Figura 11.

Figura 11: Matriz de distâncias euclidianas padronizadas

Fonte: Elaboração Própria utilizando o software de programação R e o pacote factoextra

Para encontrar o número ideal de grupos de AISP, foi aplicada o método hierárquico
(dendrograma) e a análise do screeplot, Figura 12, onde indicam que o número de clusters é
k = 2. Optamos por usar k = 4 para uma melhor divisão entre os grupos e para ter um resultado
mais consistente. Ao aplicarmos o método de Ward para encontrar 4 clusters encontramos os
clusters existentes no Dendrograma Circular da Figura 13. As cores dos ramos do Dendrograma
indicam os locais de corte entre os diferentes grupos. A cor preta, o primeiro ramo,mais ao
centro, especifica o local de corte apara 2 clusters, já as cores roxa, verde, azul e rosa indicam os
quatro clusters de divisão. Notamos nesta divisão que 3 AISP ficam isoladas no cluster roxo,
que o maior cluster é o verde oliva e os restantes tem mais ou menos o mesmo tamanho.

16
Figura 12: Screenplot para clusters.

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

Figura 13: Dendograma para o método de Ward, os números ao redor indicam o AISP. Neste
gráfico podemos ver a divisão dos clusters com clareza e com o auxilio da Tabela 1 podemos
localizar os Bairros mais similares(pela a definição de Ward). Vale lembrar que a cor dos
clusters neste gráfico não segue a mesma ordem da do gráfico na Figura 14

Fonte: Elaboração Própria Utilizando o Software R e o Pacote Circlize.

17
Em seguida, após a realização da Análise Fatorial sobre as variáveis e a análise de cluster
sob as unidades de investigação podemos colocar os dois resultado em um Heatmap para enten-
der melhor o contexto dos clusters. O Heatmap é nada mais do que uma matriz onde nas linhas
vão as unidades de investigação e nas colunas vão as variáveis estudadas. Para representar os
resultados na cédulas opta-se por utilizar um gradiente de cor ao invez do número. A princı́pio
este gradiente pode ser definido de qualquer forma, no nosso caso, padronizamos o valor das
cédulas para cada variável independentemente e, após isto, definimos os limites do gradiente de
cor como sendo o máximo e o minimo após esta padronização. As linhas e colunas do Heatmap
não tem uma organização prévia, podemos reordena-las de qualquer forma desde que não tro-
quemos uma cédula especifica por outra. Dito isso, o Heatmap permite que sejam exibidos os
dendrogramas (ramificações na horizontal, nas linhas) e a divisão dos fatores(ramificações nas
colunas). Segue então a Figura 14 com o Heatmap das variáveis x unidades de investigação.

Figura 14: Heatmap dos AISP(Linhas) em função das diferentes variáveis(Colunas), As rami-
ficações nas bordas do Heatmap são respectivamente a divisão de clusters dos AISP(Ramificação
nas Linhas) e a divisão de fatores(Ramificação nas Colunas). Vale lembrar que a cor dos
clusters neste gráfico não segue a mesma ordem da do gráfico na Figura 13

Fonte: Elaboração Própria Utilizando o Software R e o Pacote Heatpmaply.

18
Neste Heatmap temos um resultado muito interessantes, notamos que o cluster que possui
3 AISP é também representado pelas cédulas de máximo nas diferentes variáveis. Notamos
também que os clusters de tamanho mediano possuem estatı́sticas de crimes mais medianas e
por fim, o maior cluster parece ter os bairros mais “seguros”.
Em seguida, podemos verificar a Silhueta e os Clusters na Figura 15 para o método
de Ward e os clusters com o auxilio das funções do software R. Notamos que mesmo sem
ajustar a silhueta obtemos um bom resultado de Clusters. Repare que o cluster dos 3 membros
continua muito destacado com relação aos demais, confirmando o resultado do Heatmap deles
serem outlies com alta criminalidade. Já na Figura 16 temos o mesmo método mas com o
ajuste na silhueta, notamos um resultado um pouco melhor. Para finalizar a análise de método
hierárquico podemos fazer o radar plot das variáveis para cada cluster. A Figura 17 representa
isso.

Figura 15: Gráfico da silhueta e dos clusters obtidos pelo o Método de Ward sem ajuste).
Vale lembrar que as cores existentes nesta imagem não tem relação com outras
imagens do artigo

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

19
Figura 16: Gráfico da silhueta e dos clusters obtidos pelo o Método de Ward com ajuste).
Vale lembrar que as cores existentes nesta imagem não tem relação com outras
imagens do artigo

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

Figura 17: Gráfico de radar dos respectivos clusters feitos pelo o Método de Ward com silhueta
ajustada. Para cada cluster, a linha Vermelha representa o máximo de cada variável, a linha
Preta representa a média em cada variável, a linha Azul a mediana e a linha Verde o minimo
para cada cluster. Os números na lateral são os AISP existentes no Cluster.

Fonte: Elaboração Própria Utilizando o Software R e o Pacote fbsm.

20
5.3 Método K-means
Utilizando a análise de cluster com o K-means ( método não hierárquico, utilizamos o
pacote stats do R para fazer este método), foi definido de acordo com o método hierárquico 4
clusters. Observamos resultados muito parecidos com o método hierárquicos, como pode ser
visto nas Figuras 18 e 19. A semelhança é grande principalmente na imagem com a silhueta
ajustada.
Diferentemente do Ward, o K-means apresentou clusters praticamente desconexos entre
si mesmo sem a melhora na silhueta verificamos que a silhueta e os cluster bem definidos, sem
e com a padronização, sendo possı́vel verificar a qualidade das partições geradas. Portanto, foi
utilizado os dados não padronizados pois os resultados são satisfatórios.

Figura 18: Gráfico da silhueta e dos clusters obtidos pelo o Método de K-means sem ajuste).
Vale lembrar que as cores existentes nesta imagem não tem relação com outras
imagens do artigo

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

Figura 19: Gráfico da silhueta e dos clusters obtidos pelo o Método de K-means com ajuste).
Vale lembrar que as cores existentes nesta imagem não tem relação com outras
imagens do artigo

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

Na Tabela 6 pode-se observar as medidas descritivas dos fatores em cada cluster, utili-

21
zando o método de K-means. O cluster 1 possui a média do fator de roubos e do fator de crimes
violentos consideravelmente alto e o cluster 3 possui as menores médias nos dois fatores.

Tabela 6: AISP por cluster do K-means ajustado

Grupos AISP Média Fator Roubos Média Fator Crimes violentos


Cluster 1 7, 15 e 20 14.498, 3 3.854, 3
Cluster 2 3, 9, 12, 14, 10.352, 1 3.854, 5
16, 21, 39 e 41
Cluster 3 8, 18, 24, 25, 3.583, 3 2.839, 8
27, 32, 35 e 40
Cluster 4 2, 4, 5, 6, 10, 11, 4.414, 5 3.228, 8
17, 19, 22, 23, 26,
28, 29, 30, 31, 33,
34, 36, 37e 38
Fonte: Elaboração Própria Utilizando o Software R

Na Figura 20 , observa-se os crimes separadamente dentro de cada cluster do método


K-means. A análise mais detalhada dos clusters gerados será realizada depois após a definição
do método de agrupamento que será utilizada.

22
Figura 20: Gráfico de radar dos respectivos clusters feitos pelo o Método do K-means com
silhueta ajustada. Para cada cluster, a linha Vermelha representa o máximo de cada variável,
a linha Preta representa a média em cada variável, a linha Azul a mediana e a linha Verde o
minimo para cada cluster. Os números na lateral são os AISP existentes no Cluster.

Fonte: Elaboração Própria Utilizando o Software R e o Pacote fbsm.

5.4 Método C-means


Na análise utilizando o método c-means (Fuzzy) foi definido 4 agrupamentos, como pode
ser vistos na Tabela 7 e Figura 21, onde é possı́vel analisar a probabilidade de pertencimento
de cada AISP em relação aos clusters.

Tabela 7: Resultado do método Fuzzy C-means

AISP Cluster 1 Cluster 2 Cluster 3 Cluster 4 Alocação


2 0, 121873844 0, 027468196 0, 009107184 0, 841551 4
3 0, 013747738 0, 890184428 0, 06461756 0, 03145 2
4 0, 153795248 0, 040712897 0, 013766174 0, 791726 4
5 0, 133312357 0, 300397007 0, 068875126 0, 497416 4
6 0, 108442835 0, 170115741 0, 037890219 0, 683551 4
7 0, 027036825 0, 148783052 0, 780883544 0, 043297 3
8 0, 566177661 0, 024830539 0, 009781723 0, 39921 1

23
9 0, 002287478 0, 983771676 0, 008352133 0, 005589 2
10 0, 930012155 0, 009504848 0, 004466618 0, 056016 1
11 0, 952744048 0, 006230171 0, 00289914 0, 038127 1
12 0, 075059013 0, 590232296 0, 086165629 0, 248543 2
14 0, 005614603 0, 954776597 0, 026314526 0, 013294 2
15 0, 01257476 0, 147623443 0, 81635937 0, 023442 3
16 0, 095896264 0, 135361493 0, 030872245 0, 73787 4
17 0, 904987801 0, 009942316 0, 004243808 0, 080826 1
18 0, 134201812 0, 129346059 0, 038501273 0, 697951 4
19 0, 85336249 0, 014779026 0, 006229987 0, 125628 1
20 0, 01704125 0, 103827244 0, 850524368 0, 028607 3
21 0, 109939284 0, 246902749 0, 049336126 0, 593822 4
22 0, 138044303 0, 041389236 0, 013609701 0, 806957 4
23 0, 828613145 0, 016517171 0, 006883818 0, 147986 1
24 0, 179383236 0, 026353984 0, 009541303 0, 784721 4
25 0, 488882704 0, 044151219 0, 018238496 0, 448728 1
26 0, 964284727 0, 004592457 0, 002120749 0, 029002 1
27 0, 42488665 0, 056410126 0, 023479986 0, 495223 4
28 0, 974264698 0, 002929812 0, 00131273 0, 021493 1
29 0, 961048533 0, 005313493 0, 002479876 0, 031158 1
30 0, 962585707 0, 00504852 0, 002355062 0, 030011 1
31 0, 212346735 0, 022359826 0, 008138296 0, 757155 4
32 0, 454527697 0, 027877992 0, 010822014 0, 506772 4
33 0, 992827048 0, 000824852 0, 000366705 0, 005981 1
34 0, 827442042 0, 013116533 0, 005399609 0, 154042 1
35 0, 218936826 0, 026611634 0, 009505636 0, 744946 4
36 0, 922750841 0, 01102217 0, 005135029 0, 061092 1
37 0, 968346492 0, 004072866 0, 001852402 0, 025728 1
38 0, 944344359 0, 00773125 0, 003591303 0, 044333 1
39 0, 117574702 0, 090957961 0, 025055607 0, 766412 4
40 0, 105119712 0, 026772534 0, 009082067 0, 859026 4
41 0, 041240595 0, 655742094 0, 22004592 0, 082971 2
Fonte: Elaboração Própria Utilizando o Software R e o Pacote ppclust.

24
Figura 21: Heatmap dos AISP(Linhas) em função dos seus clusters de pertencimento(Colunas)
ditado por seu grau de pertencimento pelo o método do C-means, As ramificações nas bordas
do Heatmap são respectivamente a divisão de clusters dos AISP(Ramificação nas Linhas).

Fonte: Elaboração Própria Utilizando o Software R e o Pacote Heatpmaply.

Para validação do agrupamento foi realizado a silhueta para os dados não padronizados e
padronizados, Figuras 22 e 23. Como é possı́vel observar os resultados ficaram muito parecidos
com o método hierárquico e K-means (não hierárquico), no entanto, no método C-means (Fuzzy)
a qualidade das partições com a silhueta não padronizada não foi tão satisfatória em comparação
aos outros métodos já testados.

25
Figura 22: Gráfico da silhueta e dos clusters obtidos pelo o Método de C-means sem ajuste).
Vale lembrar que as cores existentes nesta imagem não tem relação com outras
imagens do artigo

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

Figura 23: Gráfico da silhueta e dos clusters obtidos pelo o Método de C-means com ajuste).
Vale lembrar que as cores existentes nesta imagem não tem relação com outras
imagens do artigo

Fonte: Elaboração Própria Utilizando o Software R e o Pacote ggplot2.

Na Figura 24 ,observando os crimes nos clusters formados pelo método de C-means(Fuzzy).


Onde a análise de forma detalhada será realizada após a decisão do método de agrupamento.

26
Figura 24: Gráfico de radar dos respectivos clusters feitos pelo o Método do C-means com
silhueta ajustada. Para cada cluster, a linha Vermelha representa o máximo de cada variável,
a linha Preta representa a média em cada variável, a linha Azul a mediana e a linha Verde o
minimo para cada cluster. Os números na lateral são os AISP existentes no Cluster.

Fonte: Elaboração Própria Utilizando o Software R e o Pacote fbsm.

6 Análises finais para os clusters do método K-means


Portanto, os resultados encontrados nos três métodos : Hierárquico, K-Means (Não
hierárquico)e C-Means (Não hierárquico) são muito parecidos mas não foram exatamente igual.
Diante de todos os testes e resultados encontrados o método de agrupamento que será utilizado
é o K-Means. Sendo assim, os clusters foram agrupados como mostra a tabela ().

27
Grupos AISP Principais Unidades Territoriaisz
Cluster 1 7,15 e 20 São Gonçalo, Duque de Caxias,
Nova Iguaçu, Mesquita e Nilópolis
Cluster 2 3,9,12,14,16,21, Méier, Cachambi, Todos os Santos, Abolição,
39 e 41 Piedade, Jacaré, São Francisco Xavier, En-
genho de Dentro, Água Santa, Del Castilho,
Maria da Graça, Tomais Coelho, Madureira,
Oswaldo Cruz, Cascadura, Quintino, Bento
Ribeiro, Marechal Hermes, Rocha Miranda,
Colégio, Honório Gurgel, Coelho Neto, Niterói,
Maricá, Deodoro, Bangu, Padre Miguel, Re-
alengo, Jardim Sulacap, Vila Militar, Penha,
Complexo do Alemão, São João de Meriti, Bel-
ford Roxo, Irajá, Vicente de Carvalho, Guada-
lupe, Anchieta e Pavuna 2
Cluster 3 8,18,24,25,27,32, Campo dos Goytacazes, Vila Valqueire, Praça
35 e 40 Seca, Tanque, Cidade de Deus, Curicica, Ta-
quara, Jacarepaguá, Freguesia, Pechincha, Ja-
peri, Queimados, Seropédica, Paciência, Santa
Cruz, Guaratiba, Sepetiba, Macaé, Rio das
Ostras, Tanguá, Itaboraı́, Rio Bonito, Campo
Grande, Cosmos e Santı́ssimo. 2
Cluster 4 2,4,5,6,10,11,17,19, Catete, Flamengo, Glória, Botafogo, Laranjei-
22,23,26,28,29, 30, ras, Humaitá, Urca, Copacabana, Leme, Roci-
31,33,34,36,37 e 38 nha, Ipanema, Leblon, Gávea, Jardim Botânico,
Lagoa, São Conrado, Vidigal, Cidade Nova, São
Cristóvão, Estácio, Maracanã, Tijuca, Alto da
Boa Vista, Andaraı́, Grajaú, Vila Isabel, Mi-
guel Pereira, Nova Friburgo, Cidade Univer-
sitária, Galeão, Bonsucesso, Manguinhos, Maré,
Ramos, Petrópolis, Volta Redonda, Bom Je-
sus de Itabapoana, Teresópolis, Barra da Ti-
juca, Itanhangá, Joá, Recreio dos Bandeirantes,
Grumari, Paraty, Mangaratiba, Magé, São Se-
bastião do Alto, Santo Antônio de Pádua, Ita-
tiaia, Paraı́ba do Sul e Três Rios 2
Fonte: Elaboração Própria.

2
Algumas unidades territoriais foram omitidas devido a quantidade, porém todas podem ser encontradas no
quadro 1 (identificação da AISP).

28
Para o primeiro cluster foram considerados 3 AISPs com uma representatividade de 7,7%
do total. No segundo e no terceiro cluster, foram alocados 8 AISPs, e finalmente no quarto
obteve 20 AISPs, que representa 51,3% do total.

Figura 25: Distribuição de AISP em cada cluster para o método K-Médias

Fonte: Elaboração Própria.

O cluster 1 agrupa as AISP com maiores taxas de criminalidade do Estado do Rio de


Janeiro, apresenta alta concentração de ‘outros roubos’, Roubo de veı́culos e lesão corporal
dolosa.

Figura 26: Média dos crimes no cluster 1

Fonte: Elaboração Própria.

29
Figura 27: Média dos crimes no cluster 1

Fonte: Elaboração Própria.

O cluster 2 possui a média de crimes mais baixa que o cluster 1, além disso, os crimes
que mais se destacam são: Outros roubos , roubo de veı́culos, lesão corporal dolosa e ameaças.

Figura 28: Média dos crimes no cluster 2

Fonte: Elaboração Própria.

30
Figura 29: Média dos crimes no cluster 2

Fonte: Elaboração Própria.

Figura 30: Média dos crimes no cluster 3

Fonte: Elaboração Própria.

31
Figura 31: Média dos crimes no cluster 3

Fonte: Elaboração Própria.

Figura 32: Média dos crimes no cluster 4

Fonte: Elaboração Própria.

32
Figura 33: Média dos crimes no cluster 4

Fonte: Elaboração Própria.

7 Conclusão
A necessidade de entender os problemas do Estado do Rio de Janeiro é crucial para
promover politicas de melhoria da qualidade de vida. Nos anos do século XX e XXI o Estado
do Rio de Janeiro foi palco de tristes histórias de violência e criminalidade, em particular, a
cidade do Rio de Janeiro é considerada por muitos um lugar perigoso demais de se morar.
Dito isso, trabalhos como este aqui ajudam a entender problemas sociais e propor medidas de
contensão. Vale lembrar que, a violência muitas vezes não tem origem nela mesmo, muitas
vezes é fruto de problemas secundários que acaba levando a pessoa a cometer crimes como
furto. Então, o diagnostico do crime é apenas um passo para promover uma real melhora
de vida. Infelizmente este trabalho não serve para compreender outros problemas sociais que
podem está diretamente relacionados com o aumento da criminalidade em uma determinada
região. Um estudo futuro sobre isto, considerando renda per capita média por região ou mesmo
nı́vel de escolaridade bem como acesso a outras Polı́ticas Publicas que facilitam a vida das
pessoas e desestimula a entrada na vida criminosa, pode considerar este trabalho para obter
uma compreensão melhor do crime.
As secções do relatório já são conclusivas por si só, então seremos breves na conclusão.
Primeiro, notamos que o modelo fatorial é muito viável para este problema, pois os fatores se
agruparam como esperávamos que deveria se agrupar. Roubos com Roubos e crimes contra a
vida com crimes contra vida. Tentamos adicionar mais variáveis no relatório mas não conse-
guimos, as variáveis que escolhemos pareceram não melhorar o resultado que já estava bom.
Com tudo, não utilizamos todas as variáveis existentes no banco de dados e, mais importante,
não fizemos um estudo de serie temporal extenso, para saber como os clusters ou os fatores

33
variam com passar dos anos. Talvez seja possı́vel identificar resultados interessantes que es-
tejam relacionados com atitudes do estado, aumento da inflação, etc... Por fim, não fizemos
analise discriminante pois quando quando concluı́mos o estudo notamos que ele já estava muito
extenso e, por limitações obvias de tempo, não foi possı́vel dedicar mais tempo neste trabalho.
Não fizemos análises pela os departamentos de polı́cias, apenas fizemos pelas AISP’s. Talvez
pelos departamentos tenha um resultado similar e bom, com mais refinamento pois o número
de departamentos é muito maior do que o número de AISP’s. Contudo, mesmo ainda exis-
tindo estes pontos não abordados no trabalho, tivemos ótimos resultados. Estes pontos não
abordados ficam como perspectivas futuras do trabalho.
O método de Ward apresentou um resultado de clusters muito similares ao resultado do
método de K-means. O leitor pode ver os clusters com a silhueta não ajustada para Ward
na Figura 15, nesta Figura notamos que existem 3 regiões que estão muito destacadas, em
comparação com as outras e formam um cluster único. Por outro lado existem 3 clusters que
são mais similares entre si e estão mais próximos. Existe até uma sobreposição mı́nima entre
2 deles. Na Figura 14 o leitor pode ver o dendrograma nas linhas, representando a divisão de
clusters por método de Ward daı́, por este Heatmap notamos que o cluster de 3 regiões é o mais
perigoso de todos, e os outros clusters são formados segundo um grau de ‘mais perigoso’ para
‘menos perigoso’.
A divisão por clusters considerando o método K-means que obtivemos foi muito inte-
ressante, como o leitor pode ver na Figura 20 cada existem caracterı́sticas intrı́nseca de cada
cluster feito pelo o método K-means. Na realidade a o maior motivo de escolhemos o K-means
foi porque ele se assemelhou muito com o resultado com o cluster ajustado mas, considerando
todos os métodos pós ajuste, eles possuem resultados parecidos. Voltando para a Figura 20
nela notamos que o maior cluster de todos possui diferenças muito pequenas entre o minimo e
o máximo interno em quase todas as variáveis (com exceção da variável roubos em coletivo).
Isso é ótimo pois, indica que dentro do cluster tem uma pequena variabilidade em quase todas
as variáveis, ou seja, as regiões são muito similares entre si. Esse efeito se reflete similar nos
outros 3 clusters também. Além disso, é de conhecimento popular que as regiões do cluster
mais violento são realmente violentas, logo, o resultado teórico confirmou um conhecimento
popular. Curiosamente este resultado para o K-means remete a Figura do Heatmap já des-
crita nesta conclusão, os clusters foram formados seguindo nı́veis de criminalidade, do menos
perigoso para o mais perigoso.
Olhando agora para problemas em C-means, na Figura 21, notamos que alguns dos in-
divı́duos que estão no quarto cluster possuem grau de pertencimento similar no primeiro cluster.
Isso acaba por se refletir no calculo da silhueta não ajustada para o C=means, Figura 22, pois
notamos que um dos clusters não fica com uma resultado bom, em quanto os outros clusters
ficam com um resultado satisfatório.
Por fim, na parte 6 do relatório notamos que a variável ‘outros roubos’ tem uma frequência
muito maior do que a das outras variáveis. Note que, assim como notado no gráfico de radar da

34
K-means, nestes gráficos em barra notamos diferença distintas com relação as variáveis em cada
cluster. É interessante notar que, em dois dos clusters, parece que os crimes de ‘ameaça’ e de
‘letalidade violenta’ estão correlacionados, pois quando um aumenta o outro também aumenta.

35
Referências
[Beavers et al., 2013] Beavers, A. S., Lounsbury, J. W., Richards, J. K., Huck, S. W., Skolits,
G. J., and Esquivel, S. L. (2013). Practical considerations for using exploratory factor analysis
in educational research. Practical assessment, research & evaluation, 18.

[dos Santos, 2011] dos Santos, Marcelo Justus e dos Santos Filho, J. I. (2011). Convergência
das taxas de crimes no território brasileiro. Revista Economia.

[Hair Jr, 2009] Hair Jr, J. F. (2009). Multivariate Data Analysis Joseph F. Hair Jr. William
C. Black Barry J. Babin Rolph E. Anderson Seventh Edition, volume 7. Prentice Hall.

[Mingoti, 2005] Mingoti, S. A. (2005). Análise de dados através de métodos de estatı́stica


multivariada: uma abordagem aplicada. Editora UFMG.

[Pekny, 2017] Pekny, Ana Carolina e de Mattos Ricardo, C. (2017). Mapeamento dos principais
desafios de violência e criminalidade no brasil - 2017. Fundação Friedrich Ebert públicação
no site da ONG Soudapaz.

36

Você também pode gostar