Predição Dos Crimes de Violência de Gênero Com Algoritmos de Aprendizagem de Máquina

143
Predição dos crimes de violência de gênero com

algoritmos de aprendizagem de máquina
Prediction of gender-based crimes with

machine learning algorithms
o
çã
Samuel M. Brasil Jr.
la
Doutor e Mestre em Direito Processual pela USP. Mestre em Ciência da Computação pela UFES.
Professor Associado da Harvard University. Professor do LL.M. na Goethe Universität-Frankfurt.
u
ic
Professor e Coordenador Acadêmico do Mestrado Profissional da ENFAM. Desembargador do TJES.
smbrasil@tjes.jus.br
ve
a Flávio M. Varejão
a
Doutor e Mestre em Ciência da Computação pela PUC-RJ. Professor titular da UFES.
id
flavio.varejao@ufes.br
b
oi
Á
pr
reas do Direito: Penal; Digital

R A
–
esumo: A modelagem preditiva dos crimes de bstract: Predictive modeling of gender-based

o
violência de gênero exige cuidadosa seleção dos crimes requires careful selection of risk fac-
iv
fatores de risco, criteriosa construção do banco tors, meticulous construction of the dataset,
us
de dados e escolha dos algoritmos mais eficientes. and choosing the most efficient algorithms. The
Os algoritmos foram treinados com casos reais de classifiers were trained with real cases of gen-
cl
crimes de violência de gênero, com dados coleta- der-based crimes, with data collected and labeled
ex
dos e rotulados entre 2019 e 2021. Os resultados between 2019 and 2021. The results showed that
demonstraram que os modelos não necessitam the models do not require synthetic oversampling
so
de sobreamostragem sintética para produzir re- to produce results consistent with the expecta-
sultados consistentes com as expectativas da de- tions of judicial decision-making. The models
U
cisão judicial. Os modelos foram otimizados para were optimized to minimize prediction errors, and
minimizar erros de predição e a média harmônica the harmonic mean between precision and sensi-
entre precisão e sensibilidade produziu resultados tivity (recall) yielded excellent results. The findings
excelentes. Conclui-se que a modelagem preditiva showed that predictive modeling should (i) min-
deve (i) minimizar ao máximo os falso-negativos; imize false negatives as much as possible; and
e (ii) somente ser usada como camada de seguran- (ii) only be used as a security layer after Court de-
ça após a decisão judicial, para reduzir os riscos de cision draft, to reduce the risks of cognitive biases.
vieses cognitivos.
Palavras-chave: Crimes de gênero – Aprendizado Keywords: Gender-based Crimes – Predictive
de máquina – Modelagem preditiva. Modeling – Machine Learning Algorithms.
Brasil Jr., Samuel M.; Varejão, Flávio M.. Predição dos crimes de violência de
gênero com algoritmos de aprendizagem de máquina.
Revista dos Tribunais. vol. 1058. ano 112. p. 143-163. São Paulo: Ed. RT, dezembro 2023.
144 Revista dos Tribunais • RT 1058 • Dezembro de 2023
Sumário: 1. Introdução. 1.1. Fatores de risco do comportamento criminoso. 1.2. Fatores de risco
dos crimes de violência de gênero. 2. Material e banco de dados. 3. Metodologia. 4. Resultados
e discussão. 4.1. O custo das predições incorretas. 4.2. Viés cognitivo de confiança excessiva
na tecnologia. 5. Trabalhos relacionados. 6. Considerações finais. 7. Referências. 8. Legislação.
1. Introdução
A modelagem do comportamento criminoso apresenta inúmeros desafios em todas as
suas fases. Desde a (i) seleção do crime a ser modelado, (ii) a seleção dos atributos relevan-
o
tes para a correta identificação do crime, (iii) a extração das informações para a construção
çã
do banco de dados, e (iv) o nexo entre as causas mais prováveis (variáveis independentes) e
la
os respectivos efeitos por elas produzidos (variáveis dependentes). Além desses elementos,
u
há ainda (v) os fatores de risco específicos da conduta e (vi) a importância de cada fator de
ic
risco para a obtenção do resultado delituoso. Após a construção do protocolo de modela-
ve
gem do comportamento criminoso e o respectivo tratamento dos dados, inicia-se a etapa de
(vii) escolha do algoritmo, (viii) treinamento do classificador, (ix) verificação das métricas
a
e (x) análise qualitativa do resultado. Todo o processo deve ser cuidadosamente planejado,
pois mesmo um classificador com desempenho expressivo pode aumentar os riscos para as
a
vítimas sempre que fatores de risco relevantes não forem considerados pelo modelo. E esse
id
risco é extremamente perigoso, principalmente nos crimes de violência de gênero.

b
oi
Modelos preditivos com algoritmos de aprendizado de máquina têm expressivo poten-

cial para modelar as situações de risco envolvendo violência doméstica.1 Para realizar essa
pr
tarefa, o modelo deve utilizar fatores de risco relevantes que prevejam corretamente a pro-
–
babilidade de o crime ser cometido. Dessa forma, avaliar a modelagem preditiva do compor-
tamento criminoso requer uma análise que vai além da mera avaliação do desempenho dos
o
iv
modelos preditivos, ainda que estes produzam resultados significativos.

us
A presente pesquisa tem como objetivo avaliar o desempenho dos modelos de aprendi-
zado de máquina na classificação binária dos crimes de violência de gênero usando quatro
cl
algoritmos que refletem o estado-da-arte: Redes Neurais artificiais do tipo Multi-layer Per-
ex
ceptron (MLP), Support Vector Machine (SVM), Floresta Aleatória (RF) e eXtreme Gradient
Boost (XGBoost). O desempenho dos modelos será avaliado usando acurácia, precisão,
so
U
1. Nesse sentido: WALCZAK, Steven. Predicting Crime and Other Uses of Neural Networks in Police Deci-
sion Making. Frontiers in Psychology, v. 12, 2021; DAKALBAB, Fatima et al. Artificial intelligence and cri-
me prediction: A systematic literature review. Social Sciences and Humanities Open, v. 6, n. 1, p. 100342,
2022. CHUN, Soon Ae et al. Crime Prediction Model Using Deep Neural Networks. Proceedings of the 20th
Annual International Conference on Digital Government Research. New York, NY, USA: Association for
Computing Machinery, p. 512-514. 2019. KWON, Eunseo; JUNG, Sungwon; LEE, Jaewook. Artificial Neu-
ral Network Model Development to Predict Theft Types in Consideration of Environmental Factors. ISPRS
International Journal of Geo-Information, v. 10, n. 2, 2021. STALIDIS, Panagiotis; SEMERTZIDIS, Theo-
doros; DARAS, Petros. Examining Deep Learning Architectures for Crime Classification and Prediction.
arXiv, 2018.
Penal 145
sensibilidade (recall), especificidade, AUC-ROC, F1 Score, taxa de falso-positivos (FPR) e

taxa de falso-negativos (FNR). Os modelos utilizaram os fatores de risco que foram selecio-
nados por um grupo de trabalho de notáveis juristas e servidores do Conselho Nacional de
Justiça e Conselho Nacional do Ministério Público.
Embora os modelos treinados em nosso experimento tenham apresentado resultados
expressivos, o experimento não foi utilizado como ferramenta para produzir decisões ju-
diciais de medidas protetivas de urgência. Os modelos foram desenvolvidos apenas para
alertar o Juiz sobre eventual fator de risco que não tenha sido considerado em sua decisão.
Na verdade, um modelo de aprendizagem de máquina pode ser bastante útil para auxiliar
os juízes a decidirem sobre a necessidade de concessão de medidas protetivas de urgência
o
çã
(MPU), conforme se pode observar no expressivo resultado obtido nesta investigação. No
entanto, limitamos nosso experimento à avaliação do desempenho dos modelos e à utiliza-
la
ção da ferramenta apenas como uma camada de segurança após a decisão do respectivo juiz,
u
para evitar eventual viés cognitivo de confiança excessiva na tecnologia, conforme veremos
ic
na discussão dos resultados da pesquisa.
ve
Esperamos que os resultados desta investigação possam fortalecer as políticas públicas
e o ativismo da sociedade civil para combater crimes tão abjetos como os de violência de
gênero. a
a
id
1.1. Fatores de risco do comportamento criminoso

b
oi
Em nosso experimento, não utilizamos as elementares do tipo penal para modelar a

pr
conduta delituosa, pois elas não têm a mesma eficácia para a predição da conduta do agente,
conforme encontramos nos fatores de risco. As elementares do tipo são os elementos essen-
–
ciais de uma conduta criminosa, conforme tipificado em lei. São os fatores necessários para a
o
caracterização de um crime. A ausência das elementares do tipo pode gerar uma atipicidade
iv
absoluta ou relativa e a conduta, ainda que reprovável, não será considerada crime. Apesar
us
de sua relevância no Direito Penal, as elementares são fatores específicos que determinam se
um crime foi ou não cometido, mas não são fatores que contribuem para a avaliação do risco
cl
de eventual conduta delituosa ser perpetrada.

ex
Os fatores de risco, por outro lado, são circunstâncias que aumentam a probabilidade de
a conduta delituosa ser cometida. Não são determinantes para a ocorrência de um crime; no
so
entanto, são as informações mais adequadas para projetar a probabilidade de eventual cri-
me vir a ser cometido.
U
Normalmente, os fatores de risco baseiam-se em atributos do aspecto cultural, jurídico,

econômico e político,2 a partir dos níveis psicológico, comportamental e biológico,3 que pos-
sam ser correlacionados com resultados negativos e representem risco para a vítima.
2. COUNCIL OF EUROPE. Gender identity, gender-based violence and human rights, 2022.
3. RODGERS, Justin et al. The relative contributions of behavioral, biological, and psychological risk factors in
the association between psychosocial stress and all- cause mortality among middle- and older-aged adults
in the USA. GeroScience, v. 43, n. 2, p. 655-672, 2021.
Nessa perspectiva, os fatores de risco são circunstâncias ou condições que aumentam a

probabilidade de o crime vir a ser cometido, mas não são necessariamente a causa subjacen-
te do comportamento criminoso, nem são as elementares do tipo penal. Exemplos de fatores
de risco são pobreza, instabilidade familiar, exposição à violência, dentre inúmeros outros.
Deve ser destacado que os fatores de risco não são necessariamente condições suficientes
para causar o comportamento criminoso, mas podem contribuir para aumentar a probabi-
lidade de o crime ser cometido.
A avaliação de modelos de aprendizado de máquina (machine learning) na classificação
binária de crimes baseados no gênero pode fornecer informações valiosas sobre os fatores
que contribuem para a prática desses crimes e pode sugerir ações relevantes para o desen-
o
çã
volvimento de políticas públicas e estratégias de prevenção. Assim, os resultados da presente
investigação podem contribuir tanto para o avanço da compreensão do comportamento dos
la
agressores, nos crimes de violência de gênero, quanto para orientar a elaboração de políticas
u
públicas com intervenções eficazes para prevenir crimes dessa natureza.
ic
Diferentes fatores de risco podem impactar a previsão do comportamento criminoso de
ve
diferentes formas. Devido à natureza específica de cada tipo penal, os fatores de risco de uma
espécie de crime podem influenciar de modo diferente a conduta delituosa de outro tipo pe-
a
nal. Por esse motivo, o nosso experimento limitou-se a um tipo específico de crime, a saber,
a
os crimes de violência de gênero. No entanto, o nosso experimento pode ser reproduzido em
id
diferentes tipos penais, bastando o ajuste adequado dos preditores de risco.

b
oi
1.2. Fatores de risco dos crimes de violência de gênero

pr
Conforme mencionamos anteriormente, nossa pesquisa foi conduzida de modo a per-

–
mitir a modelagem de diferentes condutas delituosas. No entanto, limitamos o nosso expe-

o
rimento a um tipo específico de crime, a saber, a violência de gênero.

iv
Optamos por utilizar os fatores de risco específicos da violência de gênero para testar o
us
desempenho dos classificadores, por dois motivos: (i) os dados coletados são fatores de ris-
co oficiais, extraídos do formulário de avaliação de risco do Conselho Nacional de Justiça e
cl
do Ministério Público, que foi idealizado após estudo aprofundado elaborado por uma co-
ex
missão mista; (ii) como os crimes decorrentes da violência de gênero são muito sensíveis e a
situação de vulnerabilidade das vítimas é muito elevada, o modelo exigirá uma análise cui-
so
dadosa por parte dos pesquisadores. Isso porque, mesmo que o desempenho do algoritmo
U
tenha elevadas precisão e acurácia, ainda assim a possibilidade de existência de risco às ví-
timas decorrente do erro de classificação impediria a utilização de ferramentas preditivas,
na forma da Resolução 332 do CNJ. A alta sensibilidade que um modelo desse jaez deve ter,
exige um cuidado muito grande por parte de qualquer pesquisador. Portanto, o experimento
deve ir – e foi – muito além da mera verificação do desempenho dos classificadores. O trade-
-off entre o desempenho do modelo e a proteção das vítimas será discutido na apresentação
dos resultados do experimento.
No que diz respeito aos preditores relacionados aos crimes de violência de gênero, o Con-
selho da Europa identifica quatro tipos: (i) culturais; (ii) legais; (iii) econômicos; e (iv) polí-
ticos. Não identificamos banco de dados específico com a estrutura descrita pelo Conselho
Penal 147
da Europa, para comparar o desempenho com o de nosso experimento. Contudo, os fatores

mencionados pelo Conselho da Europa encontram-se distribuídos no formulário da Me-
dida Protetiva de Urgência (MPU) do Conselho Nacional de Justiça e do Conselho Nacio-
nal do Ministério Público, ainda que não tenha utilizado explicitamente a mesma estrutura.
Por ter sido usado nesta pesquisa, é conveniente explicar brevemente a estrutura do formu-
lário de risco e a coleta de dados usados no treinamento dos modelos.
O formulário de risco está dividido em duas partes. A primeira é composta por um cam-
po de identificação e quatro blocos de perguntas, que são preenchidas ou respondidas pelas
próprias vítimas. A segunda parte contém a avaliação feita por uma psicóloga das declara-
ções prestadas pelas vítimas.
o
çã
Os quatro blocos de perguntas da Parte I consistem na Identificação com doze perguntas
sobre a jurisdição do Tribunal e sobre dados demográficos da vítima e do infrator (e.g. idade
la
da vítima e do agressor, nível de escolaridade), bem como alguns fatores de risco específi-
u
cos. O Bloco I contém sete questões sobre o histórico de violência do agressor em situações
ic
anteriores, como ameaças, agressões passadas etc. O Bloco II busca informações sobre o
ve
agressor e contém sete questões sobre seu comportamento habitual, como abuso de álcool,
uso de drogas, histórico de doença mental, dificuldades financeiras etc. O Bloco III contém
a
onze perguntas sobre a vítima e contém perguntas sobre filhos, separação recente etc., com
a
quatro perguntas expandindo as anteriores, caso as respectivas respostas sejam positivas. O
id
último, Bloco IV, contém outras informações relevantes, com três questões sobre circuns-
b
tâncias relacionadas à violência, como local de residência, dependência financeira da vítima

oi
e se necessita de abrigo temporário. No total, são quarenta fatores de risco decorrentes de

pr
perguntas respondidas pelas próprias vítimas. A Parte II contém oito questões em texto sim-
ples, que são respondidas por profissional capacitado (psicólogo) e não se referem a fatores
–
que possam representar risco às vítimas. Consiste na percepção de um profissional (psicó-

o
logo) sobre a notitia criminis feita pela vítima. Por não tratar de fatores de risco, a Parte II do
iv
Formulário CNJ/CNMP não foi utilizada no treinamento dos modelos.

us
2. Material e banco de dados

cl
ex
Os dados foram coletados de medidas protetivas de urgência reais, apresentadas em va-

ras especializadas de violência doméstica. Os dados foram coletados em um banco de dados
so
rotulado com matrizes (D, L), em que D é um conjunto de m vetores em Rn, organizados co-
mo uma matriz m x n, com m representando o número de pontos de dados e n representando
U
a dimensão do espaço euclidiano subjacente. O conjunto de rótulos L é uma matriz m x 1, que

contém os rótulos vetorizados correspondentes a D. Dessa forma, o dataset é um conjunto
típico de dados contendo 40 atributos considerados como fatores de risco, relacionados ao
respectivo rótulo binário.
O conjunto de dados é formado com informações coletadas do mencionado formulário
de risco do CNJ/CNMP, conforme descrito na seção anterior. Contudo, também foram cole-
tadas outras duas informações, que não constam do formulário de risco: (i) a decisão judicial
informando se a MPU foi concedida ou não; e (ii) qual o tipo de medida foi concedida. Em-
bora tenhamos coletado dados também do segundo rótulo – tipo de medida concedida –,
limitamos o experimento apenas ao primeiro rótulo, ou seja, se a liminar foi concedida ou

não. Em trabalho futuro, investigaremos (i) a correlação entre o tipo de medida protetiva
concedida com os respectivos fatores de risco; (ii) quais fatores de risco são mais relevantes
para o tipo de medida concedida.
O conjunto de dados possui originariamente 56 colunas e 3.489 instâncias. Colunas des-
necessárias foram eliminadas por não representarem instâncias dos fatores de risco. Assim,
foram eliminadas colunas referentes ao índice, hashtag, subtítulo do evento, vara que con-
cedeu a MPU etc. Os dados foram anonimizados, com a exclusão dos nomes das vítimas e
dos agressores, e cuidados foram tomados para evitar identificação por proxy. A Tabela 1
o
mostra algumas variáveis independentes do banco de dados e as respectivas propriedades
çã
das variáveis.
la
Tabela 1. Estrutura do banco de dados com os preditores de risco
u
Variável Descrição Tipo
ic
ve
agr-arma-fogo O agressor tem acesso a arma de fogo Boolean
agr-alcool-dorgas O agressor usa álcool ou drogas a Boolean
a
agr-desempregado O agressor está desempregado Boolean
id
vit-separacao A vítima separou-se recentemente do agressor Boolean

b
oi
vit-dependencia A vítima é economicamente dependente do agressor Boolean

pr
... ... ...

–
rótulo Medida Protetiva concedida Boolean

o
Fonte: elaborado pelo autor (2023).

iv
us
Há um número significativamente maior de medidas protetivas concedidas do que ne-

gadas. Isso é consistente com os registros de casos nas delegacias de polícia ou nas varas es-
cl
pecializadas, uma vez que normalmente a procura por proteção é feita pelas vítimas que
ex
sofreram ou se sentem na iminência de sofrer qualquer espécie de violência. Como não há

registro daqueles que não foram ameaçados (não faria sentido manter registro de todas as
so
pessoas que não sofreram violência) ou de quem não se encontra em risco, é natural esperar
que a maior demanda por medidas protetivas seja de potenciais vítimas que se sentem amea-
U
çadas e que, nesse caso, a probabilidade de concessão da proteção seja maior. Desse modo,
como quem registra a ocorrência são apenas as potenciais vítimas que se encontram em vias
de sofrer violência, é natural que haja um número maior de concessão de medidas protetivas.
Isso foi devidamente constatado no banco de dados, pois, das 3.489 comunicações criminais
registradas no período de três anos, houve 88,05% de medidas protetivas concedidas (resul-
tado positivo) e apenas 11,95% de medidas negadas (resultado negativo).
No entanto, embora esses dados sejam consistentes com os registros policiais e a expec-
tativa natural dos sistemas de justiça, o resultado da modelagem poderia sofrer variações in-
devidas com o desbalanceamento dos dados de concessão e de não concessão das medidas
Penal 149
protetivas. Para verificar se esse problema efetivamente ocorreu, utilizamos sobreamostra-

gem para resolver o problema do desbalanceamento dos dados, gerando aleatoriamente
os registros de treinamento e aumentando a classe minoritária com a Técnica de Sobrea-
mostragem Minoritária Sintética (SMOTE) para equilibrar a distribuição das classes, e tes-
tamos o desempenho dos algoritmos tanto com os dados desbalanceados, quanto com os
dados balanceados.
3. Metodologia
Os modelos foram treinados com quatro classificadores de aprendizagem supervisio-
o
nada, diante da disponibilidade de rótulos com instâncias verdadeiras. Os dados estão re-
çã
presentados nos conjuntos D = {(xi)}i∈[|D|] e L = {(yi)}i∈[|L|], em que xi é um vetor de entrada da
la
i-ésima instância e yi o respectivo rótulo da i-ésima instância.
u
Usamos quatro classificadores, a saber: Multi-Layer Perceptron Neural Network
ic
(MLP),4 Support Vector Machine (SVM),5 Random Forest (RF),6 e Extreme Gradient Boos-
ve
ting (XGBoost).7 Usamos Grid Search, para ajustar os hiperparâmetros de cada modelo, es-
colhendo o melhor conjunto de combinação dos hiperparâmetros.
a
Para tornar a avaliação mais confiável, usamos validação cruzada aninhada (nested cross
validation). O loop interno usa validação cruzada K-fold para ajuste dos hiperparâmetros e
a
id
o loop externo estima o erro de previsão. Este processo é mais robusto do que dividir os da-
dos em conjuntos de treinamento e de teste uma única vez. O K-Fold estratificado externo
b
garante que cada dobra tenha a mesma proporção de observações com um determinado ró-
oi
tulo para todos os dados. Por fim, fizemos uma comparação do desempenho dos modelos
pr
com e sem sobreamostragem dos dados de treinamento com SMOTE, para comparar o de-
sempenho dos classificadores.
–
o
4. Resultados e discussão
iv
us
Os resultados demonstraram que a classificação não apresentou diferença significativa

cl
entre modelos treinados com classes balanceadas e desbalanceadas, exceto para algumas si-
tuações específicas. O desempenho do modelo produz resultados expressivos e consisten-
ex
tes com intuições e expectativas de decisões judiciais, mesmo quando treinado com classes
desequilibradas.
so
U
4. ROSENBLATT, Frank. The perceptron: A probabilistic model for information storage and organization in
the brain. Psychological Review, v. 65, n. 6, p. 386- 408, 1958; PENG, Zhao. Multilayer Perceptron Algebra.
arXiv. 2017.
5. CORTES, Corinna; VAPNIK, Vladimir. Support-vector Networks. Machine Learning, v. 20, n. 1, p. 273-297,
1995.
6. BREIMAN, Leo. Random Forests. Machine Learning, v. 45, n.1, p. 5-32. 2001; BIAU, Gérard; SCORNET,
Erwan. A Random Forest Guided Tour. TEST, v. 25, n. 2. p. 197-227, 2016.
7. CHEN, Tianqi; GUESTRIN, Carlos. XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd
ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD 16. New York, NY,
USA: Association for Computing Machinery, p. 785-794. 2016.
Tabela 2. Comparação do resultado dos experimentos

MLP SVM RF XGBoost
Métricas
Desbal. Bal. Desbal. Bal. Desbal. Bal. Desbal. Bal.
Acurácia 0.8804 0.8351 0.8781 0.8455 0.8819 0.8733 0.8793 0.8629
Precisão 0.8809 0.9004 0.8838 0.9048 0.8832 0.8925 0.8879 0.8966
Sensibilidade 0.9993 0.9140 0.9921 0.9215 0.9977 0.9733 0.9876 0.9544
o
çã
Especificidade 0.0047 0.2541 0.0383 0.2853 0.0287 0.1366 0.0815 0.1894
la
F1-score 0.9364 0.9070 0.9348 0.9130 0.9370 0.9311 0.9351 0.9246
u
ic
AUC-ROC 0.7238 0.6715 0.6747 0.6768 0.7178 0.6989 0.7266 0.7028
ve
FPR 0.9952 0.7458 0.9616 0.7146 0.9712 0.8633 0.9184 0.8105
FNR 0.0006 0.0859 0.0078 0.0784 a 0.0022 0.0266 0.0123 0.0455

a
Fonte: elaborado pelo autor (2023).
b id
A Tabela 2 mostra as métricas de desempenho para todos os classificadores (MLP, SVM,

oi
RF e XGBoost), treinados com e sem sobreamostragem do conjunto de treinamento, ou se-

pr
ja, com classes balanceadas e desbalanceadas. Usamos métricas comuns para problemas de
classificação, como acurácia, precisão, sensibilidade, especificidade, F-1 Score, AUC-ROC.
–
Verificamos também a taxa de falsos positivos e a taxa de falsos negativos, uma vez que são
o
importantes para modelar o comportamento delituoso, como discutiremos nesta seção.

iv
A acurácia informa com que frequência o modelo faz classificações corretas. Na avalia-
us
ção de risco do comportamento criminoso, a acurácia significa que a situação foi correta-
cl
mente classificada como risco real para as vítimas. Normalmente, uma acurácia superior a
ex
0,7 é considerada como desempenho bom ou aceitável, e quando for superior a 0,85 é con-
siderado desempenho ótimo. A acurácia entre 0,7 e 0,9 é considerada realista e consisten-
so
te com os padrões profissionais. Assim, o desempenho de 0,88 dos modelos RF e MLP são
considerados ótimos e consistentes com as expectativas dos sistemas de justiça. O mode-
U
lo com melhor acurácia foi o RF treinado com dados desbalanceados, com resultado de
0,8819, quase indistinguível do segundo classificador, o MLP, que obteve 0,8804. O tercei-
ro classificador com melhor acurácia foi o XGBoost treinado também com dados desba-
lanceados (0,8793). Desse modo, tanto o modelo RF quanto o MLP produziram excelentes
desempenhos, com acurácia na casa de 0,88. Isso significa que os modelos têm 88% de possi-
bilidade de fazer uma previsão correta, no sentido de que a medida protetiva será concedida
para proteger quem se encontra em situação de risco.
A precisão mede o número de pontos classificados corretamente como verdadeiro-po-
sitivos (TP/TP+FP). Na avaliação do risco da conduta delituosa, a precisão significa que o
Penal 151
modelo classificou corretamente uma situação como um risco real para as vítimas, dado o
maior número de verdadeiro-positivos ou o menor número de falso-positivos. Assim, na
avaliação de risco de comportamento criminoso, um modelo com alta precisão classifica
corretamente uma instância como um risco real e não classifica erroneamente uma situação
que não apresenta risco, como se houvesse risco. É preciso atentar que um método de sele-
ção com muitos ruídos pode levar a um modelo sem precisão, com um número maior de fal-
so-positivos. O modelo com melhor precisão foi o SVM, atingindo 0,9048, seguido de perto
pelo MLP com 0,9004 quando ambos foram treinados com dados balanceados. O desempe-
nho de ambos os classificadores melhorou com o balanceamento dos dados devido ao maior
o
equilíbrio entre o número de falso-positivos e verdadeiro-positivos, produzido pela sobrea-
çã
mostragem sintética. Contudo, o desempenho dos modelos treinados com dados desbalan-
ceados ainda foi extremamente significativo, atingindo 0,8838 e 0,8809, respectivamente,
la
apresentando uma diferença de apenas 0,02 pontos percentuais.
u
Em seguida, analisamos a sensibilidade (recall) dos modelos. Em nossa percepção, a sen-
ic
sibilidade é uma das métricas mais importantes para medir a probabilidade de risco em cri-
ve
mes de violência de gênero. Ela mede quantos pontos verdadeiramente positivos o modelo
prevê corretamente, considerando ainda a quantidade de falso-negativos (TP/TP+FN). As-
a
sim, se não for possível prever o número correto de verdadeiro-positivos, em razão do au-
a
mento do número de falso-negativos, o modelo deixará as vítimas desprotegidas. Portanto,
id
quanto maior for a sensibilidade, menor será o erro decorrente de falso-negativos e maior
b
será a proteção das vítimas. A Figura 1 mostra a curva Precisão-Sensibilidade para todos os
oi
algoritmos testados, tanto com dados balanceados, quanto desbalanceados.

pr
Figura 1. Curva Precisão-Sensibilidade (Recall)

–
o
iv
us
cl
ex
so
U
Fonte: elaborada pelo autor.

A melhor sensibilidade foi do modelo MLP treinado com dados desbalanceados, atin-
gindo impressionantes 0,9993, seguido muito de perto por floresta aleatória (0,9977) e
SVM (0,9921), ambos também treinados com classes desbalanceadas. Isso significa que o
desempenho extraordinário do MLP pode prever quase a totalidade das situações de risco
dos possíveis crimes de violência de gênero, com número desprezível de falso-negativos.
A especificidade mede o número de pontos verdadeiramente negativos (TN/TN+FP),
ou seja, as situações em que as vítimas efetivamente não correm risco de violência. Isso sig-
nifica que o modelo irá prever corretamente os casos classificados como de baixo risco.
Quanto maior a especificidade de um modelo, menos frequentemente ele encontrará in-
corretamente um resultado que não deveria ser considerado correto. Um número maior de
falso-positivos pode diminuir a especificidade. Quando se trata de medidas protetivas
de urgência, a especificidade não é uma métrica muito importante. Afinal, as varas de vio-
o
lência doméstica não estão muito preocupadas se a medida protetiva irá proteger quem não
çã
esteja em risco (falso-positivos). O que as varas especializadas estão realmente preocupadas
é em prevenir e evitar a violência, aumentando o número correto de medidas protetivas ne-
la
cessárias (verdadeiro-positivos) e diminuindo o número de previsão incorreta (falso-nega-
u
tivos). Assim, no trade-off entre falso-positivos e falso-negativos, é preferível aceitar número
ic
maior de falso-positivos e tentar eliminar a quantidade de falso-negativos. O número de fal-
ve
so-positivos pode afetar diretamente a especificidade do modelo. Conforme mencionamos,
isso é de certa forma esperado em medidas protetivas, usualmente decididas com evidên-
a
cias frágeis, sem um conjunto robusto de provas e sem contraditório. Conforme vimos no
a
dataset, a quantidade de medidas protetivas concedidas é naturalmente superior à das que
id
são denegadas. Isso não é nenhuma surpresa porque – na linha que mencionamos anterior-
b
mente –, quando as possíveis vítimas requerem medida protetiva, geralmente elas se sentem
oi
ameaçadas. E uma vez que a proteção das vítimas é um imperativo, as varas especializadas
pr
geralmente concedem as medidas protetivas, ainda que haja apenas frágeis indícios de risco.
Isso pode acarretar um elevado número de falso-positivos, a ponto de diminuir a especifi-
–
cidade do modelo, por causa do impacto do número de falso-positivos sobre a quantidade

o
de verdadeiro-negativos. Por essa razão, os modelos não tiveram um bom desempenho em

iv
especificidade. O melhor foi do SVM com dados balanceados, que atingiu 0,2853, e o pior
us
foi do MLP com dados desbalanceados (0,0047). Mas, mais uma vez, a especificidade não é
cl
a métrica mais importante para prevenir crimes de violência de gênero. Poderá ser impor-
ex
tante na avaliação de provas para decisões definitivas, mas não será para avaliação de risco
na concessão de medidas protetivas de urgência. Portanto, o desempenho inexpressivo dos
so
modelos nessa métrica não é relevante.

Por sua vez, a F1-score é a média harmônica entre precisão e sensibilidade (recall) e in-
U
dica o equilíbrio dos modelos em classificar corretamente os pontos positivos, sejam corre-
lacionados com os falso-negativos (sensibilidade), sejam com os falso-positivos (precisão).
Ao prever a conduta criminosa, um F1-score mais elevado irá prever corretamente quando
as possíveis vítimas estarão realmente em risco, com menor erro nas situações em que elas
não estejam em risco.
Os modelos tiveram um desempenho expressivo na F1-score (Figura 2). O melhor de-
sempenho foi da RF com 0,9370, quase indistinguível da MLP com 0,9364, produzindo a
média harmônica na previsão dos casos em que haverá maior risco às vítimas, com menor
erro de predição das situações em que não haverá risco (falso-negativos).
Penal 153
Figura 2. F1 Score
o
çã
u la
ic

ve

A curva AUC-ROC é usada para dizer o quanto um modelo é capaz de distinguir entre
a
pontos verdadeiros ou falsos, sejam positivos ou negativos. Na previsão do comportamento
a
criminoso, quanto maior for a AUC-ROC, melhor será o modelo na distinção entre vítimas
id
em risco (positivo) e aquelas que não estão em risco (negativo). A pontuação será próxi-
b
ma de 1 quando o modelo conseguir diferenciar bem tanto as situações em que exista risco,
oi
quanto aquelas em que não há risco. E será próximo de 0,5 quando o modelo não conseguir
pr
diferenciar entre vítimas que estejam ou não em risco. Normalmente, uma AUC-ROC en-
tre 0,7 e 0,8 é considerada aceitável, 0,8 e 0,9 é considerada ótima e mais de 0,9 é excelente.
–
Figura 3. Curva AUC-ROC

o
iv
us
cl
ex
so
U

Em nosso experimento, o modelo com melhor AUC-ROC foi o XGBoost com 0,7266,
também quase indistinguível do MLP (0,7238), ambos treinados com o conjunto de dados
desbalanceados. A Figura 3 mostra a AUC-ROC para classes balanceadas e desbalanceadas.

Embora não seja tão alto, o desempenho acima de 0,7 de ambos os modelos é considerado
aceitável. Por sua vez, é também aceitável não ser capaz de se distinguir com bastante preci-
são quem se encontra em risco daqueles que não se encontram, uma vez que se trata de me-
didas de urgência, concedidas provisoriamente e com os limites de uma cognição sumária.
A razão para a pontuação aceitável da AUC-ROC de 0,72 deve-se à dificuldade dos mode-
los em diferenciar as vítimas que não estão em risco (verdadeiro-negativos), isso porque a
quantidade de falso-positivos ainda é elevada. E mesmo não sendo tão bons em distinguir
entre verdadeiro-positivos e verdadeiro-negativos, os modelos tiveram desempenho exce-
lente em métricas importantes como sensibilidade (recall) e F1-score.
o
çã
No final, os modelos com classes desbalanceadas superaram o desempenho daqueles
com dados balanceados. Ou seja, não há necessidade de balancear o conjunto de dados para
la
se obter resultado expressivo.
u
ic
ve
4.1. O custo das predições incorretas
Os benefícios de um modelo preditivo que faça a classificação correta das situações de
a
risco são inquestionáveis. Nesse caso, as vítimas receberão proteção integral e não sofrerão
a
qualquer espécie de violência. Por esse motivo, métricas como acurácia e precisão são
id
importantes.
b
Porém, a pergunta que se faz é a seguinte: qual é o custo das predições incorretas de um
oi
modelo preditivo de violência doméstica? Como se pode imaginar, o erro na classificação

pr
das situações de risco tem um custo muito alto, especialmente para as vítimas. Mas, para is-
so, é preciso distinguir entre o erro provocado pela quantidade de falso-positivos e aquele
–
decorrente dos falso-negativos. O falso-positivo significa que o modelo prevê risco de vio-
o
lência, mas na verdade, o risco não existe. Nessa hipótese, o que irá ocorrer na prática é o juiz
iv
conceder medida protetiva desnecessária. O alegado agressor sofrerá alguma restrição, o da-
us
no não será tão significativo quando a violência sofrida pela vítima.

cl
Quando se trata de falso-negativo, a situação fica mais preocupante. Nesse caso, o mode-
ex
lo prevê que não existe risco de violência quando, na verdade, o risco existe, sim. Nesse caso,
se a tutela judicial não for concedida, a vítima ficará desprotegida e estará em grave risco de
so
sofrer violência.
Portanto, o custo das predições incorretas é muito alto nos crimes de violência de gênero,
U
quando o erro decorre de falso-negativos. E, embora não seja desejável, o custo do erro não
é tão significante quando advém de falso-positivos. Isso porque o erro preditivo nos crimes
de violência de gênero não se refere ao risco abstrato de reincidência (recidivism), em que o
agressor sofrerá uma pena de prisão injusta com base em falso-positivos. Nos crimes de gê-
nero, as vítimas sofrerão violência insuportável se o modelo não conseguir prever a conduta
delituosa, devido ao elevado número de falso-negativos.
O escopo dos dois problemas é completamente diferente. Nessa linha de raciocínio, a
acurácia e a precisão são métricas importantes na previsão do comportamento crimino-
so, pois se referem à classificação correta das situações de risco (verdadeiro-positivos).
Penal 155
Mas nas medidas protetivas de urgência dos crimes de violência de gênero, as métricas mais
importantes são a sensibilidade (recall) e a F1-score, que representa a média harmônica en-
tre precisão e sensibilidade (recall). Ou seja, a F1-score informa a média entre o acerto na
classificação do risco (precisão) e o menor erro na quantidade de falso-negativos (recall). A
taxa de falso-positivos (FPR) de todos os modelos treinados com classes desequilibradas foi
muito alta, às vezes acima de 0,9. O FPR significa uma alta probabilidade de uma “taxa de
alarmes falsos”. Ou seja, o modelo irá gerar um alerta (falso) quando não houver risco para a
vítima, decorrente de falso-positivo. A taxa de falso-positivos é a proporção de verdadeiro-
-negativos que são classificados erroneamente como positivos (FP/FP+TN). Nos modelos
de avaliação de risco, indica o número de vítimas que não estão em risco, mas são classifica-
o
das como se estivessem. Em nosso experimento, quando treinado com dados balanceados, o
çã
FPR caiu, mas ainda assim ficou muito alto, e o modelo com melhor desempenho foi o SVM,
la
com 0,7146. Mesmo assim, o número de “alarmes falsos” é elevado.
u
No entanto, isso não é preocupante. Pelo contrário, esse tipo de erro estatístico é até su-
ic
portável. O FPR garantirá maior proteção às vítimas porque a medida protetiva será con-
ve
cedida, mesmo que não haja ameaça ou risco. Não devemos esquecer que nos crimes de
violência de gênero, as vítimas estão completamente vulneráveis, exigindo uma proteção
a
real por parte do Estado, mesmo quando enfrentam situações de baixo risco.
a
É claro que, em um cenário ideal, a taxa de falso-positivos deveria ser baixa. Mas no
id
trade-off entre deixar as vítimas desprotegidas diante de ameaças reais (falso-negativo) e

b
proteger as vítimas que não estejam em perigo (falso-positivo), é evidente que o erro de-
oi
corrente da primeira hipótese é muito mais grave que aquele do segundo caso. É social e ju-
pr
ridicamente inaceitável deixar a vítima desprotegida, enquanto é tolerável emitir medidas

protetivas, marcadas pela provisoriedade, mesmo diante de incerteza sobre a existência do
–
risco. Desse modo, a taxa de falso-positivos na classificação do risco nos crimes de violência
o
de gênero não é tão relevante, e os modelos com elevada taxa de falso-positivos não são as-
iv
sim tão indesejáveis. No final, o que vai acontecer é que a vítima terá uma medida protetiva a
us
seu favor e estará protegida. O pior cenário é aquele em que as vítimas realmente precisam de
medida protetiva (verdadeiro-positivo) e os modelos classificam a situação como se a prote-
cl
ção fosse desnecessária (falso-negativo).

ex
Assim, os falso-negativos são extremamente preocupantes, pois mesmo um número li-

geiramente alto desse erro de classificação pode deixar as vítimas completamente desprote-
so
gidas. Suponhamos, por exemplo, que um modelo preditivo preveja que uma possível vítima
de violência não se encontra em risco, e esta previsão esteja incorreta (falso-negativo). Isso
U
significa que a vítima efetivamente estará na iminência de sofrer violência e que o classifi-
cador não conseguiu identificar o risco. Esse resultado é extremamente perigoso e deve ser
evitado a todo custo. Dessa forma, alguns crimes como os de violência doméstica, exigem
que o número de falso-negativos esteja próximo de zero, ao mesmo tempo em que o de ver-
dadeiro-positivos sejam significativamente altos.
Como vimos, os classificadores devem ter um valor muito baixo de falso-negativos. Essa
é uma referência necessária e essencial para qualquer modelo de avaliação de risco de cri-
mes de violência de gênero. Caso contrário, as vítimas ficarão expostas ao risco de violência.
E, nessa métrica, todos os classificadores tiveram um expressivo desempenho. O melhor foi
o MLP com taxa de falso-negativos extremamente baixa, com erro insignificante (0,0006),
quando usados dados desbalanceados. Isso quer dizer que, caso seja usado para alertar os
juízes dos eventuais riscos, praticamente não haverá hipótese de o modelo negar medida
protetiva às vítimas, uma vez que praticamente não haverá caso de falso-negativos.
Observe que o dataset foi construído com instâncias de dados históricos. Todos os mo-
delos foram treinados com conjunto de dados formado com casos jurídicos reais. Assim,
qualquer viés cognitivo a favor da proteção às vítimas pode realmente existir, refletindo a
cautela aceitável de se conceder medidas protetivas, nos limites de uma cognição sumária.
A mera exposição das vítimas ao risco de violência é bastante para justificar a concessão de
medidas protetivas. É muito melhor conceder a proteção, mesmo quando não houver risco
o
çã
(alta sensibilidade e baixa taxa de falso-negativos) do que negar proteção, deixando a víti-
ma desprotegida.
la
Por fim, as conclusões apresentadas em nosso experimento referem-se apenas à conces-
u
são de medidas protetivas, que são tutelas provisórias e temporárias. Por se tratar de uma
ic
medida que visa garantir a proteção da vítima com base em informações incompletas no
ve
início do processo penal, é melhor proteger as vítimas do que deixá-las expostas a qualquer
espécie de risco, por menor que seja. Mas essa lógica não ocorrerá no julgamento definitivo.
a
Quando o juiz decidirá definitivamente o caso em cognição exauriente, isto é, após o con-
a
traditório e depois da produção de todas as provas necessárias (o que inclui saber se o risco é
id
real ou não). Nesse caso, haverá maior grau de certeza sobre a real necessidade de proteção.
b
oi
4.2. Viés cognitivo de confiança excessiva na tecnologia

pr
Sempre que uma pesquisa sobre modelagem preditiva de decisões judiciais é elaborada,
–
uma preocupação natural surge: a possibilidade de o algoritmo substituir o juiz, entregando

o
decisões automatizadas, sem qualquer intervenção humana. A preocupação não é infunda-

iv
da. Apesar de existirem diversas situações em que a modelagem preditiva efetivamente auxi-
us
liaria a qualidade das atividades do poder judiciário, há muitas situações em que a utilização
da inteligência artificial nos tribunais é desaconselhada.
cl
Uma delas decorre da possibilidade de surgirem vieses cognitivos referentes à confian-

ex
ça excessiva na tecnologia e na inteligência artificial. Um modelo com expressivo desempe-

nho – como os que apresentamos nesta pesquisa – poderia provocar no julgador um excesso
so
de confiança no resultado, a ponto de não examinar fatores de risco relevantes e simples-

U
mente adotar a sugestão do modelo preditivo. Lembrem-se que o resultado do modelo pode
ser até mesmo um erro preditivo (falso-negativo ou falso-positivo). Além da questionável
automatização da atividade judicial, isso poderia provocar sérios danos às vítimas de vio-
lência doméstica.
Para evitar vieses cognitivos como esse, desenvolvemos em nosso experimento um pro-
cedimento próprio para assegurar a utilização dos modelos apenas como camada de se-
gurança, sem comprometer a atuação de juízes humanos em questões tão sensíveis como
esta. O procedimento segue os seguintes passos. Após examinar os atributos relevantes, o
modelo calcula o resultado, mas não o informa para o juiz. Pelo contrário, o modelo aguar-
da o juiz elaborar a decisão no sistema. Uma vez elaborada a decisão, o modelo compara o
Penal 157
resultado da decisão elaborada pelo juiz e a predição elaborada pelo classificador que apre-
sentou o resultado mais seguro (F1-score, com média harmônica entre precisão e sensibili-
dade, bem como a menor taxa de falso-negativos). A comparação pode resultar em quatro
possibilidades.
A primeira consiste na convergência entre a decisão do juiz-humano e do modelo predi-
tivo, ambos concedendo a medida protetiva. A segunda possibilidade consiste também na
convergência da decisão do juiz-humano e do modelo preditivo, dessa vez os dois concluin-
do pela denegação da medida protetiva. Em ambos os casos, o sistema não precisa e não irá
apresentar nenhuma informação adicional ao juiz. A convergência – seja pela concessão, se-
ja pela denegação –, indica que todos os fatores de risco foram satisfatoriamente considera-
o
çã
dos pelo juiz e pelo modelo preditivo e nenhuma informação relevante foi ignorada.
A terceira possibilidade consiste na divergência entre o juiz e o modelo preditivo, na hi-
la
pótese em que o juiz decida pela concessão da medida protetiva e o modelo apresente o re-
u
sultado de inexistência de risco. Essa hipótese traz uma situação muito delicada. Se o modelo
ic
estiver certo e não existir risco (verdadeiro-negativo) e o juiz estiver equivocado, a conces-
ve
são da medida protetiva não acarretará dano à vítima. Haverá a concessão de uma medida
protetiva desnecessária, mas a integridade física da vítima estará preservada. Mas o inverso
a
é bastante perigoso. Se o modelo estiver errado e existir risco (falso-negativo) e o juiz esti-
a
ver certo, a não concessão da medida protetiva acarretará um dano irreparável à vítima, que
id
estará sujeita à violência física e até mesmo a risco de morte. E, mais: se o juiz reconsiderar a
b
decisão para seguir a recomendação do modelo (no sentido de denegar a medida protetiva)
oi
e o algoritmo produziu classificação incorreta (falso-negativo), o juiz irá retirar a proteção

pr
originariamente concedida, por confiar em uma previsão incorreta. A reconsideração da

decisão para seguir a recomendação do algoritmo é um caso claro de viés cognitivo de con-
–
fiança excessiva na tecnologia, que provocaria dano irreparável na vítima. O juiz mudaria
o
sua decisão para acompanhar o resultado errôneo da inteligência artificial (falso-negativo).

iv
Para afastar essa espécie de viés cognitivo, nosso experimento adotou uma estratégia que
us
impede o enviesamento por parte do juiz: na hipótese de divergência em que o juiz-humano

decida pela concessão da medida protetiva e modelo não identifique situação de risco, o sis-
cl
tema não fará nenhuma comunicação ao juiz e sequer o avisará do resultado diferente obtido
ex
pelo modelo. Se o sistema informar ao juiz que o resultado da avaliação de risco foi negativo,
poderá provocar dúvida e o juiz, sujeito ao viés cognitivo de confiança excessiva na tecnolo-
so
gia, poderá rever sua decisão e denegar a medida protetiva. Com a nossa estratégia, se o juiz
concede a medida protetiva e o algoritmo calcula a inexistência de risco, o juiz não ficará sa-
U
bendo do resultado do modelo e não irá mudar sua decisão. É melhor assegurar a integrida-
de física da vítima com uma medida protetiva desnecessária, do que deixá-la desprotegida,
diante da possibilidade de erro do modelo decorrente de um falso-negativo.
Vejamos, agora, a última hipótese. Ou seja, quando houver divergência entre juiz e inte-
ligência artificial, mas o juiz-humano entende pela denegação da medida protetiva e o mo-
delo preditivo conclui pela existência de risco. Esta última hipótese é a única que autoriza a
atuação do mecanismo de segurança desenvolvido em nosso experimento. Se o juiz concluir
pela denegação da medida protetiva, por não identificar situação de risco, e o modelo pre-
ditivo obtiver o resultado de que a medida protetiva deveria ser concedida, porque há risco,
então nesse caso – e somente nesse caso – o sistema irá emitir um alerta de segurança, infor-
mando o juiz da situação de risco não considerada na decisão judicial. Nessa hipótese, o juiz
será devidamente informado da existência de risco e poderá reexaminar a situação para ve-
rificar se o alerta emitido pelo sistema procede (verdadeiro-positivo) ou se decorre de erro
preditivo (falso-positivo). De qualquer forma, a decisão final será sempre do juiz e nunca do
sistema preditivo automatizado.
Esse procedimento, desenvolvido em nosso experimento, cria uma camada de seguran-
ça para as situações de violência de gênero, sendo que (i) não haverá risco de viés cognitivo
por excesso de confiança na tecnologia – já que o juiz não será informado com antecedência
do resultado da predição; (ii) não existirá o risco decorrente de falso-negativos, uma vez que
o
o sistema não informará as hipóteses de ausência de risco; (iii) o juiz será alertado pelo algo-
çã
ritmo apenas sobre possível situação de risco que não foi considerada em sua decisão dene-
la
gatória da medida protetiva. Isso permitirá que o juiz reexamine a existência ou não de risco.
Naturalmente que o resultado do modelo será informado somente depois da preparação da
u
minuta da decisão judicial, mas sempre antes de sua publicação oficial.
ic
ve
5. Trabalhos relacionados
a
Alguns trabalhos sobre modelagem preditiva de crimes de violência de gênero com algo-
a
ritmos de aprendizado de máquina já foram publicados, com resultados bastante relevantes.
id
Há uma pesquisa sobre a violência doméstica durante a pandemia de Covid-19 em Bangla-

b
desh,8 com dados de 511 famílias e algoritmos de aprendizado de máquina – incluindo flo-
oi
resta aleatória, regressão logística e Naive Bayes –, para prever situações de risco de violência
pr
doméstica. Também foram empregadas técnicas como Smote e chi-square para solucionar o
desbalanceamento dos dados e determinar a importância dos fatores de risco. Os algoritmos
–
alcançaram acurácia de 77%, 69% e 62%, respectivamente. O estudo constatou que a violên-
o
cia doméstica aumentou e esteve fortemente ligada ao rendimento familiar e aos níveis de
iv
educação durante a pandemia. Em outro estudo,9 uma base de dados com atributos dos Cri-
us
mes Baseados no Gênero (GBC) abrangendo mais de uma década foi compilada na Espa-
nha, utilizando códigos abertos. Os resultados mostraram que é possível prever GBC com
cl
acurácia de 0,1686 por 10.000 habitantes ao longo de um período de seis meses, utilizando
ex
Estratégia de Busca Evolucionária Multiobjetivo (multi-objective evolutionary search strat-

egy) para seleção de variáveis com Floresta Aleatória (RF). O experimento relata resultados
so
positivos em três territórios espanhóis específicos, com populações variáveis. Há pesquisa,

ainda, em que os autores compararam as previsões de avaliação de risco de uma abordagem
U
convencional com uma fundada em aprendizado de máquina.10 Os resultados mostraram
8. HOSSAIN, Murad et al. Prediction on Domestic Violence in Bangladesh during the Covid-19 Outbreak
Using Machine Learning Methods. Applied System Innovation, v. 4, n. 4, 2021.
9. RODRIGUEZ-RODRIGUEZ, Ignacio et al. Modeling and Forecasting Gender- Based Violence through
Machine Learning Techniques. Applied Sciences, v. 10, n. 22, 2020.
10. GROGGER, Jeffrey; IVANDIC, Ria Ivandic; KIRCHMAIER, Tom. Comparing Conventional and Machi-
ne-Learning Approaches to Risk Assessment in Domestic Abuse Cases. Journal of Empirical Legal Studies,
v. 18, n. 1, p. 90-130, 2021.
Penal 159
que as predições convencionais têm acurácia menor. Demonstraram, ainda, que os modelos
baseados em antecedentes criminais de dois anos produziram resultados ainda melhores.
Curiosamente, adicionar dados com históricos criminais não aumentou significativamente
a capacidade preditiva do modelo. O estudo sugere a utilização de previsões baseadas em an-
tecedentes criminais para priorizar a noticia criminis recebida, ao mesmo tempo que sugere
o desenvolvimento de uma ferramenta mais sensível para diferenciar os casos de verdadei-
ro-positivos dos falso-positivos, resultantes do processo de triagem inicial. Outra11 pesquisa
destacou que, na Austrália, o GBC registra a morte de uma mulher por semana e, além disso,
gera um custo de aproximadamente 22 bilhões de dólares anualmente. A Força Policial de
New South Wales possui uma riqueza de dados com milhares de casos de crimes de violência
o
de gênero, descrevendo abusos, lesões e estado de saúde mental. Ao aplicar técnicas de mi-
çã
neração de texto a 492.393 narrativas de casos de GBC, foi criado um banco de dados abran-
la
gente das situações de violência doméstica. Cinco modelos de aprendizagem profunda (deep
learning) foram usados para predizer três tipos de crimes de violência de gênero. O mode-
u
ic
lo BERT com transformers apresentou o melhor desempenho na classificação multirrótulo
(69,00% de acurácia, 66,76% ROC). Os crimes sem contato físico (Hands-off) foram mais
ve
difíceis de prever (60,72% de acurácia, 57,86% ROC com BERT), mas mostraram potencial
de melhoria através de ajustes finos (fine-tuning). A previsão dos crimes com contato físico
a
(hands-on), como estupro, tiveram melhor desempenho com MLP usando embeddings ca-
a
tegóricos (65,95% de acurácia, 78,03% de F1 Score e 70,00% de precisão). Em Taiwan, a Ini-
id
ciativa Dados para o Bem Social (Data for Social Good Initiative – D4SG) fez parceria com
b
o governo da cidade de Taipei para melhorar a prevenção dos crimes de violência de gêne-
oi
ro e a gestão de riscos em dois níveis: colaboração em projetos e análise de dados.12 No nível

pr
de análise de dados, foi treinado um modelo de floresta aleatória (RF) utilizando dados de
2015 para ajudar os assistentes sociais a avaliarem o nível de risco de novos casos. O modelo
–
alcançou acurácia de 96,3% e F1 Score de 62,8%. Em outro estudo,13 os autores examinaram

o
a decisão de libertar ou não um infrator, com base na acurácia da predição de incidentes de

iv
violência doméstica. Técnicas de aprendizado de máquina foram aplicadas a um conjunto

us
de dados de mais de 28 mil casos envolvendo acusações de violência doméstica. Três resul-
tados pós-acusação foram utilizados para um período de dois anos: (1) prisão por violência
cl
doméstica com lesões físicas, (2) prisão por violência doméstica sem lesões físicas e (3) ne-
ex
nhuma prisão por violência doméstica. O modelo de previsão considera custos assimétricos
de diferentes erros de previsão, priorizando fortes evidências estatísticas antes de rotular um
so
infrator como de baixo risco. O modelo atingiu aproximadamente 90% de acurácia ao prever
a não ocorrência de prisão por violência doméstica após a acusação. Na jurisdição pesqui-
U
sada, aproximadamente 20% dos acusados de agressão que foram libertados, foram presos
11. KARYSTIANIS, George et al. Utilizing Text Mining, Data Linkage and Deep Learning in Police and Health
Records to Predict Future Offenses in Family and Domestic Violence. Frontiers in Digital Health, v. 3, 2021.
12. HSIEH, T. C. et al. Measuring the Unmeasurable – A Study of Domestic Violence Risk Prediction and Ma-
nagement. Journal of Technology in Human Services, 2018, v. 36, n. 1, p. 56-68, 2018.
13. BERK, Richard A.; SORENSON, Susan; BARNES, Geoffrey C. Forecasting domestic violence: A machine
learning approach to help inform arraignment decisions. Journal of Empirical Legal Studies, 13. p. 94-115,
2016.
novamente no prazo de dois anos por um novo crime de violência doméstica. A aborda-
gem relatou o potencial de evitar mais de 2.000 prisões pós-acusação por violência domés-
tica num período típico de 24 meses. Há proposta de aplicação de técnicas de aprendizado
de máquina para criar modelos que possam prever com precisão o risco de reincidência de
infratores de violência de gênero.14 A pesquisa utiliza um banco de dados específico com
mais de 40.000 denúncias de violência de gênero, e o método de ML proposto demonstrou
desempenho superior quando comparados com técnicas estatísticas clássicas. Foi proposto
um modelo híbrido, combinando métodos de previsão estatística com a abordagem de ML,
facilitando uma transição suave do modelo estatístico existente para o modelo baseado em
aprendizado de máquina. Por fim, há projeto de pesquisa projetado para ajudar a coletar da-
o
dos de feminicídio por meio da detecção parcialmente automatizada usando aprendizado
çã
de máquina.15 Como forma de combater a impunidade em torno do feminicídio, as ativistas
la
assumiram a responsabilidade de fazer o trabalho que o poder público negligenciava. A au-
tomatização parcial tem o escopo de ajudar a formação de políticas públicas através da pa-
u
ic
dronização e taxonomias.
ve
6. Considerações finais a
a
Esta pesquisa comparou o desempenho de quatro algoritmos de aprendizado de máqui-
id
na: redes neurais artificiais Multi-Layer Perceptron (MLP), Support Vector Machine (SVM),
Random Forest (RF) e eXtreme Gradient Boost (XGBoost), utilizando validação cruzada ani-
b
oi
nhada (nested cross validation), treinados em conjuntos de dados balanceados e, também,

desbalanceados para avaliar o risco dos crimes de violência de gênero. As principais conclu-
pr
sões revelaram que os modelos treinados com dados desbalanceados superaram significati-
–
vamente os modelos com dados balanceados em termos de acurácia, sensibilidade (recall),

F1-score, AUC-ROC e taxa de falso-negativos. Os modelos treinados com classes balancea-
o
das tiveram melhores desempenhos apenas em precisão, especificidade e taxas de falso-po-

iv
sitivos. O modelo com melhor desempenho foi o MLP treinado com classes desbalanceadas.
us
Houve casos em que o MLP foi superado por SVM, RF e XGBoost. Porém, em todos esses
cl
casos, as diferenças entre estes modelos e o MLP são insignificantes. E uma vez que o MLP
ex
superou todos os outros modelos em termos de sensibilidade (recall) e FNR, o seu desem-
penho pode ser a referência (benchmark) para a avaliação de risco de crimes baseados no
so
gênero com o conjunto de dados selecionado. Os resultados têm implicações importantes

para a área, pois demonstram a importância da sensibilidade (recall) nos modelos preditivos
U
de violência de gênero. Modelos com dados balanceados produziram um número menor,

mas ainda assim muito elevado, de alarmes falsos. No entanto, o estudo também enfatizou
que é imperativo minimizar os falso-negativos, pois podem deixar potenciais vítimas des-
protegidas, enfatizando a importância de métricas como F1 Score, Sensibilidade e taxa de
14. GONZÁLEZ-PRIETO, Ángel et al. Machine learning for risk assessment in gender-based crime. arXiv
preprint. 2021.
15. D’IGNAZIO, Catherine et al. Feminicide & machine learning: detecting gender- based violence to strengthen
civil sector activism. 2020.
Penal 161
falso-negativos. Os modelos foram treinados usando casos jurídicos reais. No contexto da

concessão de medidas protetivas de urgência (MPU), um pequeno viés a favor das vítimas é
aceitável e uma taxa insignificante de falso-negativos (FNR) é o ideal. O estudo destaca a ne-
cessidade de os modelos de avaliação de risco de violência doméstica terem, como referên-
cia, a exclusão dos falso-negativos para que haja proteção integral das vítimas.
Dessa forma, as conclusões principais, decorrentes dos resultados obtidos na pesquisa,
são: (i) devem ser utilizados em sistemas de violência doméstica os modelos que apresenta-
rem número inexpressivo de falso-negativos, para aumentar a proteção às vítimas; (ii) de-
vem ser utilizadas preferencialmente métricas como F1-Score, sensibilidade (recall) e taxa
de falsos negativos; (iii) para se evitar vieses cognitivos como a confiança excessiva na tecno-
o
çã
logia, os sistemas de inteligência artificial não podem indicar o resultado da predição antes
da elaboração da decisão judicial, devendo ser utilizados apenas como “camada de seguran-
la
ça”, informando a existência de risco não considerado pelo juiz. Como trabalhos futuros,
u
serão pesquisadas a importância de cada fator de risco, o impacto na acumulação de atribu-
ic
tos no resultado preditivo e a otimização dos hiperparâmetros, de modo a minimizar ainda
ve
mais eventuais erros preditivos.
7. Referências
a
a
id
BERK, Richard A.; SORENSON, Susan; BARNES, Geoffrey C. Forecasting domestic violence: A
b
machine learning approach to help inform arraignment decisions. Journal of Empirical Legal
oi
Studies, 13. p. 94-115, 2016.

BIAU, Gérard; SCORNET, Erwan. A Random Forest Guided Tour. TEST, v. 25, n. 2. p. 197-227.
pr
2016. Disponível em: [www.normalesup.org/~scornet/paper/test.pdf]. Acesso em: 05.09.2023.

BREIMAN, Leo. Random Forests. Machine Learning, v. 45, n.1, p. 5-32. 2001. Disponível em: [www.
–
stat.berkeley.edu/~breiman/randomforest2001.pdf]. Acesso em: 05.09.2023.

o
CHEN, Tianqi; GUESTRIN, Carlos. XGBoost: A Scalable Tree Boosting System. Proceedings of the
iv
22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.
us
KDD 16. New York, NY, USA: Association for Computing Machinery, p. 785-794. 2016. Dispo-
nível em: [https://doi.org/10.1145/2939672.2939785]. Acesso em: 05.09.2023.
cl
CHUN, Soon Ae et al. Crime Prediction Model Using Deep Neural Networks. Proceedings of the
ex
20th Annual International Conference on Digital Government Research. New York, NY, USA:
Association for Computing Machinery, p. 512-514. 2019. Disponível em: [https://dl.acm.org/
so
doi/10.1145/3325112.3328221]. Acesso em: 05.09.2023.

CORTES, Corinna; VAPNIK, Vladimir. Support-vector Networks. Machine Learning, v. 20, n. 1,
U
p. 273-297, 1995. Disponível em: [https://link.springer.com/article/10.1007/BF00994018].

Acesso em: 05.09.2023.
COUNCIL OF EUROPE. Gender identity, gender-based violence and human rights. Disponível em:
[https://rm.coe.int/chapter-1-gender-identity-gender-based-violence-and-human-rights-
-gende/16809e1595]. Acesso em: 05.09.2023.
D’IGNAZIO, Catherine et al. Feminicide & machine learning: detecting gender-based violence to
strengthen civil sector activism. 2020. Disponível em: [http://hdl.handle.net/10625/60535].
Acesso em: 05.09.2023.
DAKALBAB, Fatima et al. Artificial intelligence and crime prediction: A systematic literature re-
view. Social Sciences and Humanities Open, v. 6, n. 1, p. 100342, 2022. Disponível em: [www.
sciencedirect.com/science/article/pii/S2590291122000961]. Acesso em: 05.09.2023.
GONZÁLEZ-PRIETO, Ángel et al. Machine learning for risk assessment in gender-based crime.
arXiv preprint. 2021. Disponível em: [https://arxiv.org/abs/2106.11847]. Acesso em: 05.09.2023.
GROGGER, Jeffrey; IVANDIC, Ria Ivandic; KIRCHMAIER, Tom. Comparing Conventional and
Machine-Learning Approaches to Risk Assessment in Domestic Abuse Cases. Journal of Empi-
rical Legal Studies, v. 18, n. 1, p. 90-130, 2021. Disponível em: [https://onlinelibrary.wiley.com/
doi/abs/10.1111/jels.12276]. Acesso em: 05.09.2023.
HOSSAIN, Murad et al. Prediction on Domestic Violence in Bangladesh during the Covid-19 Out-
break Using Machine Learning Methods. Applied System Innovation, v. 4, n. 4, 2021. Disponível
em: [www.mdpi.com/2571-5577/4/4/77]. Acesso em: 05.09.2023.
HSIEH, T. C. et al. Measuring the Unmeasurable – A Study of Domestic Violence Risk Prediction
and Management. Journal of Technology in Human Services, 2018, v. 36, n. 1, p. 56-68, 2018.
o
Disponível em: [www.tandfonline.com/doi/citedby/10.1080/15228835.2017.1417953]. Aces-
çã
so em: 05.09.2023.
KARYSTIANIS, George et al. Utilizing Text Mining, Data Linkage and Deep Learning in Police and
la
Health Records to Predict Future Offenses in Family and Domestic Violence. Frontiers in Digital
u
Health, v. 3, 2021. Disponível em: [www.frontiersin.org/articles/10.3389/fdgth.2021.602683].
ic
Acesso em: 05.09.2023.
ve
KWON, Eunseo; JUNG, Sungwon; LEE, Jaewook. Artificial Neural Network Model Development
to Predict Theft Types in Consideration of Environmental Factors. ISPRS International Jour-
a
nal of Geo-Information, v. 10, n. 2, 2021. Disponível em: [www.mdpi.com/2220-9964/10/2/99].
Acesso em: 05.09.2023.
a
MANDREKAR, Jayawant N. Receiver Operating Characteristic Curve in Diagnostic Test Assess-
id
ment. Journal of Thoracic Oncology, v. 5, n. 9, p. 1315-1316, 2010. Disponível em: [www.scien-

b
cedirect.com/science/article/pii/S1556086415306043]. Acesso em: 05.09.2023.

oi
PENG, Zhao. Multilayer Perceptron Algebra. arXiv. 2017. Disponível em: [https://arxiv.org/abs/
pr
1701.04968. Acesso em: 05.09.2023.

RODGERS, Justin et al. The relative contributions of behavioral, biological, and psychological risk
–
factors in the association between psychosocial stress and all-cause mortality among middle-
and older-aged adults in the USA. GeroScience, v. 43, n. 2, p. 655-672, 2021. Disponível em:
o
[https://doi.org/10.1007/s11357-020-00319-5]. Acesso em: 05.09.2023.

iv
RODRIGUEZ-RODRIGUEZ, Ignacio et al. Modeling and Forecasting Gender-Based Violence

us
through Machine Learning Techniques. Applied Sciences, v. 10, n. 22, 2020. Disponível em:
[www.mdpi.com/2076-3417/10/22/8244]. Acesso em: 05.09.2023.
cl
ROSENBLATT, Frank. The perceptron: A probabilistic model for information storage and organi-
ex
zation in the brain. Psychological Review, v. 65, n. 6, p. 386-408, 1958.

STALIDIS, Panagiotis; SEMERTZIDIS, Theodoros; DARAS, Petros. Examining Deep Learning Ar-
so
chitectures for Crime Classification and Prediction. arXiv, 2018. Disponível em: [https://arxiv.
org/pdf/1812.00602.pdf]. Acesso em: 05.09.2023.
U
WALCZAK, Steven. Predicting Crime and Other Uses of Neural Networks in Police Decision Mak-
ing. Frontiers in Psychology, v. 12, 2021. Disponível em: [https://doi.org/10.3389/fpsyg.2021.
587943]. Acesso em: 05.09.2023.
8. Legislação
BRASIL. Conselho Nacional de Justiça and Conselho Nacional do Ministério Público. Resolução
Conjunta 5 de 3 de março de 2020. 2020. Disponível em: [[https://atos.cnj.jus.br/files/origina-
l215815202003045e6024773b7dc.pdf]. Acesso em: 05.09.2023.
Penal 163
PESQUISAS DO EDITORIAL
áreas do direito: Penal; Digital
Veja também Doutrinas relacionadas ao tema

• A liberdade de expressão e o discurso de ódio nas redes sociais, de Ivelise Fonseca De Matteu,
Leonardo da Silva Cardoso e Rafael Pinheiro de Matos Cardoso – RDTec 19;
o
• A vulnerabilidade das mulheres em decorrência da crise econômica: desemprego, fome e violên-
çã
cia, de Paula Duarte Tavares Rodrigues, Samara Pettinati Pereira e Paulo Campanha Santana –
RDT 231/43-58;
la
• Deepfakes pornográficas não consensuais: a busca por um modelo de criminalização, de Paulo
u
Gustavo Lima e Silva Rodrigues – RBCCrim 199/277-311;
ic
• Desafios para aproximar violência de gênero e justiça restaurativa, de Carmen Hein de Campos e
ve
Jacqueline Padão – RBCCrim 196/19-40; e
• Inteligência artificial e seu potencial de utilização em investigações, processo judicial e na pre-
a
venção à violência conjugal, de Agenor Alexsander C. Costa – RDTec 13.
a
b id
oi
pr
–
o
iv
us
cl
ex
so
U
BraSil Jr., Samuel M.; vareJão, Flávio M.. Predição dos crimes de violência de

Predição Dos Crimes de Violência de Gênero Com Algoritmos de Aprendizagem de Máquina

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Predição Dos Crimes de Violência de Gênero Com Algoritmos de Aprendizagem de Máquina

Enviado por

Direitos autorais:

Formatos disponíveis

143

Predição dos crimes de violência de gênero com

Prediction of gender-based crimes with

reas do Direito: Penal; Digital

esumo: A modelagem preditiva dos crimes de bstract: Predictive modeling of gender-based

risco é extremamente perigoso, principalmente nos crimes de violência de gênero.

Modelos preditivos com algoritmos de aprendizado de máquina têm expressivo poten-

modelos preditivos, ainda que estes produzam resultados significativos.

sensibilidade (recall), especificidade, AUC-ROC, F1 Score, taxa de falso-positivos (FPR) e

1.1. Fatores de risco do comportamento criminoso

Em nosso experimento, não utilizamos as elementares do tipo penal para modelar a

de eventual conduta delituosa ser perpetrada.

Normalmente, os fatores de risco baseiam-se em atributos do aspecto cultural, jurídico,

Nessa perspectiva, os fatores de risco são circunstâncias ou condições que aumentam a

diferentes tipos penais, bastando o ajuste adequado dos preditores de risco.

1.2. Fatores de risco dos crimes de violência de gênero

Conforme mencionamos anteriormente, nossa pesquisa foi conduzida de modo a per-

mitir a modelagem de diferentes condutas delituosas. No entanto, limitamos o nosso expe-

rimento a um tipo específico de crime, a saber, a violência de gênero.

da Europa, para comparar o desempenho com o de nosso experimento. Contudo, os fatores

tâncias relacionadas à violência, como local de residência, dependência financeira da vítima

e se necessita de abrigo temporário. No total, são quarenta fatores de risco decorrentes de

que possam representar risco às vítimas. Consiste na percepção de um profissional (psicó-

Formulário CNJ/CNMP não foi utilizada no treinamento dos modelos.

2. Material e banco de dados

Os dados foram coletados de medidas protetivas de urgência reais, apresentadas em va-

a dimensão do espaço euclidiano subjacente. O conjunto de rótulos L é uma matriz m x 1, que

limitamos o experimento apenas ao primeiro rótulo, ou seja, se a liminar foi concedida ou

vit-separacao A vítima separou-se recentemente do agressor Boolean

vit-dependencia A vítima é economicamente dependente do agressor Boolean

... ... ...

rótulo Medida Protetiva concedida Boolean

Fonte: elaborado pelo autor (2023).

Há um número significativamente maior de medidas protetivas concedidas do que ne-

sofreram ou se sentem na iminência de sofrer qualquer espécie de violência. Como não há

protetivas. Para verificar se esse problema efetivamente ocorreu, utilizamos sobreamostra-

Os resultados demonstraram que a classificação não apresentou diferença significativa

Tabela 2. Comparação do resultado dos experimentos

Acurácia 0.8804 0.8351 0.8781 0.8455 0.8819 0.8733 0.8793 0.8629

Precisão 0.8809 0.9004 0.8838 0.9048 0.8832 0.8925 0.8879 0.8966

Sensibilidade 0.9993 0.9140 0.9921 0.9215 0.9977 0.9733 0.9876 0.9544

FNR 0.0006 0.0859 0.0078 0.0784 a 0.0022 0.0266 0.0123 0.0455

A Tabela 2 mostra as métricas de desempenho para todos os classificadores (MLP, SVM,

RF e XGBoost), treinados com e sem sobreamostragem do conjunto de treinamento, ou se-

importantes para modelar o comportamento delituoso, como discutiremos nesta seção.

algoritmos testados, tanto com dados balanceados, quanto desbalanceados.

Figura 1. Curva Precisão-Sensibilidade (Recall)

Fonte: elaborada pelo autor.

cidade do modelo, por causa do impacto do número de falso-positivos sobre a quantidade

de verdadeiro-negativos. Por essa razão, os modelos não tiveram um bom desempenho em

modelos nessa métrica não é relevante.

Figura 3. Curva AUC-ROC

desbalanceados. A Figura 3 mostra a AUC-ROC para classes balanceadas e desbalanceadas.

modelo preditivo de violência doméstica? Como se pode imaginar, o erro na classificação

no não será tão significativo quando a violência sofrida pela vítima.

trade-off entre deixar as vítimas desprotegidas diante de ameaças reais (falso-negativo) e

ridicamente inaceitável deixar a vítima desprotegida, enquanto é tolerável emitir medidas

ção fosse desnecessária (falso-negativo).

Assim, os falso-negativos são extremamente preocupantes, pois mesmo um número li-

4.2. Viés cognitivo de confiança excessiva na tecnologia

uma preocupação natural surge: a possibilidade de o algoritmo substituir o juiz, entregando

decisões automatizadas, sem qualquer intervenção humana. A preocupação não é infunda-

Uma delas decorre da possibilidade de surgirem vieses cognitivos referentes à confian-