Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumo
Abstract
The selection and classification of legal processes is a problem that has been
happening in recent years, especially in Brazil, one of the main difficulties encountered
in dealing with and classifying such information is: the Portuguese language and the
technical terms of the Legal language. The Court of Justice intends to act in a unified
way in order to ensure that all offices can deal with their cases in an egalitarian manner,
without the need for one or two offices to be fast and efficient and the others not. This
causes several cases to cease to be tried and prosecuted for years in the courts. In
order to validate the efficiency and reliability of the techniques of Artificial Intelligence,
2
Machine Learning employed in this process. The need for the said court to reduce the
deadlines of the trials of the cases and to assist in the legal analysis of the existing and
pending proceedings. This course completion work is based on applied field research
with quantitative and qualitative approach, and aims to develop an intelligent system
that captures the data process judgments, then select and classify the information in
legal terms, such as : branch of law, subject, laws, opinions, legislative reference,
presenting at the end a Dashboard with charts and performance indicators on related
data. As results were captured and converted automatically by OCR, we performed the
extraction of entities and classification of legal terms with accuracy of the Machine
Learning model above 85%.
1. INTRODUÇÃO
O Superior Tribunal de Justiça (STJ) recebe diariamente mais de 1.400 processos para
julgamento, estes processos são distribuídos por vários gabinetes de acordo com cada
Ministro e Área de Atuação, o processo é manual, virtual ou eletrônico e depende dos
assessores lotados em cada gabinete que fazem uma triagem inicial para selecionar. O
STJ pretende atuar de forma unificada visando garantir que todos os gabinetes possam
selecionar e classificar seus processos de forma igualitária, isso faz com que diversos
processos deixem de serem julgados e se arrastem por anos.
3
Este artigo está dividido da seguinte maneira: a seção 2 explica a metodologia utilizada
para a elaboração do sistema de inteligência artificial. Na seção 3, são apresentados
alguns conceitos relevantes aos termos utilizados no artigo tais como: Big Data,
Inteligência Artificial, Machine Learning, Processamento de Linguagem Natural. A
seção 4 traz a apresentação da pesquisa e as etapas do desenvolvimento do sistema.
Na seção 5 a apresenta algumas discussões e resultados preliminares como também
um Dashboard com indicadores e gráficos e na seção 6 são apresentadas as
considerações finais, pontos positivos e negativos e trabalhos futuros deste artigo.
2. METODOLOGIA
Essa pesquisa tem por objetivo ser básica e exploratória, baseada em pesquisas de
livros, artigos científicos, trabalhos de conclusão de curso, material jurídico, aplicando
todos os conhecimentos adquiridos no curso, visando adquirir um modelo de Machine
Learning com similaridades entre os processos julgados por um tribunal de justiça
federal em relação a novos processos que foram dados entrada recentemente.
A análise é prática e explicativa devido a abordagem dada ao trabalho na captura inicial
dos dados, análise e processamento dos mesmos até sua apresentação no formato de
painel analítico.
Sendo assim, a abordagem da pesquisa é qualitativa devido à apresentação dos
benefícios do uso de Machine Learning no setor jurídico com o uso de técnicas de IA,
Machine Learning, Processamento de Linguagem Natural, nas organizações.
3. REVISÃO DE LITERATURA
Esta seção deve ser apresentada ao estado da arte das tecnologias aplicadas nesse
artigo, envolvendo as características sobre: Big Data, IA, Machine Learning, Deep
Learning e Processamento de Linguagem Natural, técnicas de estatística e matemática
entre outras.
Segundo CANARY (2013), nos últimos anos o termo Big Data refere-se a um grande
conjunto de dados gerados e armazenados de forma não convencional. Seu
surgimento está relacionado com o aumento exponencial da quantidade de dados
gerados a cada minuto no mundo. Este termo tem como característica representar uma
nova era da sociedade moderna, onde a tomada de decisão baseada em dados em
tempo real se torna mais importante. Isso está alterando a forma como a indústria,
economia, ciências e demais áreas trabalham e obtém suas informações.
O Big Data já foi relacionado como uma ferramenta fundamental para realizar a
manipulação de eleições e disseminação de “Fake News”, isso se dá pela capacidade
7
Segundo (RICH, 1994, p. 14) a Inteligência Artificial é uma área da ciência que estuda
como fazer os computadores realizarem tarefas as quais, até o momento, os homens
fazem melhor. Para muitas pessoas isso vem crescendo ao longo do tempo de forma
drástica. Atualmente utilizamos as técnicas de IA para quase tudo, existem hoje
sistemas especialistas de IA para análise de sentimento das pessoas, atendimento aos
usuários com ChatBot, Reconhecimento Facial, sistemas de recomendação de
produtos e serviços, entre outros.
O termo PLN vem sendo utilizado nos últimos anos de forma ativa entre as
organizações, como definição podemos caracterizar como uma subárea da ciência da
computação, inteligência artificial e da linguística que estuda os problemas da geração
e compreensão automática de línguas humanas naturais. Sistemas de geração de
linguagem natural convertem informação de bancos de dados de computadores em
9
4. APRESENTAÇÃO DA PESQUISA
O Superior Tribunal de Justiça (STJ) recebe diariamente mais de 1400 processos para
julgamento, estes processos são distribuídos por vários gabinetes de acordo com cada
Ministro e área de atuação, o processo é manual e depende dos assessores lotados
em cada gabinete. O STJ pretende atuar de forma unificada visando garantir que todos
os gabinetes possam tramitar com seus processos de forma igualitária, sem a
necessidade de um ou dois gabinetes serem rápidos e eficientes e os demais não. Isso
faz com que diversos processos deixem de serem julgados e se arrastem por anos.
Figura 1: Apresentação dos Ministros, Turmas e Seção aplicados aos Membros do STJ.
Fonte: próprio autor.
dos julgamentos dos processos e auxiliar na análise legal dos processos existentes e
em tramitação.
esperado. Existem várias técnicas para reduzir o ruído entre as imagens, podem citar
as seguintes:
• Dilatação
• Erosão
• Filtro de cores
• Binarização
Foi utilizado o OCR (Optical Character Recognition) onde o mesmo consiste em
reconhecer as letras em uma imagem e convertê-las em um texto. Tecnicamente, o
OCR converte uma imagem com texto em uma string (conjunto de caracteres).
Algumas das ferramentas e tecnologias utilizadas para resolver este problema foram
solução Open Source e bastante conhecidas pela comunidade. Entre elas podemos
citar:
Para o processamento de imagens foi utilizado o: OpenCV2
(https://opencv.org/);
Para a tecnologia de OCR foi utilizado o Google Tesseract;
Como Linguagem de Programação foi utilizada a Linguagem Python
(https://www.python.org/).
4.3.1 – Casos de Uso para o tratamento e reconhecimento de caracteres
14
Para esta seção realizado 6 casos que foram percebidos frente a análise das
mais de 100 peças recebidas no início do projeto. Os casos se dividem na
seguinte forma:
Assinatura: remoção da assinatura como ruído;
Texto sujo: redução de ruído geral em um documento;
Texto fraco: realce do texto para obter mais informações;
Risco fraco: ação humana ao sublinhar trechos do documento;
Risco forte: ação humana ao sublinhar trechos do documento;
Risco muito forte: provável ação de máquina.
Caso 1: Assinatura.
Expressões de tempo;
Quantidade;
Valores monetários;
Porcentagens.
Este processo visa montar uma árvore de dependência para tais informações, para
dar sentido e qualificar a informação extraída, estas informações são processadas
normalmente em etapas: Classificação gramatical, Identificação de entidades,
Relacionamento entre entidades.
Organização / Entidade ou
Empresa
Figura 10: Extraindo características dos textos e palavras chaves Identidade Pessoa.
Fonte: Próprio Autor
Os processos que já foram julgados pelo STJ são categorizados como sua
Jurisprudência do STJ, os mesmos servem de modelo para a base de treinamento,
pois vão servir de base para definir o ranking de similaridade, utilizando uma
20
Para o agrupamento de processos foi utilizado o NLTK (Natural Language Tookit) que é
uma biblioteca em Python para processamento de linguagem natural com
características de possuir um amplo conjunto de ferramentas para pré-processamento
de texto, suporte a linguagem portuguesa, open source e de código distribuído.
Pré-processamento:
Transformar todas as letras para a forma minúscula, remoção de pontuação,
remoção de quebras de linhas, etc.
Transformar leis e artigos em um radical.
Remoção de palavras que não adicionam informação relevante sobre o
documento:
21
o English Stop Words: a, na, and, are, as, at, on, by.
o Brazilian Portuguese Stop Words: de, a, o, que, em, um, não, uma, por,
na, mais.
Nessa próxima etapa foram executadas as seguintes técnicas de:
Stemização (Steeming): Reduz diversas formas e derivações de uma palavra
para uma base comum: química, químicas, químico, químicos => químic
Tokenização: servem para dividir um texto em tokens, esses tokens podem ser
parágrafos, frases ou palavras individuais.
2 – Leitura da Jurisprudência;
Figura 16: Avaliação da (Similaridade) entre os processos Pai e Filhos (Jurisprudência STJ com
o TRF4.
Fonte: Próprio Autor
A Similaridade de Cossenos
Este capítulo tem como objetivo representar alguns resultados aplicados ao sistema de
inteligência artificial, tais como Telas e Indicadores de Desempenho. Tais informações
são expostas e detalhadas a seguir:
Figura 19: Painel Analítico com os resultados da pesquisa e classificação dos termos jurídicos.
Fonte: Próprio autor, 2018.
26
Figura 20: Painel Analítico com os resultados da pesquisa e classificação dos termos jurídicos.
Fonte: Próprio autor, 2018.
Além dos filtros identificados por Ramos do Direito e Assuntos do CNJ é possível
trabalhar também com filtros por Órgão se da primeira, segunda, terceira ou quarta
turma. Outro filtro que pode ser aplicado também é sobre o Relator. Além disso, é
possível analisar o nível de similaridade entre os Grupos de Processos, no exemplo da
figura 20 é possível identificar o número do processo (Grupo), juntamente com o texto
relacionado a Ementa Decisão e também ao texto relacionado a Ementa Acórdão
Recorrido, observem que são exibidas as informações da quantidade de processos
classificados e o percentual de similaridade entre os mesmos.
Dessa forma podemos afirmar que o trecho do processo ou acórdão em questão está
falando sobre uma determinada decisão que foi feita anteriormente por uma comissão
de Juízes do STJ. Dessa forma facilitando o processo de coleta, agrupamento e
seleção dos processos.
28
6. CONSIDERAÇÕES FINAIS
6.1 – Contribuições
O trabalho de pesquisa apresentado nessa MBA em Aprendizado de Máquina teve
como objetivo principal propor uma solução de coleta, organização, agrupamento e
classificação dos processos jurídicos do STJ.
6.2 – Limitações
Algumas limitações deste trabalho foram identificadas a partir de uma análise
crítica dos métodos e técnicas utilizados. As principais são listadas logo a seguir:
7. REFERÊNCIAS BIBLIOGRÁFICAS
ABBOTT, Dean. Applied predictive analytics: Principles and techniques for the professional data
analyst. John Wiley & Sons, 2014.
AGGARWAL, Charu C. Recommender Systems. 1ª ed. New York: Springer International Publishing,
2016.
BRAGA, A.P.; LUDERMIR, T.B.; CARVALHO, A.C.P.L.F. Redes Neurais Artificiais: Teoria e
Aplicações. Livros Técnicos e Científicos S.A., 2000.
CANARY, V. P. A tomada de decisão no context do Big Data: estudo de caso único. Universidade
Federal do Rio Grande do Sul – UFRGS. Porto Alegre, p. 73. 2013.
DUMBILL, Edd. Planning for Big Data. A CIO's Handbook to the changing Data Landscape. O'Reilly,
2012.
JANNACH, Dietmar et al. Recommender Systems: An introduction. New York: Cambridge University
Press, 2010.
KELLEHER, D.J. et al. Fundamentals of Machine Learning for Predictive Data Analytics. 1º Ed. MIT
Press, 2015.
31
PENTREATH, N. Machine Learning with Spark – Tackle Big Data with Powerful Spark Machine
Learning. 1° Ed. Packt Publishing, 2015.
KOLB, Jason; KOLB, Jeremy. The Big Data Revolution. CreateSpace Independent Publishing Platform,
201 LOH Stanley, BI na Era do Big Data para o Cientista de Dados. Amazon, 2014.
LOH, Stanley. BI na Era do Big Data para o Cientista de Dados. Amazon, 2014.
LUGER, George F.; Inteligência Artificial; Volume: 6; Editora: Pearson, Páginas 123-189, 2013.
MANYIKA, James, et al. Big data: The next frontier for innovation, competition, and productivity.
Disponível em: <http://www.mckinsey.com/business-functions/digital- mckinsey/our-insights/big- (Links
para um site externo)Links para um site externo
data-the- next-frontier- for-innovation (Links para um site externo) Links para um site externo>. Acesso
em: 18 de set, 2017.
MARQUESONE, Rosangela. Big Data: Técnicas e tecnologias para extração de valor dos dados.
Casa do Código, 2016.
MEDEIROS, Luciano. Inteligência Artificial Aplicada – Uma abordagem introdutória. 1ª Ed. Pág. 21,
Editora: intersaberes, 2018.
MINELLI, Michael; CHAMBERS, Michele; DHIRAJ Ambiga. Big Data, Big Analytics: Emerging
Business Intelligence and Analytic Trends for Today's Business. Wiley CIO, 2013.
PENCHIKALA, Srini. Big Data Processing with Apache Spark – Part 1: Introduction. InfoQ, 2015.
Disponível em: <www.infoq.com/articles/apache-spark-introduction (Links para um site externo) Links
para um site externo>. Acesso em: 18 de set, 2017.