Escolar Documentos
Profissional Documentos
Cultura Documentos
Porto Alegre
2020
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL
ESCOLA POLITÉCNICA
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
Porto Alegre
2021
Juliana Obino Mastella
BANCA EXAMINADORA:
Dedico este trabalho a minha filha Diana Mastella de Castro e a meu marido Diego
Dias de Castro.
RESUMO
ABSTRACT
In last years it has been witnessed an exponential growth of data volume, data
variability and data velocity. It is known that most of them are in an unstructured availability
which intensify the data analysis challenge. Considering this scenario, the usage os Natural
Language Processing (NLP) tools for text classification has been inspiring researchers from
several knowlage domains, among them it can be highlighted the Legal Sciences. The jus-
tice in its root depends on analysis of huge text data volume which turns it into an important
potential area for applying NLP tools. The choice of an algorithm for solving a specific text
classification issue is not a trivial task. The picked classification approach quality and viabil-
ity will depends on the issue to be solved, the data volume and the data behavior, in addition
to the best use of available computational resources in order to results be delivered in time.
Motivated by the problem of automatic classification of legal texts for application to electronic
processes of a Brazilian State Court, this research proposes a methodology to optimize the
choice of parameters for the classification algorithm of legal documents paralleling the train-
ing of Bi-LSTM Recurrent Neural Networks. For data application 107,010 petitions from a
Brazilian State Court, with classes previously noted, underwent training of 216 Recurrent
Neural Networks in parallel. At the end of training, the best individual performance was F1
= 0.846. Combining the 4 best models through an Ensemble technique resulted in a final
model with lower performance than the best individual one (F1 = 0.826). Through the paral-
lel training of models it was possible to reach a superior result to the majority of the tested
parameterizations (10 % better than the worst parameterization tested and 9.8% better than
the average ) in approximately 20 times less time than it would take for test all the same
possibilities sequentially.
Keywords: Text classification,classification algorithms, text mining, documents classifica-
tion, legal documents, NLP, parameter sweep, parallelism.
LISTA DE FIGURAS
Tabela 2.1 – Resultado final dos algoritmos de classificação com melhor desem-
penho por estudo dentre os trabalhos anteriores identificados cujo objetivo
foi a classificação de textos jurídicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Tabela 3.1 – Análise descritiva da amostra final. . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Tabela 3.2 – Comparação dos Algoritmos de Classificação - Desempenho na
classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Tabela 3.3 – Comparação dos Algoritmos de Classificação - Tempo de Execução
(em segundos) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Tabela 5.1 – Delineamento Experimental Análise Estatística . . . . . . . . . . . . . . . . . 55
Tabela 5.2 – Tabela ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Tabela 5.3 – Análise complementar à ANOVA, ajuste de Regressão Polinomial. . . 57
Tabela 5.4 – Resultados da Metodologia Parameter Sweep para 216 combina-
ções de parâmetros para treinamento de Redes Bi-LSTM. Utilizando amos-
tra de 39.032 textos jurídicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Tabela 5.5 – Resultados da Metodologia Parameter Sweep Resultado dos 10 mo-
delos com melhor desempenho dentre os 216 treinados. . . . . . . . . . . . . . . . 58
Tabela 5.6 – Resultado do Método Ensemble a partir da combinação dos 4 me-
lhores modelos individuais identificados na aplicação da Metodologia Para-
meter Sweep. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Tabela 5.7 – Resumo do resultado final dos algoritmos de classificação de tex-
tos jurídicos com melhor desempenho de trabalhos anteriores, a partir dos
dados da Tabela 2.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
6 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.1 SUGESTÕES PARA ESTUDOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
21
1. INTRODUÇÃO
e o tempo de processamento que seria necessário para testar todas, muitas vezes o que
ocorre é o especialista propor uma combinação de parâmetros que acredita ser a melhor
de acordo com sua experiência, sem ter a certeza se poderia atingir melhor desempenho
com algumas modificações.
Em termos práticos, no intuito de escolher a abordagem para solucionar um deter-
minado problema de classificação de textos, outro aspecto importante a ser considerado é a
disponibilidade de recursos computacionais. A qualidade e a viabilidade da abordagem de
classificação escolhida dependerão, entre outros fatores, do prazo existente e da forma de
utilização dos recursos computacionais disponíveis a fim de que o resultado seja entregue
em tempo adequado[20].
As técnicas para classificação automática de textos têm despertado o interesse
de pesquisadores dos mais diversos domínios do conhecimento, dentre os quais pode-se
destacar as Ciências Jurídicas [20]. O Direito inerentemente depende da análise de um
grande volume de informações textuais, motivo pelo qual tem-se explorado o potencial das
técnicas de PLN em otimizar a realização de muitas dessas tarefas. Contudo, é importante
considerar que a legislação varia conforme o país, estado, município jurisdicional, além de
serem escritas no respectivo idioma de origem. Frente ao exposto, mostra-se relevante
a realização de pesquisas com técnicas de PLN aplicadas a textos jurídicos do país de
interesse, considerando-se o respectivo idioma.
Há diversos estudos envolvendo técnicas de PLN aplicadas ao meio jurídico. Em
relação ao tipo de documentos jurídicos estudados, a maior parte dos estudos encontra-
dos não foi muito específica em sua descrição, utilizando-se de termos genéricos como
legal documents, legal cases. Entretanto, alguns deles foram mais específicos descre-
vendo a classificação de documentos como estatutos, regulamentos ou decisões adminis-
trativas [23], Leis sobre Pensão [31], políticas de privacidade [12], sentenças [36] ou Leis
Financeiras[30].
Diferentemente do movimento que já vem ocorrendo em muitos países desenvol-
vidos [13, 22], no Brasil o crescimento desta área ainda é muito recente, havendo poucas
publicações nesse sentido. O Poder Judiciário Brasileiro enfrenta um cenário desafiador:
um crescente aumento no ingresso de processos; uma limitada disponibilidade de servido-
res a ser mantida ou reduzida; culminando numa baixa vazão dos processos e, portanto,
lentidão no ciclo de atendimento às demandas jurídicas da população. Diferentes melhorias
veem sendo propostas e realizadas a fim de tornar o Sistema mais eficiente, uma delas
é a ampla implantação do processo eletrônico em substituição aos processos físicos, que
dentre outros benefícios facilita o acesso às informações processuais. Muitas das tarefas
realizadas ainda são manuais, o que impacta negativamente na celeridade do processo
e gestão otimizada dos recursos disponíveis. Uma das atividades iniciais é a classifica-
ção dos processos no momento da petição inicial em primeira instância. Além do tempo
necessário para execução do preenchimento do sistema, muitas vezes essa etapa acaba
23
gerando retrabalho devido à classificação indevida. Nesses casos é necessário seu enca-
minhamento à área especializada que fará a reclassificação do processo, que por sua vez
será redistribuído para o órgão competente de fato e só então o processo voltar a seguir o
trâmite normal (Figura 3.1).
Motivado pelo problema da classificação automática de textos jurídicos para apli-
cação a processos eletrônicos de um Tribunal Estadual Brasileiro, espera-se entender quais
os fatores mais relevantes a serem considerados no processo de decisões intermediárias
que fazem parte da etapa de escolha e treinamento do algoritmo de classificação e como
elas interferem no resultado desse modelo. Além disso, pretende-se verificar a viabilidade
da utilização da técnica de paralelismo parameter sweep no intuito de otimizar a escolha
dos parâmetros durante a fase de treinamento. Em relação às técnicas de ML para classifi-
cação de textos, serão testadas inicialmente algumas das principais abordagens, de acordo
com a literatura, prosseguindo-se à otimização da respectiva parametrização para aquela,
ou aquelas técnicas, que apresentarem-se com melhor desempenho inicial para o problema
prático proposto. Portanto, ao final deste estudo almeja-se propor uma metodologia para
otimizar a escolha de parâmetros do algoritmo de classificação de documentos jurídicos
paralelizando o treinamento da(s) técnica(s) de ML que apresentarem melhor desempenho,
em termos de F1, para o problema prático proposto.
24
25
Dentre as técnicas clássicas pode-se citar a Bag of Words. Apesar dessa aborda-
gem ser capaz de representar a sintática das palavras, ela não expressa o significado delas.
Nesse contexto surgem muitos estudos envolvendo abordagens de word embeddings (WE)
a fim de representar-se também a informação semântica das palavras. As WE são técni-
cas de aprendizado de features a fim de mapear palavras ou um conjunto de palavras de
um vocabulário de dimensão N para um vetor de números reais com dimensionalidade m,
sendo m « N. Dentre os métodos de WE que tem sido bastante utilizados, pode-se citar o
Word2Vec, GloVe e FastText [20, 42].
Ao final da terceira etapa, geralmente os dados originais estarão representados
por uma grande quantidade de features, formando assim uma matriz esparsa de grande di-
mensionalidade. Sabe-se que essas duas características são indesejadas para a execução
da maioria dos algoritmos de classificação, pois além de aumentar o tempo de processa-
mento, reduz o desempenho qualitativo, uma vez que dificulta a identificação de padrões
de comportamento entre os casos. Em função disso, recomenda-se o emprego de técnicas
para seleção e projeção de features no intuito de reduzir a dimensionalidade dessa ma-
triz. Assim, o que no início era apenas um conjunto de textos e documentos, nesta fase
estará representado por uma matriz de valores numéricos com dimensionalidade reduzida
[45, 33, 1].
O processo descrito até aqui viabiliza a classificação de textos a partir de um arse-
nal de algoritmos de ML para classificação já utilizado no contexto de dados estruturados.
Logo, a matriz gerada ao final da etapa anterior servirá como entrada para o treinamento
de uma função de classificação, onde a classe anotada será a classe alvo. O resultado es-
perado é que o modelo treinado seja capaz de identificar a classe de novos textos de forma
automática, acurada e precisa. Em síntese, o modelo final será uma fórmula cujo valor de
saída será um vetor de n-probabilidades de um texto pertencer a cada uma das n-classes,
a partir da entrada de um vetor de k-features extraídas do texto de entrada.
O último passo é a avaliação da solução final. Apesar de haver uma estrutura de-
finida para a análise do resultado, seja ela: seleção de indicadores, definição do método de
estimação, aplicação do método e comparação dos resultados [27], os valores absolutos
dos resultados do desempenho ainda são muito dependentes do problema de classificação
que está sendo testado. Assim, a possibilidade de generalização dos resultados e compa-
ração entre diferentes estudos é bastante limitada [20].
As etapas do processo apresentado acima foram descritas apenas superficial-
mente, pois cada uma ainda possuiria uma gama de características próprias. Devido à
complexidade do processo de classificação de textos, a maioria dos estudos da área ex-
plora uma dessas etapas, inclusive em casos de estudos de revisão [27]. Nesse mesmo
sentido, o escopo desta pesquisa foi limitado à variação de dois elementos da quinta etapa:
a escolha e o treinamento do algoritmo de ML para classificação de textos. Quanto às de-
mais etapas, será adotada uma abordagem padrão alinhada ao respectivo Estado da Arte
27
a fim de garantir o controle das demais fontes de variabilidade que poderiam vir a intervir
nos resultados.
Figura 2.1 – Principais etapas do processo para classificação de textos, destacando etapa
na qual o escopo deste estudo está inserido. Ilustração adaptada a partir do modelo pro-
posto por Mironcz et al. 2018[27]
que formam uma espécie de comitê. Dentre as possíveis técnicas para se combinar os
resultados individuais, pode-se citar: bagging, boosting, Ad-aBoost, stacked generalisation
e mixtures of experts [3].
As técnicas de Deep Learning(DL) têm atingido o estado da arte em diversas áreas
que utilizam dados não estruturados, como: análise de imagens, reconhecimento de fala.
O mesmo tem sido observado para a compreensão de textos [48]. Apesar disso, sabe-
se que a qualidade do resultado de muitas dessas técnicas, especialmente daquelas de
aprendizagem, depende da disponibilidade de uma grande quantidade de exemplos para
treino a fim de que possam ser identificados padrões de comportamento associados às
classes. Além disso, paradoxalmente, ao mesmo tempo que para atingir resultados ótimos é
necessário um grande volume de dados, quando essa não é a principal limitação, o gargalo
ocorre justamente devido às dificuldades em lidar com um grande volume de dados.
d
Y
P(yi |x) ∝ P(yi ) P(x j |yi ) (2.1)
i=1
Random Forest é uma técnica Ensemble que combina várias árvores de decisão
individuais, com indução do topo até as folhas. Em cada nó, a árvore de decisão amostra
aleatoriamente N dentre os atributos e escolhe aquele que otimiza a divisão de instâncias
segundo um critério pré-definido. Assim, tanto a variável quanto o respectivo valor que
otimiza a divisão em um determinado nó serão os valores de retorno daquele nó[37]. Dessa
forma, ao final teremos várias árvores de decisão diferentes, cujo resultado conjunto será
dado por voto majoritário[5]. Existem diferentes formas de se parametrizar essa técnica,
29
No grupo das técnicas de DL que tem atingido o estado da arte em diversas áreas
de pesquisa, dentre elas a classificação de textos, há as Redes Neurais Recorrentes que
são redes especializadas em processamento de dados sequenciais. Devido a sua natureza
sequencial, elas são capazes de manter por mais tempo informações obtidas em passos an-
teriores, propagando-as, garantindo assim uma espécie de memória de longo prazo. Essa
propriedade da rede torna-se de extrema relevância a fim de facilitar a captura de contexto
das palavras. Esse, por sua vez, é essencial para que a semântica dos textos seja inter-
pretada adequadamente. Entretanto, a memória em Redes Neurais Recorrentes Vanilla vai
sendo neutralizada à medida em que avançamos os seus passos, caracterizando uma me-
mória de curto prazo. Já redes LSTM [16] são uma variação de Redes Neurais Recorrentes
onde é possível garantir uma memória de longo prazo ao modelo, contornando a limitação
apresentada anteriormente.
Uma variação de redes LSTM que tem chamado a atenção para classificação de
textos são as redes LSTM Bidirecionais (Bi-LSTM), em que a entrada de informações se-
quenciais é percorrida simultaneamente em ambas as direções:backward e forward. Esse
comportamento permite que a rede capte mais informações do contexto em que cada to-
ken está inserido, portanto geralmente apresenta melhores resultados do que uma simples
camada unidirecional LSTM. Essa representação mais rica advém da combinação dos es-
tados das duas camadas LSTM,que geralmente são concatenadas [40]. Entretanto, essa
técnica só é aplicável em situações que se tem previamente as informações anteriores e
posteriores a cada token, o que não seria verdade no caso de um modelo a ser treinado
para desenvolver uma conversação em que, portanto, só se teria a informação passada,
por exemplo. Já no caso da classificação de textos torna-se uma alternativa bastante inte-
ressante, já tendo sido explorada em estudos anteriores inclusive para a classificação de
textos jurídicos atingindo resultados satisfatórios[4].
Para tanto, há algumas métricas comumente usadas e que foram adotadas neste estudo:
Accuracy, Precision, Recall e F1.
Considerando True Positivies(TP) como os casos que foram classificados corre-
tamente na classe k;False Positives(FP) como os que foram erroneamente classificados
na classe k; False Negatives(FN) como os casos que não foram classificados na classe
k, mas deveriam ter sido; e True Negatives como os casos que corretamente não foram
classificados na classe k, tem-se [41]:
TP + TN
Accuracy = (2.2)
TP + TN + FP + FN
TP
Precision = (2.3)
TP + FP
TP
Recall = (2.4)
TP + FN
2
F1 = 1 1
(2.5)
Precision
+ Recall
pecífica em sua descrição, utilizando-se de termos genéricos como legal documents, legal
cases. Entretanto, alguns deles foram mais específicos descrevendo os documentos como
estatutos, regulamentos ou decisões administrativas [23], Leis sobre Pensão [31], políticas
de privacidade [12], sentenças [36] ou Leis Financeiras[30]. Além do tipo de documento,
também há diferença no idioma dos textos considerados para classificação e no tamanho
da amostra.
Apesar de haver muitas publicações que se propuseram a estudar diferentes as-
pectos para aplicação de técnicas de PLN para classificação automática de textos, aparen-
temente ainda não há um volume de publicações tão amplo para o domínio jurídico frente
ao potencial de aplicações que poderia contribuir para a área. Adicionalmente, dentre esses
estudos, poucos se referem a modelos específicos para a legislação brasileira.
Tabela 2.1 – Resultado final dos algoritmos de classificação com melhor desempenho por
estudo dentre os trabalhos anteriores identificados cujo objetivo foi a classificação de textos
jurídicos.
Em relação ao PS, uma das formas que teríamos para classificar esses workflows
seria de acordo com a forma com que as atividades consomem e produzem dados, sendo
4 os tipos básicos: Map, Split Map, Reduce e Join(Figura2.2). Atividades que executam a
função Map seriam aquelas que produzem uma única saída para cada entrada de dados,
ou seja, seria um modelo de razão input/output 1:1. Já no caso das atividades Split Map,
seriam quando são produzidas umas série de saídas para cada entrada de dados, ou seja,
seria um modelo de razão input/output 1:n. Por sua vez, atividades que executam a função
Reduce seriam aquelas que a partir de várias entradas produzem uma única saída, ou
seja, seria um modelo de razão input/output n:1. Por último, as atividades com função Join
seriam aquelas em que há o consumo de uma série de dados que podem vir de um número
fixo de m atividades diferentes para produzir uma única série de saída de dados, ou seja,
seria um modelo de razão input/output n:n.
Figura 2.2 – Atividades básicas utilizadas em fluxos de trabalho parameter sweep (PS),
conforme reportado por Chirigati et. al. [10].
sua vez são consumidos conjuntamente numa etapa Join, portanto gerando n resultados
a partir de uma etapa que consolida os resultados das atividades prévias. Nesse último
padrão, é importante que os dados para consumo estejam todos prontos para que a etapa
Join inicie.
Em relação às métricas usualmente utilizadas para quantificar os benefícios da
técnica PS versus processamento sequencial, a maioria está baseada em alguma espécie
de análise do tempo de processamento em comparação ao número de núcleos físicos uti-
lizados. Chirigati et. al. [10] propõe algumas métricas que também serão adotadas neste
estudo.
Figura 2.3 – Padrões de combinações das atividades básicas em fluxo de trabalho para-
meter sweep (PS), conforme reportado por Chirigati et. al. [10].
• Tempo de Execução Paralela (TE ): tempo total de execução do workflow (em minutos);
• Tempo de Execução Sequencial (T1 ): tempo total de execução dos processos de ma-
neira sequencial (em minutos);
Em que:
T1
S= (2.6)
TE
S
E= (2.7)
c
36
37
ilustração 3.1 demonstra de forma simplificada esse fluxo do processo eletrônico, desde a
sua abertura pelo advogado até sua correta distribuição.
Assim, caso fosse possível classificar esses processos de forma automática, essa
informação não precisaria ser preenchida pelo advogado, o que melhoraria a experiência
dele ao ingressar com o processo, viabilizando uma classificação de forma mais rápida e
objetiva. Além disso, reduziria o retrabalho e possível retardo do andamento processual
devido a erro na classificação.
Figura 3.1 – Representação simplificada do fluxo atual para abertura de um processo ele-
trônico em 1ª instância. Destaque para a etapa de verificação da respectiva classe CNJ
fornecida pelo advogado junto à petição inicial, e seus possíveis encaminhamentos.
3.2 Amostragem
3.2.1 Pré-Processamento
A Figura 3.2 apresenta um exemplo de petição que foi utilizada no presente estudo
como texto de entrada a ser classificado. Complementarmente, a Figura 3.3 ilustra esse
mesmo texto após a execução da etapa de pré-processamento. Esse mesmo tratamento foi
aplicado a todas as 107.010 petições.
Figura 3.2 – Exemplo de petição que foi utilizada como texto de entrada a ser classificado.
3.3.2 Treinamento
somando esforços para uma classificação final mais acurada[3, 47]. Considerando que, na
sequência deste trabalho, pretende-se ajustar um modelo Ensemble, nesta etapa escolheu-
se representantes de três grupos diferentes de modelos de classificação, são eles: pro-
babilístico clássico - Naive Bayes; árvores de decisão - Random Forest; Deep Learning -
Bi-LSTM.
Tabela 3.3 – Comparação dos Algoritmos de Classificação - Tempo de Execução (em se-
gundos)
Tamanho da Amostra Naive Bayes Random Forest Bi-LSTM
1.000 0,01 27,77 263,54
5.000 0,02 46,94 340,61
10.000 0,05 74,69 570,53
estimativa para 59.032 0,26 323,03 41.777,49
46
47
Figura 4.1 – Fluxo geral da Metodologia proposta em 4 fases: (1) Pré-processamento, (2)
Treinamento do Modelo de Representação, (3) Treinamento em Paralelo dos Modelos de
Classificação, (4) Método Ensemble.
Na etapa seguinte são extraídas features do texto. Esse é um dos elementos mais
importantes do processo, pois mesmo que se tenha um dataset com ótima quantidade e
qualidade de exemplos, é necessário que o método de representação do texto em forma
estruturada seja capaz de refletir a informação não-estruturada original sem perder os res-
pectivos elementos essenciais. Devido à importância e à complexidade envolvida, muitos
esforços têm sido dedicados ao estudo desses métodos para representação de textos e ex-
tração de features [2, 42]. Conforme apresentado no Capítulo 2, recomenda-se a utilização
de abordagens de word embeddings (WE) a fim de representar-se também a informação
semântica das palavras.
Nesta etapa, é escrita uma função que será executada em paralelo, de acordo com
a arquitetura computacional disponível, variando-se os parâmetros de entrada. Esta função
conterá as seguintes etapas:
2. Separação das amostras em três grupos: treino (70%), análise (20%) e teste (10%);
4. A partir da amostra de teste, coleta das estatísticas de desempenho: F1, recall, accu-
racy, precision, tempo de processamento;
Outra abordagem que também pode ser adotada no intuito de buscar melhores re-
sultados é a combinação de diferentes resultados de classificação individuais, sejam eles da
mesma técnica ou não. Esses métodos são denominados Ensemble e há diferentes formas
com que os resultados individuais podem ser combinados. Segundo Faceli et. al., 2015,
[14] há diferentes maneiras de classificar essas técnicas, sendo uma delas como Métodos
de Votação versus Métodos de Seriação. O primeiro seria a forma mais frequentemente uti-
lizada para combinação de predições, em que a seria formado uma espécie de comitê em
que cada classificador individual entraria como um voto. Essa votação seria dada de forma
uniforme, ou seja, quando todos os votos possuem mesmo peso na classificação final; ou
ainda poderia ser realizada de forma ponderada, onde cada classificador base possuiria um
peso associado, o qual pode variar ao longo do tempo, de forma a reforçar o resultado ob-
tido por um bom classificador. Já o segundo pode ser visto como uma melhoria no processo
de votação, ao combinar-se as probabilidades de pertencer a cada uma das classes ao in-
vés de puramente as etiquetas atribuídas aos indivíduos, Kittler (1998)[19] explora em seu
estudo diferentes funções dentre as mais comuns para combinação dessas probabilidades,
dentre elas a Regra da Soma (4.1), regra da média (4.2) e regra do produto (4.3).
Regra da Soma:
m
X
Sk = Pik (4.1)
i=1
Regra da Média:
m
X Pik
Sk = (4.2)
m
i=1
Regra do Produto:
m
Y
Sk = Pi (4.3)
i=1
4.2.1 Implementação
sendo armazenado o modelo treinado para posterior carregamento e utilização a cada uma
das combinações de parâmetros dos modelos de classificação treinados.
4.2 ilustra o fluxo de PS adotado nesta pesquisa. Ao total foram testados em paralelo 216
combinações de parâmetros, utilizando-se uma máquina com 24 núcleos físicos para tanto.
Figura 4.2 – Fluxo de trabalho parameter sweep (PS) aplicado neste estudo.
Uma vez que foram processados 216 modelos de classificação, mesmo que fos-
sem de mesma técnica, existiam parâmetros de entrada e, portanto, também modelos finais
diferentes. Ao final do treinamento, selecionou-se aqueles 4 com maior desempenho em
termos de F1, combinando-os pela regra da soma supramencionada (Equação 4.1) a fim de
verificar se seria possível formar um modelo de classificação melhor pelo método Ensemble
do que aquele com melhor desempenho individual. Foram escolhidos os 4 melhores devido
a seu desempenho superior em comparação com a grande maioria dos modelos.
54
55
Seguindo a análise estatística para o efeito principal do total de nós, único que
apresentou diferença estatisticamente significativa, dado que os níveis eram quantitati-
vos e não categóricos, segundo Montgomery([29]), é mais recomendável e informativo
complementar-se com o ajuste de uma regressão do que com um teste de comparações
múltiplas entres as categorias testadas. No ajuste da regressão, foram testados os efeitos
até um polinômio de grau 4, momento em que o efeito de regressão deixou de ser significa-
tivo. Assim, ao final, sendo estatisticamente significativo (p<0,05) o efeito linear, quadrático
e cúbico, conforme resultado do ajuste de regressão polinomial de grau 3 apresentado na
Tabela 5.3. A regressão ajustada apresentou R² de 0,2, o que se pode considerar relativa-
mente baixo, demonstrando que a equação ajustada seria responsável por explicar apenas
aproximadamente 20% da variabilidade observada em função do total de Nós. Aditiva-
mente, verifica-se que o máximo da função é atingido com o menor número testado para o
parâmetro, 12 nós. Em estudos futuros, recomenda-se ampliar o limite inferior do total de
Nós a fim de verificar o comportamento fora desse intervalo. Essa observação é acrescen-
tada uma vez que as estimativas de um modelo de regressão não devam ser extrapoladas
para além dos limites testados.
57
Tabela 5.4 – Resultados da Metodologia Parameter Sweep para 216 combinações de parâ-
metros para treinamento de Redes Bi-LSTM. Utilizando amostra de 39.032 textos jurídicos.
Estatística Accuracy Precision Recall F1
Mínimo 0,819 0,819 0,819 0,739
Média 0,821 0,821 0,821 0,743
Mediana 0,820 0,820 0,820 0,739
Máximo 0,846 0,846 0,846 0,816
Tabela 5.5 – Resultados da Metodologia Parameter Sweep Resultado dos 10 modelos com
melhor desempenho dentre os 216 treinados.
Modelo: Épocas, Nós, Drop-out Accuracy Precision Recall F1
Modelo75: 50,12,30 0,846 0,846 0,846 0,846
Modelo172: 110,12,30 0,844 0,844 0,844 0,844
Modelo78: 50,12,20 0,842 0,842 0,842 0,842
Modelo148: 90,12,30 0,841 0,841 0,841 0,841
Modelo74: 50,12,50 0,840 0,840 0,840 0,840
Modelo103: 70,12,40 0,839 0,839 0,839 0,839
Modelo40: 30,12,40 0,836 0,836 0,836 0,836
Modelo152: 90,36,30 0,835 0,835 0,835 0,835
Modelo154: 90,36,20 0,830 0,830 0,830 0,830
Modelo122: 90,12,0 0,825 0,825 0,825 0,825
Tabela 5.6 – Resultado do Método Ensemble a partir da combinação dos 4 melhores mo-
delos individuais identificados na aplicação da Metodologia Parameter Sweep.
Métrica Valor
Accuracy 0,808
Recall 0,808
Precision 0,845
F1 0,826
cabe destacar que nenhum dos estudos anteriores, aos quais estamos comparando, traba-
lharam exatamente com o mesmo tipo de documento jurídico ou classificação de processo
que o presente estudo, portanto ainda sendo importante considerar as peculiaridades de
cada um ao se fazer uma análise dos valores apresentados.
Tabela 5.7 – Resumo do resultado final dos algoritmos de classificação de textos jurídicos
com melhor desempenho de trabalhos anteriores, a partir dos dados da Tabela 2.1
Métrica Média(DP)
Accuracy 0,79(0,21)
Precision 0,78(0,14)
Recall 0,69(0,16)
F1 0,82(0,13)
6. CONCLUSÃO
Quanto a estudos futuros, sugere-se que sejam explorados outros modelos de re-
presentação de textos diferentes do Word2Vec. Seria interessante explorar não apenas o
efeito principal de cada modelo de representação, como a combinação desses com os de-
62
mais parâmetros, pois pode ser que a melhor combinação de parâmetros para maximizar
a qualidade final do modelo de classificação seja diferente conforme o modelo de repre-
sentação adotado na entrada. Além disso, seria interessante incluir uma etapa de extração
para conversão dos pdfs de imagem para texto, de forma a aproveitar uma maior parte da
amostra disponibilizada. Ainda em relação às peculiaridades do problema prático explo-
rado neste estudo, como sabe-se que a combinação de parâmetros e desempenho final
do modelo de classificação dependem também do conjunto de dados da entrada, seria
interessante avaliar a aplicação da metodologia proposta a outros corpus.
Por último, sugere-se que seja explorado outro nível de paralelismo, adotando-
se uma arquitetura de multicomputadores, trabalhando-se com processamento de maneira
distribuída, a fim de otimizar ainda mais a busca pela melhor combinação de parâmetros.
Acredita-se que ainda há espaço para melhoria no aproveitamento de estruturas redun-
dantes disponíveis e, consequentemente, no tempo de resposta para que seja indicada a
melhor combinação de parâmetros para o modelo de classificação a ser treinado.
63
REFERÊNCIAS BIBLIOGRÁFICAS
[1] Agnihotri, D.; Verma, K.; Tripathi, P. “Variable global feature selection scheme for
automatic classification of text documents”, Expert Systems with Applications, vol. 81,
2017, pp. 268 – 281.
[2] Altınel, B.; Ganiz, M. C. “Semantic text classification: A survey of past and recent
advances”, Information Processing & Management, vol. 54, 2018, pp. 1129 – 1153.
[3] Anderlucci, L.; Guastadisegni, L.; Viroli, C. “Classifying textual data: shallow, deep and
ensemble methods”, arXiv e-prints, vol. abs/1902.07068, 2019, pp. arXiv:1902.07068.
[4] Braz, F. A.; da Silva, N. C.; de Campos, T. E.; Chaves, F. B. S.; Ferreira, M.
H. S.; Inazawa, P. H.; Coelho, V. H. D.; Sukiennik, B. P.; de Almeida, A. P. G. S.;
de Barros Vidal, F.; Bezerra, D. A.; Gusmao, D. B.; Ziegler, G. G.; Fernandes, R. V. C.;
Zumblick, R.; Peixoto, F. H. “Document classification using a bi-lstm to unclog brazil’s
supreme court”, CoRR, vol. abs/1811.11569, 2018.
[5] Breiman, L. “Random forests”, Machine Learning, vol. 45, 2001, pp. 5–32.
[6] Callaghan, S.; Maechling, P.; Small, P.; Milner, K.; Juve, G.; Jordan, T. H.; Deelman, E.;
Mehta, G.; Vahi, K.; Gunter, D.; Beattie, K.; Brooks, C. “Metrics for heterogeneous
scientific workflows: A case study of an earthquake science application”, The
International Journal of High Performance Computing Applications, vol. 25, 2011, pp.
274–285.
[7] Chalkidis, I.; Androutsopoulos, I.; Michos, A. “Extracting contract elements”. In:
Proceedings of the 16th Edition of the International Conference on Articial Intelligence
and Law, 2017, pp. 19–28.
[8] Chalkidis, I.; Kampas, D. “Deep learning in law: early adaptation and legal word
embeddings trained on large corpora”, Artificial Intelligence and Law, vol. 27, 2019,
pp. 1–28.
[9] Chen, S. J.; Wang, X.; Qin, Z.; Metzler, D. “Parameter tuning in personal search
systems”. In: Proceedings of the 13th International Conference on Web Search and
Data Mining, 2020, pp. 97–105.
[10] Chirigati, F.; Silva, V.; Ogasawara, E.; de Oliveira, D.; Dias, J.; Porto, F.; Valduriez, P.;
Mattoso, M. “Evaluating parameter sweep workflows in high performance computing”.
In: Proceedings of the 1st ACM SIGMOD Workshop on Scalable Workflow Execution
Engines and Technologies, 2012, pp. 1 – 10.
64
[11] Chunduri, S.; Ghaffar, M.; Lahijani, M. S.; Srinivasan, A.; Namilae, S. “Parallel low
discrepancy parameter sweep for public health policy”. In: Proceedings of the 18th
IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing, 2018, pp.
291–300.
[12] Costante, E.; Sun, Y.; Petković, M.; den Hartog, J. “A machine learning solution to
assess privacy policy completeness: (short paper)”. In: Proceedings of the 2012 ACM
Workshop on Privacy in the Electronic Society, 2012, pp. 91–96.
[13] Elnaggar, A.; Gebendorfer, C.; Glaser, I.; Matthes, F. “Multi-task deep learning for legal
document translation, summarization and multi-label classification”. In: Proceedings of
the 2018 Artificial Intelligence and Cloud Computing Conference, 2018, pp. 9–15.
[14] Faceli, K.; Lorena, A. C.; Gama, J.; de Carvalho, A. C. “Inteligência Artificial:Uma
Abordagem de Aprendizado de Máquina”. LTC, 2015.
[15] Fernandes, W. P. D.; Silva, L. J. S.; Frajhof, I. Z.; da Franca Couto Fernandes de
Almeida, G.; Konder, C. N.; Nasser, R. B.; de Carvalho, G. R.; Barbosa, S. D. J.; Lopes,
H. C. V. “Appellate court modifications extraction for portuguese”, Artificial Intelligence
and Law, 2019, pp. 1–34.
[16] Hochreiter, S.; Schmidhuber, J. “Long short-term memory”, Neural Computation, vol. 9,
1997, pp. 1735–1780.
[17] Kadhim, A. I. “Survey on supervised machine learning techniques for automatic text
classification”, Artificial Intelligence Review, vol. 52, 2019, pp. 273–292.
[18] Kingma, D. P.; Ba, J. “Adam: A Method for Stochastic Optimization”, arXiv e-prints,
2014, pp. arXiv:1412.6980.
[20] Kowsari, K.; Jafari Meimandi, K.; Heidarysafa, M.; Mendu, S.; Barnes, L.; Brown, D.
“Text classification algorithms: A survey”, Information, vol. 10, 2019.
[21] Leevy, J. L.; Khoshgoftaar, T. M.; Bauder, R. A.; Seliya, N. “A survey on addressing
high-class imbalance in big data”, Journal of Big Data, vol. 5, 2018, pp. 1–30.
[22] Li, P.; Zhao, F.; Li, Y.; Zhu, Z. “Law text classification using semi-supervised
convolutional neural networks”, 2018 Chinese Control And Decision Conference
(CCDC), 2018, pp. 309–313.
[23] Lu, Q.; Conrad, J. G.; Al-Kofahi, K.; Keenan, W. “Legal document clustering with built-
in topic segmentation”. In: Proceedings of the 20th ACM International Conference on
Information and Knowledge Management, 2011, pp. 383–392.
65
[24] Maalouf, M.; Trafalis, T. B. “Rare events and imbalanced datasets: an overview”,
International Journal of Data Mining, Modelling and Management, vol. 3, 2011, pp.
375–388.
[29] Montgomery, D. C. “Design and Analysis of Experiments”. John Wiley & Sons, Inc.,
2013.
[30] Neill, J. O.; Buitelaar, P.; Robin, C.; Brien, L. O. “Classifying sentential modality in legal
language: A use case in financial regulations, acts and directives”. In: Proceedings of
the 16th Edition of the International Conference on Articial Intelligence and Law, 2017,
pp. 159–168.
[31] Nguyen, L.-M.; Bach, N. X.; Shimazu, A. “Supervised and semi-supervised sequence
learning for recognition of requisite part and effectuation part in law sentences”. In:
Proceedings of the 9th International Workshop on Finite State Methods and Natural
Language Processing, 2011, pp. 21–29.
[32] Ogasawara, E.; de Oliveira, D.; Valduriez, P.; Dias, J.; Porto, F.; Mattoso, M. “An
algebraic approach for data-centric scientific workflows”, PVLDB, vol. 4, 2011, pp.
1328–1339.
[33] Pinheiro, R. H.; Cavalcanti, G. D.; Ren, T. I. “Data-driven global-ranking local feature
selection methods for text categorization”, Expert Systems with Applications, vol. 42,
2015, pp. 1941 – 1949.
[34] Ponce, E.; Stephenson, B.; Lenhart, S.; Day, J.; Peterson, G. D. “Papas: A portable,
lightweight, and generic framework for parallel parameter studies”. In: Proceedings of
the Practice and Experience on Advanced Research Computing, 2018.
[35] Rabelo, J.; Kim, M.-Y.; Goebel, R. “Combining similarity and transformer methods for
case law entailment”. In: Proceedings of the Seventeenth International Conference on
Artificial Intelligence and Law, 2019, pp. 290–296.
66
[36] Ramrakhiyani, N.; Pawar, S.; Palshikar, G. K. “A system for classification of propositions
of the indian supreme court judgements”. In: Post-Proceedings of the 4th and 5th
Workshops of the Forum for Information Retrieval Evaluation, 2013.
[37] Rokach, L. “Ensemble-based classifiers”, Artificial Intelligence Review, vol. 33, 2010,
pp. 1–39.
[38] Schuster, M.; Paliwal, K. K. “Bidirectional recurrent neural networks”, IEEE Transactions
on Signal Processing, vol. 45, 1997, pp. 2673–2681.
[39] Severyn, A.; Moschitti, A. “Learning to rank short text pairs with convolutional deep
neural networks”. In: SIGIR, 2015.
[40] Shabanian, S.; Arpit, D.; Trischler, A.; Bengio, Y. “Variational bi-lstms”, arXiv preprint
arXiv:1711.05717, 2017, 1711.05717.
[42] Sinoara, R. A.; Camacho-Collados, J.; Rossi, R. G.; Navigli, R.; Rezende, S. O.
“Knowledge-enhanced document embeddings for text classification”, Knowledge-
Based Systems, vol. 163, 2019, pp. 955 – 971.
[43] Srinivasan, A.; Sudheer, C. D.; Namilae, S. “Optimizing massively parallel simulations
of infection spread through air-travel for policy analysis”. In: Proceedings of the 16th
IEEE/ACM International Symposium on Cluster, Cloud, and Grid Computing, 2016, pp.
136–145.
[44] Stein, R. A.; Jaques, P. A.; Valiati, J. F. “An analysis of hierarchical text classification
using word embeddings”, Information Sciences, vol. 471, 2018, pp. 216–232.
[45] Uysal, A. K.; Gunal, S. “A novel probabilistic feature selection method for text
classification”, Knowledge-Based Systems, vol. 36, 2012, pp. 226 – 235.
[46] Walker, E.; Guiang, C. “Challenges in executing large parameter sweep studies across
widely distributed computing environments”. In: Proceedings of the 5th IEEE Workshop
on Challenges of Large Applications in Distributed Environments, 2007, pp. 11–18.
[48] Zhang, Q.; Yang, L. T.; Chen, Z.; Li, P. “A survey on deep learning for big data”,
Information Fusion, vol. 42, 2018, pp. 146–157.
67
[49] Zhou, L.; Pan, S.; Wang, J.; Vasilakos, A. “Machine learning on big data: Opportunities
and challenges”, Neurocomputing, vol. 237, 2017, pp. 350–361.
[50] Škrlj, B.; Kralj, J.; Lavrac, N.; Pollak, S. “Towards robust text classification with
semantics-aware recurrent neural architecture”, Machine Learning and Knowledge
Extraction, vol. 1, 2019, pp. 575–589.