Escolar Documentos
Profissional Documentos
Cultura Documentos
Araranguá
2022
Willian Aurélio Pizoni
Araranguá
2022
Willian Aurélio Pizoni
Este Trabalho de Conclusão de Curso foi julgado adequado para obtenção do Título de
Bacharel em Engenharia de Computação e aprovado em sua forma final pelo Curso de
Graduação em Engenharia de Computação.
________________________________
Profª. Analúcia Schiaffino Morales, Drª.
Coordenadora do Curso
Banca Examinadora:
________________________________
Prof. Alexandre Leopoldo Gonçalves, Dr.
Orientador
Universidade Federal de Santa Catarina
________________________________
Profª. Olga Yevseyeva, Drª.
Avaliadora
Universidade Federal de Santa Catarina
________________________________
Prof. Luciano Zamperetti Wolski, M.Sc.
Avaliador
Universidade do Estado de Mato Grosso
Classificação de Documentos de Patentes por meio de
Redes Neurais Artificiais
2022, Julho
Resumo
1
willianaureliop@gmail.com
2
a.l.goncalves@ufsc.br
5
Classificação de Documentos de Patentes por meio de
Redes Neurais Artificiais
2022, Julho
Abstract
The number of patent applications has been growing in recent years, a number that is
greater than the capacity for analysis carried out by expert examiners. Furthermore,
applying for a patent is a complex and costly process, as well as time consuming.
Therefore, this work proposes the development of a text classification method based
on deep neural networks to create ordered subclass recommendations. For the
development of the method, three architectures of deep neural networks were used, a
multilayer perceptron network (MLP), a long-short term memory neural network
(LSTM) and a convolutional neural network (CNN). In order to test the proposed
method, 50,000 patent documents randomly chosen from the USPTO-2M dataset were
used. The results presented are positive, reaching an overall accuracy at the subclass
level of around 80% for k values between 5 and 6. From the analysis of the results it
can be affirmed that the proposed method of ordered recommendation of subclasses
has the potential to assist examiners in identifying the most suitable classes/subclasses
for a given patent.
¹willianaureliop@gmail.com
²a.l.goncalves@ufsc.br
6
1 INTRODUÇÃO
No atual cenário de um mundo globalizado são gerados a cada 10 minutos mais dados
do que todos os gerados da pré-história até o ano de 2003 (CAVIQUE, 2014). Em relatório
divulgado em 2017, no mundo eram produzidos mais de 2,5 quintilhões de bytes de dados por
dia (PANDEY; SHUKLA, 2018). Os dados gerados por cada indivíduo podem ser de grande
valia para diversos segmentos. A partir desse crescimento houve a necessidade de desenvolver
novas técnicas de armazenamento e processamento para extrair informações relevantes destes
dados, de forma rápida e otimizada. Ademais, com a evolução dos hardwares e tecnologias de
armazenamento houve um aumento na capacidade de processamento de computadores
pessoais, permitindo que mais dados fossem gerados e analisados (ALVAREZ; VIANA;
NUNO, 2016).
Com a popularização dos computadores pessoais e o aumento na geração de dados
públicos, diversas técnicas têm-se desenvolvido, desde a coleta dos dados até a evolução de
algoritmos que possuem como foco tomada de decisão e geração de valor (KASIM; HUNG;
LI, 2012). A maior parte dos dados gerados na web são dados não estruturados, informações
que encontram-se desorganizadas e dificilmente terão valor caso não seja desenvolvido algum
processamento (ELSAYED; ABDELWAHAB; AHDELKADER, 2019).
Entre as bases de dados não estruturadas em formato de texto que diferentes entidades
disponibilizam, estão os documentos de patentes que, segundo Spangler (2010), contém
informações de extrema relevância, porém, processar esse tipo de dado em sua grande maioria
pode se tornar uma tarefa complexa. Apesar das dificuldades, essas fontes representam um
vasto conhecimento técnico e inovador, sendo considerada de alta confiança.
Os documentos de patentes contêm informações de todos os campos do conhecimento,
necessidades humanas, operações de processamento, transporte, química, metalurgia, têxtil,
construção, engenharia, armas, física e eletricidade. Seu principal objetivo é garantir o direito
da invenção ao seu criador. No Brasil, segundo o INPI (Instituto Nacional da Propriedade
Industrial), somente no ano de 2019 foram realizados mais de 28 mil novos pedidos. Essas
novas solicitações são realizadas por pessoas físicas ou jurídicas por meio de escritórios
especializados. O tempo médio para que um registro seja concedido no Brasil é de 5 a 8 anos.
Este tempo é relativamente longo, o que motiva algumas empresas que possuem interesse em
adquirir patentes como forma de investimento e retirar o máximo do lucro (SHAMSI; AUNG,
2016) a investirem também em temas como novos sistemas de classificação de patentes.
O principal sistema para classificação de um documento de patente foi estabelecido
em um acordo realizado em Estrasburgo em 1971, entrando em vigor em 1975 denominado de
IPC (do inglês International Patent Classification). Neste sistema, a classificação está
disposta de forma hierárquica, em que no primeiro nível as Seções são identificadas por letras
maiúsculas, de A até H. No segundo nível as Seções são subdivididas em Classes. No terceiro
nível, a Classe é desdobrada em Subclasses. No próximo nível de hierarquia de classificação
de patentes existem o grupo principal e os grupos auxiliares. Uma única patente pode estar
relacionada a diversas classes, como é o caso da patente de código “US08822833” que
pertence a 3 classificações distintas:
● H05K - “Circuitos impressos; invólucros ou detalhes estruturais de aparelhos
elétricos; fabricação de conjuntos de componentes elétricos”;
● C23C - “Revestimento de materiais metálicos; revestimento de materiais com
materiais metálicos; tratamento da superfície de materiais metálicos por difusão,
por conversão química ou substituição; revestimento por evaporação a vácuo, por
pulverização catódica, por implantação de ions ou por deposição química em fase
de vapor, em geral”;
● G06F - “Processamento elétrico de dados digitais”.
7
A classificação de patentes é realizada a partir da análise da documentação gerada por
seu solicitante, e deve seguir as normas impostas pelo órgão regulador. As solicitações contém
dois tipos de dados, os dados estruturados que contém informações como data da solicitação,
número do documento, entre outras informações. Todavia, as informações mais ricas são
obtidas a partir do conteúdo não estruturado advindo do título, resumo e descrição da patente
(MAO et al. 2022)..
Segundo Moehrle (2010), as principais dificuldades no processo de análise e
classificação de patentes são: i) aumento elevado no número de solicitações; ii) demora em
realizar a análise de cada solicitação; iii) queda da qualidade das análises das solicitações.
O desafio de trabalhar um grande volume de dados em formato de textos, sendo que
cada documento precisa ser processado um a um, faz com que essa tarefa seja complexa e
demorada. Estas solicitações são interpretadas de diferentes formas por pessoas diferentes,
podendo conduzir a resultados diferentes. O processo como um todo, envolvendo a
solicitação, a análise e a classificação, utiliza o fator humano, que pode aumentar a
complexidade de todo o processo (XIAO; WANG; LIU, 2018). Uma determinada patente
pertencerá a uma ou mais subclasses em alguns casos. Desta forma, é de suma importância
que um documento seja classificado em todas as subclasses que de fato ela pertença, para que
a proteção do seu criador seja ampla e total.
De fato existem desafios na área de classificação de patentes, seja pelo grande volume
de dados gerados diariamente, seja pela complexidade no processo de análise. Porém, o
avanço nas pesquisas na área de Aprendizado de Máquina (do inglês Machine Learning - ML)
utilizando Processamento de Linguagem Natural (do inglês Natural Language Processing -
NLP) têm evoluído muito nos últimos anos, facilitando o desenvolvimento de diversas tarefas
no cenário da análise de patentes (PHAND; PHAND, 2017). Como citado anteriormente, uma
das fontes de informações mais ricas são os documentos de patentes. Deste modo, auxiliar no
processo de classificação de patentes é relevante para os escritórios de patentes.
Ademais, é fundamental reconhecer que a análise e classificação de patentes pode
produzir inúmeros resultados futuros. Por exemplo, utilizar estes documentos para realizar
análises de tecnologias desenvolvidas por concorrentes é algo que acontece a muito tempo
(KRONEMEYER et al. (2020). Todavia, analisar um grande conjunto de dados e
classificá-los, além de promover celeridade ao processo de classificação, pode facilitar
diversas análises de cenários entre concorrentes, tais como, a previsão de tendências de
tecnologias, entre outras futuras aplicações.
O processo de classificação segue as normativas de cada país, com base nos acordos
globais. Como existem processos distintos, os prazos acabam sendo diferentes em cada
localidade. No Brasil, o processo segundo a classificação INPI segue os seguintes passos: i) o
escritório sugere uma pesquisa prévia para entender o cenário das propriedades intelectuais;
ii) realiza buscas para verificar se realmente a invenção é inédita; iii) após a validação, o
depositante deverá produzir o relatório com as seguintes informações: um descritivo, as
classes que deseja reivindicar, o resumo do projeto, imagens (se for o caso); iv) realiza o
pagamento e efetiva o depósito; v) a patente entra no fluxo processual.
As principais etapas do pedido de patente passam pelo: i) exame formal preliminar,
onde é realizada toda a verificação da documentação e validação das condições mínimas para
seguir com o processo de pedido de patente; ii) publicação do pedido, nesta etapa somente a
matéria de reivindicação é revelada, e o pedido é mantido em sigilo por 18 meses; ii) início
dos exames técnicos, o pedido aprovado em todas as etapas anteriores são verificados pelos
examinadores, que realizam buscas por pedidos anteriores e produzem o parecer técnico para
cada solicitação.
A classificação de patentes é importante tanto para a realização das análises dos
examinadores, quanto para outros campos de desenvolvimento. Dentre as principais
8
aplicações segundo o INPI (2020), estão: i) auxiliar na busca e recuperação de documentos de
patente, ii) auxiliar no monitoramento tecnológico de setores iii) servir de base para investigar
o estado da técnica em determinados campos da tecnologia, e iv) servir de base para a
elaboração de estatísticas sobre propriedade industrial que permitam a avaliação do
desenvolvimento tecnológico em diversas áreas. Levando em conta a necessidade de se
aperfeiçoar o processo de classificação de documentos de patentes e de todas as aplicações
citadas acima, este trabalho propõe o desenvolvimento de um método de recomendação
ordenada de subclasses baseado em Redes Neurais Profundas para auxiliar examinadores na
identificação das classes/subclasses mais adequadas para determinada patente.
Este trabalho teve início nesta seção e terá outras 5 seções. Na seção 2 é apresentada a
fundamentação teórica, introduzindo os principais conceitos do trabalho, sendo eles, a análise
de patentes, a classificação de texto e as redes neurais artificiais. Na seção 3 são apresentados
os estudos relacionados. O método proposto é apresentado na seção 4 e, após isso, os
resultados são discutidos na seção 5. Na última seção, são apresentadas as considerações
finais do trabalho e as sugestões para trabalhos futuros.
2 FUNDAMENTAÇÃO TEÓRICA
Como as patentes são ricas em detalhes e podem conter informações relevantes para as
organizações, muitas pesquisas têm se utilizado de bases de documentos de patentes. Existem
algumas fontes sobre informações de registros patentários, entre elas: INPI®, USPTO®,
Epoline Register WIPO®. Em seu trabalho, Kim, San Kim e Sohn (2020) utilizaram uma base
da USPTO®, que são disponíveis de forma livre, em conjunto com outra base contendo
informações sobre startups, com o objetivo de elencar os principais pontos semelhantes entre
startups como suas posições tecnológicas e, a partir disso, recomendar possíveis cooperações.
Para além disso, existem diversas aplicações e análises que podem ser realizadas com
estas bases. Segundo Abbas, Zhang e Khan (2014), entre as principais aplicações
encontram-se: (a) determinação de novidades (b) análise de tendências (c) previsão de
desenvolvimentos tecnológicos em um domínio específico; (d) planejamento estratégico de
10
tecnologia, (e) extração de informações voltada à identificação de infrações; (f) análise de
qualidade de patentes para tarefas de Pesquisa, Desenvolvimento e Inovação (PD&I); (g)
identificação de patentes promissoras; (h) mapeamento tecnológico; (i) identificação de
vácuos e hotspots tecnológicos; e (j) identificação de concorrentes tecnológicos.
11
a 255). É, portanto, um exemplo de um sistema de classificação de múltiplas
saídas.”
12
Figura 2 - Representação de palavras e seus atributos
Para realizar a etapa de embedding são necessários alguns passos iniciais, entre eles, a
tokenização (separação) das palavras de entrada e a padronização do tamanho do vetor, visto
que as sentenças ou textos possuem tamanhos (dimensionalidades) diferentes. Uma camada
de embedding possui três principais parâmetros: dimensão de entrada (do inglês input
dimension - input_dim) - representa o tamanho do vocabulário de entrada,, dimensão de saída
(do inglês output dimension - output_dim) - tamanho da representação vetorial de uma palavra
e tamanho da entrada (do inglês input length) - representa o tamanho máximo de um vetor de
entrada. Um exemplo é apresentado no Quadro 1:
Quadro 1: Exemplificação do processo de geração de embedding
Entrada testando o uso do embedding
Tokenização +
padronização do array([2, 3, 4, 5, 6, 0, 0, 0])
tamanho
array([[ [ 0.01098199, -0.04147813, -0.0338573 , 0.02958757],
[-0.00662975, 0.02507525, 0.03931129, 0.01889218],
[ 0.04197849, -0.04110537, 0.03169345, 0.00127293],
[ 0.0267125 , -0.00078363, -0.04553994, 0.00194671],
Embedding
[ 0.0267125 , -0.00078363, -0.04553994, 0.00194671],
[ 0.02724513, 0.0033445 , -0.04511304, 0.04032354],
[ 0.02724513, 0.0033445 , -0.04511304, 0.04032354],
[ 0.02724513, 0.0033445 , -0.04511304, 0.04032354]]],
14
2.3.1 Redes Neurais Profundas
Seguindo a evolução das ANNs, dentro dos subgrupos de estudos existem as redes
neurais que se utilizam de Aprendizado Profundo (do inglês Deep Learning - DL). Estas redes
neurais seguem os mesmos princípios das RNAs clássicas, porém possuem muito mais
camadas escondidas (GÉRON et al., 2019. Essa solução demanda mais dados e poder de
computação, além disso, é indicada apenas a problemas mais complexos, onde uma ANN
tradicional não consiga produzir resultados satisfatórios. Suas principais aplicações
geralmente são problemas complexos, como processamento de imagens, processamento de
linguagem natural e aplicações na área médica. Segundo Lauriola el al. (2022), o avanço nos
estudos de DL tem contribuído para o desenvolvimento do NLP substituindo técnicas e
algoritmos tradicionais por modelos neurais profundos com uma maior eficiência.
Existem diversas arquiteturas baseadas em redes neurais profundas, cada uma com
foco para determinadas aplicações. Neste trabalho o objetivo reside em três arquiteturas:
Redes Neurais Convolucionais (do inglês Convolutional Neural Networks - CNN), Redes
Neurais de Memória de Curto e Longo Prazo (do inglês Long Short Term Memory Networks -
LSTM) e Perceptron Multicamadas (do inglês Multilayer Perceptrons - MLP). Cada modelo
tem suas próprias características de construção, parâmetros, entre outros requisitos. A seguir,
estas três arquiteturas são detalhadas.
15
Uma MLP tem como uma das suas principais utilizações processos de classificação e,
assim como outras redes neurais, possui ao menos 3 camadas: entrada, intermediária e a de
saída. As camadas estão conectadas através de pesos e bias e para atualizar essas informações
a MLP se utiliza do algoritmo de backpropagation por meio de duas fases, propagação e
retropropagação (GUIMARÃES; MEIRELES; ALMEIDA, 2019). Quando um novo modelo
é iniciado os pesos são distribuídos aleatoriamente através dos neurônios, as informações são
propagadas a partir da camada de entrada até a camada de saída, onde se estima o erro de
propagação. Caso apresente um valor muito elevado, uma correção de pesos é retropropagada
através da camada de saída até a camada de entrada. Este processo ocorre até que o erro seja
o aceitável (WYTHOFF, 1993, p. 118).
16
Figura 6 - Representação das camadas de convolução e pooling
17
Figura 7 - Estrutura de uma célula de memória de uma LSTM
● Portão de esquecimento (do inglês Forget Gate): define as informações que serão
descartadas pela célula de memória através de uma função de ativação sigmoid
que habilita ou não o transporte da informação;
● Portão de entrada (do inglês Input Gate): adiciona informações ao aprendizado da
célula de memória; este portão possui duas funções de ativação, uma tanh irá
calcular a nova informação vinda do estado oculto anterior e a função sigmoid que
fará o controle de acesso da informação;
● Portão de saída (do inglês Output Gate): extrai informações relevantes do estado
da célula de memória atual direcionando-as para a próxima célula de memória,
este portão possui, assim como os anteriores uma função de ativação sigmoid que
fará o controle do que será transportado para a próxima célula de memória.
3 TRABALHOS CORRELATOS
Através de buscas na literatura foram encontradas algumas abordagens de métodos e
modelos de classificação de documentos de patentes baseados em RNAs. As bases de
pesquisa utilizadas foram a do IEEE Xplore®, Science Direct®, Scopus® e Web of Science®. A
pesquisa considerou artigos publicados em língua inglesa entre os anos 2017 até 2022
utilizando a seguinte string de busca “("Patent Classification" OR "Patent Document
Classification" OR "Patent Text Classification" OR "Patent Document Categorization") AND
("Deep Learning" OR "Neural Network*")”, em que o caractere “*” denota as possíveis
variações do termo. A seguir são detalhados os artigos que, após a leitura do resumo e
introdução, foram considerados os mais relacionados.
● No trabalho de Xiao, Wang e Zuo (2018) levanta-se a hipótese de que nenhum
algoritmo de classificação genérico é capaz de fazer a classificação para todas as
patentes em diversos campos, com o argumento de que cada grupo possui suas
próprias características. No artigo, eles aplicam Word2Vec e LSTM em um corpus
de documentos de patentes da área da segurança. O conjunto de dados foi obtido a
partir da Wikipedia® utilizando a língua chinesa. Na etapa de pré-processamento
18
foram retiradas as stopwords (palavras que possuem pouco valor semântico),
assim como a retirada de palavras que aparecem com muita frequência nos
documentos. Em seguida, o Word2Vec foi utilizado para treinar os documentos e a
partir disso foram treinados utilizando LSTM. Por fim, a precisão do modelo por
meio da arquitetura LSTM atingiu 93,48%.
● Lu et al. (2019) desenvolveram um modelo de classificação de texto de patente
C3-BIGRU-AT baseado na fusão de redes neurais multivariadas. O modelo 3CNN
que combina três kernels de convolução, o modelo BIGRU (do inglês
Bidirectional Gated Recurrent Unit), o modelo 3CNNBIGRU que é a junção dos
modelos 3CNN e BIGRU. A abordagem apresentada neste artigo utilizou a CNN
para extrair as principais características semânticas dos documentos de patentes e
a camada BIGRU para capturar as características mais profundas dos textos na
entrada do modelo. Os resultados apresentam a comparação dos modelos citados,
utilizados em um mesmo conjunto de dados a fim de mostrar a comparação entre
ambos. Os resultados obtidos mostraram que a fusão entre várias redes neurais,
C3-BIGRU-AT, pode aprender recursos semânticos mais profundos que redes
tradicionais impactando positivamente nos resultados.
● No trabalho proposto por Jiang et al. (2022) foi apresentada uma nova arquitetura
de aprendizado profundo multimodal para realizar a classificação de documentos
de patentes com base no modelo IPC. O fluxo apresenta três etapas:
pré-processamento dos dados, aprendizado por imagem e texto, e a última etapa,
aprendizado por meio da fusão de recursos de rede e classificação de documentos.
Como base de dados foram utilizados textos em linguagem natural e imagens com
as respectivas associações com os documentos de patentes.Para comparação
utilizou-se vários modelos de aprendizado de máquina, CNN, RNN e GNN. Os
resultados apresentados indicam que o modelo multimodal supera
significativamente os modelos unimodais.
● Sofean (2021) propôs em seu trabalho a criação de um modelo de aprendizagem
profunda na arquitetura LSTM e embedding, inspirada pelo modelo
“Wide-and-Deep” apresentado pelo Google® em 2016. Foi utilizado também um
conjunto de métodos de mineração de texto para encontrar os principais
segmentos dentro dos documentos de patente, assim como técnicas híbridas de
aprendizado de máquina, algoritmos baseados em regras e heurística, com o
intuito de extrair os principais elementos semânticos de cada documento. Como
dados de entrada utilizaram: título, resumo, campos técnicos, histórico, resumo e
reivindicações independentes. Após a aplicação dos segmentos obtidos, e
aplicação do modelo de classificação o resultado obtido chegou a 74% de
acurácia, 92% de precisão, 63% recall e 75% de F1.
● Ruijie et al. (2021) realizaram em sua proposta o desenvolvimento de 15
estratégias de modelagem de texto de patente e 6 modelos de classificação. A
estrutura proposta foi estabelecida em basicamente 3 passos: i) separação dos
dados de título (T), resumo (A), reivindicações (C) e descrição (D) em quatro
grupos. Após a divisão inicial, esses grupos são agregados em duplas e trios:
(TA), (TC), (TD), (AC), (AD), (CD), (TAC), (TAD), (TCD), (ACD) e (TACD); ii)
após a separação dos dados de entrada, foram selecionadas quatro métodos
principais para modelagem de textos, sendo: TF (Term Frequency), TF-IDF (Term
Frequency-Inverse Document Frequency), conjunto de palavras não treinadas e
Word2Vec; e iii) por fim, foram implementadas modelos de ML e DL. Ao fim da
proposta, identificou-se que a melhor combinação para a tarefa de classificação de
textos é a (TAD) que chegou a 88,6% de acurácia.
19
● Em Risch e Krestel (2018) os autores aplicaram o conceito de incorporação de
palavras (embedding), por meio da técnica fastText, que combina NLP e ML na
incorporação de informações ao modelo pré-treinado auxiliando a superar o
problema de falta de vocabulários que outras abordagens de incorporação de
palavras possuem. Utilizaram um conjunto de dados com mais de 5 milhões de
registros patentários aplicados a uma abordagem de rede neural profunda, uma
arquitetura GRUs (do inglês Gated recurrent units) bidirecionais. Concluíram que
incorporar embedding de palavras específicas de domínio (fastText) nos
documentos de patentes aumentou em 17% a precisão média em comparação a
abordagens anteriores.
● De Clercq et al. (2019) desenvolveram um estudo para realizar a classificação
multi-rótulo de dados de patentes de veículos elétricos baseada em NLP.
Utilizaram como conjunto de dados um total de 17.500 patentes de veículos
elétricos. A abordagem do trabalho foi baseada nos seguintes passos: i) extração
de tópicos dos textos utilizando a Alocação Latente de Dirichlet (do inglês Latent
Dirichlet Allocation - LDA); e ii) implementação da técnica de árvore de decisão
e do algoritmo K-ésimo Vizinho mais Próximo (do inglês k-nearest neighbors -
KNN). Os resultados apresentados indicam que o algoritmo que melhor
desempenhou foi o de árvore de decisão com acurácia entre 0,35 e 0,6, indicando
um resultado satisfatório para problemas multi-rótulos.
● O trabalho de Li et al. (2018) propõe o DeepPatent que utiliza aprendizado
profundo baseado em CNN e incorporações de vetores de palavras para realizar a
classificação de patentes. Utilizaram como fonte de dados os títulos e os resumos
de mais de 2 milhões de documentos de patentes publicadas entre 2006 até 2015,
que foram coletados, pré-processados e posteriormente disponibilizados para
servir de referência nos estudos de classificação de patentes, o dataset
USPTO-2M. Após aplicar o algoritmo DeepPatent ao conjunto USPTO-2M
chegaram a uma precisão de classificação de 73,88%.
● Jafery et al. (2019) propõem uma abordagem de classificação de patentes a partir
do conceito da Indústria 4.0 junto com algoritmos de ML. Para realizar a
pesquisa, utilizaram uma base de dados extraída da “MyIPO Online Search and
Filing System”, a partir de patentes depositadas por inventores da Malásia. Após
realizar o pré-processamento nos dados, foram utilizados cinco classificadores
diferentes, com o intuito de comparar e determinar o melhor modelo. Os cinco
algoritmos de aprendizado de máquina utilizados foram o Naive-Bayes, KNN,
Máquinas de Vetores de Suporte (do inglês Support Vector Machine - SVM),
Árvores de Decisão (do inglês Decision Tree - DT) e Florestas Randômicas (do
inglês Random Forest - RF). Os resultados se mostraram mais eficazes para os
algoritmos SVM e DT, com a métrica de revocação chegando a 0,98 e a métrica
de precisão atingindo 0,97. O algoritmo RF atingiu a acurácia de 93,10%,
enquanto que os algoritmos KNN e Naive-Bayes atingiram 79,31% e 64,37%,
respectivamente.
O tema de classificação de documentos de patentes, de acordo com as buscas
realizadas, se mostra relevante e atual. Porém, os resultados trouxeram apenas pesquisas com
foco na classificação de documentos de patentes, não sendo encontrado trabalhos que, após a
classificação, produzissem a recomendação de classes/subclasses na forma de ranking, sendo
isto um diferencial do método proposto neste trabalho.
20
4 MÉTODO PROPOSTO
Esta seção detalha o método proposto de classificação de documentos de patentes
promovendo uma recomendação através de um ranking de classes, onde as n primeiras
posições indicam as maiores probabilidades de uma patente pertencer a uma classe/subclasse
em particular. A Figura 8 apresenta uma visão geral do método, sendo: i) Coleta e
pré-processamento dos dados, ii) Transformação dos dados de entrada, iii) Construção dos
modelos de classificação, e iv) Recomendação de classes.
Figura 8 – Fluxograma do método proposto
22
Quadro 2 - Texto de entrada do modelo
Texto: “photo aligTextonment mark for a gate last process a semiconductor device is
provided which includes a semiconductor substrate having a first region and a second region
the first and second regions being isolated from each other a plurality of transistors formed
in the first region an alignment mark formed in the second region the alignment mark having
a plurality of active regions in a first direction and a dummy gate structure formed over the
alignment mark the dummy gate structure having a plurality of lines in a second direction
different from the first direction.”
Uma vez que a lista com as probabilidades é obtida, realiza-se o passo final que
envolve a sua ordenação de maneira decrescente formando um ranking, possibilitando assim a
recomendação das k subclasses mais relevantes (Quadro 4).
Quadro 4 - Ranking de recomendações
k Subclasse Probabilidade
1 H01L 0,519191
2 G11C 0,219833
3 G02F 0,118295
4 H03K 0,029087
5 H05K 0,026158
6 G01R 0,016815
7 G11B 0,016021
8 H05B 0,006768
9 H01J 0,006516
10 G09G 0,006452
Fonte: Elaborado pelo autor (2022)
5 RESULTADOS EXPERIMENTAIS
5.1 CENÁRIO DE ESTUDO
O contexto em que este trabalho está inserido envolve a recomendação de
classes/subclasses de patentes, servindo como um auxílio aos examinadores de patentes com o
intuito de prover um ranking com as respectivas subclasses mais prováveis a partir de uma
entrada (documento de patente).
Para realizar este trabalho foi utilizado o conjunto de dados (dataset) disponibilizado
no artigo “DeepPatent: Convolutional Neural Networks for Patent Classification” (LI et al.,
2018) composto por patentes de 2006 a 2015. Neste dataset as seguintes informações estão
presentes: Abstract - Resumo da patente, Title - Título da patente, No - Número da solicitação
23
de patente e "Subclass_labels" - A classificação da patente podendo conter 1 (uma) ou mais
subclasses. O dataset total é composto por mais de 2 milhões de resumos de patentes.
Considerando as restrições de processamento, para este trabalho foram utilizados 50
mil documentos, divididos em uma conjunto com 40 mil para a etapa do
treinamento/validação das ANNs utilizadas, e outro conjunto com 10 mil para a etapa de teste
de cada ANN. Os datasets foram balanceados levando-se em conta a escolha das 50
subclasses que possuíam mais patentes associadas, sendo então escolhidas 800 patentes para
cada subclasse para a formação do conjunto de treinamento/validação. Adicionalmente, as
mesmas 50 subclasses foram utilizadas escolhendo 200 patentes para a composição do
conjunto de testes que não constam no conjunto de treinamento/validação.
5.2 IMPLEMENTAÇÃO DO MÉTODO PROPOSTO
Para o desenvolvimento do método proposto foi utilizado a linguagem de
programação Python® devido a sua ampla utilização no desenvolvimento de aplicações de
NLP e ML, bem como por ser uma linguagem flexível e possuir diversas bibliotecas abertas
para a manipulação de dados. Entre as bibliotecas, foram utilizadas o TensorFlow®, Keras®,
Scikit-Learn® e NLTK®. Cada biblioteca tem um objetivo e uma função na instanciação do
método conforme consta no Quadro 5:
Quadro 5 - Bibliotecas utilizadas.
Biblioteca Funcionalidade Classes ou métodos utilizados
Utilizadas em algumas etapas de preprocessing
preparação dos dados, por exemplo, Tokenizer
na geração de embeddings, bem
TensorFlow® e Keras® como na composição, pad_sequences
treinamento/validação e teste das regularizers
arquiteturas de redes neurais
desenvolvidas. layers
Utilizada em algumas etapas de LabelEncoder
preparação dos dados, por exemplo, train_test_split
a separação dos conjuntos de dados
Scikit-Learn® em treinamento/validação e teste, classification_report
bem como na etapa de avaliação da confusion_matrix
acurácia das arquiteturas de redes
neurais desenvolvidas. top_k_accuracy_score
24
camadas intermediárias do tipo dense com a função ativação sigmoid, uma camada dropout, e
uma camada dense de saída com a função de ativação softmax.
Figura 9 – Resumo da arquitetura MPL
A construção da CNN (Figura 10) foi realizada através de uma camada de embedding,
uma camada convolucional de 1 dimensão conv1d, uma camada global_max_polling, uma
camada intermediária dense com a função de ativação sigmoid, uma camada de dropout, e
uma última camada dense de saída com a função de ativação softmax.
Figura 10 – Resumo da arquitetura CNN
Por fim, o desenvolvimento da rede LSTM (Figura 11) contou com a camada de
embedding, uma camada bidirectional, uma camada intermediária dense, uma camada de
dropout e uma camada de saída do tipo dense com ativação através da função softmax.
25
Figura 11 – Resumo da arquitetura LSTM
Como pode ser observado, todas as arquiteturas possuem uma camada de entrada que
recebe os embeddings (cada embedding é um vetor denso de 128 dimensões que representa
determinado documento de patente) e uma camada de saída do tipo dense com 50 posições,
ou seja, cada posição representando uma das 50 subclasses consideradas na geração dos
conjuntos de dados de treinamento/validação e teste.
Por fim, para a avaliação do modelo de recomendação foi utilizado o pacote
metrics.top_k_accuracy_score da biblioteca Scikit-Learn®. A etapa de recomendação
baseia-se na elaboração de um ranking e o método top_k_accuracy_score permite calcular o
número de vezes em que determinado rótulo de um documento de entrada (patente) está
correto considerando determinado valor de k.
26
O resultado do método é apresentado no Quadro 7, em que seriam disponibilizadas ao
examinador responsável pela análise da patente as k subclasses mais relevantes (neste caso
k=10). Percebe-se que a subclasse A61B, que consta na lista de subclasses da patente de teste
do quadro anterior, foi recomendada com probabilidade de 0,77 (77%). Indica, portanto, que
na análise geral, a patente teria sido classificada corretamente considerando k=1. Já a outra
subclasse pertencente a patente, G06K, aparece na sexta posição (k=6) com probabilidade de
0,02 (0,02%).
Quadro 7 - Ranking de subclasses obtido a partir do classificador CNN
k Subclasse Probabilidade
1 A61B 0,770461
2 A61F 0,055662
3 A61M 0,037791
4 A61N 0,033028
5 G01N 0,026614
6 G06K 0,022316
7 C12Q 0,013316
8 A63F 0,007651
9 C07K 0,005922
10 G06Q 0,005563
Fonte: Elaborado pelo autor (2022)
Subclasses: A61K
Texto:“cycloalkyl dione derivatives and methods of their use the present invention is
directed to carboxylic acid containing pharmaceutical compounds where the
carboxylic acid moieties have been substituted with cycloalkyl dione derivatives as
well as tautomers and pharmaceutically acceptable salt forms thereof these
bioisosteric replacements improve the compound s ability to effectively cross the blood
brain barrier and result in improved pharmacokinetic toxicological and or safety
profiles”
1
https://ipcpub.wipo.int
27
O resultado do método é apresentado no Quadro 9, em que seriam disponibilizadas ao
examinador responsável pela análise da patente as k subclasses mais relevantes (neste caso
k=10). Percebe-se que a subclasse A61K, que consta na lista de subclasses da patente de teste
do quadro anterior, foi recomendada com probabilidade de 0,06 (6%). Indica, portanto, que na
análise geral, a patente teria sido classificada corretamente considerando k maior ou igual a 3.
Quadro 9 - Ranking de subclasses obtido a partir do classificador CNN
k Subclasse Probabilidade
1 C07D 0,455534
2 C07C 0,380845
3 A61K 0,065061
4 A01N 0,042837
5 C07H 0,014828
6 B01D 0,010598
7 G01N 0,007331
8 C12P 0,005931
9 C12Q 0,003919
10 C07K 0,003875
Fonte: Elaborado pelo autor (2022).
Como pode ser observado, a subclasse A61K, esperada como a resposta correta para a
patente do Quadro 9, atingiu apenas a posição 3 com uma probabilidade reduzida. Já duas
subclasses, C07D e C07C, da seção da IPC-WIPO® de Química e Metalurgia obtiveram os melhores
resultados, com probabilidades de 0,45 (45%) e 0,38 (38%), respectivamente. Analisando o texto
verificam-se palavras como cycloalkyl, carboxylic e cycloalkyl e, além disso, um contexto
claramente farmacêutico. Não é possível afirmar o motivo pela qual a patente não foi
atribuída para as subclasses de química e metalurgia, mas percebe-se que estas seriam as mais
adequadas. Todavia, isto poderia ser explicado em parte pela evolução da taxonomia de
secções e classes utilizadas pela WIPO®. Em 2016, por exemplo, com o surgimento de novas
linhas de pesquisas no segmento elétrico, foi realizada a discussão sobre a inclusão de novas
subclasses ao sistema internacional na seção de Eletricidade, entre elas, citam-se H10B,
H10D, H10G e H10N. Ou ainda pelo processo de reclassificação que acontece anualmente,
onde todos os documentos de patentes, deferidos ou indeferidos, arquivados ou em recursos
passam por uma reclassificação (DIRPA, 2021).
Como elemento final de avaliação das arquiteturas de redes neurais utilizadas neste
trabalho, MLP, CNN e LSTM, realizou-se o cálculo agregado da acurácia considerando um
valor de k recomendações, sendo k = 10, definido de maneira arbitrária. Após o treinamento
dos modelos, os resultados foram atingidos utilizando o conjunto de teste (definido na seção
5.1). A acurácia de k é definida pelo total de acertos no índice específico, ou seja, a posição
específica de k, dividido pela quantidade de instâncias (documentos) do conjunto de testes.
Visto que o principal objetivo deste trabalho é realizar a recomendação de subclasses de
forma ordenada, a métrica utilizada para a permitir a avaliação foi a top_k_accuracy_score,
como citado na seção 5.2, sendo o resultado de cada arquitetura de rede neural apresentado no
Quadro 10.
28
Quadro 10– Ranking geral apresentado pelos modelos de classificação
k MLP CNN LSTM
1 0,3943 0,3987 0,3819
2 0,5348 0,5555 0,5300
3 0,6250 0,6497 0,6248
4 0,6858 0,7190 0,6940
5 0,7358 0,7708 0,7443
6 0,7690 0,8064 0,7824
7 0,7997 0,8328 0,8100
8 0,8210 0,8555 0,8322
9 0,8426 0,8735 0,8520
10 0,8591 0,8880 0,8703
Fonte: Elaborado pelo autor (2022)
29
De maneira geral, os resultados obtidos com k=5 ou 6, próximos a 80% de acurácia,
demonstram que o método tem potencial na recomendação de subclasses. Vale reforçar que
este percentual pode ser visto como adequado considerando a natureza da fonte de dados
(documento de patentes) e do problema (multi-rótulo/multi-saída). Além disso, no contexto de
análise de patente o foco não é determinar exatamente quais classes/subclasses atribuir a
determinada patente, mas auxiliar os examinadores na identificação de quais
classes/subclasses são as mais adequadas para determinada patente. A tarefa de classificar um
documento de patente é entendida como complexa. Em muitos casos, anos são necessários
para que um pedido seja deferido, e qualquer ponto de suporte para que os examinadores
tenham mais celeridade em suas análises contribui para a realização do trabalho dos mesmos.
Ademais, uma aplicação com o objetivo de recomendação de subclasses serviria como apoio
aos escritórios que trabalham realizando as solicitações, e até mesmo os solicitantes que
inicialmente realizam os pedidos.
Durante o desenvolvimento deste trabalho foram identificados pontos de melhoria,
principalmente no que se refere ao volume de dados, outras possibilidades de redes neurais ou
estratégias de recomendação, bem como a otimização da lista de subclasses recomendadas.
Quanto ao volume de dados foram considerados ao todo 50.000 patentes. Todavia,
atualmente, somente o escritório americano (USPTO®) disponibiliza milhões de patentes. Nos
testes realizados, as arquiteturas de redes neurais profundas utilizadas apresentaram um tempo
de processamento e consumo de memória considerável e, desta forma, estabeleceu-se este
limite para que a avaliação do método fosse viável. Isto abre possibilidades de pesquisa em
redes neurais mais atuais para lidar com grandes volumes de dados não estruturados na forma
de texto, assim como a utilização de arquiteturas computacionais baseadas em GPUs
(Graphics Processing Units).
Ainda que as arquiteturas utilizadas, MLP, CNN e LSTM, sejam referências na
literatura de aprendizado profundo, várias pesquisas atuais têm se utilizado de modelos
baseados na arquitetura transformers, tais como, BERT® ou GPT-3®, assim como outras
estratégias que se integram as novas categorias de bancos de dados, chamados de banco de
dados vetoriais com foco em aprendizado de máquina.
Por fim, o presente método não leva em consideração qual seria o valor ideal de k,
sendo necessário a indicação de um valor fixo para que ocorra a recomendação das subclasses
de maneira ordenada. Conforme análises constantes na seção 5.3, percebe-se que a partir de
certa posição da lista ocorre um distanciamento expressivo entre as probabilidades. No
primeiro exemplo isto ocorre entre as posições 1 e 2 e no segundo exemplo entre as posições
2 e 3. Apesar de nestes exemplos as diferenças de probabilidades entre as posições
mencionadas serem expressivas, isto não ocorre em todos os casos. Neste sentido, torna-se
requerida a elaboração de uma estratégia otimizada visando ofertar somente as subclasses
realmente mais relevantes aos examinadores de patentes.
30
REFERÊNCIAS
ABBAS, Assad; ZHANG, Limin; KHAN, Samee U. A literature review on the state-of-the-art
in patent analysis. World Patent Information, v. 37, p. 3-13, 2014.
ALVAREZ, Isabel Maria Surdinho Borges; VIANA, Joaquim Mesquita da Cunha; SILVA,
Nuno Sotero Alves da. Big data: suporte consistente das decisões de gestão. 2016.
CAVIQUE, Luís. Big data e data science. Boletim da APDIO, p. 11-14, 2014.
GÉRON, Aurélien. Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow:
Concepts, tools, and techniques to build intelligent systems. O'Reilly Media, Inc., 2019.
31
HOCHREITER, Sepp; SCHMIDHUBER, Jürgen. Long short-term memory. Neural
computation, v. 9, n. 8, p. 1735-1780, 1997.
JAFERY, Wan Ain Zubaidah Wan Chek et al. Classification of patents according to industry
4.0 pillars using machine learning algorithms. In: 2019 6th International Conference on
Research and Innovation in Information Systems (ICRIIS). IEEE, 2019. p. 1-6.
JIANG, Shuo et al. Deep learning for technical document classification. IEEE Transactions
on Engineering Management, 2022.
KASIM, Henry; HUNG, Terence; LI, Xiaorong. Data value chain as a service framework: for
enabling data handling, data security and data analysis in the cloud. In: 2012 IEEE 18th
International Conference on Parallel and Distributed Systems. IEEE, 2012. p. 804-809.
KIM, Hyoung Jun; SAN KIM, Tae; SOHN, So Young. Recommendation of startups as
technology cooperation candidates from the perspectives of similarity and potential: A deep
learning approach. Decision support systems, v. 130, p. 113229, 2020.
KOVÁCS, Zsolt László. Redes neurais artificiais. Editora Livraria da Fisica, 2002.
KRESTEL, Ralf et al. A survey on deep learning for patent analysis. World Patent
Information, v. 65, p. 102035, 2021.
LI, Shaobo et al. DeepPatent: patent classification with convolutional neural networks and
word embedding. Scientometrics, v. 117, n. 2, p. 721-744, 2018.
32
LU, Hongbiao et al. A patent text classification model based on multivariate neural network
fusion. In: 2019 6th International Conference on Soft Computing & Machine Intelligence
(ISCMI). IEEE, 2019. p. 61-65.
MAO, Guozhu, et al. Technology status and trends of industrial wastewater treatment: A
patent analysis. Chemosphere, 288: 132483,2022.
MINSKY, Marvin; PAPERT, Seymour A. Perceptrons, Reissue of the 1988 Expanded Edition
with a new foreword by Léon Bottou: An Introduction to Computational Geometry. MIT
press, 2017.
MIKOLOV, Tomas et al. Distributed representations of words and phrases and their
compositionality. Advances in neural information processing systems, v. 26, 2013.
MOEHRLE, Martin. Measures for textual patent similarities: a guided way to select
appropriate approaches. Scientometrics, v. 85, n. 1, p. 95-109, 2010.
OLWAN, Rami M. Intellectual property and development. In: Intellectual property and
development. Springer, Berlin, Heidelberg, 2012. p. 1-31.
PANDEY, Kamlesh Kumar et al. Challenges of big data to big data mining with their
processing framework. In: 2018 8th international conference on communication systems
and network technologies (CSNT). IEEE, 2018. p. 89-94.
PHAND, Shital Anil; PHAND, Jeevan Anil. Twitter sentiment classification using stanford
NLP. In: 2017 1st international conference on intelligent systems and information
management (ICISIM). IEEE, 2017. p. 1-5.
RISCH, Julian; KRESTEL, Ralf. Learning patent speak: Investigating domain-specific word
embeddings. In: 2018 Thirteenth International Conference on Digital Information
Management (ICDIM). IEEE, 2018. p. 63-68.
RUIJIE, Zhao et al. Patent text modeling strategy and its classification based on structural
features. World Patent Information, v. 67, p. 102084, 2021.
33
SOFEAN, Mustafa. Deep learning based pipeline with multichannel inputs for patent
classification. World Patent Information, v. 66, p. 102060, 2021.
SRIVASTAVA, Nitish et al. Dropout: a simple way to prevent neural networks from
overfitting. The journal of machine learning research, v. 15, n. 1, p. 1929-1958, 2014.
SUNDERMEYER, Martin; SCHLÜTER, Ralf; NEY, Hermann. LSTM neural networks for
language modeling. In: Thirteenth annual conference of the international speech
communication association. 2012.
WIPO. World Intellectual Property Indicators: Filings for Patents, Trademarks, Industrial
Designs Reach New Records on Strength in China, WIPO, Genebra, 3 de dez. 2018.
Disponível em: https://www.wipo.int/pressroom/en/articles/2018/article_0012.html. Acessado
em: 02/02/2022.
XIAO, Lizhong; WANG, Guangzhong; LIU, Yuan. Patent text classification based on naive
bayesian method. In: 2018 11th International Symposium on Computational Intelligence
and Design (ISCID). IEEE, 2018. p. 57-60.
XIAO, Lizhong; WANG, Guangzhong; ZUO, Yang. Research on patent text classification
based on word2vec and LSTM. In: 2018 11th International Symposium on Computational
Intelligence and Design (ISCID). IEEE, 2018. p. 71-74.
ZHANG, Min-Ling. ML-RBF: RBF neural networks for multi-label learning. Neural
Processing Letters, v. 29, n. 2, p. 61-74, 2009.
ZHANG, Xiang; ZHAO, Junbo; LECUN, Yann. Character-level convolutional networks for
text classification. Advances in neural information processing systems, v. 28, 2015.
34