TCC - Willian Aurelio Pizoni Assinado

UNIVERSIDADE FEDERAL DE SANTA CATARINA
CENTRO DE CIÊNCIAS, TECNOLOGIA E SAÚDE DO CAMPUS ARARANGUÁ

CURSO DE GRADUAÇÃO EM ENGENHARIA DE COMPUTAÇÃO
Willian Aurélio Pizoni
Classificação de Documentos de Patentes por meio de Redes Neurais Artificiais
Araranguá
2022
Trabalho de Conclusão do Curso de Graduação em

Engenharia de Computação do Centro de Ciências,
Tecnologias e Saúde do Campus Araranguá da
Universidade Federal de Santa Catarina como requisito
para a obtenção do título de Bacharel em Engenharia de
Computação.
Orientador: Prof. Alexandre Leopoldo Gonçalves, Dr
Araranguá
2022
Este Trabalho de Conclusão de Curso foi julgado adequado para obtenção do Título de
Bacharel em Engenharia de Computação e aprovado em sua forma final pelo Curso de
Graduação em Engenharia de Computação.
Araranguá, 25 de julho de 2022.
________________________________
Profª. Analúcia Schiaffino Morales, Drª.
Coordenadora do Curso
Banca Examinadora:
________________________________
Prof. Alexandre Leopoldo Gonçalves, Dr.
Orientador
Universidade Federal de Santa Catarina
________________________________
Profª. Olga Yevseyeva, Drª.
Avaliadora
Universidade Federal de Santa Catarina
________________________________
Prof. Luciano Zamperetti Wolski, M.Sc.
Avaliador
Universidade do Estado de Mato Grosso
Classificação de Documentos de Patentes por meio de
Redes Neurais Artificiais
Classification of Patent Documents through Artificial

Neural Networks
Willian Aurélio Pizoni¹ Alexandre Leopoldo Gonçalves²
2022, Julho
Resumo
O número de solicitações de registro de patentes vem crescendo nos últimos anos,

número este que é superior a capacidade de análise realizada por examinadores
especialistas. Além disso, realizar a solicitação de uma patente é um processo
complexo e custoso, bem como demorado. Sendo assim, este trabalho propõe o
desenvolvimento de um método de classificação de texto baseado em redes neurais
profundas para criar recomendações ordenadas de subclasses. Para o desenvolvimento
do método foram utilizadas três arquiteturas de redes neurais profundas, uma rede
Perceptron Multicamadas (MLP), uma rede neural de memória de curto e longo prazo
(LSTM) e uma rede neural convolucional (CNN). Visando testar o método proposto,
foram utilizados 50.000 documentos de patentes escolhidos aleatoriamente do
conjunto de dados USPTO-2M. Os resultados apresentados se mostram positivos,
chegando a uma acurácia global ao nível de subclasse em torno de 80% para valores
de k entre 5 e 6. A partir da análise dos resultados pode-se afirmar que a aplicação do
método proposto de recomendação ordenada de subclasses tem potencial para auxiliar
examinadores na identificação das classes/subclasses mais adequadas para
determinada patente.
Palavras-chaves: Classificação de patentes. Classificação multi-saída. Rede Neural

Artificial.
1
willianaureliop@gmail.com
2
a.l.goncalves@ufsc.br
5
Classificação de Documentos de Patentes por meio de
Redes Neurais Artificiais
Classification of Patent Documents through Artificial

Neural Networks
Willian Aurélio Pizoni¹ Alexandre Leopoldo Gonçalves²
2022, Julho
Abstract
The number of patent applications has been growing in recent years, a number that is
greater than the capacity for analysis carried out by expert examiners. Furthermore,
applying for a patent is a complex and costly process, as well as time consuming.
Therefore, this work proposes the development of a text classification method based
on deep neural networks to create ordered subclass recommendations. For the
development of the method, three architectures of deep neural networks were used, a
multilayer perceptron network (MLP), a long-short term memory neural network
(LSTM) and a convolutional neural network (CNN). In order to test the proposed
method, 50,000 patent documents randomly chosen from the USPTO-2M dataset were
used. The results presented are positive, reaching an overall accuracy at the subclass
level of around 80% for k values between 5 and 6. From the analysis of the results it
can be affirmed that the proposed method of ordered recommendation of subclasses
has the potential to assist examiners in identifying the most suitable classes/subclasses
for a given patent.
Palavras-chaves: Patent classification. Multi-output classification. Artificial neural

network.
¹willianaureliop@gmail.com
²a.l.goncalves@ufsc.br
6
1 INTRODUÇÃO
No atual cenário de um mundo globalizado são gerados a cada 10 minutos mais dados
do que todos os gerados da pré-história até o ano de 2003 (CAVIQUE, 2014). Em relatório
divulgado em 2017, no mundo eram produzidos mais de 2,5 quintilhões de bytes de dados por
dia (PANDEY; SHUKLA, 2018). Os dados gerados por cada indivíduo podem ser de grande
valia para diversos segmentos. A partir desse crescimento houve a necessidade de desenvolver
novas técnicas de armazenamento e processamento para extrair informações relevantes destes
dados, de forma rápida e otimizada. Ademais, com a evolução dos hardwares e tecnologias de
armazenamento houve um aumento na capacidade de processamento de computadores
pessoais, permitindo que mais dados fossem gerados e analisados (ALVAREZ; VIANA;
NUNO, 2016).
Com a popularização dos computadores pessoais e o aumento na geração de dados
públicos, diversas técnicas têm-se desenvolvido, desde a coleta dos dados até a evolução de
algoritmos que possuem como foco tomada de decisão e geração de valor (KASIM; HUNG;
LI, 2012). A maior parte dos dados gerados na web são dados não estruturados, informações
que encontram-se desorganizadas e dificilmente terão valor caso não seja desenvolvido algum
processamento (ELSAYED; ABDELWAHAB; AHDELKADER, 2019).
Entre as bases de dados não estruturadas em formato de texto que diferentes entidades
disponibilizam, estão os documentos de patentes que, segundo Spangler (2010), contém
informações de extrema relevância, porém, processar esse tipo de dado em sua grande maioria
pode se tornar uma tarefa complexa. Apesar das dificuldades, essas fontes representam um
vasto conhecimento técnico e inovador, sendo considerada de alta confiança.
Os documentos de patentes contêm informações de todos os campos do conhecimento,
necessidades humanas, operações de processamento, transporte, química, metalurgia, têxtil,
construção, engenharia, armas, física e eletricidade. Seu principal objetivo é garantir o direito
da invenção ao seu criador. No Brasil, segundo o INPI (Instituto Nacional da Propriedade
Industrial), somente no ano de 2019 foram realizados mais de 28 mil novos pedidos. Essas
novas solicitações são realizadas por pessoas físicas ou jurídicas por meio de escritórios
especializados. O tempo médio para que um registro seja concedido no Brasil é de 5 a 8 anos.
Este tempo é relativamente longo, o que motiva algumas empresas que possuem interesse em
adquirir patentes como forma de investimento e retirar o máximo do lucro (SHAMSI; AUNG,
2016) a investirem também em temas como novos sistemas de classificação de patentes.
O principal sistema para classificação de um documento de patente foi estabelecido
em um acordo realizado em Estrasburgo em 1971, entrando em vigor em 1975 denominado de
IPC (do inglês International Patent Classification). Neste sistema, a classificação está
disposta de forma hierárquica, em que no primeiro nível as Seções são identificadas por letras
maiúsculas, de A até H. No segundo nível as Seções são subdivididas em Classes. No terceiro
nível, a Classe é desdobrada em Subclasses. No próximo nível de hierarquia de classificação
de patentes existem o grupo principal e os grupos auxiliares. Uma única patente pode estar
relacionada a diversas classes, como é o caso da patente de código “US08822833” que
pertence a 3 classificações distintas:
● H05K - “Circuitos impressos; invólucros ou detalhes estruturais de aparelhos
elétricos; fabricação de conjuntos de componentes elétricos”;
● C23C - “Revestimento de materiais metálicos; revestimento de materiais com
materiais metálicos; tratamento da superfície de materiais metálicos por difusão,
por conversão química ou substituição; revestimento por evaporação a vácuo, por
pulverização catódica, por implantação de ions ou por deposição química em fase
de vapor, em geral”;
● G06F - “Processamento elétrico de dados digitais”.
7
A classificação de patentes é realizada a partir da análise da documentação gerada por
seu solicitante, e deve seguir as normas impostas pelo órgão regulador. As solicitações contém
dois tipos de dados, os dados estruturados que contém informações como data da solicitação,
número do documento, entre outras informações. Todavia, as informações mais ricas são
obtidas a partir do conteúdo não estruturado advindo do título, resumo e descrição da patente
(MAO et al. 2022)..
Segundo Moehrle (2010), as principais dificuldades no processo de análise e
classificação de patentes são: i) aumento elevado no número de solicitações; ii) demora em
realizar a análise de cada solicitação; iii) queda da qualidade das análises das solicitações.
O desafio de trabalhar um grande volume de dados em formato de textos, sendo que
cada documento precisa ser processado um a um, faz com que essa tarefa seja complexa e
demorada. Estas solicitações são interpretadas de diferentes formas por pessoas diferentes,
podendo conduzir a resultados diferentes. O processo como um todo, envolvendo a
solicitação, a análise e a classificação, utiliza o fator humano, que pode aumentar a
complexidade de todo o processo (XIAO; WANG; LIU, 2018). Uma determinada patente
pertencerá a uma ou mais subclasses em alguns casos. Desta forma, é de suma importância
que um documento seja classificado em todas as subclasses que de fato ela pertença, para que
a proteção do seu criador seja ampla e total.
De fato existem desafios na área de classificação de patentes, seja pelo grande volume
de dados gerados diariamente, seja pela complexidade no processo de análise. Porém, o
avanço nas pesquisas na área de Aprendizado de Máquina (do inglês Machine Learning - ML)
utilizando Processamento de Linguagem Natural (do inglês Natural Language Processing -
NLP) têm evoluído muito nos últimos anos, facilitando o desenvolvimento de diversas tarefas
no cenário da análise de patentes (PHAND; PHAND, 2017). Como citado anteriormente, uma
das fontes de informações mais ricas são os documentos de patentes. Deste modo, auxiliar no
processo de classificação de patentes é relevante para os escritórios de patentes.
Ademais, é fundamental reconhecer que a análise e classificação de patentes pode
produzir inúmeros resultados futuros. Por exemplo, utilizar estes documentos para realizar
análises de tecnologias desenvolvidas por concorrentes é algo que acontece a muito tempo
(KRONEMEYER et al. (2020). Todavia, analisar um grande conjunto de dados e
classificá-los, além de promover celeridade ao processo de classificação, pode facilitar
diversas análises de cenários entre concorrentes, tais como, a previsão de tendências de
tecnologias, entre outras futuras aplicações.
O processo de classificação segue as normativas de cada país, com base nos acordos
globais. Como existem processos distintos, os prazos acabam sendo diferentes em cada
localidade. No Brasil, o processo segundo a classificação INPI segue os seguintes passos: i) o
escritório sugere uma pesquisa prévia para entender o cenário das propriedades intelectuais;
ii) realiza buscas para verificar se realmente a invenção é inédita; iii) após a validação, o
depositante deverá produzir o relatório com as seguintes informações: um descritivo, as
classes que deseja reivindicar, o resumo do projeto, imagens (se for o caso); iv) realiza o
pagamento e efetiva o depósito; v) a patente entra no fluxo processual.
As principais etapas do pedido de patente passam pelo: i) exame formal preliminar,
onde é realizada toda a verificação da documentação e validação das condições mínimas para
seguir com o processo de pedido de patente; ii) publicação do pedido, nesta etapa somente a
matéria de reivindicação é revelada, e o pedido é mantido em sigilo por 18 meses; ii) início
dos exames técnicos, o pedido aprovado em todas as etapas anteriores são verificados pelos
examinadores, que realizam buscas por pedidos anteriores e produzem o parecer técnico para
cada solicitação.
A classificação de patentes é importante tanto para a realização das análises dos
examinadores, quanto para outros campos de desenvolvimento. Dentre as principais
8
aplicações segundo o INPI (2020), estão: i) auxiliar na busca e recuperação de documentos de
patente, ii) auxiliar no monitoramento tecnológico de setores iii) servir de base para investigar
o estado da técnica em determinados campos da tecnologia, e iv) servir de base para a
elaboração de estatísticas sobre propriedade industrial que permitam a avaliação do
desenvolvimento tecnológico em diversas áreas. Levando em conta a necessidade de se
aperfeiçoar o processo de classificação de documentos de patentes e de todas as aplicações
citadas acima, este trabalho propõe o desenvolvimento de um método de recomendação
ordenada de subclasses baseado em Redes Neurais Profundas para auxiliar examinadores na
identificação das classes/subclasses mais adequadas para determinada patente.
Este trabalho teve início nesta seção e terá outras 5 seções. Na seção 2 é apresentada a
fundamentação teórica, introduzindo os principais conceitos do trabalho, sendo eles, a análise
de patentes, a classificação de texto e as redes neurais artificiais. Na seção 3 são apresentados
os estudos relacionados. O método proposto é apresentado na seção 4 e, após isso, os
resultados são discutidos na seção 5. Na última seção, são apresentadas as considerações
finais do trabalho e as sugestões para trabalhos futuros.
2 FUNDAMENTAÇÃO TEÓRICA
2.1 ANÁLISE DE PATENTES

Em 1967 foi fundada uma entidade com o objetivo de desenvolver um sistema
internacional de Propriedade Intelectual, a WIPO® (do inglês World Intellectual Property
Organization), organização que é financiada pelas Nações Unidas e possui mais de 190
membros associados. Uma propriedade intelectual reserva ao seu criador todos os direitos
relativos às obras literárias, artísticas e científicas, desde as descobertas científicas,
interpretações artísticas, desenhos e modelos industriais.
No Brasil, a primeira lei sobre a propriedade intelectual é de 28 de abril de 1809,
colocando o país entre os primeiros no mundo com legislação neste campo. Essa medida foi
uma das primeiras ações para o Plano de Desenvolvimento Econômico de D. João VI. Olwan
(2012) comenta em seu livro que a Propriedade Intelectual é muito importante para o futuro
dos países em desenvolvimento. De fato, a Propriedade Intelectual (PI) está ligada à evolução
econômica e social em diversas frentes, desde a pesquisa de novos produtos, até a inovação de
processos em todo o mundo.
Muitas solicitações de PI no campo do desenvolvimento industrial, mais
especificamente os documentos de patentes, são gerados diariamente. Esses dados
constituem-se em uma fonte de informação que pode ser utilizada para que organizações
estejam a frente em um mundo globalizado (FERREIRA; GUIMARÃES; CONTADOR,
2009). Diversas análises podem ser realizadas em diversas áreas do conhecimento, tornando
esse tipo de documento muito relevante.
Para o desenvolvimento e a difusão das propriedades intelectuais, a WIPO® tem como
objetivos “i) promover a proteção da propriedade intelectual em todo o mundo por meio da
cooperação entre os Estados e, quando apropriado, em colaboração com qualquer outra
organização internacional, ii) assegurar a cooperação administrativa entre os Sindicatos”
WIPO® (1967). No Brasil, o órgão responsável pela regulamentação das PIs é o Instituto
Nacional de Propriedade Intelectual (INPI), que segue as normas da Classificação
Internacional de Patentes (do inglês International Patent Classification - IPC).
O processo para se ter uma patente registrada é longo e, para realizar a solicitação,
devem ser efetuados alguns processos determinados pelo órgão responsável. Este pedido pode
ser realizado pelo próprio autor ou por escritórios especializados e só será concedido caso as
subclasses reivindicadas no ato da submissão do documento especifiquem algo inédito
9
(KRESTELR, 2021). Por isso, a fase de reivindicações e definição das subclasses a qual
determinada patente pertence é essencial. O tempo para que uma solicitação seja analisada no
Brasil é de até 117 meses (INPI, 2022) e, caso a invenção seja concedida, a data de vigência
será a data da solicitação. Mesmo após a concessão do pedido, ainda é possível perdê-la caso
algum solicitante entre com pedido de deferimento e este seja acatado.
Dentre os principais países que mais solicitam registro de patentes segundo a WIPO®
encontram-se a China (CNIPA®), os Estados Unidos (USPTO®) e o Japão (JPO®), que em
2020 juntos solicitaram mais de 2,3 milhões de registros de patentes (WIPO, 2021). Segundo
Krestel (2021), o aumento das solicitações de patentes a nível mundial fez com que os estudos
para automatizar alguns processos ganhassem força e apoio dos principais escritórios de
patentes. O principal objetivo dessas pesquisas visam facilitar o processos desde a parte de
alocação dos dados, transparência das informações e agilidade nas análise destes documentos.
No que tange o auxílio à análise dos documentos de patentes para que o processo seja mais
eficiente, o conceito de Redes Neurais Artificiais (do inglês Artificial Neural Network - ANN)
vem se destacando.
Através das necessidades dos órgãos globais em estabelecer padrões de classificação,
criou-se a Classificação Cooperativa de Patentes (do inglês Cooperative Patent Classification
- CPC), que é um sistema criado pela EPO®/USPTO® baseado na IPC que possui mais de 70
mil grupos. Esse modelo de classificação segue uma hierarquia, o grupo mais alto é composto
por 8 sessões que vão de A até H e representam os campos de pesquisa mais amplos. Após a
seção têm-se as Classes que são representadas por números de 0 até 99 que assumem campos
mais específicos até chegar a próxima etapa da hierarquia, divididos em subclasses de A até
Z. As camadas inferiores são compostas por Grupo Principal e Grupo. A Figura 1 apresenta
um exemplo de classificação.
Figura 1 - Estrutura de classificação de patentes
Fonte: Elaborado pelo autor (2022)
Como as patentes são ricas em detalhes e podem conter informações relevantes para as
organizações, muitas pesquisas têm se utilizado de bases de documentos de patentes. Existem
algumas fontes sobre informações de registros patentários, entre elas: INPI®, USPTO®,
Epoline Register WIPO®. Em seu trabalho, Kim, San Kim e Sohn (2020) utilizaram uma base
da USPTO®, que são disponíveis de forma livre, em conjunto com outra base contendo
informações sobre startups, com o objetivo de elencar os principais pontos semelhantes entre
startups como suas posições tecnológicas e, a partir disso, recomendar possíveis cooperações.
Para além disso, existem diversas aplicações e análises que podem ser realizadas com
estas bases. Segundo Abbas, Zhang e Khan (2014), entre as principais aplicações
encontram-se: (a) determinação de novidades (b) análise de tendências (c) previsão de
desenvolvimentos tecnológicos em um domínio específico; (d) planejamento estratégico de
10
tecnologia, (e) extração de informações voltada à identificação de infrações; (f) análise de
qualidade de patentes para tarefas de Pesquisa, Desenvolvimento e Inovação (PD&I); (g)
identificação de patentes promissoras; (h) mapeamento tecnológico; (i) identificação de
vácuos e hotspots tecnológicos; e (j) identificação de concorrentes tecnológicos.
2.2 CLASSIFICAÇÃO DE TEXTO

Classificação de texto é uma tarefa que teve início nos anos 60 e, após os anos 90, com
a evolução dos hardwares, começou a ganhar relevância no campo da computação
(SEBASTIAN, 2002). Essa tarefa é realizada através de uma série de processamentos de
texto, transformando e padronizando dados não estruturados. Através de técnicas como NLP e
word-embedding, por meio de técnicas de Aprendizado de Máquina (do inglês Machine
Learning - ML), analisam determinado conjunto de dados em que cada instância possui um
rótulo associado permitindo, após a etapa de aprendizagem, classificar automaticamente
novos documentos em categorias pré-definidas.
Aplicações de classificação de texto são amplas, vão desde a indexação de
documentos, desenvolvimento de chatbots, análise de sentimentos, entre diversas outras
necessidades de classificação. Com a evolução da tecnologia da informação essa técnica vem
se expandindo muito nos meios acadêmicos e também comerciais. Segundo Rossi et al.
(2016), os classificadores de textos baseados em aprendizado supervisionado tem uma maior
eficiência se comparam aos resultados de sistemas especializados, sendo que os algoritmos de
ML consomem menos processamento.
Dentre os tipos de classificação de texto podem-se citar quatro: classificação binária,
multi-classes, multi-rótulos e multi-saídas.
● Binária: A classificação binária é o tipo de classificação onde existem apenas duas
opções para que o algoritmo escolha, onde a saída será 0 ou 1, ou uma saída que
representam duas possibilidades. Como exemplo cita-se a classificação de e-mails
em spam ou não spam, onde existem somente essas duas opções.
● Multi-classes: Na classificação multi-classe é apresentado ao algoritmo três ou
mais classes, porém existe apenas uma classificação correta. Pode-se citar como
exemplo o trabalho de Zhang (2010) que possuía o intuito de classificar um
conjunto de revisões de trabalhos científicos em uma das cinco possíveis classes
através de um método de ML, a fim de identificar a relevância do artigo. Outro
exemplo seria a análise de sentimentos, onde certa entrada refere-se a uma
possível reação, felicidade, raiva ou medo, por exemplo.
● Multi-rótulos: A classificação multi-rótulos é uma variação da multi-classe e,
segundo Zhang (2009), este é o tipo de aprendizado em que uma entrada pode
pertencer a mais de uma classe simultaneamente. Um exemplo seria a
classificação de gêneros de filmes, sendo que um filme pode pertencer a mais de
um categoria, por exemplo, o filme “Interstellar” segundo o portal IMDb® é
classificado como Aventura, Drama e Ficção Científica.
● Multi-saídas: Por fim, tem-se a classificação multi-saída, onde uma série de
entradas são classificadas em mais de uma classe, porém o que a diferencia da
classificação multi-rótulos é que a saída de cada classe irá se adequar a um certo
peso de relevância ou um intervalo de valor. De acordo com Géron (2019,
p.(109)) “... um sistema que remova o ruído das imagens. Ele receberá como
entrada uma imagem de dígito com ruído e (espero) produzirá uma imagem de
dígito limpo, representada como uma matriz de intensidades de pixel, assim como
as imagens MNIST. Observe que a saída do classificador é multilabel (um rótulo
por pixel) e cada rótulo pode ter vários valores (a intensidade do pixel varia de 0
11
a 255). É, portanto, um exemplo de um sistema de classificação de múltiplas
saídas.”
2.2.1 Processamento de Linguagem Natural

O Processamento de Linguagem Natural (do inglês Natural Language Processing -
NLP) pode ser vista como uma técnica que auxilia na tradução/processamento da linguagem
humana em uma linguagem que computadores consigam entender. A NLP é uma sub-área da
Inteligência Artificial e, atualmente o uso em máquinas de traduções é pré-requisito para um
melhor desempenho, tanto pela otimização do poder computacional, quanto pela capacidade
em lidar com dados de alta dimensionalidade (ZONG; HONG, 2018). Outras aplicações onde
a NLP é indispensável são a classificação de texto, identificação de padrões textuais e análise
de sentimento.
A NLP segue algumas etapas, entre elas: i) a limpeza dos dados de entrada:
geralmente são retiradas as palavras irrelevantes, também chamadas de stopwords, remoção
de qualquer caracteres especiais (exemplo: #, $ e &); ii) a flexão de palavras: consiste na
transformação de diversas palavras que derivam da mesma raiz em apenas uma. Entre as
principais técnicas estão a lemmatization (lematização) e stemming. Para a lematização as
entradas “balançar”, “balanço” e “balançou” são todas derivação de “balançar”, portanto,
todas as palavras são substituídas por “balançar”. Já o stemming baseia-se no radical de cada
palavra; as palavras “pedra”, “pedreira” e “pedreiro” possuem o como raiz “pedr”, logo, todas
as palavras são transformadas em sua raiz; e iii) vetorização: são aplicados processos com o
objetivo de transformar um texto em uma representação de um vetor de números inteiros,
onde cada palavra recebe um valor. Na frase “I love Machine Learning.”, aplicando o
separação de palavras, a seguinte saída seria produzida: [(I = 1,0,0,0), (love = 0,1,0,0),
(Machine = 0,0,1,0),(Learning: 0,0,0,1)], ou seja, cada palavra foi atribuída a uma posição do
vetor.
2.2.1.1 Incorporação de Palavras

A incorporação de palavras (do inglês embedding) é um processo relevante na
implementação de uma ANN. Possui como objetivo representar o corpus em um vetor de
números reais, auxiliando no aprendizado e processos de NLP agrupando as palavras que
possuam semânticas parecidas dentro da representação vetorial (MIKOLOV, 2013). O
embedding aprende através dos contextos do corpus os principais atributos de cada palavra e
vai elencando um peso dentro de uma mesma palavra. Em uma análise intuitiva em um
exemplo bem conhecido, nas palavras rei, rainha, homem e mulher, é possível identificar
alguns atributos que aproximam os termos, gênero é uma delas, e poderá ser representado
através de uma grandeza entre 0 a 1, sendo o valor mais próximo a 0 representado pelo sexo
masculino e 1 pelo sexo feminino. Embeddings possuem a capacidade de distinguir, além da
proximidade semântica, os atributos em que cada palavra se enquadra (GÉRON, 2019, p.
424). De modo geral, o embedding irá realizar, após um treinamento em uma ANN, a
distribuição de diversos atributos em relação ao corpus apresentado, onde as linhas estão
relacionadas a palavra de entrada, as colunas representam os atributos treinados e, na
intersecção deles, o peso que a palavra de entrada possui em relação ao atributo treinado, a
Figura 2 demonstra através de dados ilustrativos o processo de transformação do texto em um
vetor de embedding.
12
Figura 2 - Representação de palavras e seus atributos
Para realizar a etapa de embedding são necessários alguns passos iniciais, entre eles, a
tokenização (separação) das palavras de entrada e a padronização do tamanho do vetor, visto
que as sentenças ou textos possuem tamanhos (dimensionalidades) diferentes. Uma camada
de embedding possui três principais parâmetros: dimensão de entrada (do inglês input
dimension - input_dim) - representa o tamanho do vocabulário de entrada,, dimensão de saída
(do inglês output dimension - output_dim) - tamanho da representação vetorial de uma palavra
e tamanho da entrada (do inglês input length) - representa o tamanho máximo de um vetor de
entrada. Um exemplo é apresentado no Quadro 1:
Quadro 1: Exemplificação do processo de geração de embedding
Entrada testando o uso do embedding
Tokenização +
padronização do array([2, 3, 4, 5, 6, 0, 0, 0])
tamanho
array([[ [ 0.01098199, -0.04147813, -0.0338573 , 0.02958757],
[-0.00662975, 0.02507525, 0.03931129, 0.01889218],
[ 0.04197849, -0.04110537, 0.03169345, 0.00127293],
[ 0.0267125 , -0.00078363, -0.04553994, 0.00194671],
Embedding
[ 0.0267125 , -0.00078363, -0.04553994, 0.00194671],
[ 0.02724513, 0.0033445 , -0.04511304, 0.04032354],
[ 0.02724513, 0.0033445 , -0.04511304, 0.04032354],
[ 0.02724513, 0.0033445 , -0.04511304, 0.04032354]]],
Os parâmetros utilizados no exemplo do Quadro 1 indicam: input_dim = 5

representando as 5 palavras de entrada, output_dim = 4 representando cada palavra no vetor
embedding por 4 valores distintos (em destaque) e input_lenght = 8, percebe-se que o as
palavras inexistentes foram preenchidas por valor ‘0’. A utilização do embedding é importante
no processamento e análise de dados não estruturados, principalmente textos, pois promove
uma redução no tamanho do vetor de entrada e, além disso, promove uma melhor
representação da semântica nos textos.
13
2.3 REDES NEURAIS ARTIFICIAIS
As Redes Neurais Artificiais (do inglês Artificial Neural Network - ANN) fazem parte
de um grupo de estudos dentro da Inteligência Artificial (I.A) e tem como base de pesquisa os
neurônios biológicos (KOVÁCS, 2006, p. 13). As arquiteturas baseadas em ANNs utilizam
um aprendizado similar ao cérebro humano e suas aplicações visam a resolução de problemas
complexos que algoritmos tradicionais não resolvem ou tem resultados de baixa
confiabilidade, como por exemplo, a classificação de patentes, visto o volume de documentos
de patentes e as centenas de classes existentes.
Segundo Basheer e Hajmeer (2000), a capacidade de aprender é uma característica
particular dos sistemas inteligentes, sejam eles biológicos ou artificiais. No contexto de
aprendizado pode-se citar dois grandes paradigmas de processos em que ANNs de fato
aprendem: aprendizados supervisionados e não supervisionados. No aprendizado
supervisionado, é apresentado ao modelo uma série de vetores de atributos com os dados de
entrada e a resposta desejada para que a ANN consiga aprender com os padrões. Por outro
lado, no aprendizado não supervisionado, o modelo recebe apenas os dados de entrada sem
nenhuma classe de saída. Neste tipo de aprendizado, o próprio algoritmo irá identificar o
padrão das classificações sem qualquer ajuda externa, apresentando os resultados através de
um critério de decisão (MONARD; BARANAUSKAS, 2003). No geral, diz-se que uma ANN
aprende de fato se conseguir lidar com problemas generalistas, problemas que enfrentam
muito ruído e/ou problemas com dados parciais.
Uma ANN é organizada em camadas que conectam-se entre si (Figura 3) , sendo que a
primeira camada chamada de camada de entrada, possui os neurônios que recebem as
informações, ou seja, onde os padrões externos são apresentados à rede. Na sequência tem-se
as camadas intermediárias ou escondidas, sendo estas totalmente interligadas entre si. Nessas
camadas são extraídos todos os padrões apresentados pela camada anterior sendo também
responsável, nas arquiteturas mais modernas, pelo processo de regularização através da
técnica de abandono (do inglês dropout) que descarta aleatoriamente alguns neurônios,
desativando as suas ligações de propagação e retropropagação evitando que a rede especialize
o aprendizado, ou seja, evitando o overfitting (SRIVASTAVA et al. 2014). Por fim, após a(s)
camada(s) intermediária(s) os dados são enviados para a camada de saída, sendo a saída a
resposta ao problema apresentado (GUIMARÃES; MEIRELES; ALMEIDA, 2009).
Figura 3 - Estrutura básica de uma ANN
14
2.3.1 Redes Neurais Profundas
Seguindo a evolução das ANNs, dentro dos subgrupos de estudos existem as redes
neurais que se utilizam de Aprendizado Profundo (do inglês Deep Learning - DL). Estas redes
neurais seguem os mesmos princípios das RNAs clássicas, porém possuem muito mais
camadas escondidas (GÉRON et al., 2019. Essa solução demanda mais dados e poder de
computação, além disso, é indicada apenas a problemas mais complexos, onde uma ANN
tradicional não consiga produzir resultados satisfatórios. Suas principais aplicações
geralmente são problemas complexos, como processamento de imagens, processamento de
linguagem natural e aplicações na área médica. Segundo Lauriola el al. (2022), o avanço nos
estudos de DL tem contribuído para o desenvolvimento do NLP substituindo técnicas e
algoritmos tradicionais por modelos neurais profundos com uma maior eficiência.
Existem diversas arquiteturas baseadas em redes neurais profundas, cada uma com
foco para determinadas aplicações. Neste trabalho o objetivo reside em três arquiteturas:
Redes Neurais Convolucionais (do inglês Convolutional Neural Networks - CNN), Redes
Neurais de Memória de Curto e Longo Prazo (do inglês Long Short Term Memory Networks -
LSTM) e Perceptron Multicamadas (do inglês Multilayer Perceptrons - MLP). Cada modelo
tem suas próprias características de construção, parâmetros, entre outros requisitos. A seguir,
estas três arquiteturas são detalhadas.
2.3.1.1 Perceptron Multicamadas

As MLPs são uma evolução dos primeiros modelos de Perceptron. O Perceptron é
uma rede neural desenvolvida em 1959 por Frank Rosenblatt, sendo conhecida como rede
neural de apenas uma única camada. Foi por meio deste modelo que uma máquina pode ser
ensinada pela primeira vez. Neste tipo de arquitetura diversas entradas são apresentadas e uma
única saída desenvolvida (MINSKY; PAPERT, 1988). Após uma análise, Minsky e Papert,
comprovaram matematicamente que o modelo apresentado por Rosenblatt era limado a
problemas lineares (Figura 4), limitando a problemas simples de reconhecimento de padrões.
Mas o avanço desta técnica possibilitou que em 1986 Rumelhart, Hilton e Williams
apresentassem o algoritmo de Retropropagação do erro (do inglês backpropagation),
adicionando camadas intermediárias e, posteriormente, conduziu ao surgimento da rede MLP
capazes de lidar com problemas não lineares (Figura 4). Segundo Alsmadi et al. (2009), a
adição de mais camadas faz com que uma rede neural consiga utilizar mais unidades ocultas,
assim pode-se aproximar virtualmente qualquer função com qualquer precisão desejada.
Figura 4 - Problemas lineares e não lineares
15
Uma MLP tem como uma das suas principais utilizações processos de classificação e,
assim como outras redes neurais, possui ao menos 3 camadas: entrada, intermediária e a de
saída. As camadas estão conectadas através de pesos e bias e para atualizar essas informações
a MLP se utiliza do algoritmo de backpropagation por meio de duas fases, propagação e
retropropagação (GUIMARÃES; MEIRELES; ALMEIDA, 2019). Quando um novo modelo
é iniciado os pesos são distribuídos aleatoriamente através dos neurônios, as informações são
propagadas a partir da camada de entrada até a camada de saída, onde se estima o erro de
propagação. Caso apresente um valor muito elevado, uma correção de pesos é retropropagada
através da camada de saída até a camada de entrada. Este processo ocorre até que o erro seja
o aceitável (WYTHOFF, 1993, p. 118).
2.3.1.2 Rede Neural Convolucional

A arquitetura CNN foi apresentada em 1995 por Yann LeCun. Inicialmente o
desenvolvimento deste modelo buscava uma alternativa ao elevado custo computacional que
redes como MLP geram com as conexões entre todos neurônios, e para realizar esse
aperfeiçoamento surgiu o conceito de rede neural convolucional (LECUN, 1995). O processo
de construção de uma CNN foi inspirado no córtex visual, uma área do cérebro humano que
processa a informação visual.
A construção de uma CNN consiste basicamente de três camadas de processamento de
dados: camada de convolução, camada de pooling e a camada totalmente conectada (do inglês
fully connected) (BELCIUG, 2022), apresentadas na Figura 5.
Figura 5 - Estrutura básica de uma CNN
Fonte: Adaptado de Zhang, Zhao e Lecun (2015)
A camada de convolução é responsável por extrair dos dados de entrada informações

relevantes e realizar uma representação em uma matriz. Já a camada de polling tem como
objetivo reduzir os parâmetros das camada convolucionais, simplificando todo o processo
utilizando entre os dois tipos de pooling: max pooling, que identifica o maior valor mapeado
de cada filtro dentro da camada de convolução ou average pooling, que realiza a média dos
valores. O método mais utilizado para realizar este processo é o max pooling. A Figura 6
exemplifica a ação das camadas de convolução e de pooling. A última camada apresentada na
Figura 6 é a totalmente conectada onde a classificação é realizada. Esta camada é similar ao
modelo de MLP em que os neurônios se conectam entre si, porém, na CNN os pesos são
compartilhados entre neurônios otimizando o tempo de treinamento.
16
Figura 6 - Representação das camadas de convolução e pooling
Como citado anteriormente, as CNNs surgiram para resolver problemas que

envolvessem dados de imagens, porém, estudos recentes mostram que as CNNs podem
também contribuir para o NLP (ZHANG;ZHAO; LECUN, 2015).
2.3.1.3 Redes Neurais de Memória de Curto e Longo Prazo
A arquitetura LSTM é um tipo especial de Rede Neural Recorrente (do inglês

Recurrent Neural Network - RNN) e foi introduzida por Sepp Hochreiter e Jurgen
Schmidhuber em 1997. O modelo foi proposto para solucionar o problema de Dissipação do
Gradiente (do inglês Vanishing Gradient) que ocasionalmente acontece em redes neurais
comuns. Basicamente, o problema indica que o gradiente de uma rede diminui que ocorre o
avanço do processamento nas camadas ocultas, afetando o aprendizado do modelo, que
torna-se ineficientes para capturar informações contextuais de sequências muito longas, como
textos (HOCHREITER; SCHMIDHUBER, 1997). De modo geral, uma LSTM retém
informações ao longo do tempo.
A LSTM utiliza os padrões de uma RNN, porém, para solucionar o problema de
vanishing gradient são acrescentados, em suas camadas ocultas, mecanismos chamados de
células de memórias, que contém portões nas saídas das camadas internas que serão os
responsáveis por controlar as informações e identificar o que será importante para o
aprendizado no longo e no curto prazo, incluindo as informações relevantes e excluindo os
dados irrelevantes. Em suas camadas ocultas foram acrescentados mecanismos chamados de
células de memórias, que retêm essas informações vindas de células anteriores que
representam o longo prazo (SUNDERMEYER; SCHLÜTER; NEY, 2012) Estes portões estão
alocados dentro de uma célula de memória, que possuem três unidades multiplicativas sendo,
válvula de entrada, válvula de saída e válvula de esquecimento. A Figura 7 demonstra a
estrutura de uma célula LSTM.
17
Figura 7 - Estrutura de uma célula de memória de uma LSTM
● Portão de esquecimento (do inglês Forget Gate): define as informações que serão
descartadas pela célula de memória através de uma função de ativação sigmoid
que habilita ou não o transporte da informação;
● Portão de entrada (do inglês Input Gate): adiciona informações ao aprendizado da
célula de memória; este portão possui duas funções de ativação, uma tanh irá
calcular a nova informação vinda do estado oculto anterior e a função sigmoid que
fará o controle de acesso da informação;
● Portão de saída (do inglês Output Gate): extrai informações relevantes do estado
da célula de memória atual direcionando-as para a próxima célula de memória,
este portão possui, assim como os anteriores uma função de ativação sigmoid que
fará o controle do que será transportado para a próxima célula de memória.
3 TRABALHOS CORRELATOS
Através de buscas na literatura foram encontradas algumas abordagens de métodos e
modelos de classificação de documentos de patentes baseados em RNAs. As bases de
pesquisa utilizadas foram a do IEEE Xplore®, Science Direct®, Scopus® e Web of Science®. A
pesquisa considerou artigos publicados em língua inglesa entre os anos 2017 até 2022
utilizando a seguinte string de busca “("Patent Classification" OR "Patent Document
Classification" OR "Patent Text Classification" OR "Patent Document Categorization") AND
("Deep Learning" OR "Neural Network*")”, em que o caractere “*” denota as possíveis
variações do termo. A seguir são detalhados os artigos que, após a leitura do resumo e
introdução, foram considerados os mais relacionados.
● No trabalho de Xiao, Wang e Zuo (2018) levanta-se a hipótese de que nenhum
algoritmo de classificação genérico é capaz de fazer a classificação para todas as
patentes em diversos campos, com o argumento de que cada grupo possui suas
próprias características. No artigo, eles aplicam Word2Vec e LSTM em um corpus
de documentos de patentes da área da segurança. O conjunto de dados foi obtido a
partir da Wikipedia® utilizando a língua chinesa. Na etapa de pré-processamento
18
foram retiradas as stopwords (palavras que possuem pouco valor semântico),
assim como a retirada de palavras que aparecem com muita frequência nos
documentos. Em seguida, o Word2Vec foi utilizado para treinar os documentos e a
partir disso foram treinados utilizando LSTM. Por fim, a precisão do modelo por
meio da arquitetura LSTM atingiu 93,48%.
● Lu et al. (2019) desenvolveram um modelo de classificação de texto de patente
C3-BIGRU-AT baseado na fusão de redes neurais multivariadas. O modelo 3CNN
que combina três kernels de convolução, o modelo BIGRU (do inglês
Bidirectional Gated Recurrent Unit), o modelo 3CNNBIGRU que é a junção dos
modelos 3CNN e BIGRU. A abordagem apresentada neste artigo utilizou a CNN
para extrair as principais características semânticas dos documentos de patentes e
a camada BIGRU para capturar as características mais profundas dos textos na
entrada do modelo. Os resultados apresentam a comparação dos modelos citados,
utilizados em um mesmo conjunto de dados a fim de mostrar a comparação entre
ambos. Os resultados obtidos mostraram que a fusão entre várias redes neurais,
C3-BIGRU-AT, pode aprender recursos semânticos mais profundos que redes
tradicionais impactando positivamente nos resultados.
● No trabalho proposto por Jiang et al. (2022) foi apresentada uma nova arquitetura
de aprendizado profundo multimodal para realizar a classificação de documentos
de patentes com base no modelo IPC. O fluxo apresenta três etapas:
pré-processamento dos dados, aprendizado por imagem e texto, e a última etapa,
aprendizado por meio da fusão de recursos de rede e classificação de documentos.
Como base de dados foram utilizados textos em linguagem natural e imagens com
as respectivas associações com os documentos de patentes.Para comparação
utilizou-se vários modelos de aprendizado de máquina, CNN, RNN e GNN. Os
resultados apresentados indicam que o modelo multimodal supera
significativamente os modelos unimodais.
● Sofean (2021) propôs em seu trabalho a criação de um modelo de aprendizagem
profunda na arquitetura LSTM e embedding, inspirada pelo modelo
“Wide-and-Deep” apresentado pelo Google® em 2016. Foi utilizado também um
conjunto de métodos de mineração de texto para encontrar os principais
segmentos dentro dos documentos de patente, assim como técnicas híbridas de
aprendizado de máquina, algoritmos baseados em regras e heurística, com o
intuito de extrair os principais elementos semânticos de cada documento. Como
dados de entrada utilizaram: título, resumo, campos técnicos, histórico, resumo e
reivindicações independentes. Após a aplicação dos segmentos obtidos, e
aplicação do modelo de classificação o resultado obtido chegou a 74% de
acurácia, 92% de precisão, 63% recall e 75% de F1.
● Ruijie et al. (2021) realizaram em sua proposta o desenvolvimento de 15
estratégias de modelagem de texto de patente e 6 modelos de classificação. A
estrutura proposta foi estabelecida em basicamente 3 passos: i) separação dos
dados de título (T), resumo (A), reivindicações (C) e descrição (D) em quatro
grupos. Após a divisão inicial, esses grupos são agregados em duplas e trios:
(TA), (TC), (TD), (AC), (AD), (CD), (TAC), (TAD), (TCD), (ACD) e (TACD); ii)
após a separação dos dados de entrada, foram selecionadas quatro métodos
principais para modelagem de textos, sendo: TF (Term Frequency), TF-IDF (Term
Frequency-Inverse Document Frequency), conjunto de palavras não treinadas e
Word2Vec; e iii) por fim, foram implementadas modelos de ML e DL. Ao fim da
proposta, identificou-se que a melhor combinação para a tarefa de classificação de
textos é a (TAD) que chegou a 88,6% de acurácia.
19
● Em Risch e Krestel (2018) os autores aplicaram o conceito de incorporação de
palavras (embedding), por meio da técnica fastText, que combina NLP e ML na
incorporação de informações ao modelo pré-treinado auxiliando a superar o
problema de falta de vocabulários que outras abordagens de incorporação de
palavras possuem. Utilizaram um conjunto de dados com mais de 5 milhões de
registros patentários aplicados a uma abordagem de rede neural profunda, uma
arquitetura GRUs (do inglês Gated recurrent units) bidirecionais. Concluíram que
incorporar embedding de palavras específicas de domínio (fastText) nos
documentos de patentes aumentou em 17% a precisão média em comparação a
abordagens anteriores.
● De Clercq et al. (2019) desenvolveram um estudo para realizar a classificação
multi-rótulo de dados de patentes de veículos elétricos baseada em NLP.
Utilizaram como conjunto de dados um total de 17.500 patentes de veículos
elétricos. A abordagem do trabalho foi baseada nos seguintes passos: i) extração
de tópicos dos textos utilizando a Alocação Latente de Dirichlet (do inglês Latent
Dirichlet Allocation - LDA); e ii) implementação da técnica de árvore de decisão
e do algoritmo K-ésimo Vizinho mais Próximo (do inglês k-nearest neighbors -
KNN). Os resultados apresentados indicam que o algoritmo que melhor
desempenhou foi o de árvore de decisão com acurácia entre 0,35 e 0,6, indicando
um resultado satisfatório para problemas multi-rótulos.
● O trabalho de Li et al. (2018) propõe o DeepPatent que utiliza aprendizado
profundo baseado em CNN e incorporações de vetores de palavras para realizar a
classificação de patentes. Utilizaram como fonte de dados os títulos e os resumos
de mais de 2 milhões de documentos de patentes publicadas entre 2006 até 2015,
que foram coletados, pré-processados e posteriormente disponibilizados para
servir de referência nos estudos de classificação de patentes, o dataset
USPTO-2M. Após aplicar o algoritmo DeepPatent ao conjunto USPTO-2M
chegaram a uma precisão de classificação de 73,88%.
● Jafery et al. (2019) propõem uma abordagem de classificação de patentes a partir
do conceito da Indústria 4.0 junto com algoritmos de ML. Para realizar a
pesquisa, utilizaram uma base de dados extraída da “MyIPO Online Search and
Filing System”, a partir de patentes depositadas por inventores da Malásia. Após
realizar o pré-processamento nos dados, foram utilizados cinco classificadores
diferentes, com o intuito de comparar e determinar o melhor modelo. Os cinco
algoritmos de aprendizado de máquina utilizados foram o Naive-Bayes, KNN,
Máquinas de Vetores de Suporte (do inglês Support Vector Machine - SVM),
Árvores de Decisão (do inglês Decision Tree - DT) e Florestas Randômicas (do
inglês Random Forest - RF). Os resultados se mostraram mais eficazes para os
algoritmos SVM e DT, com a métrica de revocação chegando a 0,98 e a métrica
de precisão atingindo 0,97. O algoritmo RF atingiu a acurácia de 93,10%,
enquanto que os algoritmos KNN e Naive-Bayes atingiram 79,31% e 64,37%,
respectivamente.
O tema de classificação de documentos de patentes, de acordo com as buscas
realizadas, se mostra relevante e atual. Porém, os resultados trouxeram apenas pesquisas com
foco na classificação de documentos de patentes, não sendo encontrado trabalhos que, após a
classificação, produzissem a recomendação de classes/subclasses na forma de ranking, sendo
isto um diferencial do método proposto neste trabalho.
20
4 MÉTODO PROPOSTO
Esta seção detalha o método proposto de classificação de documentos de patentes
promovendo uma recomendação através de um ranking de classes, onde as n primeiras
posições indicam as maiores probabilidades de uma patente pertencer a uma classe/subclasse
em particular. A Figura 8 apresenta uma visão geral do método, sendo: i) Coleta e
pré-processamento dos dados, ii) Transformação dos dados de entrada, iii) Construção dos
modelos de classificação, e iv) Recomendação de classes.
Figura 8 – Fluxograma do método proposto
4.1 ETAPA 1: BASE DE DADOS E PROCESSAMENTO DOS DADOS
A Etapa 1 do método proposto é representada pela constituição da base de dados.

Neste trabalho foi utilizado uma base de patentes contendo os resumos das patentes, os seus
títulos e suas respectivas classificações, a partir de dados disponibilizados publicamente.
Após a obtenção dos dados, alguns processos são necessários. Primeiro, para cada documento
de entrada deve-se realizar a concatenação de seus respectivos resumos e títulos, considerando
ambos os conteúdos como apenas um texto de entrada. Visto que cada patente pode pertencer
a mais de uma subclasse, quando isto ocorre, determinado documento é replicado no conjunto
de dados tanto quanto forem as subclasses, ou seja, uma entrada agregando resumo e título
para cada subclasse. Os dados são então divididos em 2 grupos, um para o
treinamento/validação e outro para o teste do classificador que integra a Etapa 3 do método.
Por fim, como último processo desta etapa, é realizado o balanceamento em ambos os
conjuntos, treinamento/validação e teste, para que nenhuma subclasse seja privilegiada
durante a etapa de geração do modelo de classificação.
4.2 ETAPA 2: NLP E EMBEDDING
Com os dados processados, inicia-se a Etapa 2. Os dois objetivos desta etapa são: o
pré-processamento do texto utilizando técnicas de NLP e a codificação do texto por meio da
técnica de embedding. Através de NLP são realizadas a limpeza e a padronização dos textos.
Ou seja, todas as stopwords (palavras consideradas irrelevantes para o processamento) são
21
eliminadas das sentenças, assim como todas as pontuações. Adicionalmente, pode-se realizar
operações de stemming (busca pela raiz de uma palavra) ou lemmatization (busca pelo lema
de uma palavra). No primeiro caso, um exemplo seria as palavras amigos, amigas, amizade,
carreira, carreiras após o processo stemming seriam reduzidas as suas raízes amig, amig,
amizad, carr e carr. Já para o segundo caso um exemplo utilizando as mesmas palavras do
exemplo anterior aplicando a lemmantization teria a seguinte saída: amigo, amigo, amizade,
corre, carreira, carreira.
A etapa de embedding conta com duas sub-etapas: i) tokenização, ou seja, a separação
do texto em unidade indivisíveis chamadas de token, por exemplo, na sentença “classificação
de textos”, após a tokenização a frase será separada em três palavras (neste caso entendidas
como tokens), sendo: “classificação”, “de” e “textos”. A próxima sub-etapa consiste na
padronização do tamanho dos vetores que representam os textos, sendo definido pelo tamanho
do maior texto Nos textos menores os tamanhos são completados com “0” ao final até
igualarem-se ao tamanho do maior texto. Por fim, ocorre a aplicação da técnica de embedding
transformando os vetores esparsos em vetores densos em que cada posição possui um peso
indicando a relevância semântica do documento em um espaço n dimensional. A
padronização e a geração de embeddings são descritas na Seção 2.2.1.1.
4.3 ETAPA 3: CONSTRUÇÃO DO MODELO DE CLASSIFICAÇÃO
Esta etapa objetiva definir determinada arquitetura de rede neural para a

recomendação de classes na etapa seguinte, isto é, tem o intuito de criar um modelo de
classificação para sugerir um ranking de classes para determinado documento de patente de
entrada. De modo geral, qualquer arquitetura que possibilite o aprendizado do relacionamento
entre documentos de patentes e as suas classes/subclasses pode ser utilizada.
Para tal, são fundamentais as etapas de treinamento/validação e teste. A aprendizagem
ocorre por meio da apresentação de instâncias de documentos para a rede neural que, após n
épocas (cada época representa a análise de todos os documentos que compõem o corpus de
treinamento), tende a atingir um estado de convergência, ou seja, o aprendizado.
Adicionalmente, realiza-se, em cada época de treinamento, a etapa de validação retirando
aleatoriamente uma parte dos documentos para verificar o progresso no aprendizado do
classificador. Por fim, após as etapas de treinamento/validação é realizada a etapa de teste que
apresenta documentos ainda não utilizados visando determinar se o modelo resultante do
processo de aprendizado atende as necessidades da tarefa de classificação.
4.4 ETAPA 4: RECOMENDAÇÃO DE CLASSES
Esta etapa final visa recomendar um conjunto de subclasses que melhor descrevem
determinada patente. Para tal, é enviado ao classificador um documento de entrada (Quadro
2). O classificador devolve, então, uma lista em que cada posição se refere a uma subclasse
com o respectivo peso, mais especificamente, a probabilidade da subclasse representar o
documento de entrada. No Quadro 3 são apresentadas as probabilidades enfatizando as cinco
primeiras e as cinco últimas subclasses.
22
Quadro 2 - Texto de entrada do modelo
Texto: “photo aligTextonment mark for a gate last process a semiconductor device is
provided which includes a semiconductor substrate having a first region and a second region
the first and second regions being isolated from each other a plurality of transistors formed
in the first region an alignment mark formed in the second region the alignment mark having
a plurality of active regions in a first direction and a dummy gate structure formed over the
alignment mark the dummy gate structure having a plurality of lines in a second direction
different from the first direction.”
Quadro 3 - Subclasses e probabilidades
5 Primeiras A01H A61N A161B A61F A61K

posições 0,000241 0,000008 0,000015 0,00003 0,000009
5 Últimas H04M H04N H04W H05B H05K
posições 0,000215 0,001258 0,000431 0,006768 0,026158
Uma vez que a lista com as probabilidades é obtida, realiza-se o passo final que
envolve a sua ordenação de maneira decrescente formando um ranking, possibilitando assim a
recomendação das k subclasses mais relevantes (Quadro 4).
Quadro 4 - Ranking de recomendações
k Subclasse Probabilidade
1 H01L 0,519191
2 G11C 0,219833
3 G02F 0,118295
4 H03K 0,029087
5 H05K 0,026158
6 G01R 0,016815
7 G11B 0,016021
8 H05B 0,006768
9 H01J 0,006516
10 G09G 0,006452
5 RESULTADOS EXPERIMENTAIS
5.1 CENÁRIO DE ESTUDO
O contexto em que este trabalho está inserido envolve a recomendação de
classes/subclasses de patentes, servindo como um auxílio aos examinadores de patentes com o
intuito de prover um ranking com as respectivas subclasses mais prováveis a partir de uma
entrada (documento de patente).
Para realizar este trabalho foi utilizado o conjunto de dados (dataset) disponibilizado
no artigo “DeepPatent: Convolutional Neural Networks for Patent Classification” (LI et al.,
2018) composto por patentes de 2006 a 2015. Neste dataset as seguintes informações estão
presentes: Abstract - Resumo da patente, Title - Título da patente, No - Número da solicitação
23
de patente e "Subclass_labels" - A classificação da patente podendo conter 1 (uma) ou mais
subclasses. O dataset total é composto por mais de 2 milhões de resumos de patentes.
Considerando as restrições de processamento, para este trabalho foram utilizados 50
mil documentos, divididos em uma conjunto com 40 mil para a etapa do
treinamento/validação das ANNs utilizadas, e outro conjunto com 10 mil para a etapa de teste
de cada ANN. Os datasets foram balanceados levando-se em conta a escolha das 50
subclasses que possuíam mais patentes associadas, sendo então escolhidas 800 patentes para
cada subclasse para a formação do conjunto de treinamento/validação. Adicionalmente, as
mesmas 50 subclasses foram utilizadas escolhendo 200 patentes para a composição do
conjunto de testes que não constam no conjunto de treinamento/validação.
5.2 IMPLEMENTAÇÃO DO MÉTODO PROPOSTO
Para o desenvolvimento do método proposto foi utilizado a linguagem de
programação Python® devido a sua ampla utilização no desenvolvimento de aplicações de
NLP e ML, bem como por ser uma linguagem flexível e possuir diversas bibliotecas abertas
para a manipulação de dados. Entre as bibliotecas, foram utilizadas o TensorFlow®, Keras®,
Scikit-Learn® e NLTK®. Cada biblioteca tem um objetivo e uma função na instanciação do
método conforme consta no Quadro 5:
Quadro 5 - Bibliotecas utilizadas.
Biblioteca Funcionalidade Classes ou métodos utilizados
Utilizadas em algumas etapas de preprocessing
preparação dos dados, por exemplo, Tokenizer
na geração de embeddings, bem
TensorFlow® e Keras® como na composição, pad_sequences
treinamento/validação e teste das regularizers
arquiteturas de redes neurais
desenvolvidas. layers
Utilizada em algumas etapas de LabelEncoder
preparação dos dados, por exemplo, train_test_split
a separação dos conjuntos de dados
Scikit-Learn® em treinamento/validação e teste, classification_report
bem como na etapa de avaliação da confusion_matrix
acurácia das arquiteturas de redes
neurais desenvolvidas. top_k_accuracy_score
Utilizada na etapa de stopwords

NLTK®
pré-processamento dos dados. lematização
As bibliotecas TensorFlow® e Keras® foram utilizadas para a geração dos embeddings,

bem como na composição dos modelos de classificação utilizados neste trabalho. O
desenvolvimento da Etapa 3 do método foi implementado levando-se em conta três
arquiteturas de redes neurais com o intuito de promover uma comparação entre as mesmas,
sendo: MLP, CNN e LSTM. Cada uma dessas arquiteturas possuem características distintas,
sendo os detalhes de cada característica das três arquiteturas descritos na seção 2.3.1 deste
trabalho.
A MLP implementada (Figura 9) conta com uma camada de embedding, uma camada
de achatamento (do inglês flatten) que transforma a matriz em um vetor. Possui também duas
24
camadas intermediárias do tipo dense com a função ativação sigmoid, uma camada dropout, e
uma camada dense de saída com a função de ativação softmax.
Figura 9 – Resumo da arquitetura MPL
A construção da CNN (Figura 10) foi realizada através de uma camada de embedding,
uma camada convolucional de 1 dimensão conv1d, uma camada global_max_polling, uma
camada intermediária dense com a função de ativação sigmoid, uma camada de dropout, e
uma última camada dense de saída com a função de ativação softmax.
Figura 10 – Resumo da arquitetura CNN
Por fim, o desenvolvimento da rede LSTM (Figura 11) contou com a camada de
embedding, uma camada bidirectional, uma camada intermediária dense, uma camada de
dropout e uma camada de saída do tipo dense com ativação através da função softmax.
25
Figura 11 – Resumo da arquitetura LSTM
Como pode ser observado, todas as arquiteturas possuem uma camada de entrada que
recebe os embeddings (cada embedding é um vetor denso de 128 dimensões que representa
determinado documento de patente) e uma camada de saída do tipo dense com 50 posições,
ou seja, cada posição representando uma das 50 subclasses consideradas na geração dos
conjuntos de dados de treinamento/validação e teste.
Por fim, para a avaliação do modelo de recomendação foi utilizado o pacote
metrics.top_k_accuracy_score da biblioteca Scikit-Learn®. A etapa de recomendação
baseia-se na elaboração de um ranking e o método top_k_accuracy_score permite calcular o
número de vezes em que determinado rótulo de um documento de entrada (patente) está
correto considerando determinado valor de k.
5.3 APRESENTAÇÃO DOS RESULTADOS

Esta seção objetiva apresentar os resultados alcançados pelo método proposto
considerando as três arquiteturas de redes neurais, MLP, CNN e LSTM, no que tange a
recomendação de subclasses com as respectivas probabilidades para determinada patente de
entrada, assim como a análise do comportamento global dos modelos treinados.
Para tal, serão demonstrados dois exemplos do comportamento do método.
Levando-se em conta uma entrada (documento de patente) com duas subclasses (Quadro 6)
submetida ao classificador CNN são recomendadas algumas subclasses.
Quadro 6 - Exemplo de patente com duas subclasses submetida ao classificador CNN
Subclasse: A61B, G06K

Texto:“method and system for patient specific modeling of blood flow embodiments
include a system for determining cardiovascular information for a patient the system
may include at least one computer system configured to receive patient specific data
regar ding a geometry of the patient s heart and create a three dimensional model
representing at least a portion of the patient s heart based on the patient specific data
the at least one computer system may be further configured to create a physics based
model relating to a blood flow characteristic of the patient s heart and determine a
fractional flow reserve within the patient s heart based on the three dimensional
model and the physics based model”
26
O resultado do método é apresentado no Quadro 7, em que seriam disponibilizadas ao
examinador responsável pela análise da patente as k subclasses mais relevantes (neste caso
k=10). Percebe-se que a subclasse A61B, que consta na lista de subclasses da patente de teste
do quadro anterior, foi recomendada com probabilidade de 0,77 (77%). Indica, portanto, que
na análise geral, a patente teria sido classificada corretamente considerando k=1. Já a outra
subclasse pertencente a patente, G06K, aparece na sexta posição (k=6) com probabilidade de
0,02 (0,02%).
Quadro 7 - Ranking de subclasses obtido a partir do classificador CNN
1 A61B 0,770461
2 A61F 0,055662
3 A61M 0,037791
4 A61N 0,033028
5 G01N 0,026614
6 G06K 0,022316
7 C12Q 0,013316
8 A63F 0,007651
9 C07K 0,005922
10 G06Q 0,005563
O resultado se mostra consistente e promissor, visto que a primeira subclasse sugerida

possui uma probabilidade elevada. Já a segunda subclasse esperada é indicada com uma
probabilidade baixa. Ainda que o método proposto não implemente um processo de
otimização para recomendar somente as k subclasses mais relevantes, fica evidente, neste
caso, o ponto de corte. Vale ressaltar que na análise geral de acurácia dos classificadores,
descrita mais adiante nesta seção, esta patente registraria um acerto para k até 5, pois somente
uma das subclasses está neste intervalo e dois acertos para k maior ou igual a 6, visto que as
duas subclasses são recomendadas a partir deste valor.
Complementarmente, um segundo exemplo é apresentado para clarificar o resultado e
a interpretação realizada na análise final da acurácia dos classificadores. O Quadro 8
apresenta uma patente com a subclasse A61K da seção de “Necessidades Humanas” segundo
a classificação IPC da WIPO®1.
Quadro 8 - Exemplo de patente com duas subclasses submetida ao classificador CNN
Subclasses: A61K
Texto:“cycloalkyl dione derivatives and methods of their use the present invention is
directed to carboxylic acid containing pharmaceutical compounds where the
carboxylic acid moieties have been substituted with cycloalkyl dione derivatives as
well as tautomers and pharmaceutically acceptable salt forms thereof these
bioisosteric replacements improve the compound s ability to effectively cross the blood
brain barrier and result in improved pharmacokinetic toxicological and or safety
profiles”
Fonte: Elaborado pelo autor (2022).
1
https://ipcpub.wipo.int
27
O resultado do método é apresentado no Quadro 9, em que seriam disponibilizadas ao
examinador responsável pela análise da patente as k subclasses mais relevantes (neste caso
k=10). Percebe-se que a subclasse A61K, que consta na lista de subclasses da patente de teste
do quadro anterior, foi recomendada com probabilidade de 0,06 (6%). Indica, portanto, que na
análise geral, a patente teria sido classificada corretamente considerando k maior ou igual a 3.
Quadro 9 - Ranking de subclasses obtido a partir do classificador CNN
1 C07D 0,455534
2 C07C 0,380845
3 A61K 0,065061
4 A01N 0,042837
5 C07H 0,014828
6 B01D 0,010598
7 G01N 0,007331
8 C12P 0,005931
9 C12Q 0,003919
10 C07K 0,003875
Fonte: Elaborado pelo autor (2022).
Como pode ser observado, a subclasse A61K, esperada como a resposta correta para a
patente do Quadro 9, atingiu apenas a posição 3 com uma probabilidade reduzida. Já duas
subclasses, C07D e C07C, da seção da IPC-WIPO® de Química e Metalurgia obtiveram os melhores
resultados, com probabilidades de 0,45 (45%) e 0,38 (38%), respectivamente. Analisando o texto
verificam-se palavras como cycloalkyl, carboxylic e cycloalkyl e, além disso, um contexto
claramente farmacêutico. Não é possível afirmar o motivo pela qual a patente não foi
atribuída para as subclasses de química e metalurgia, mas percebe-se que estas seriam as mais
adequadas. Todavia, isto poderia ser explicado em parte pela evolução da taxonomia de
secções e classes utilizadas pela WIPO®. Em 2016, por exemplo, com o surgimento de novas
linhas de pesquisas no segmento elétrico, foi realizada a discussão sobre a inclusão de novas
subclasses ao sistema internacional na seção de Eletricidade, entre elas, citam-se H10B,
H10D, H10G e H10N. Ou ainda pelo processo de reclassificação que acontece anualmente,
onde todos os documentos de patentes, deferidos ou indeferidos, arquivados ou em recursos
passam por uma reclassificação (DIRPA, 2021).
Como elemento final de avaliação das arquiteturas de redes neurais utilizadas neste
trabalho, MLP, CNN e LSTM, realizou-se o cálculo agregado da acurácia considerando um
valor de k recomendações, sendo k = 10, definido de maneira arbitrária. Após o treinamento
dos modelos, os resultados foram atingidos utilizando o conjunto de teste (definido na seção
5.1). A acurácia de k é definida pelo total de acertos no índice específico, ou seja, a posição
específica de k, dividido pela quantidade de instâncias (documentos) do conjunto de testes.
Visto que o principal objetivo deste trabalho é realizar a recomendação de subclasses de
forma ordenada, a métrica utilizada para a permitir a avaliação foi a top_k_accuracy_score,
como citado na seção 5.2, sendo o resultado de cada arquitetura de rede neural apresentado no
Quadro 10.
28
Quadro 10– Ranking geral apresentado pelos modelos de classificação
k MLP CNN LSTM
1 0,3943 0,3987 0,3819
2 0,5348 0,5555 0,5300
3 0,6250 0,6497 0,6248
4 0,6858 0,7190 0,6940
5 0,7358 0,7708 0,7443
6 0,7690 0,8064 0,7824
7 0,7997 0,8328 0,8100
8 0,8210 0,8555 0,8322
9 0,8426 0,8735 0,8520
10 0,8591 0,8880 0,8703
O Quadro 10 apresenta as probabilidades de acerto agregadas após a avaliação de todo

o conjunto de testes. Considerando determinada patente com uma subclasse esperada X e um
retorno ordenado em que esta subclasse X esteja na segunda posição, por exemplo, o acerto
para efeitos do cálculo da acurácia agregada será contabilizado para k maior ou igual a 2.
Visto a natureza dos dados, não estruturados na forma de texto, e do problema,
classificação multi-rótulo/multi-output, os resultados se mostram promissores. Ainda que as
acurácias sejam baixas para k=1 os resultados se tornam aceitáveis com um k = 5, por
exemplo, ultrapassando os 70% de acurácia nas três arquiteturas. Neste sentido, a arquitetura
CNN atingiu o melhor desempenho quando comparada à MLP e LSTM. Cabe ressaltar que a
acurácia reduzida em k=1 deve-se em parte à natureza do problema. Em cenários envolvendo
classificação multi-rótulo/multi-saída, determinado texto que possua múltiplas classes, poderá
ter uma de suas classes classificada corretamente, enquanto as demais seriam classificadas
incorretamente.
6 CONSIDERAÇÕES FINAIS E TRABALHOS FUTUROS

Este trabalho teve como objetivo o desenvolvimento de um método de classificação de
textos com foco na recomendação de classes de maneira ordenada. Cada subclasse sugerida,
partindo da mais relevante até a menos relevante, possui a indicação de uma relevância por
meio de uma probabilidade desta estar vinculada a determinado documento de entrada. Para
tal, foram realizadas pesquisas com direcionamento à área de análise de patentes, sendo então
utilizados documentos de patentes como elemento base para a formação do corpus utilizado
durante a etapa de avaliação do método. O método em si é composto por 4 etapas, contendo
desde a coleta, pré-processamento e transformação dos dados (patentes) até a recomendação,
no contexto do trabalho, de subclasses.
Para a etapa 3 do método foram desenvolvidas três arquiteturas de redes neurais com o
intuito de determinar uma boa alternativa para produção do modelo de classificação, ou seja,
o classificador de texto. Para a avaliação das redes neurais utilizou-se um conjunto de dados
de 50.000 títulos e resumos de patentes do escritório americano USPTO®, sendo 40.000 para o
treinamento/validação e 10.000 para o teste. Apesar do conjunto de dados ser na língua
inglesa, o método proposto pode ser visto como genérico, uma vez que as arquiteturas de
redes neurais utilizadas são invariantes à língua utilizada. Os resultados obtidos através do
desenvolvimento dos modelos na etapa de teste demonstraram que a arquitetura CNN atingiu
os melhores resultados, sendo somente um pouco superiores às demais arquiteturas, MLP e
LSTM.
29
De maneira geral, os resultados obtidos com k=5 ou 6, próximos a 80% de acurácia,
demonstram que o método tem potencial na recomendação de subclasses. Vale reforçar que
este percentual pode ser visto como adequado considerando a natureza da fonte de dados
(documento de patentes) e do problema (multi-rótulo/multi-saída). Além disso, no contexto de
análise de patente o foco não é determinar exatamente quais classes/subclasses atribuir a
determinada patente, mas auxiliar os examinadores na identificação de quais
classes/subclasses são as mais adequadas para determinada patente. A tarefa de classificar um
documento de patente é entendida como complexa. Em muitos casos, anos são necessários
para que um pedido seja deferido, e qualquer ponto de suporte para que os examinadores
tenham mais celeridade em suas análises contribui para a realização do trabalho dos mesmos.
Ademais, uma aplicação com o objetivo de recomendação de subclasses serviria como apoio
aos escritórios que trabalham realizando as solicitações, e até mesmo os solicitantes que
inicialmente realizam os pedidos.
Durante o desenvolvimento deste trabalho foram identificados pontos de melhoria,
principalmente no que se refere ao volume de dados, outras possibilidades de redes neurais ou
estratégias de recomendação, bem como a otimização da lista de subclasses recomendadas.
Quanto ao volume de dados foram considerados ao todo 50.000 patentes. Todavia,
atualmente, somente o escritório americano (USPTO®) disponibiliza milhões de patentes. Nos
testes realizados, as arquiteturas de redes neurais profundas utilizadas apresentaram um tempo
de processamento e consumo de memória considerável e, desta forma, estabeleceu-se este
limite para que a avaliação do método fosse viável. Isto abre possibilidades de pesquisa em
redes neurais mais atuais para lidar com grandes volumes de dados não estruturados na forma
de texto, assim como a utilização de arquiteturas computacionais baseadas em GPUs
(Graphics Processing Units).
Ainda que as arquiteturas utilizadas, MLP, CNN e LSTM, sejam referências na
literatura de aprendizado profundo, várias pesquisas atuais têm se utilizado de modelos
baseados na arquitetura transformers, tais como, BERT® ou GPT-3®, assim como outras
estratégias que se integram as novas categorias de bancos de dados, chamados de banco de
dados vetoriais com foco em aprendizado de máquina.
Por fim, o presente método não leva em consideração qual seria o valor ideal de k,
sendo necessário a indicação de um valor fixo para que ocorra a recomendação das subclasses
de maneira ordenada. Conforme análises constantes na seção 5.3, percebe-se que a partir de
certa posição da lista ocorre um distanciamento expressivo entre as probabilidades. No
primeiro exemplo isto ocorre entre as posições 1 e 2 e no segundo exemplo entre as posições
2 e 3. Apesar de nestes exemplos as diferenças de probabilidades entre as posições
mencionadas serem expressivas, isto não ocorre em todos os casos. Neste sentido, torna-se
requerida a elaboração de uma estratégia otimizada visando ofertar somente as subclasses
realmente mais relevantes aos examinadores de patentes.
30
REFERÊNCIAS
ABBAS, Assad; ZHANG, Limin; KHAN, Samee U. A literature review on the state-of-the-art
in patent analysis. World Patent Information, v. 37, p. 3-13, 2014.
AL SHAMSI, Fatima; AUNG, Zeyar. Automatic patent classification by a three-phase model

with document frequency matrix and boosted tree. In: 2016 5th International Conference on
Electronic Devices, Systems and Applications (ICEDSA). IEEE, 2016. p. 1-4.
ALVAREZ, Isabel Maria Surdinho Borges; VIANA, Joaquim Mesquita da Cunha; SILVA,
Nuno Sotero Alves da. Big data: suporte consistente das decisões de gestão. 2016.
BASHEER, Imad A.; HAJMEER, Maha. Artificial neural networks: fundamentals,

computing, design, and application. Journal of microbiological methods, v. 43, n. 1, p. 3-31,
2000.
BELCIUG, Smaranda. Learning deep neural networks' architectures using differential

evolution. Case study: Medical imaging processing. Computers in Biology and Medicine, p.
105623, 2022.
CAVIQUE, Luís. Big data e data science. Boletim da APDIO, p. 11-14, 2014.
DE CLERCQ, Djavan et al. Multi-label classification and interactive NLP-based visualization

of electric vehicle patent data. World Patent Information, v. 58, p. 101903, 2019.
DIRPA, Grupo de Trabalho de Classificação de Patentes – Relatório Executivo

Classificação de Patentes (IPC/CPC), p. 04 2020
ELSAYED, Mohamed; ABDELWAHAB, Amira; AHDELKADER, Hatem. A proposed

framework for improving analysis of big unstructured data in social media. In: 2019 14th
International conference on computer engineering and systems (ICCES), p. 61-65, 2019.
FERREIRA, Ademir Antônio; GUIMARÃES, Edílson Rodrigues; CONTADOR, José Celso.

Patent as a competitive tool and as a source of technological information. Gestão &
Produção, v. 16, p. 209-221, 2009.
GÉRON, Aurélien. Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow:
Concepts, tools, and techniques to build intelligent systems. O'Reilly Media, Inc., 2019.
GUIMARÃES, Lucas Marques Sathler; MEIRELES, Magali Rezende Gouvêa; ALMEIDA,

Paulo Eduardo Maciel de. Evaluation of the preprocessing and training stages in text
classification algorithms in the context of information retrieval. Perspectivas em Ciência
da Informação, v. 24, p. 169-190, 2019.
31
HOCHREITER, Sepp; SCHMIDHUBER, Jürgen. Long short-term memory. Neural
computation, v. 9, n. 8, p. 1735-1780, 1997.
JAFERY, Wan Ain Zubaidah Wan Chek et al. Classification of patents according to industry
4.0 pillars using machine learning algorithms. In: 2019 6th International Conference on
Research and Innovation in Information Systems (ICRIIS). IEEE, 2019. p. 1-6.
JIANG, Shuo et al. Deep learning for technical document classification. IEEE Transactions
on Engineering Management, 2022.
KASIM, Henry; HUNG, Terence; LI, Xiaorong. Data value chain as a service framework: for
enabling data handling, data security and data analysis in the cloud. In: 2012 IEEE 18th
International Conference on Parallel and Distributed Systems. IEEE, 2012. p. 804-809.
KIM, Hyoung Jun; SAN KIM, Tae; SOHN, So Young. Recommendation of startups as
technology cooperation candidates from the perspectives of similarity and potential: A deep
learning approach. Decision support systems, v. 130, p. 113229, 2020.
KHALIL ALSMADI, Mutasem et al. Performance comparison of multi-layer perceptron

(Back Propagation, Delta Rule and Perceptron) algorithms in neural networks. In: 2009 IEEE
International Advance Computing Conference. IEEE, 2009. p. 296-299.
KOVÁCS, Zsolt László. Redes neurais artificiais. Editora Livraria da Fisica, 2002.
KRESTEL, Ralf et al. A survey on deep learning for patent analysis. World Patent
Information, v. 65, p. 102035, 2021.
KRONEMEYER, Lena L. et al. Monitoring competitors’ innovation activities: Analyzing the

competitive patent landscape based on semantic anchor points. IEEE Transactions on
Engineering Management, v. 68, n. 5, p. 1272-1287, 2020.
LAURIOLA, Ivano; LAVELLI, Alberto; AIOLLI, Fabio. An introduction to deep learning in

natural language processing: Models, techniques, and tools. Neurocomputing, 2022, 470:
443-456.
LECUN, Yann et al. Learning algorithms for classification: A comparison on handwritten

digit recognition. Neural networks: the statistical mechanics perspective, 1995, 261.276:
2.
LI, Shaobo et al. DeepPatent: patent classification with convolutional neural networks and
word embedding. Scientometrics, v. 117, n. 2, p. 721-744, 2018.
32
LU, Hongbiao et al. A patent text classification model based on multivariate neural network
fusion. In: 2019 6th International Conference on Soft Computing & Machine Intelligence
(ISCMI). IEEE, 2019. p. 61-65.
MAO, Guozhu, et al. Technology status and trends of industrial wastewater treatment: A
patent analysis. Chemosphere, 288: 132483,2022.
MINSKY, Marvin; PAPERT, Seymour A. Perceptrons, Reissue of the 1988 Expanded Edition
with a new foreword by Léon Bottou: An Introduction to Computational Geometry. MIT
press, 2017.
MIKOLOV, Tomas et al. Distributed representations of words and phrases and their
compositionality. Advances in neural information processing systems, v. 26, 2013.
MONARD, Maria Carolina; BARANAUSKAS, José Augusto. Conceitos sobre aprendizado

de máquina. Sistemas inteligentes-Fundamentos e aplicações, v. 1, n. 1, p. 32, 2003.
MOEHRLE, Martin. Measures for textual patent similarities: a guided way to select
appropriate approaches. Scientometrics, v. 85, n. 1, p. 95-109, 2010.
OLWAN, Rami M. Intellectual property and development. In: Intellectual property and
development. Springer, Berlin, Heidelberg, 2012. p. 1-31.
PANDEY, Kamlesh Kumar et al. Challenges of big data to big data mining with their
processing framework. In: 2018 8th international conference on communication systems
and network technologies (CSNT). IEEE, 2018. p. 89-94.
PHAND, Shital Anil; PHAND, Jeevan Anil. Twitter sentiment classification using stanford
NLP. In: 2017 1st international conference on intelligent systems and information
management (ICISIM). IEEE, 2017. p. 1-5.
RISCH, Julian; KRESTEL, Ralf. Learning patent speak: Investigating domain-specific word
embeddings. In: 2018 Thirteenth International Conference on Digital Information
Management (ICDIM). IEEE, 2018. p. 63-68.
ROSSI, Rafael Geraldeli. Classificaçao automática de textos por meio de aprendizado de

máquina baseado em redes. 2016. Tese de Doutorado. Universidade de São Paulo.
RUIJIE, Zhao et al. Patent text modeling strategy and its classification based on structural
features. World Patent Information, v. 67, p. 102084, 2021.
SEBASTIANI, Fabrizio. Machine learning in automated text categorization. ACM

computing surveys (CSUR), v. 34, n. 1, p. 1-47, 2002.
33
SOFEAN, Mustafa. Deep learning based pipeline with multichannel inputs for patent
classification. World Patent Information, v. 66, p. 102060, 2021.
SPANGLER, Scott et al. Simple: Interactive analytics on patent data. International

Conference on Data Mining Workshops, p. 426-433. 2010.
SRIVASTAVA, Nitish et al. Dropout: a simple way to prevent neural networks from
overfitting. The journal of machine learning research, v. 15, n. 1, p. 1929-1958, 2014.
SUNDERMEYER, Martin; SCHLÜTER, Ralf; NEY, Hermann. LSTM neural networks for
language modeling. In: Thirteenth annual conference of the international speech
communication association. 2012.
WIPO. World Intellectual Property Indicators: Filings for Patents, Trademarks, Industrial
Designs Reach New Records on Strength in China, WIPO, Genebra, 3 de dez. 2018.
Disponível em: https://www.wipo.int/pressroom/en/articles/2018/article_0012.html. Acessado
em: 02/02/2022.
WYTHOFF, Barry J. Backpropagation neural networks: a tutorial. Chemometrics and

Intelligent Laboratory Systems, v. 18, n. 2, p. 115-155, 1993.
XIAO, Lizhong; WANG, Guangzhong; LIU, Yuan. Patent text classification based on naive
bayesian method. In: 2018 11th International Symposium on Computational Intelligence
and Design (ISCID). IEEE, 2018. p. 57-60.
XIAO, Lizhong; WANG, Guangzhong; ZUO, Yang. Research on patent text classification
based on word2vec and LSTM. In: 2018 11th International Symposium on Computational
Intelligence and Design (ISCID). IEEE, 2018. p. 71-74.
ZHANG, DongMei et al. A comparison study of multi-class sentiment classification for

Chinese reviews. In: 2010 Seventh International Conference on Fuzzy Systems and
Knowledge Discovery. IEEE, 2010. p. 2433-2436.
ZHANG, Min-Ling. ML-RBF: RBF neural networks for multi-label learning. Neural
Processing Letters, v. 29, n. 2, p. 61-74, 2009.
ZHANG, Xiang; ZHAO, Junbo; LECUN, Yann. Character-level convolutional networks for
text classification. Advances in neural information processing systems, v. 28, 2015.
ZONG, Zhaorong; HONG, Changchun. On application of natural language processing in

machine translation. In: 2018 3rd International Conference on Mechanical, Control and
Computer Engineering (ICMCCE). IEEE, 2018. p. 506-510.
34

TCC - Willian Aurelio Pizoni Assinado

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TCC - Willian Aurelio Pizoni Assinado

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DE SANTA CATARINA

CENTRO DE CIÊNCIAS, TECNOLOGIA E SAÚDE DO CAMPUS ARARANGUÁ

Willian Aurélio Pizoni

Classificação de Documentos de Patentes por meio de Redes Neurais Artificiais

Classificação de Documentos de Patentes por meio de Redes Neurais Artificiais

Trabalho de Conclusão do Curso de Graduação em

Classificação de Documentos de Patentes por meio de Redes Neurais Artificiais

Araranguá, 25 de julho de 2022.

Classification of Patent Documents through Artificial

Willian Aurélio Pizoni¹ Alexandre Leopoldo Gonçalves²

O número de solicitações de registro de patentes vem crescendo nos últimos anos,

Palavras-chaves: Classificação de patentes. Classificação multi-saída. Rede Neural

Classification of Patent Documents through Artificial

Willian Aurélio Pizoni¹ Alexandre Leopoldo Gonçalves²

Palavras-chaves: Patent classification. Multi-output classification. Artificial neural

2.1 ANÁLISE DE PATENTES

Fonte: Elaborado pelo autor (2022)

2.2 CLASSIFICAÇÃO DE TEXTO

2.2.1 Processamento de Linguagem Natural

2.2.1.1 Incorporação de Palavras

Fonte: Elaborado pelo autor (2022)

Fonte: Elaborado pelo autor (2022)

Os parâmetros utilizados no exemplo do Quadro 1 indicam: input_dim = 5

Fonte: Elaborado pelo autor (2022)

2.3.1.1 Perceptron Multicamadas

Fonte: Elaborado pelo autor (2022)

2.3.1.2 Rede Neural Convolucional

Fonte: Adaptado de Zhang, Zhao e Lecun (2015)

A camada de convolução é responsável por extrair dos dados de entrada informações

Fonte: Elaborado pelo autor (2022)

Como citado anteriormente, as CNNs surgiram para resolver problemas que

2.3.1.3 Redes Neurais de Memória de Curto e Longo Prazo

A arquitetura LSTM é um tipo especial de Rede Neural Recorrente (do inglês

Fonte: Elaborado pelo autor (2022)

Fonte: Elaborado pelo autor (2022)

4.1 ETAPA 1: BASE DE DADOS E PROCESSAMENTO DOS DADOS

A Etapa 1 do método proposto é representada pela constituição da base de dados.

Esta etapa objetiva definir determinada arquitetura de rede neural para a

Fonte: Elaborado pelo autor (2022)

Quadro 3 - Subclasses e probabilidades

5 Primeiras A01H A61N A161B A61F A61K

Utilizada na etapa de stopwords

As bibliotecas TensorFlow® e Keras® foram utilizadas para a geração dos embeddings,

Fonte: Elaborado pelo autor (2022)

Fonte: Elaborado pelo autor (2022)

Fonte: Elaborado pelo autor (2022)

5.3 APRESENTAÇÃO DOS RESULTADOS

Subclasse: A61B, G06K

Fonte: Elaborado pelo autor (2022)

O resultado se mostra consistente e promissor, visto que a primeira subclasse sugerida

Fonte: Elaborado pelo autor (2022).

O Quadro 10 apresenta as probabilidades de acerto agregadas após a avaliação de todo

6 CONSIDERAÇÕES FINAIS E TRABALHOS FUTUROS

AL SHAMSI, Fatima; AUNG, Zeyar. Automatic patent classification by a three-phase model

BASHEER, Imad A.; HAJMEER, Maha. Artificial neural networks: fundamentals,

BELCIUG, Smaranda. Learning deep neural networks' architectures using differential

DE CLERCQ, Djavan et al. Multi-label classification and interactive NLP-based visualization

DIRPA, Grupo de Trabalho de Classificação de Patentes – Relatório Executivo

ELSAYED, Mohamed; ABDELWAHAB, Amira; AHDELKADER, Hatem. A proposed

FERREIRA, Ademir Antônio; GUIMARÃES, Edílson Rodrigues; CONTADOR, José Celso.

GUIMARÃES, Lucas Marques Sathler; MEIRELES, Magali Rezende Gouvêa; ALMEIDA,

KHALIL ALSMADI, Mutasem et al. Performance comparison of multi-layer perceptron

KRONEMEYER, Lena L. et al. Monitoring competitors’ innovation activities: Analyzing the