Você está na página 1de 9

Redes neurais profundas na classificação

de texto usando aprendizado ativo


Em nossa vida moderna, diferentes ramos das Redes Neurais (NNs) e do Processamento de
Linguagem Natural (PNL) estão se tornando mais úteis. O processamento de linguagem natural
(PNL) é um processo para extrair o objetivo desejado dos textos criados por traduções, fala,
legenda automática e pesquisa. A classificação dos textos é o principal papel no processamento
da linguagem natural. Aprendizado ativo (AL) é um subconjunto no aprendizado profundo em
que um modelo (algoritmo de aprendizado) pode consultar um operador de usuário para rotular
os dados enquanto o processo de aprendizado está em andamento. No Active Learning,
podemos aumentar o desempenho do algoritmo de aprendizagem implementando o
desempenho de classificação de texto em Redes Neurais. Nesse caso, o aumento no
desempenho de um modelo é com a mesma quantidade de dados ou até mesmo com uma
quantidade menor de dados.

Nesta pesquisa, os processos de classificação de texto usando Aprendizado Ativo em Redes


Neurais Profundas (DNNs) serão revisados. Os dois desafios principais a seguir serão
discutidos:

1. A incapacidade das redes neurais de produzir previsão de incerteza confiável


2. O treinamento de Redes Neurais Profundas dificulta quando há poucos dados.

1. Introdução

Os dados são o combustível dos aplicativos para aprendizado de máquina e, portanto, têm
crescido em importância gradualmente. Existem vários dados não rotulados e indefinidos
gerados em muitos ambientes, mas não há opção além de rótulos para usar esses dados no
aprendizado de máquina supervisionado. Isso normalmente requer um procedimento de
marcação manual que geralmente é trivial e também pode incluir um especialista de campo, por
exemplo, na classificação de patentes ou documentos médicos. Além disso, leva tempo e
aumenta rapidamente os custos financeiros, tornando esta solução rapidamente inviável. E se
houver um profissional disponível, devido à escala dos novos conjuntos de dados, é sempre
impraticável marcar qualquer data. Em particular, isso facilita a área de processamento de
linguagem natural (PNL), que pode exigir um enorme conjunto de dados, bem como uma grande
quantidade de texto em cada registro. A Aprendizagem Ativa (AL) visa reduzir o volume de
dados anotados pelo especialista humano. É um ciclo contínuo iterativo de um aluno ativo e de
um oráculo que é o anotador humano. Ao contrário da aprendizagem passiva, em que os dados
são simplesmente fornecidos ao algoritmo, o aluno ativo determina que os itens serão rotulados
a seguir.

No entanto, a rotulagem é de fato realizada por um especialista em humanos, o ser humano no


ciclo. O aluno ativo, após obter novos rótulos, treina um novo modelo e inicia o método desde o
início. Nesta pesquisa, a estrutura do modelo é baseada em uma abordagem de consulta e
critérios de parada pela palavra aluno ativo. Neste estudo o modelo de trabalho é um modelo de
classificação de texto, a técnica de consulta especifica os próximos casos e estabelece os
critérios de parada para interromper o ciclo de Active Learning.

Três cenários principais para aprendizagem ativa:


1. Baseado em pool : o aluno tem disponibilidade para a coleção fechada de casos não
rotulados, conhecido como pool.
2. Baseado em fluxo : o aluno tem a opção de reter ou liberar um caso de cada vez.
3. Síntese da consulta de associação : o aluno faz a rotulação de novos casos artificiais.
Quando a configuração baseada em pool não funciona em um único caso, ela é
chamada de Aprendizado Ativo do modo em lote em um lote de casos.

Curiosamente, embora os NNs sejam comuns, há poucos pesquisadores no campo da PNL e


menos no caso da classificação de texto na aprendizagem ativa baseada em NNs.

Os seguintes podem ser os motivos para isso:

1. A maioria dos modelos de DL precisa de uma grande quantidade de dados, o que


contrasta fortemente com o Active Learning, que espera pequenos conjuntos de dados
conforme necessário.
2. As abordagens de Aprendizagem Ativa total focam na geração de criação de dados, o
que é inevitavelmente muito mais complicado para texto do que, por exemplo, imagens,
nas quais o aumento de dados é amplamente utilizado em tarefas de classificação.
3. Os NNs carecem de informações incertas, o que torna o uso de uma classe líder de
abordagens de consulta mais difícil.

O objetivo do Active Learning é construir um paradigma usando o menor número possível de


casos rotulados, por exemplo, para diminuir a relação entre o oráculo (o anotador humano) e o
aluno ativo.

A Figura 1 mostra o processo de aprendizagem ativa, que é:

● Etapa 1 : o oráculo envia uma solicitação de instâncias não rotuladas para o aluno ativo
( consulta )
● Etapa 2 : o aluno ativo seleciona e passa a instância não rotulada ao oráculo (com base
na estratégia de consulta selecionada).
● Etapa 3 : O oráculo rotula essas instâncias e retorna ao aluno ativo ( atualização ).

Esta operação será repetida e interrompida se o critério de parada acontecer. Por exemplo, se o
número de loops atinge um máximo ou a precisão da classificação tem uma alteração mínima.

Figura 1: O processo de aprendizagem ativa

Como a caixa do Active Learner na Figura 1 ilustra as partes principais do Active Learner, que
são o modelo, a estratégia de consulta e o critério de parada (opcional). A parte principal do
Active Learner é a estratégia de consulta, que é baseada na incerteza.

2.1 Estratégias de consulta


Na Figura 2, as estratégias de consulta mais comuns do Active Learning são classificadas com
base nas informações de entrada de uma estratégia. As informações de entrada para este
estudo são classificadas em quatro categorias:

1. Aleatória
2. Baseado em dados
3. Baseado em modelo
4. Baseado em previsão

Figura 2: Categorização de estratégias de consulta para aprendizado ativo.

Na primeira etapa, a principal diferença está na categorização das técnicas de consulta por meio
do acesso a diversos tipos de informações. Fazemos subclasses coerentes do segundo ao
penúltimo, com o último nível mostrando exemplos para as duas categorias. Por causa da
proliferação das estratégias de consulta atuais e por causa das estratégias de consulta da PNL,
essa categorização não é abrangente.

Aleatório : em várias tarefas, a aleatoriedade é normalmente usada como base. A amostragem


aleatória escolhe instâncias aleatórias e é uma base poderosa para escolher uma instância do
Active Learning. Ele também aplica estratégias mais avançadas de forma competitiva,
especialmente se o pool rotulado tiver se expandido.
Baseadas em dados : as estratégias baseadas em dados têm o nível mais baixo de
conhecimento, ou seja, operam apenas nos dados de entrada brutos e, opcionalmente, nos
rótulos do pool rotulado. É categorizado em:

1. Estratégias: as estratégias dependem da incerteza dos dados. Ele pode usar as informações
de entrada sobre:

1.1 Distribuição de dados

1.2 Distribuição de etiqueta

1.3 Correlação de rótulo.

2. Representatividade: compacta geometricamente uma coleção de pontos, requer instâncias


descritivas menores para descrever todas as especificações.

Baseado em modelo: a categoria de estratégia baseada em modelo não tem apenas os dados,
mas também o modelo. Esses métodos analisam instâncias dependentes das métricas do
modelo. Por exemplo, uma estimativa de confiança será uma indicação de quão precisas as
taxas do modelo são para o modelo para descrever a instância especificada. Este também pode
ser um número antecipado, por exemplo, no caso da gravidade do gradiente.

Embora as projeções ainda possam ser feitas a partir do modelo, colocamos uma restrição
sobre a métrica objetiva ser uma quantidade (medida ou esperada) do modelo, sem a última
previsão. A instabilidade baseada em modelo é aqui uma subclasse fascinante que usa a
incerteza dos pesos do modelo. Esse tipo de incerteza também é conhecido como incerteza de
evidência insuficiente.

Com base em predição : as estratégias baseadas em predição classificam as instâncias


avaliando os resultados de sua predição. Os métodos de previsão-incerteza e métodos
baseados em desacordo são os participantes mais influentes. Esse tipo de incerteza também é
conhecido como incerteza de evidência conflitante.

Freqüentemente, há apenas uma pequena linha entre os princípios baseados em modelos e a


incerteza baseada em previsões. Em geral, a incerteza baseada em previsão, em contraste com
a incerteza baseada em modelo, se compara em um escopo de classificação com a incerteza
intraclasse. Em teoria, amostragem de incerteza comumente significa incerteza baseada em
previsão, exceto conforme mencionado.

Conjuntos: um conjunto é uma combinação do resultado de algumas outras estratégias por


uma estratégia de consulta.

1. Os conjuntos consistem em estratégias básicas de consulta


2. Os conjuntos podem ser híbridos, por exemplo, uma combinação de várias categorias de
estratégias de consulta. Além disso, o resultado dos conjuntos geralmente depende do
conflito entre os classificadores individuais.

Para esta parte, será discutido que as redes neurais em aplicativos de Aprendizado Ativo não
são mais comuns e por quê. Este será focado em técnicas de PNL.

Dois temas principais podem ser aplicados a isso:

1. Estimativa de incerteza em NNs


2. O contraste dos NNs exigindo big data e Active Learning lidando com pequenos dados.
Paradigmas contrastantes: DNNs são especialmente bem reconhecidos em grandes conjuntos
de dados, mas a disponibilidade de grandes volumes de dados é um pré-requisito estrito para
resultados eficazes. O aprendizado ativo busca minimizar a necessidade dos dados rotulados.
Os DNNs podem ser problemáticos, uma vez que conjuntos de dados limitados são
considerados sobreajuste, resultando em saída de generalidade pobre no conjunto de teste.
Além disso, às vezes os DNNs oferecem pequenos benefícios em modelos superficiais, uma vez
que são treinados para utilizar pequenos conjuntos de dados, para custos computacionais mais
altos sem justificativa. E por outro lado, é evidente que não podemos exigir que o Active
Learning marque mais dados, pois isso comprometeria seu alvo. A pesquisa também foi
realizada em (D) Ns utilizando pequenos conjuntos de dados, mas em particular, em contraste
com o vasto volume da literatura de NN em geral, é apenas um pequeno número. Pequenos
bancos de dados são geralmente eliminados ao usar o pré-treinamento ou outros meios de
transferência de aprendizagem. No final, a descoberta de hiperparâmetros ideais é
frequentemente ignorada e, em vez disso, são usados ​os hiperparâmetros do trabalho relevante,
que são otimizados com grandes conjuntos de dados, se for o caso.

3 Aprendizagem Ativa para Classificação de Texto

Nesta seção, o recente avanço na classificação de textos e NNs será discutido.

3.1 Avanços recentes na classificação de textos

Representações: Os métodos clássicos implementam a representação do saco de palavras


(BoW). As representações BoW são altamente dimensionais e esparsas. Por outro lado, a nova
representação em embeddings de palavras como word2vec, GloVe ou fastText substituiu as
representações BoW.

Os seguintes podem ser os motivos:

1. Eles descrevem relações semantizadas dentro de vetores e escapam da questão da


inconsistência devido a sinônimos, por exemplo.
2. Por meio da incorporação de palavras, várias tarefas posteriores funcionaram melhor.
3. Os vetores de palavras são representações densas e de baixa dimensão em contraste
com o pacote de palavras, o que os torna ideais para uma ampla gama de algoritmos -
especialmente no sentido de NNs que preferem entradas de tamanho constante.
Diferentes métodos para obter representações equivalentes de tamanhos fixos para
sequências de palavras, como frases, parágrafos ou documentos foram apresentados.

3.2 Classificação de texto para aprendizagem ativa

O aprendizado ativo clássico para classificação de texto era fortemente focado na incerteza de
previsão e agrupamento. Modelos populares continham Support Vector Machines (SVMs), Naive
Bayes, regressão logística e redes neurais. No entanto, Olsson cobriu um grande aprendizado
ativo baseado em conjuntos para PNL em detalhes, de acordo com pesquisas recentes,
nenhuma pesquisa anterior cobriu o aprendizado ativo clássico para classificação de texto. Em
relação à classificação de texto atual de Aprendizado Ativo baseado em NN, os modelos
aplicáveis ​são principalmente arquiteturas profundas baseadas em CNN e LSTM.

3.3 Comunalidades e limitações de experiências anteriores

A Tabela 1 mostra os novos estudos de Aprendizado Ativo para classificação de texto, todos um
tanto recentes do que as pesquisas Settles e Olsson. Esta tabela é fornecida para aprender
sobre os modelos de classificação recentemente escolhidos e as classes de técnicas de
consulta.
Tabela 1: Classificação de textos de trabalhos recentes sobre Aprendizagem Ativa.

Modelos na Tabela 1:

● Naive Bayes (NB)


● Máquina de vetores de suporte (SVM)
● k-vizinhos mais próximos (kNN)
● Rede Neural Convolucional (CNN)
● [Bidirecional] Memória Longa de Curto Prazo ([Bi] LSTM)
● FastText.zip (FTZ)
● Ajuste fino do modelo de linguagem universal (ULMFiT).
● Menos confiança (LC)
● Mais próximo ao hiperplano (CTH)
● comprimento de gradiente esperado (EGL)
A Tabela 2 mostra os conjuntos de dados de classificação de texto de chaves curtas comumente
usados. A coluna “Tipo” mostra a configuração de classificação: (B = binário, MC = multiclasse,
ML = multiclasse multiclasse). Com base na Tabela 1, é claro que a grande maioria de tais
estratégias de consulta pertencem, em particular, a estratégias de consulta das subclasses de
predição-incerteza e discordância.

4 Os resultados da pesquisa

Estimativas de incerteza em redes neurais: Em colaboração com modelos NN, estratégias


baseadas em incerteza foram utilizadas com sucesso, e o aspecto mais crítico das estratégias
de consulta no último aprendizado ativo baseado em NN foi descoberto. Por causa de
estimativas de incerteza imprecisas ou escalabilidade restrita, a incerteza em NNs ainda é um
desafio.

Representações: A implementação de representações de texto em PNL progrediu de um


pacote de palavras para a incorporação de texto. Essas representações trazem vários
benefícios, incluindo vetores não esparsos, recursos de desambiguação e melhorias de precisão
para várias tarefas. Não há avaliação estrutural específica de AL que contrasta palavra de
incorporação e LM com NNs, embora certas implementações tenham existido. Além disso, eles
raramente são usados ​e sugerem uma implementação lenta ou quaisquer problemas funcionais
que não são investigados.

DNNs de dados pequenos: em grandes conjuntos de dados, os métodos DL são normalmente


usados. O Active Learning planeja manter a coleta de dados tão pequena quanto necessário.
Pequenos conjuntos de dados foram explicados por que eles poderiam desafiar os DNNs e
também o Active Learning baseado em DNN como resultado direto. Esse dilema é facilitado até
certo ponto pelo uso de modelagem de linguagem pré-treinada, pois o ajuste fino permite o uso
de conjuntos de dados ligeiramente menores em modelos de treinamento. Além disso, foi
analisado como pequenos dados ainda são necessários para ajustar um modelo.

Avaliações comparáveis : foi apresentado um resumo das técnicas de classificação de texto


de Aprendizado ativo mais populares. As combinações de conjuntos de dados usados ​durante
os estudos são, infelizmente, totalmente desconexas. Como resultado, a comparabilidade do
trabalho novo com o anterior é reduzida ou mesmo perdida. No entanto, a compatibilidade é a
chave para verificar se observações anteriores sobre o Active Learning baseado em NN
superficial ainda implementam o conteúdo de Active Learning baseado em DNN.

Aprender a aprender: existem muitas estratégias de consulta, que foram classificadas de forma
não exaustiva. Isso levanta a questão de selecionar a melhor estratégia. Diversas variáveis,
como dados, modelo ou tarefa, dependendo da escolha correta e que variam entre os vários
processos durante o processo de Aprendizagem Ativa. Isso significa que aprender a aprender
(ou meta-aprender) se tornou popular e pode ser usado para aprender a melhor opção ou
também para aprender estratégias de consulta em geral.
5. Conclusões

Neste estudo, foram discutidos a classificação do texto com (D) Aprendizagem Ativa baseada
em NN e os fatores que dificultam sua adoção. Ao se concentrar em informações de entrada
baseadas em dados, modelos e previsões, uma taxonomia foi construída para distinguir
estratégias de consulta. Para a classificação do texto, examinamos as técnicas de
questionamento usadas no aprendizado ativo e as categorizamos nas classes de taxonomia
relacionadas. A interseção de Aprendizagem Ativa, classificação de texto e DNNs foi
apresentada. Além disso, a aprendizagem ativa baseada em (D) NN foi analisada, e os
problemas existentes e o estado da arte foram identificados e apontados. Além disso, inovações
recentes relacionadas em PNL foram apresentadas e comparadas ao Aprendizado Ativo e
demonstraram deficiências e restrições em seu uso. Um dos principais resultados é que as
estratégias de consulta baseadas em incerteza continuam sendo a classe mais usada, a menos
que o estudo seja limitado apenas a NNs. As representações baseadas em modelos de
linguagem fornecem representações mais abrangentes de um contexto específico enquanto
gerencia palavras fora do vocabulário. Além disso, descobrimos que o aprendizado de
transferência avançado reduz em algum grau o desafio dos pequenos dados, mas não o leva.
As DNNs mais significativas explicaram resultados promissores com seu sucesso em várias
tarefas e as adoções iniciais no Active Learning. Para a Aprendizagem Ativa, seria bastante
desejável obter esses benefícios. Portanto, é vital promover a adoção de DNNs no Aprendizado
Ativo, particularmente porque os incrementos de produção planejados podem ser usados ​para
melhorar as classificações usando a mesma quantidade de dados ou para melhorar a eficiência
do processo de rotulagem por redução de dados e, portanto, tentativas de rotulá-los. Com base
nesses resultados, as direções de pesquisa foram definidas para trabalhos futuros para
impulsionar os avanços do Active Learning com base em (D) NN. Conforme discutido, pode-se
sugerir que a técnica de aprender a aprender ou meta-aprendizagem tornou-se mais
desenvolvida e comum e será usada para aprender com melhor desempenho.

6 Referência:

Este artigo é um conto do seguinte artigo:

C. Schröder e A. Niekler, "A Survey of Active Learning for Text Classification using Deep Neural
Networks," arXiv.org , agosto 17, 2020. [Online]. Acessível:https://arxiv.org/abs/2008.07267
(Acesso: 05 de outubro de 2020).

Você também pode gostar