Escolar Documentos
Profissional Documentos
Cultura Documentos
a One-Liner Text_Normalize()
Lucas G. Regis
Orientador: Vinicius Cardoso Garcia
Sumário
● Introdução
○ Word Embeddings e GloVe
○ Etapas Comuns de Pré-Processamento de NLP
● Questionamentos e Objetivo
● Metodologia e Hipóteses
● Desenvolvimento RecrutAi GloVe NLP-TF
● Experimento e Resultados
● Conclusão e Passos Futuros ( NLP-TF v2.0 )
NLP : char strings data Usage (Analytics, DS, ML)
Text Normalization is the pre-processing step of the NLP system.
(Harde, 2019)
● O que pode ser feito na etapa de Pré-Processamento / TN para otimizar os Modelos de NLP ?
Hipótese
● Usando os fundamentos teóricos do treinamento de um GloVe PreTrained; Que etapas
específicas de TN devem ou não ser executadas?
● Com o uso da lib; A acurácia do modelo irá aumentar ( MAE mais perto de 0% ) ?
Desenvolvimento da Solução ( RecrutAi GloVe NLP-TF )
Python in-code function ( “Lib” )
Realizam transformações por padrão que não respeitam Word Embeddings. Não tem presets.
1. TextHero
a. remove_diacritics por default. Remove todos os acentos.
2. Dataiku
a. seu text normalizer não é configurável e por padrão remove pontuações e acentos.
3. JohnSnowLabs NLU e Spark NLP
a. tem text_normalizer() configurável mas é complexo e não tem presets.
Resultados
Resultados do Experimento (UTC) Aproveitamento: