Você está na página 1de 1

://scikitlearn.org/stable/modules//naive_bay es.html. /;acessado em março de 2017.

69ª Reunião Anual da SBPC - 16 a 22 de julho de 2017 - UFMG - Belo Horizonte/MG / 1.03.99 - Ciência da Computação

CLASSIFICADOR AUTOMATIZADO DE TEXTOS DE DRAFTS E


RFCS: UMA NOVA FERRAMENTA DE BUSCA PARA A
COMUNIDADE DA IETF E IRTF
Lucas Matheus Santos Andrade¹; Marcelo Anderson Batista dos Santos²

1. Estudante técnico de Informática do IF Sertão-PE


2. Doutor, Ciência da computação, Orientador, Docente no IF SERTÃO
Alimentamos a base de treinamento após
INTRODUÇÃO a conversão de artigos em pdf disponíveis no
Os padrões definidos dentro da IETF/IRTF
link sites.google.com/site/sdnreadinglist para
são públicos e disponibilizados na Internet.
uma cadeia de caracteres em Java.
Existem basicamente dois tipos de
Identificamos que a melhor forma de entrada
documentos dentro dessa comunidade: Drafts
para a base de treinamento foi utilizar apenas
e RFCs (Request For Comments). Drafts são
o resumo de cada artigo e não o texto do
rascunhos de padronizações que podem vir a
artigo inteiro. Dessa forma, a precisão das
ser adotados dentro de um grupo de trabalho
classificações dos Drafts e RFCs analisados
e então virar uma RFC caso haja consenso da
foram maiores. Para verificar a precisão das
maioria. Por outro lado, Drafts possuem um
classificações realizadas foi necessário
tempo de expiração, onde durante esse
classificar manualmente uma lista de Drafts e
período decide-se pela adoção ou não do Imagem 1. Realização da classificação RFCs entre as categorias estabelecidas para
draft em questão.
posterior comparação com os resultados
Nesse contexto, propomos uma interface
RESULTADOS gerados. Após a execução da ferramenta
web que tem como objetivo auxiliar
desenvolvida tivemos uma precisão de 71%
Primeiramente foi desenvolvido um web
pesquisador e membros da IETF/IRTF a
na classificação dos documentos analisados,
crawler que coleta os arquivos a serem
buscarem drafts e RFCs não apenas por   demonstrando assim um bom índice de
classificados de forma automática diretamente
palavras-chaves, mas por categorias ligadas a
acerto.
do site da IETF. É necessário apenas a
uma dada palavra-chave, realizando uma
especificação da palavra-chave a ser buscada.
busca semântica através da classificação do APOIO FINANCEIRO: ,IF SERTÃO PE,
No exemplo analisado, a palavra chave foi
texto dos Drafts e RFCs disponíveis. CAMPUS SALGUEIRO.
SDN (Software Defined Networking). Assim,
METODOLOGIA temos uma lista atualizada de um conjunto de
TRABALHO SELECIONADO PARA A

O primeiro passo para o desenvolvimento do Drafts e RFCs que não precisa ser alimentada JNIC pelo IF Sertão PE
classificar foi realizar um levantamento das manualmente.
REFERÊNCIAS BIBLIOGRÁFICAS:
bibliotecas e softwares disponíveis. Assim, Um classificador tem como objetivo associar
OpenNLP (2017)– Site Oficial:
analisamos as ferramentas Lingpipe (LingPipe, objetos de classe desconhecida a um
<https://opennlp.apache.org/> /;acessado em março de
2017), WEKA (WEKA 2017), OpenLPE (OPENLNP, conjunto pré-definido de classes ou
2017.
2017) e NaiveBayes. A ferramenta escolhida para categorias. Antes da criação do classificador
LingPipe (2017)– Site Oficial:
desenvolvimento foi a biblioteca NaiveBayes estudamos como o Naivebayes realizava o
<https://aliasi.com/lingpipe/>. /;acessado em março de
(NaiveBayes, 2017), pois o NaiveBayes processo de classificação, sendo este uns
2017.
apresentou maior facilidade durante a dos classificadores mais utilizados na área de
WEKA (2017)– Site Oficial: <
implementação e bom desempenho na aprendizagem da máquina. A biblioteca http://www.cs.waikato.ac.nz/ml/weka/>. /;acessado em
classificação de um grande conjunto de dados. Naivebayes tem seu funcionamento baseado março de 2017.
Como estudo de caso desenvolvemos um no cálculo de probabilidade de Thomas Bayes NaiveBayes (2017)– Site Oficial:
classificador para os drafts e RFCs que possuem e necessita de uma base de treinamento para http://scikitlearn.org/;acessado em março de 2017.
a palavra-chave SDN (Software Defined classificar corretamente o texto em
Network), pois é uma tecnologia recente em categorias. Nesta etapa é fundamental
redes de computadores com uma ampla possuir uma boa base treinamento.
discussão na indústria e academia.

www.ifsertaope.edu.br

Você também pode gostar