Você está na página 1de 14

Aula No 25/40 : Stop words

Prof. Alberto Pena Lara


22 de agosto de 2023

Agenda
• Converter PDF em plain text
• Use Python
• Stop Words
• Pesquise as bibliotecas apropriadas
Cronograma de atividades

Aula Data Tema

24 01/08/23 Word Clouds


25 08/08/23 Diagramas de Venn Agenda
26 15/08/23 Leitura de PDF em texto
27 22/08/23 Stop Words • Presença: (5 pts : Individual)
28 29/08/23 Expressões regulares • Participação : (10 pts : Individual)
29 05/09/23 Keywords de arquivos • Projeto Técnico : (5 pts : grupo)
30 12/09/23 Titulos de arquivos
31 19/09/23 Comparação de artigos
32 26/09/23 Métricas de comparação • Atividade Individual
Frequência : 5 pts
• Atividades no final dos slides
Participação : 10 pts
Artigo revisado : 5 pts
4o Bimestre
Stop Words

3/14
Prof. Alberto Pena Lara Aula No 25/40 : Stop words
Analíse automática de artigos

As stop words são termos comuns em um idioma


que, geralmente, são omitidos durante o processa-
mento de texto, particularmente em buscas textuais.
A razão para isso é que essas palavras, frequente-
mente apresentadas como conectivos, preposições
ou outros termos comuns, não possuem um valor
semântico relevante na maioria dos contextos.

Na língua inglesa, exemplos de "stop words"comuns


incluem "the", "is", "in", "and", "of", entre outros. A
omissão dessas palavras no processamento de
texto pode permitir uma análise mais eficiente,
concentrando-se nos termos-chave que são mais
relevantes.
Arquivos plain text

4/14
Prof. Alberto Pena Lara Aula No 25/40 : Stop words
Conversão PDF plain text

5/14
Prof. Alberto Pena Lara Aula No 25/40 : Stop words
Conversão PDF em plain text

Dados quantitativos

Dados quantitativos • ReportLab


• PyPDF2 • Ghostscript (via GhostPDL)
• pdftotext • PyPDF4
• Slate • PDFQuery
• pdfkit
• Tabula-py
• Apache PDFBox
• pdf2image
• PDFCropMargins
• fitz (PyMuPDF)
• WeasyPrint
• pdfplumber

6/14
Prof. Alberto Pena Lara Aula No 25/40 : Stop words
Bibliotecas

7/14
Prof. Alberto Pena Lara Aula No 25/40 : Stop words
Arquivos Natural Language Tool Kit

Código 1: Bibliotecas usadas

from n l t k . corpus import stopwords 1

from n l t k . t o k e n i z e import word_tokenize 2

import n l t k 3

import s t r i n g 4

from wordcloud import WordCloud 5

import m a t p l o t l i b . p y p l o t as p l t 6

8/14
Prof. Alberto Pena Lara Aula No 25/40 : Stop words
Stop words

9/14
Prof. Alberto Pena Lara Aula No 25/40 : Stop words
Código 2: Remover stopwords

nomeArquivo=’ Ahmad . pdf ’ 1


t e x t = abreArquivoPDF ( nomeArquivo ) 2
3
# Faça download das stop words e do t o k e n i z e r 4
n l t k . download ( ’ stopwords ’ ) 5
n l t k . download ( ’ punkt ’ ) 6
7
# Conjunto de stop words em i n g l ês 8
stop_words = s e t ( stopwords . words ( ’ english ’ ) ) 9
#stop_words = s e t ( stopwords . words ( ’ portuguese ’ ) ) 10
11
# Tokeniza ção do t e x t o 12
word_tokens = word_tokenize ( t e x t ) 13
14
# F i l t r a n d o as stop words e pontua ção 15
f o r word i n word_tokens : 16
i f word . lower ( ) not i n stop_words : 17
i f word not i n s t r i n g . p u n c t u a t i o n : 18
p r i n t ( word ) 19

10/14
Prof. Alberto Pena Lara Aula No 25/40 : Stop words
Words cloud

11/14
Prof. Alberto Pena Lara Aula No 25/40 : Stop words
Código 3: Gerar Words Cloud

# Join the words i n t o a s i n g l e s t r i n g 1


w o r d s _ t e x t = ’ ’ . j o i n ( words ) 2
3
p r i n t ( words_text ) 4
5
# C r e ar as word cloud 6
wordcloud = WordCloud ( width =800 , h e i g h t =400 , 7
background_color =’ white ’ ) . generate ( w o r d s _ t e x t ) 8

12/14
Prof. Alberto Pena Lara Aula No 25/40 : Stop words
Figura 1: Words Cloud
Atividade individual
Use as bibliotecas Python supracitadas
1 Use o programa da aula anterior.
A-23
2 Comverter o PDF em plain text.
3 Remova as stop words.
4 Gere uma lista de palavras
5 Crie para cada três artigos da sua bibliografia um Word Cloud
6 Use o programa do 2o bimestre para plotar as Word Clouds.

14/14
Prof. Alberto Pena Lara Aula No 25/40 : Stop words

Você também pode gostar