Escolar Documentos
Profissional Documentos
Cultura Documentos
PASSOS, MG
2019
Ficha catalográfica elaborada pelo Sistema de Geração de Ficha Catalográfica do
Instituto Federal do Sul de Minas Gerais - Campus Passos
PASSOS, MG
2019
Aos meus pais e irmã, vocês são insubstituíveis e
preciosos demais.
AGRADECIMENTOS
À minha família, pelo incessante amor, amizade e suporte durante meus estudos,
assim como na minha vida.
Ao meu orientador Hugo, pela paciência, dedicação, companheirismo e
importantes ensinamentos durante a jornada de desenvolvimento deste trabalho.
Aos meus amigos, Igor, Isaac, Renato, Bruce e Erik, pela imprescindível amizade
e por sempre estarem ao meu lado.
Aos meus companheiros de turma, pelos bons momentos e pelo suporte que
proporcionamos uns aos outros no decorrer do curso.
Aos meus professores, pelos bons momentos e pelos importantes ensinamentos
proporcionados no decorrer do curso.
Ao IFSULDEMINAS – Campus Passos, por me proporcionar uma infraestrutura
de qualidade, assim como para a comunidade.
RESUMO
1 INTRODUÇÃO.......................................................................................................................12
4.2 Coleta e Rotulação das Notícias para a Composição da Base de Dados .....................28
6 CONCLUSÕES......................................................................................................................40
1 INTRODUÇÃO
1
Segundo Luper (2008), fecho epistêmico determina que o conhecimento é fechado através de inferências
ou acarretamentos. Se um indivíduo S conhece p, e p implica em q, então S conhece q.
13
2 REFERENCIAL TEÓRICO
2
https://developer.twitter.com/en/apps
18
Segundo Cambridge (2018), as fake news são similares a artigos de notícias, que
possuem conteúdo enganoso e tem como objetivo prover vantagens aos seus autores
em diferentes campos como: política, esporte, entre outros. De acordo com Horne e Adali
(2017), um pressuposto frequentemente subentendido em discussões sobre fake news
é o de que elas são escritas para se parecer com notícias verdadeiras. Os autores
também relatam que a estruturação geral do título e a utilização de substantivos próprios
são significativos para a determinação da veracidade de um artigo noticioso, e a partir
disso concluem que as fake news são dirigidas para o público que provavelmente não lê
além do título de uma matéria.
Rubin, Chen e Conroy (2015) discutem três diferentes categorizações de fake
news e as comparam com reportagens genuínas. A primeira dessas categorias,
denominada de Serious Fabrications, aponta para reportagens fraudulentas comumente
difundidas por tabloides ou pela imprensa sensacionalista, que através de exageros,
mentiras ou exploração de escândalos, tem como propósito chamar a atenção do leitor.
A segunda categoria, chamada de Large Scale Hoaxes, é considerada um tipo de
fabricação que tenta enganar o público ao se disfarçar de uma notícia tradicional. Por
fim, a categoria Humorous Fakes apresenta o conceito de fake news compostas de
conteúdo humorístico, por exemplo o satírico, e aponta que caso o leitor esteja ciente
das intenções humorísticas, talvez ele não interprete de maneira literal a mensagem da
notícia. Exemplos de fake news Serious Fabrication, Large Scale Hoaxes e Humorous
Fakes são apresentados, respectivamente, por meio das Figuras 3, 4 e 5.
19
Fonte: Autor.
Fonte: Autor.
Fonte: Autor.
2.3 Classificadores
𝑃(𝐴)×𝑃(𝐵|𝐴)
𝑃(𝐴|𝐵) = (1)
𝑃(𝐵)
Fonte: Autor.
𝑉𝑃 + 𝑉𝑁
𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = (2)
𝑉𝑃 + 𝑉𝑁 + 𝐹𝑃+ 𝐹𝑁
24
3 ESTADO DA ARTE
como forma incorporada (w), que pode ser entendida como uma coleção de números
reunidos em uma estrutura específica, a qual objetiva representar o significado de uma
palavra. Em seguida, tais palavras incorporadas são analisadas por um mecanismo
denominado GRU (Gated Recurrent Unit) bidirecional, o qual procura, de maneira
adaptativa, relações entre todas as palavras incorporadas dentro de uma mesma
sentença, tanto no sentido comum de leitura de um documento, quanto no sentido
inverso. O principal objeitvo dessas leituras é a geração de representações de interação,
denominadas estados ocultos (hw).
Em seguida, esses estados ocultos são concatenados e utilizados como entrada
para a próxima etapa. Na sequência, é realizada uma ação conhecida como extração de
vetores de atenção (uw) para cada sentença, na qual as palavras incorporadas mais
relevantes, dadas as análises anteriores, são extraídas por meio de um Rede Neural
Perceptron Multicamadas. A fim de se extrair vetores de atenção para cada documento
(us), a mesma estratégia utilizada para cada palavra nos passos anteriores é aplicada em
todas essas sentenças, por meio dos vetores de atenção obtidos na etapa anterior. Em
seguida, a mesma abordagem é utilizada nas manchetes de notícias juntamente com os
vetores de atenção obtidos de cada documento. Por fim, os autores utilizam esse vetor
de atenção final (vn) como entrada em uma função particular às redes neurais, conhecida
como função sigmoide, útil na tarefa de classificação.
Tacchini et al. (2017), por meio de uma base de dados composta por publicações
realizadas em páginas do Facebook, em conjunto com os dados de interações de todos
os usuários com tais publicações, utilizaram duas técnicas diferentes para classificação
de notícias em boatos ou não-boatos. É importante mencionar que os usuários que
constituem essa base de dados são classificados em três diferentes categorias, sendo a
primeira delas a de usuários que curtiram apenas publicações de boatos, a segunda, por
usuários que curtiram apenas publicações de não-boatos e a terceira, por usuários que
curtiram pelo menos uma publicação de cada uma dessas possibilidades.
A primeira técnica utilizada pelos autores consiste da aplicação de um modelo de
regressão logística, onde dois conjuntos são utilizados, sendo o primeiro conjunto o de
publicações e o outro conjunto, de usuários. Com base em tais conjuntos, o modelo
realiza as suas classificações de acordo com o conjunto de usuários que curtiram uma
26
4 MATERIAL E MÉTODOS
aplicação e o servidor da plataforma. Por fim, cabe destacar que tal API permite realizar
buscas por tweets através de critérios especificados pelo desenvolvedor de acordo com
o que foi apresentado na Seção 2.1.
Para o desenvolvimento do WCA optou-se pelo uso da linguagem Python,
principalmente por tal linguagem oferecer facilidades na integração com variadas
bibliotecas, por exemplo, a biblioteca Tweepy. O WCA tem como objetivo sondar a base
de dados do Twitter, por meio de recursos fornecidos pela REST API, de modo a retornar
dados referentes às chaves de busca inseridas pelo desenvolvedor.
Uma vez concluído o desenvolvimento do WCA, foi realizado um levantamento
bibliográfico acerca de técnicas de pré-processamento textual as quais, ao manipular
certos aspectos de cada entrada, têm como finalidade descartar informações irrelevantes
para o classificador e, consequentemente, obter um melhor desempenho para ele. Sendo
assim, após um estudo de algumas bibliotecas, optou-se pela implementação manual de
tais técnicas, devido a indisponibilidade de bibliotecas que tratassem de forma correta
bases de dados com conteúdo em Português do Brasil.
A fim de se implementar o classificador de forma eficiente, foi realizado um estudo
a respeito das bibliotecas existentes que automatizam o processo de desenvolvimento
do classificador. A partir desse estudo, identificou-se como uma ferramenta passível de
utilização neste trabalho a biblioteca conhecida como Scikit Learn. Tal biblioteca tem
como característica principal o provimento de recursos que facilitam a implementação de
modelos diversos da IA que são propostos para lidar com tarefas inerentes à construção
de soluções por meio de aprendizagem supervisionada e não-supervisionada.
A comunicação entre a aplicação e a REST API foi realizada por meio da Tweepy
e para a realização de tal processo foram utilizadas duas variáveis. A variável auth
realizou a autenticação por meio da classe OAuthHandler enquanto a variável api
estabeleceu a conexão com a API do Twitter. Visto que a conexão foi estabelecida, se
torna possível efetuar chamadas na base de dados do Twitter.
Para a busca e coleta dos tweets da base de dados da plataforma foi utilizado o
método get_status(), o qual é possível observar no código da Figura 8. Tal método utiliza
como parâmetro uma chave única do tweet, denominada de ID, e retorna apenas esse
tweet em particular. Uma vez que o WCA recebe a resposta do servidor do Twitter, o
armazenamento dos dados obtidos foi realizado, o que possibilitou a aplicação de futuras
técnicas utilizadas de análise.
Fonte: Autor.
32
5 EXPERIMENTOS COMPUTACIONAIS
Saúde Educação
3% 2%
Policial
7%
Internacional
7%
Política
40%
Esportes
11%
Ciência
13%
Cotidiano
17%
Fonte: Autor.
5.2 Resultados
90%
85%
85%
83%
82%
79%
80% 79%
78%
ACURÁCIA OBTIDA
77%
77%
76% 76%
75% 75% 75%
74%
75% 73%
70%
65%
63%
60%
0.2 0.22 0.24 0.26 0.28 0.3 0.32 0.34
Fonte: Autor.
36
100%
96.77%
95%
90%
85%
85%
80%
75.40%
75%
70%
Fonte: Autor.
6 CONCLUSÕES
isso em mente, conclui-se que idealmente a implementação do modelo deve ser manual,
possibilitando assim maior acesso a certas características do classificador em qualquer
fase.
6.1 Contribuições
REFERÊNCIAS BIBLIOGRÁFICAS
AGGARWAL, Charu C.; ZHAI, ChengXiang (Ed.). Mining text data. Springer Science &
Business Media, 2012.
ALLAHYARI, Mehdi et al. A brief survey of text mining: Classification, clustering and
extraction techniques. arXiv preprint arXiv:1707.02919, 2017.
GRANIK, Mykhailo; MESYURA, Volodymyr. Fake news detection using naive Bayes
classifier. In: 2017 IEEE First Ukraine Conference on Electrical and Computer
Engineering (UKRCON). IEEE, 2017. p. 900-903.
GU, Lion; KROPOTOV, Vladimir; YAROCHKIN, Fyodor. The Fake News Machine: How
Propagandists Abuse the Internet and Manipulate the Public. A TrendLabs Research
Paper, 2017.
43
HAYKIN, Simon S. et al. Neural networks and learning machines/Simon Haykin. New
York: Prentice Hall, 2009.
HORNE, Benjamin D.; ADALI, Sibel. This just in: fake news packs a lot in title, uses
simpler, repetitive content in text body, more similar to satire than real news. In:
Eleventh International AAAI Conference on Web and Social Media. 2017.
MCCALLUM, Andrew et al. A comparison of event models for naive bayes text
classification. In: AAAI-98 workshop on learning for text categorization. 1998. p. 41-
48.
KUMAR, Shamanth; MORSTATTER, Fred; LIU, Huan. Twitter data analytics. New
York: Springer, 2014.
RUBIN, Victoria L.; CHEN, Yimin; CONROY, Niall J. Deception detection for news:
three types of fakes. In: Proceedings of the 78th ASIS&T Annual Meeting:
Information Science with Impact: Research in and for the Community. American
Society for Information Science, 2015. p. 83.
SINGHANIA, Sneha; FERNANDEZ, Nigel; RAO, Shrisha. 3han: A deep neural network
for fake news detection. In: International Conference on Neural Information Processing.
Springer, Cham, 2017. p. 572-581.
TACCHINI, Eugenio et al. Some like it hoax: Automated fake news detection in social
networks. arXiv preprint arXiv:1704.07506, 2017.
TANG, Bo; KAY, Steven; HE, Haibo. Toward optimal feature selection in naive Bayes
for text categorization. IEEE transactions on knowledge and data engineering, v. 28,
n. 9, p. 2508-2521, 2016.
THELWALL, Mike. A web crawler design for data mining. Journal of Information
Science, v. 27, n. 5, p. 319-325, 2001.