Disserta o P Mela Backup 05do08 00e33

Francisca Pâmela Carvalho Nunes
DISORDERCLASSIFIER: CLASSIFICAÇÃO DE TEXTO PARA

CATEGORIZAÇÃO DE TRANSTORNOS MENTAIS
Dissertação de Mestrado
Universidade Federal de Pernambuco

posgraduacao@cin.ufpe.br
www.cin.ufpe.br/~posgraduacao
RECIFE
2016
Universidade Federal de Pernambuco
Centro de Informática
Pós-graduação em Ciência da Computação
DISORDERCLASSIFIER: CLASSIFICAÇÃO DE TEXTO PARA

CATEGORIZAÇÃO DE TRANSTORNOS MENTAIS
Trabalho apresentado ao Programa de Pós-graduação em

Ciência da Computação do Centro de Informática da Univer-
sidade Federal de Pernambuco como requisito parcial para
obtenção do grau de Mestre em Ciência da Computação.
Orientador: Prof. Dr. Ricardo Bastos Cavalcante Prudêncio

Co-Orientador: Profa. Dra. Flávia de Almeida Barros
RECIFE
2016
DisorderClassifier: classificação de texto para categorização de transtornos mentais/
Francisca Pâmela Carvalho Nunes. – RECIFE, 2016-
88 p.
Orientador Prof. Dr. Ricardo Bastos Cavalcante Prudêncio
Dissertação de Mestrado – Universidade Federal de Pernambuco, 2016.
1. Mineração de Texto. 2. Classificação de Texto. 3. Depoimentos pessoais. 4.

Transtorno mental. I. Prudêncio, Ricardo Bastos Cavalcante (orientador) II. Universidade
Federal de Pernambuco - UFPE. III. Centro de Informática - CIn. IV. DisorderClassifier:
Classificação de Texto para Categorização de Transtornos Mentais
Dissertação de Mestrado apresentada por Francisca Pâmela Carvalho Nunes ao programa de
Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal
de Pernambuco, sob o título DisorderClassifier: classificação de texto para categorização de
transtornos mentais, orientada pelo Prof. Prof. Dr. Ricardo Bastos Cavalcante Prudêncio
e aprovada pela banca examinadora formada pelos professores:
———————————————————————–
Alex Sandro Gomes
Centro de Informática/UFPE
———————————————————————–
Renato Fernandes Corrêa
Centro de Artes e Comunicação/UFPE
———————————————————————–
Ricardo Bastos Cavalcante Prudêncio
Centro de Informática/UFPE
RECIFE
2016
Aos meus pais,
Carmo Leal dos Santos e
Francisca Almeida de Carvalho dos Santos
E ao meu marido,
Celles Antônio Lacerda Nunes Carvalho
Agradecimentos
Agradecer quem nos ajuda a vencer os obstáculos e que permanece ao nosso lado em
tempos de luta e de vitória é algo gratificante, porém complicado, pois faltam palavras para
expressar tamanha gratidão.
Sou grata pela vida do meu marido, Celles Nunes, que me deu todo apoio para prosseguir
rumo a essa conquista. Te amo e sei que posso contar sempre com você.
Agradeço aos meus pais, por terem fé que dias melhores viriam e pelas palavras de
ânimo, e a minha irmã por ouvir meus desabafos. Enfim, a toda a minha família.
Agradeço ao orientador Ricardo Bastos e a co-orientadora Flávia de Almeida, pelas
sugestões, correções e pela paciência que tiveram comigo.
Agradeço aos meus amigos, presentes preciosos que tenha a honra de ter, que sei que
também se alegram com a minha alegria. Em especial, quero agradecer aos meus manos Danila
e Kaio que vivenciaram parte da minha luta e sofreram juntos em suas lutas paralelas.
Um obrigada especial para o pessoal do CTI por me ceder o espaço para estudo e pelas
amizades que tive a oportunidade de fazer, quero levá-las pra vida. Desse grupo, agradeço em
destaque ao Guilherme, que muito me ajudou nesse processo e que mesmo em meio a tribulações
não me negou seu apoio.
Enfim, obrigada por tudo Senhor, és minha fortaleza!
O mais importante de tudo é nunca deixar de se perguntar. A curiosidade
tem sua própria razão de existir.
—ALBERT EINSTEIN
Resumo
Nos últimos anos, através da Internet, a comunicação se tornou mais ampla e acessível.
Com o grande crescimento das redes sociais, blogs, sites em geral, foi possível estabelecer uma
extensa base de conteúdo diversificado, onde os usuários apresentam suas opiniões e relatos
pessoais.
Esses informes podem ser relevantes para observações futuras ou até mesmo para o
auxilio na tomada de decisão de outras pessoas. No entanto, essa massa de informação está
esparsa na Web, em formato livre, dificultando a análise manual dos textos para categorização
dos mesmos. Tornar esse trabalho automático é a melhor opção, porém a compreensão desses
textos em formato livre não é um trabalho simples para o computador, devido as irregularidades
e imprecisões da língua natural.
Nessas circunstâncias, estão surgindo sistemas que classificam textos, de forma au-
tomática, por tema, gênero, características, entre outros, através dos conceitos da área de
Mineração de Texto (MT). A MT objetiva extrair informações importantes de um texto, através
da análise de um conjunto de documentos textuais.
Diversos trabalhos de MT foram sugeridos em âmbitos variados como, por exemplo,
no campo da psiquiatria. Vários dos trabalhos propostos, nessa área, buscam identificar ca-
racterísticas textuais para percepção de distúrbios psicológicos, para análise dos sentimentos
de pacientes, para detecção de problemas de segurança de registros médicos ou até mesmo
para exploração da literatura biomédica. O trabalho aqui proposto, busca analisar depoimentos
pessoais de potenciais pacientes para categorização dos textos por tipo de transtorno mental,
seguindo a taxonomia DSM-5.
O procedimento oferecido classifica os relatos pessoais coletados, em quatro tipos de
transtorno (Anorexia, TOC, Autismo e Esquizofrenia). Utilizamos técnicas de MT para o
pré-processamento e classificação de texto, com o auxilio dos pacotes de software do Weka.
Resultados experimentais mostraram que o método proposto apresenta alto índice de precisão
e que a fase de pré-processamento do texto tem impacto nesses resultados. A técnica de
classificação Support Vector Machine (SVM) apresentou melhor desempenho, para os fins
apresentados, em comparação a outras técnicas usadas na literatura.
Palavras-Chave: Mineração de Texto, classificação de texto, depoimentos pessoais,

transtorno mental.
Abstract
In the last few years, through the internet, communication became broader and more
accessible. With the growth of social media, blogs, and websites in general, it became possible to
establish a broader, diverse content base, where users present their opinions and personal stories.
These data can be relevant to future observations or even to help other people’s decision
process. However, this mass information is dispersing on the web, in free format, hindering the
manual analysis for text categorization.
Automating is the best option. However, comprehension of these texts in free format is
not a simple task for the computer, taking into account irregularities and imprecisions of natural
language.
Giving these circumstances, automated text classification systems, by theme, gender,
features, among others, are arising, through Text Mining (MT) concepts. MT aims to extract
information from a text, by analyzing a set of text documents.
Several MT papers were suggested on various fields, as an example, psychiatric fields. A
number of proposed papers, in this area, try to identify textual features to perceive psychological
disorders, to analyze patient’s sentiments, to detect security problems in medical records or even
biomedical literature exploration. The paper here proposed aim to analyze potential patient’s
personal testimonies for text categorization by mental disorder type, according to DSM-5
taxonomy.
The offered procedure classifies the collected personal testimonies in four disorder types
(anorexia, OCD, autism, and schizophrenia). MT techniques were used for pre-processing and
text classification, with the support of software packages of Weka. Experimental results showed
that the proposed method presents high precision values and the text pre-processing phase has
impact in these results.
The Support Vector Machine (SVM) classification technique presented better perfor-
mance, for the presented ends, in comparison to other techniques used in literature.
Keywords: Text Mining, text classification, personal testimonies, mental disorder.

Lista de Figuras
2.1 Estrutura de Mineração de Texto (AKILAN, 2015). . . . . . . . . . . . . . . . 19

2.2 Etapas da Mineração de Texto (Autoria Própria). . . . . . . . . . . . . . . . . 20
2.3 Processo de Toquenização (Autoria Própria). . . . . . . . . . . . . . . . . . . . 21
2.4 Processo de Remoção de Stopwords (Autoria Própria). . . . . . . . . . . . . . 21
2.5 Processo Stemming (RAMASUBRAMANIAN; RAMYA, 2013). . . . . . . . . 22
2.6 Processo de Classificação de Texto (IKONOMAKIS; KOTSIANTIS; TAM-
PAKAS, 2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7 Arquitetura de um sistema de Análise de Sentimentos (FELDMAN, 2013). . . 29
4.1 Arquitetura Geral do Sistema. . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2 Exemplo de uma lista gerada a partir do uso da técnica de toquenização. . . . . 45
4.3 Módulo de Classificação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4 Diagrama de classes do sistema Entendendo Meu Transtorno. . . . . . . . . . . 47
4.5 Interface de entrada do sistema Entendendo Meu Transtorno. . . . . . . . . . . 48
4.6 Tela de Cadastro para o usuário . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.7 Visualização dos depoimentos e opções de filtro . . . . . . . . . . . . . . . . . 50
4.8 Comentários vinculados aos depoimentos. . . . . . . . . . . . . . . . . . . . . 50
4.9 Adição de um novo depoimento. . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.10 Cadastro de pacientes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.11 Descrição do diagnóstico do paciente. . . . . . . . . . . . . . . . . . . . . . . 52
4.12 Lista de transtornos cadastrados pelo administrador . . . . . . . . . . . . . . . 52
4.13 Vídeos relativos a transtornos mentais . . . . . . . . . . . . . . . . . . . . . . 53
5.1 Precisão dos Algoritmos de Classificação com o Uso de Três Classes (Autoria
Própria). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.2 Matrizes de Confusão do Algoritmo J48 (Autoria Própria). . . . . . . . . . . . 59
5.3 Matrizes de Confusão do Algoritmo KNN (Autoria Própria). . . . . . . . . . . 59
5.4 Matrizes de Confusão do Algoritmo Naive Bayes (Autoria Própria). . . . . . . 60
5.5 Matrizes de Confusão do Algoritmo Random Forest (Autoria Própria). . . . . . 60
5.6 Matrizes de Confusão do Algoritmo SVM (Autoria Própria). . . . . . . . . . . 61
5.7 Precisão dos Algoritmos de Classificação com o Uso de Quatro Classes (Autoria
Própria). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.8 Resultados da Área da Curva ROC com o Uso de Três Classes (Autoria Própria). 62
5.9 Resultados da Área da Curva ROC com o Uso de Quatro Classes (Autoria Própria). 63
5.10 Árvore de Decisão (J48) com o uso de 3 classes . . . . . . . . . . . . . . . . . 64
5.11 Árvore de Decisão (J48) com o uso de 4 classes . . . . . . . . . . . . . . . . . 65
C.1 Links dos relatos referentes a Anorexia Nervosa (Autoria Própria) . . . . . . . 86
C.2 Links dos relatos referentes ao Espectro Autista (Autoria Própria) . . . . . . . 87
C.3 Links dos relatos referentes ao Transtorno Obsessivo Compulsivo (Autoria Própria) 87
C.4 Links dos relatos referentes a Esquizofrenia (Autoria Própria) . . . . . . . . . . 88
Lista de Tabelas
5.1 Transtornos Mentais que tiveram maior número de depoimentos coletados . . . 55

5.2 Parâmetros Usados no Pré-Processamento . . . . . . . . . . . . . . . . . . . . 55
5.3 Pré-processamento com Melhor Desempenho para cada Algoritmo . . . . . . . 63
5.4 Resultados das Alterações de Parâmetros do Algoritmo J48 com PP4 e 3 Classes 65
5.5 Resultados das Alterações de Parâmetros do Algoritmo J48 com PP4 e 4 Classes 65
5.6 Resultados das Alterações de Parâmetros do Algoritmo KNN com PP3 e 3 Classes 66
5.7 Resultados das Alterações de Parâmetros do Algoritmo KNN com PP3 e 4 Classes 67
5.8 Resultados das Alterações de Parâmetros do Algoritmo Naive Bayes com PP4 e
3 Classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.9 Resultados das Alterações de Parâmetros do Algoritmo Naive Bayes com PP2 e
4 Classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.10 Resultados das Alterações de Parâmetros do Algoritmo Random Forest com PP1
e 3 Classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.11 Resultados das Alterações de Parâmetros do Algoritmo Random Forest com PP4
e 3 Classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.12 Resultados das Alterações de Parâmetros do Algoritmo SVM com PP1 e 3 Classes 69
5.13 Resultados das Alterações de Parâmetros do Algoritmo SVM com PP1 e 4 Classes 70
A.1 Mineração de Texto em Campos de Aplicação da Psiquiatria. . . . . . . . . . . 80
B.1 Taxonomia DSM-5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

Sumário
1 Introdução 14
1.1 Motivação e Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Trabalho Realizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Mineração de Texto 18
2.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Etapas da Mineração de Texto . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Extração de Conhecimento . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.3 Pós-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Tarefas de Mineração em Texto . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1 Classificação ou Categorização de Texto . . . . . . . . . . . . . . . . . 24
2.3.2 Clusterização ou Agrupamento de Texto . . . . . . . . . . . . . . . . . 27
2.3.3 Análise de Sentimentos e Mineração de Opinião . . . . . . . . . . . . 28
2.3.4 Sumarização de Texto . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Mineração de Texto para Psiquiatria 34

3.1 Visão Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Campos de Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.1 Psicopatologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.2 Perspectiva do Paciente . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.3 Registros Médicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.4 Literatura Médica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4 DisorderClassifier: classificação de texto para categorização de transtornos men-

tais 41
4.1 Caracterização do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Arquitetura Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3 Coleta de Documentos e Pré-Processamento dos Dados . . . . . . . . . . . . . 44
4.4 Classificação de Transtornos (DisorderClassifier) . . . . . . . . . . . . . . . . 46
4.5 Interface com o Usuário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
13
5 Experimentos e Resultados 54
5.1 Coleta de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3 Algoritmos de Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.4 Metodologia de Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.4.1 Testes com Variações de Parâmetros no Pré-Processamento . . . . . . . 58
5.4.1.1 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4.1.2 Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.4.2 Testes com Variações de Parâmetros nos Algoritmos de Classificação . 63
5.4.2.1 Decision Tree (J48) . . . . . . . . . . . . . . . . . . . . . . 64
5.4.2.2 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.4.2.3 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.4.2.4 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.4.2.5 SVM (SMO) . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6 Conclusão 71
6.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Referências 73
Anexos 79
A Mineração de Texto na Psiquiatria 80
B Taxonomia DSM-5 82
C Fontes dos Depoimentos 86

14
1
Introdução
Nos últimos anos, através da Internet, a comunicação se tornou mais ampla e acessível.
O usuário comum, além de receber informações disponíveis na Web, pode também contribuir de
forma simples com o conteúdo da mesma (por exemplo, através de fóruns, blogs, redes sociais,
etc.).
Com isso, a Internet possui uma grande base de conteúdo diversificado. Esse fato deve-se
à disponibilidade de diversas formas do internauta cooperar com experiências, opiniões, dúvidas,
desabafos, entre outros. Essas informações podem ajudar a área psiquiátrica a aprimorar seu
conhecimento sobre transtornos mentais através de relatos disponibilizados por pessoas que
vivem ou vivenciaram tal problema. Essas informações também são úteis ao usuário comum,
pois contribui para um melhor entendimento do assunto com base em histórias reais.
Apesar de essa informação estar disponível, ela se encontra disseminada pela Web, em
diversos formatos, o que dificulta a análise manual dos depoimentos a fim de saber a que contexto
ele pertence. Uma avaliação manual poderá consumir muito tempo.
A automação dessa função é a melhor opção. Porém, o processo para que o computador
entenda a linguagem natural não é trivial, pois eles costumam lidar com regras e semânticas
bem definidas, como as linguagens de programação (Ruby, Java, C, etc.). Quando se trata de
uma linguagem com irregularidades, abreviações, gírias, como é a linguagem humana, então o
processo se torna mais complexo.
Nesse contexto, surgiram sistemas de Mineração de Texto (MT) com o objetivo de extrair
padrões não triviais ou conhecimento a partir de documentos de texto (TAN et al., 1999)
citephe2012screening (XIE et al., 2013). Dentro da área de MT há diversas tarefas, uma delas
é a classificação/categorização de texto. A Classificação de Texto (CT) é um atual desafio de
investigação devido a necessidade de organizar um grande e crescente número de documentos
digitais no mundo todo (UYSAL; GUNAL, 2014a).
Modelos de CT podem ser usados para diversos problemas, como na detecção de spams
em e-mails (CHOPRA; GAIKWAD, 2015), na análise de sentimentos (HADDI; LIU; SHI, 2013),
na área da saúde (KRALLINGER, 2015) (HUH; YETISGEN-YILDIZ; PRATT, 2013), entre
outros.
1.1. MOTIVAÇÃO E CONTEXTO 15
A Classificação/Categorização de Texto tem por objetivo rotular textos que estejam em

linguagem natural em categorias pré-definidas e alguns algoritmos como Árvore de Decisão,
K-Vizinhos mais Próximos (KNN K-Nearest Neighbor) e Máquinas de Suporte Vetorial (SVM -
Support Vector Machine) podem ser usados para essa finalidade (WANG et al., 2013).
1.1 Motivação e Contexto

Mineração de Texto é uma área atrativa para pesquisas que tentam resolver o problema
da sobrecarga de informação e a mesma faz uso de diversas técnicas, tais como, Mineração de
Dados (MD) , Processamento de Linguagem Natural (PLN) e Recuperação de Informação (RI)
(FELDMAN; SANGER, 2007).
Segundo (SHEMILT et al., 2014), a MT tem por objetivo auxiliar no reconhecimento
e estruturação de padrões em documentos diversos ou individuais, e é reconhecida por sua
eficiência em classificar textos e permitir buscas mais precisas.
Diversos problemas surgem no contexto de Mineração de Texto ( (AGGARWAL; ZHAI,
2012a)), alguns dos principais são: extração de informações, sumarização de texto, agrupamento
com modelo probabilístico generativo, redução de dimensionalidade e técnicas probabilísticas.
Das variadas tarefas que a MT engloba, podem ser citadas a Classificação de Texto, Análise de
Sentimento, Clusterização, dentre outras. A Classificação de Texto, originalmente considerada
uma forma de indexação, é uma das tarefas de MT que busca organizar dados textuais em um for-
mato estruturado para classificação de documentos (SHOLOM M. WEISS NITIN INDURKHYA,
2015).
Pessoas que sofrem problemas semelhantes costumam compartilhar experiências pessoais
através de depoimentos, ajudando assim na compreensão de que não estão sozinhas. Como
exemplo, destacamos os depoimentos de pessoas com transtornos mentais que estão buscando
cura ou até mesmo relatando experiências de superação. Essas histórias costumam estar espa-
lhadas em diversas fontes, como blogs, sites de saúde, sistemas de clínicas particulares e redes
sociais. O amplo número de documentos disponíveis na Web e a falta de estrutura relativa aos
relatos pessoais dificulta encontrar histórias que se adequem ao contexto de um possível paciente.
Com o uso da Mineração de Texto é possível criar padrões e obter informações impor-
tantes para categorizar documentos. A análise e extração de conhecimento de depoimentos
pessoais possibilitará ao usuário obter relatos de acordo com seu interesse, a partir de uma busca
por categorias, atentando-se assim ao seu contexto.
1.2 Trabalho Realizado

Neste trabalho de mestrado tivemos como objetivos estudar, desenvolver e testar um
conjunto estruturado de práticas para mineração automática de texto, visando a categorização
de depoimentos pessoais por tipo de transtorno mental. Foram investigadas técnicas e métodos
1.3. ORGANIZAÇÃO DO TRABALHO 16
para implementação de classificadores de texto, assim como as principais práticas para o pré-
processamento dos dados textuais.
O desenvolvimento do sistema proposto foi precedido por um estudo detalhado das fases
necessárias para implementação de um classificador de texto. Em especial, focamos nas etapas
de pré-processamento e classificação do dados textuais.
Para escolha da técnica de classificação a ser usada no desenvolvimento do protótipo,
foram estudados e comparados os algoritmos Naive Bayes, KNN, Random Forest, Decision Tree
e SVM (AGGARWAL, 2015). A partir das comparações realizadas, em termos de precisão,
taxa de acerto e valor da curva Roc, foi escolhido o algoritmo SVM, por ter apresentado melhor
desempenho em relação aos demais.
Estudamos ainda nesse trabalho algumas taxonomias disponíveis para hierarquizar tipos
de transtornos mentais, das quais foram analisadas as taxonomias CID-10 (SAÚDE, 1994),
DSM-4 (ASSOCIATION et al., 1994) e DSM-5 (ASSOCIATION et al., 2013a). A taxonomia
DSM-5 foi escolhida por ser bem estruturada e atual, com correções e atualizações a partir de
outras versões.
Para proporcionar a interação do usuário com os resultados disponibilizados pelo classifi-
cador, foi desenvolvida uma interface Web, onde o usuário poderá visualizar os depoimentos
categorizados, além de postar um novo depoimento ou escrever comentários a partir de um deter-
minado depoimento exibido. Além de pesquisar depoimentos a partir da hierarquia disponível, o
usuário tem a opção de filtrar os relatos pessoais por tipo de transtorno, gênero e faixa etária do
autor (quando tais informações estão disponíveis).
1.3 Organização do Trabalho

Esta dissertação está estruturada em seis capítulos. Após esta Introdução, mais cinco
capítulos tratam da revisão bibliográfica e de pormenores do sistema proposto, assim como dos
experimentos realizados.
Capítulo 2 - Contextualiza resumidamente o cenário da Mineração de Texto. São

apresentados os principais Conceitos, as etapas da MT e como se dá a estruturação
do texto.
Capítulo 3 - É apresentado o estado da arte da fase de Mineração de Texto na área

da Psiquiatria, foco principal deste trabalho. São mostradas técnicas e pesquisas
recentes, assim como os principais desafios dessa área de pesquisa.
Capítulo 4 - É mostrado o processo MT proposto neste trabalho. São descritos as

técnicas e algoritmos usados no desenvolvimento do sistema.
Capítulo 5 - São apresentados, a metodologia e os experimentos realizados, bem

como a análise dos resultados obtidos em comparação com o de outros algoritmos.
1.3. ORGANIZAÇÃO DO TRABALHO 17
Capítulo 6 - Por fim, no capítulo de conclusão é feita uma análise dos objetivos e
resultados alcançados, além de propor melhorias para trabalhos futuros.
18
2
Mineração de Texto
O formato textual é um dos modos mais usadas para o armazenamento de informações.

No entanto, obter conhecimento a partir desses dados ainda é um processo complexo, pois a
maioria dos textos são desestruturados e muitas vezes imprecisos. A área da mineração de texto
busca tornar a extração de conhecimento desses dados um processo automático.
Desenvolvimentos com mineração de texto tiveram inicio pela necessidade da catalogação
de documentos de texto, porém esse foco mudou para a extração de dados de texto com uso de
técnicas de Processamento de Linguagem Natural (MINER, 2012).
A Mineração de Texto difere da Mineração de Dados por fazer uso de ferramentas digitais
para identificar informações textuais com o objetivo de reconhecer relacionamentos e padrões
em dados não estruturados (TOON; TIMMERMANN; WORBOYS, 2016). Enquanto, na MD os
dados a serem trabalhados já vem parcialmente estruturados para serem processados, na MT é
necessário um tratamento especial na fase de pré-processamento dos dados textuais.
Neste capítulo será apresentado uma visão geral da área de Mineração de Texto. A
Seção 2.1 traz os conceitos básicos de MT e aborda sobre os primeiros trabalhos nessa área. A
Seção 2.2 mostra as etapas necessárias para Mineração de Texto, desde a etapa de coleta dos
documentos até a fase avaliação. Na Seção 2.3 são exibidas tarefas onde a Mineração de Texto
pode ser aplicada. Por fim, são feitas as considerações finais do capítulo.
2.1 Conceitos Básicos

Mineração de Texto, também conhecida como mineração de dados textuais é o processo
de extração de conhecimento ou de padrões relevantes a partir de documentos de texto (TAN
et al., 1999) (AKILAN, 2015). Como texto é uma das formas mais usadas para se armazenar
informação, acredita-se que a extração de conhecimento em bases textuais tem grande potencial
comercial.
A Mineração de Texto é um campo que abrange diversas pesquisas como recuperação de
informação, análise de texto, extração de informações, agrupamento, categorização, banco de
dados, aprendizado de máquina e mineração de dados (AKILAN, 2015).
2.2. ETAPAS DA MINERAÇÃO DE TEXTO 19
A MT pode ser subdivida em duas partes, o refinamento do texto que transforma do-
cumentos textuais de forma livre em uma Forma Intermediária (FI) escolhida e a extração de
conhecimento que deduz padrões ou conhecimento a partir da forma intermediária (AKILAN,
2015).
Figure 2.1: Estrutura de Mineração de Texto (AKILAN, 2015).
Essa FI pode ser baseada no documento, onde cada entidade representa um documento
ou baseada em conceito no qual cada entidade representa um objeto ou conceito de um domínio
específico, como pode ser visto na Figura 2.1. A FI da mineração baseada em conceitos deriva
de padrões e relações através de objetos ou conceitos, como por exemplo modelagem preditiva
e descoberta associativa. Enquanto que, a FI da mineração baseada em documentos pode ser
realinhada ou ter informações relevantes extraídas de acordo com objetos de interesse em um
domínio específico. Por exemplo, dado um conjunto de artigos de notícias, primeiramente eles
serão transformados em uma FI e em seguida será feita a extração de conhecimento com a
finalidade de organizar os documentos de acordo com seu conteúdo, para fins de navegação e
visualização.
2.2 Etapas da Mineração de Texto

Para realização do processo de MT é necessário primeiramente transformá-lo em uma
forma estruturada de dados, para assim permitir a aplicação das técnicas necessárias (WEISS
et al., 2010). Algumas etapas são indispensáveis para a descoberta de conhecimento nos
textos, a primeira delas é a preparação dos textos, ou seja, a seleção das bases de texto. Nessa
etapa, as informações presentes no texto que forem irrelevantes para sua categorização são
descartadas. Após preparar os textos, os mesmos devem ser convertidos em uma representação
de dados compreensível pelas técnicas de MT para assim possibilitar a extração do conhecimento.
Então, o conhecimento deve ser avaliado através de métricas baseadas nos resultados ou pelo
conhecimento de especialistas para que haja a validação dos resultados obtido.
Na Figura 2.2 pode ser vista as etapas básicas do processo de mineração do texto. A
fase de pré-processamento dos dados é de suma importância, nela é feita a preparação dos
Figure 2.2: Etapas da Mineração de Texto (Autoria Própria).
dados para serem processados posteriormente (UYSAL; GUNAL, 2014a). Nessa etapa os
documentos são selecionados e tratados. Na etapa de extração do conhecimento são aplicadas
as técnicas necessárias para o objetivo da aplicação de mineração de texto. Na última etapa,
pós-processamento, os resultados são analisados e validados.
2.2.1 Pré-Processamento
A fase de pré-processamento tem por finalidade preparar o conjunto de dados textuais
para servir de entrada para fase de extração de conhecimento.
1. Coleta de Documentos:
O primeiro ponto a ser considerado é a pesquisa e coleta dos documentos que serão
utilizados. Documentos relevantes para o processo de categorização são aqueles
que possuem palavras com maior peso de relevância (WEISS et al., 2010). Os
documentos podem ser coletados de redes sociais, páginas da Web, bancos de dados
e de arquivos escaneados e convertidos em texto.
2. Padronização dos Documentos:

Os textos podem ser encontrados em formatos diversos, como por exemplo, .pdf,
.xml, .txt, etc.. Para que o processamento de extração de características seja comum
aos documentos selecionados, é necessário que os mesmos sejam convertidos para
um formato padrão. Com a padronização dos documentos é possível utilizar as
ferramentas de mineração de texto independente da sua origem.
3. Preparação dos Dados:

A principal finalidade do pré-processamento é transformar o texto de entrada em uma
forma que possa ser processada de maneira automática por máquinas. Nessa fase
acontece a limpeza dos dados e essa redução proporciona que os algoritmos sejam
mais eficientes. Em uma estrutura de classificação de texto geralmente há quatro
etapas comuns, como toquenização, remoção de stopwords, conversão de letras em

minúsculas e stemming (UYSAL; GUNAL, 2014a).
Toquenização: O processo em que determinada frase é divida em pequenas

unidades, ou tokens, é conhecido como “Toquenização” (ASGHAR et al.,
2013), Figura 2.3.
Figure 2.3: Processo de Toquenização (Autoria Própria).
Remoção de stopwords: diversas palavras existentes no decorrer de um

texto geralmente são inúteis para extração de conhecimento, geralmente
são palavras auxiliares ou conectivas, as mesmas são chamadas de stop-
words (KATARIYA et al., 2015).
Figure 2.4: Processo de Remoção de Stopwords (Autoria Própria).
A remoção de stopwords poderá diminuir muito o tamanho da estru-

tura de indexação, Figura 2.4. Na construção de uma lista de stopwords
normalmente são acrescentadas palavras como, preposições, conjunções,
pronomes, artigos ou até mesmo palavras com incidência muita alta nos
documentos e que não irão influir na categorização.
Conversão em letras minúsculas: Consiste em converter todas as entradas

de texto em letras minúsculas, pois a existência de letras maiúsculas e
minúsculas pode dificultar o processo de toquenização.
Stemming: Algorítmos Stemmings são usados para transformar as palavras
de um texto em sua forma gramatical inicial, ou seja, em sua raiz (RAMA-
SUBRAMANIAN; RAMYA, 2013). Cada palavra é considerada de forma
isolada. Um exemplo do processo pode ser visto na Figura 2.5.
Figure 2.5: Processo Stemming (RAMASUBRAMANIAN; RAMYA, 2013).
4. Representação dos Dados:

É necessário que os dados textuais além de padronizados, sejam representados de
forma estruturada e precisa, para que tenham um formato adequado para extração de
conhecimento. A obtenção dessa estrutura é um dos desafios da mineração de texto.
Um dos modelos mais usados para representação dos dados é o modelo espaço-
vetorial, no qual cada documento é um vetor em um espaço multidimensional e
cada dimensão é um termo do conjunto (FELDMAN; SANGER, 2006). Para isso,
os textos podem ser estruturados em uma bag-of-words, ou seja, em uma matriz
documento-termo, onde os termos são tidos independentes em um conjunto onde a
ordem das palavras não é relevante.
5. Redução de Dimensionalidade:
As técnicas de redução de dimensionalidade podem ser usadas para métodos super-
visionados (classificação) e não supervisionados (agrupamento) e tem por objetivo
minimizar o tamanho dos dados (MINER, 2012). Na seleção ou transformação dos
recursos são removidas características consideradas irrelevantes para classificação.
A seleção e redução dos dados é importante devido as restrições de tempo de proces-
samento e espaço de memória, pois o número de exemplos e atributos disponíveis
pode dificultar o uso de algoritmos de extração de padrões.
2.3. TAREFAS DE MINERAÇÃO EM TEXTO 23
2.2.2 Extração de Conhecimento

Com a utilização da Mineração de Texto bem estruturada é possível extrair novos padrões
do contexto de um problema específico. As principais classes de técnicas de extração de
conhecimento estudadas em mineração de texto são (MINER, 2012):
Predição: por exemplo, classificação, regressão e análise de séries temporais.
Agrupamento: por exemplo, segmentação e análise de outlier.
Associação: por exemplo, análise de afinidade, análise de ligação e análise de

frequência.
Análise de Tendências.
2.2.3 Pós-Processamento
Os modelos desenvolvidos devem ser avaliados quanto a sua qualidade e precisão, a partir
de uma perspectiva de análise de dados, para garantir que irão realmente resolver o problema e
satisfazer os objetivos para os quais foram construídos (MINER, 2012).
2.3 Tarefas de Mineração em Texto

A MT pode ser dividida em diversas áreas práticas correlacionadas, com base nos
aspectos únicos de cada área (MINER, 2012). Algumas áreas de atuação são citadas a seguir:
Classificação ou Categorização de Texto: categorização de trechos, parágrafos ou

documentos, usando métodos de classificação de mineração de dados, a partir de
modelos treinados com documentos rotulados.
Clusterização ou Agrupamento de Texto: Agrupamento de termos, trechos, parágrafos

ou documentos, empregando técnicas de agrupamento de mineração de dados.
Mineração Web: mineração de dados e textos na Internet, com metas inerentes a

escala e interconexão da Web.
Processamento de Linguagem Natural: Processamento de linguagem de baixo nível

para extração de informações.
Sumarização de Texto: produção automática de uma versão menor (resumo) de um

ou mais documentos de texto.
Análise de Sentimentos ou Mineração de Opinião: considera a opinião das pessoas,

seus sentimentos e emoções através da linguagem escrita.
2.3.1 Classificação ou Categorização de Texto

Com a grande disponibilidade de acesso a conteúdos Web, existe extensa quantidade
de informação disponível relacionada a temas diversos. Esse fluxo de informações torna difícil
seguir o incremento de um mesmo tópico, ou seja, a classificação do conteúdo de acordo com
determinado assunto.
Um domínio importante em aprendizagem de máquina é a classificação de documentos,
em que cada instância representa um documento e a classe da instância é o tema do docu-
mento (HALL; WITTEN; FRANK, 2011). Os documentos são diferenciados de acordo com as
palavras presentes neles.
Classificação de Texto é uma parte importante da Mineração de Texto. A MT busca
permitir que usuários possam extrair informações a partir de recursos textuais, lidando com
operações como, recuperação, classificação (supervisionada, não supervisionada e semi super-
visionada) e sumarização através do uso de técnicas de Processamento de Linguagem Natural,
Mineração de Dados e Aprendizagem de Máquina (KORDE; MAHENDER, 2012).
A finalidade da classificação de texto, ou categorização, é classificar textos em categorias
apropriadas de interesse e sua estrutura consiste na extração e seleção de características (UYSAL;
GUNAL, 2014b).
Com o objetivo de atingir os objetivos mencionados na classificação de texto, geralmente
são utilizadas as seguintes fases (WEISS et al., 2010):
1. Coleta de documentos: fase em que são obtidos os dados que serão usados no
treinamento ou construção de classificadores.
2. Pré-processamento: fase em que a estruturação das informações é preparada para

obter informações de texto, a partir de um conjunto de documentos desestruturados.
3. Fase de Treinamento: nesta fase utiliza-se aprendizagem de máquina em documentos

previamente categorizados, com o objetivo de extrair conhecimento que possibilite
categorizar novos documentos.
4. Classificação: novos documentos ainda não rotulados são organizados nas categorias
pré-existentes a partir do aprendizado adquirido.
O problema da classificação tem sido vastamente observado nas áreas de aprendizado

de máquina, banco de dados, mineração de dados e recuperação de informação e aplicado
em domínios diversos, como: diagnóstico médico, organização de documentos, marketing e
filtragem de grupo de notícias (AGGARWAL; ZHAI, 2012a).
A classificação de texto relaciona-se com a classificação de documentos através da avali-
ação de características, observando-se a ausência, presença e frequência de palavras utilizadas
em um documento (AGGARWAL; ZHAI, 2012a).
Existem diversas abordagens para classificação de textos em várias categorias e o uso de

determinados algoritmos depende do tipo de entrada que será utilizada (GUPTE et al., 2014). A
tarefa de classificar um documento em uma categoria já pré-definida, pode ser representada da
seguinte forma: se di é um documento que faz parte de um conjunto de documentos D e c1, c2,...,
cn é o conjunto de todas as categorias, então a classificação de texto atribuirá uma categoria
cj a um documento di (IKONOMAKIS; KOTSIANTIS; TAMPAKAS, 2005). Na Figura 2.6,
apresenta-se a representação gráfica do processo de classificação de texto:
Figure 2.6: Processo de Classificação de Texto (IKONOMAKIS; KOTSIANTIS;

TAMPAKAS, 2005).
Técnicas de aprendizado de máquina utilizam um conjunto de treinamento, para desen-

volver um modelo de classificação que tentará distribuir um recurso de entrada em rótulos de
classes correspondentes, e um de teste para validar o modelo desenvolvido (NEETHU; RAJAS-
REE, 2013). Essas técnicas têm sido usadas para construção de modelos de previsão (SHIN
et al., 2011).
A escolha do algoritmo de classificação pode influenciar na precisão do resultado e,
portanto, uma falha na classificação poderá acarretar em um monitoramento falho (PANG; LEE,
2004).
Faremos então, um breve estudo sobre as técnicas utilizadas na classificação de texto,
mostrando a teoria de base por trás de cada uma, quando são geralmente utilizadas e seus prós e
contras. Os algoritmos mostrados serão os seguintes: (1) Naive Bayes; (2) K-Nearest Neighbor;
(3) Random Forest (RF) (4) Decision Trees e (5) Support Vector Machine
1. Naive Bayes Naïve Bayes é um classificador baseado no Teorema de Bayes que

assume que os atributos usados na classificação são independentes entre si (GUPTE
et al., 2014), o que pode ser considerado uma de suas maiores limitações. Essa
técnica é popular na classificação de documentos por ser rápida e precisa (HALL;
WITTEN; FRANK, 2011).
O classificador Naive Bayes pode ser usado em vários problemas do mundo real,
tais como: análise de sentimentos, detecção de spam no e-mail, agrupamento de e-
mails, categorização e detecção de conteúdos sexualmente explícitos em documentos,

etc. (GUPTE et al., 2014).
O autor afirma ainda que o Naive Bayes é um algoritmo de linha de base para
pesquisas na classificação do nível de decisão do problema, o mesmo é aconselhável
quando o tempo de treinamento é um fator crucial no sistema, pois requer baixo
processamento de memória e menos tempo de execução.
2. K-Nearest Neighbor
O algoritmo KNN pode ser usado para categorização de texto e é relativamente
simples para classificação dos documentos (MINER, 2012). A classificação é baseada
na distância dos "vizinhos" mais próximos dos documentos.
O processo de algoritmo KNN é a seguinte (JIANG et al., 2012): dado um documento
x de teste, encontra-se os K vizinhos mais próximos de x entre todos os documentos
de treinamento, e marcar os candidatos da categoria com base na categoria de vizinhos
K. A semelhança de x com cada documento vizinho é a pontuação da categoria do
documento vizinho. Ao classificar os scores das categorias candidatas, o sistema
atribui a categoria candidata, a maior pontuação para o documento de teste x.
3. Random Forest
O algoritmo Random Forest faz uso de amostra aleatória simples de recursos para
construção de suas árvores de decisão e como resultado, ele dá preferência para diver-
sos subespaços que abrange poucos recursos informativos para classe que pertence a
minoria (WU et al., 2014).
A técnica RF produz uma árvore de classificação em cada iteração e a classifi-
cação destas árvores individuais são combinadas para formar uma previsão final.
Em cada nó da árvore um subconjunto aleatório de variáveis de previsão são sele-
cionadas (APHINYANAPHONGS et al., 2014).
Devido aos aspectos complexos específicos dos conjuntos de dados de texto desequi-
librados, a aprendizagem com Random Forest a partir desses dados requisita novas
abordagens para ultrapassar os desafios pertinentes com a escolha da seleção de
sub-espaço e corte-ponto durante a execução de divisão do nó (WU et al., 2014).
4. Decision Trees
Com a Árvore de Decisão, uma regra é gerada para cada folha da árvore e o an-
tecedente da regra inclui uma condição para cada nó no caminho entre a raiz e aquela
folha (HALL; WITTEN; FRANK, 2011).
No contexto de dados textuais, os predicados são tipos de condições na presença
ou ausência de uma ou mais palavras no documento e a divisão do espaço de dados
é feita de maneira recursiva, de forma que a folha contenha um certo número de

registros ou algumas condições de pureza da classe (AGGARWAL; ZHAI, 2012a).
5. Support Vector Machine

Support Vector Machine é uma técnica de aprendizagem supervisionada que examina
os dados e reconhece os padrões que são empregados para a classificação (BASARI
et al., 2013).
O SVM cria um classificador a partir da geração de uma superfície de decisão para
partição de variadas categorias de pontos de dados no espaço vetorial (LEE et al.,
2012).
A implementação de diferentes funções do kernel é uma das característica que
proporciona grande impacto sobre a precisão da classificação do SVM. Porém, essa
necessidade de determinar a função do núcleo apropriado também é um dos problemas
mais críticos da estrutura convencional de classificação para garantia do desempenho
do classificador (LEE et al., 2012).
2.3.2 Clusterização ou Agrupamento de Texto

O problema de Clustering foi bastante estudado na literatura de banco de dados e es-
tatística no contexto de trabalhos de mineração de dados (JAIN; DUBES, 1988). Atualmente, o
Clustering é também muito estudado na área de texto e pode ser aplicado em segmentação de
clientes, classificação, filtragem colaborativa, organização de documentos e indexação (AGGAR-
WAL; ZHAI, 2012b).
As técnicas de agrupamento de documentos são baseadas na similaridade textual dos
documentos (AGRAWAL; BATRA, 2013). Os métodos utilizados para o agrupamento de dados
textuais também podem ser usados para o agrupamento de atributos com base no conjunto. Esses
dados textuais possuem um número de propriedades que devem ser consideradas (AGGARWAL;
REDDY, 2013):
Os dados são excessivamente alto-dimensionais e dispersos, devido ao fato do texto

léxico ser muito grande e de cada documento conter poucas palavras. Por isso, o
maior número de atributos assume o valor zero.
Os valores dos atributos equivalem a frequência de palavra.
A estrutura de hyperlink de documentos presentes na Web, traduzidos no "gráfico links",

onde os nós são páginas da Web e os links são hiperlinks entre eles, o que pode ser empregado
como uma base distinta para clusterização (AGRAWAL; BATRA, 2013). Essas representações
de clustering baseados em links geralmente utilizam elementos que podem ser conciliados com
uma medida de similaridade global entre documentos, como:
O número de hiperlinks que devem ser seguidos para navegar de um documento para
outro pela Web.
O número de antecessores comuns entre dois documentos, moderados pela distância

de ascendência e pelo número de descendentes partilhados dos documentos.
A Clusterização possui papel relevante na recuperação da informação e mineração de

texto, podendo organizar dados e recuperar informações importantes a partir deles (KULKARNI;
KINARIWALA, 2015). Técnicas de Agrupamento, voltadas ao domínio de texto, podem ser
aplicadas a diversas tarefas (AGGARWAL; ZHAI, 2012b):
Organização de documentos e de navegação: a sistematização categórica de docu-

mentos em hierarquias conexas por ser muito vantajoso para navegação, de forma
organizada, de uma coleção de documentos.
Sumarização de Texto: técnicas de agrupamento podem prover um resumo coesivo

da descoberta através de grupos de palavras que podem ser usadas com o propósito
de fornecer dados de resumo para o conteúdo global do corpus implícito. Variações
dessa técnica podem ser aplicadas para compactação de documentos e tópicos ou na
redução de dimensionalidade e modelagem de tópico.
Classificação de documentos: técnicas de clusterização, com o uso de grupos de

palavras e métodos de co-treinamento, podem ser empregadas a fim de melhorar a
precisão da classificação de aplicações supervisionadas.
Vários algoritmos podem ser aplicados para tarefas de agrupamento e em especial

os algoritmos de agrupamento particional conseguem adaptar-se bem para grandes grupos
de conjuntos de dados de documentos, graças a sua baixa exigência computacional (ZHAO;
KARYPIS, 2004).
2.3.3 Análise de Sentimentos e Mineração de Opinião

A opinião de outras pessoas pode ser muito importante na hora de decidir algo entre
tantas opções. A "Web Social" proporciona variadas ferramentas para produzir e compartilhar
ideias de forma eficiente, porém essas informações são desestruturadas, por serem produzidas
para pessoas e não para máquinas (CAMBRIA et al., 2013).
Análise de Sentimentos (AS) e Mineração de Opinião (MO) é uma das áreas de inves-
tigação mais impulsionadas em Processamento de Linguagem Natural, Mineração de Dados,
Mineração Web e Mineração de Texto (LIU, 2012). A AS estuda a opinião das pessoas, seus
sentimentos, atitudes e emoções através da linguagem escrita.
Há duas abordagens principais para documentar a análise de sentimento: aprendizagem
supervisionada e aprendizagem não supervisionada. A abordagem supervisionada lida com um
conjunto determinado de classes em que o documento deve ser classificado e na abordagem sem
supervisão a análise é feita pela determinação da orientação semântica de frases próprias dentro
do documento (FELDMAN, 2013). Na Figura 2.7 é mostrada a arquitetura geral de um sistema
de análise de sentimentos genérico
Figure 2.7: Arquitetura de um sistema de Análise de Sentimentos (FELDMAN, 2013).
Primeiramente uma coleção de documentos é selecionada para ser a entrada do sistema,

esses documentos podem ter formatos variados, tais como, PDF, XM, HTML, etc.. Os documentos
devem então ser alterados para texto para serem pré-processados. Na fase de pré-processamento,
podem ser usadas diversas técnicas, tais como, stemming, toquenização, extração de entidade, uso
de dicionários e etc. No módulo de análise de sentimentos são usados recursos linguísticos para
escrever os documentos pré-processados e adicionar essas anotações aos documentos integrais
(por sentimento baseado em documento), as sentenças individuais (por sentimento baseado
na sentença) ou a aspectos próprios de entidade (por sentimento baseado em aspectos). Essas
anotações são a saída do sistema.
A classificação de sentimentos, um dos principais temas de pesquisa em MO, classifica
um documento de opinião enquanto define uma opinião ou sentimento como positivo ou nega-
tivo (AGGARWAL; ZHAI, 2012a). Essa classificação pode ser elaborada como um problema de
aprendizagem supervisionada e possui três classes principais: positivas, negativas e neutras.
Assim como a maior parte das aplicações de aprendizado de máquina, a função que
prevalece na classificação de sentimentos é a de arquitetar um conjunto efetivo de recursos e
para isso existem algumas características que podem ser listadas (AGGARWAL; ZHAI, 2012a):
Termos e sua frequência: esse método oferta palavras individuais ou palavras n-

gramas e suas avaliações de frequência. As posições das palavras e a ponderação
TF-IDF, de recuperação de informação, podem ser utilizadas.
Partes do discurso: os adjetivos podem ser informativos relevantes de opiniões e são

considerados como características especiais.
Palavras e frases de opinião: palavras de opinião são as palavras habitualmente

usadas para expressar sentimentos positivos e negativos. Diversas palavras de
opinião são adjetivos e advérbios, porém substantivos e verbos também podem
indicar opiniões. Além dessas palavras peculiares, também existem frases que podem
expressar opinião.
Negações: palavras de negação são significativas porque podem mudar o sentido de

uma opinião e devem ser manejadas com cuidado porque nem sempre tais palavras
significam negação.
Dependências sintáticas: aspectos de dependência baseados em palavras conce-

bidas através de análises ou árvores de dependência são considerados por vários
pesquisadores.
As palavras e frases de opinião são indicadores que prevalecem na classificação de

sentimento e é natural o uso desse processo em aprendizagem não supervisionada, como por
exemplo o método de (TABOADA et al., 2011) que faz uso de palavras de opinião conhecidas
para realizar a classificação.
2.3.4 Sumarização de Texto

A Sumarização/Compactação tem constituído um domínio frequente de pesquisa por
muitos anos e os vários enfoques vão desde métodos simples de posição e frequência de
palavras a algoritmos de aprendizagem baseados em gráficos (SANKARASUBRAMANIAM;
RAMANATHAN; GHOSH, 2014). O processo de sumarização visa produzir automaticamente
uma versão menor de um ou mais documentos de texto (FERREIRA et al., 2013).
As técnicas de compactação de texto podem ser circunstanciadas como extrativas e
abstrativas (FERREIRA et al., 2013). Técnicas extrativas realizam a sumarização do texto pela
distinção das frases presentes no documento com base em alguns critérios, ou seja, seleciona e
extrai as frases mais relevantes dos documentos, enquanto que, os resumos abstrativos procuram
melhorar a conexão entre as frases, pela exclusão de redundâncias e esclarecimento da disputa
de frases (LLORET; ROMÁ-FERRI; PALOMAR, 2013).
Uma das abordagens de sumarização que varia consideravelmente quanto ao aprimora-
mento é a Abordagem de Representação de Tópico. Aqui são mostradas algumas das abordagens
de tópico mais populares ou vastamente aplicadas (AGGARWAL; ZHAI, 2012a):
1. Palavras tópico: a abordagem de palavras descritivas exclui as palavras mais repetidas

em um documento, como por exemplo as preposições, e as palavras que ocorrem
pouquíssimas vezes. Essas palavras são chamadas tipicamente de "Assinaturas de
Tópicos" na literatura de sumarização (LIN; HOVY, 2000). Assinatura de Tópicos

são palavras que acontecem muitas vezes em alguns textos, mas são raras em outros,
de forma que seu cálculo necessita de um grande conjunto de documentos e da
entrada para sumarização.
É necessário conhecimento a respeito da frequência de palavras em um grande corpus
tido como base de experiência (fundo), para calcular a estatística de acordo com as
palavras tópico de assinatura demarcadas. A probabilidade da entrada e do corpus de
fundo são calculadas em duas proposições: (H1) a probabilidade de uma palavra na
entrada é a mesma que no fundo e (H2) a palavra tem probabilidade diferente, maior,
na entrada do que no fundo.
A entrada e o corpus de fundo são acertados como uma ordem de palavras e a
probabilidade do texto em referência a uma dada palavra de interesse é calculada
com o uso de uma fórmula de distribuição binomial.
2. Abordagens baseadas na frequência:

As abordagens apresentadas nessa seção atribuem pesos não-binários pertinentes ao
número de ocorrências de uma palavra ou conceito. A avaliação da probabilidade das
palavras é uma das formas mais simples de usar a frequência na entrada como um
indicador importante.
A viabilidade de uma palavra é medida a partir da entrada, que pode ser uma coleção
de documentos associados ou um único documento. Esse cálculo é feito com o total
de ocorrências de uma palavra fracionado pelo número de palavras de entrada.
O SumBasic é um sistema que utiliza a frequência como forma de selecionar sen-
tenças. Ele tem por base a probabilidade da palavra para determinar sua importân-
cia (VANDERWENDE et al., 2007). Para cada frase na entrada, é atribuído um
peso equivalente ao da probabilidade média das palavras de conteúdo na sentença,
considerados segundo a entrada para sumarização.
Dessa forma SumBasic elege a melhor frase de pontuação pelas palavras que possuem
maior probabilidade. Esse método de seleção presume que em cada ponto, ao preferir
uma sentença, uma única palavra (com maior probabilidade) retrata o tópico mais
significativo no documento e que o propósito é escolher a melhor frase que contém
essa palavra. Após a seleção da melhor frase, é acertado a probabilidade de cada
palavra que sucede na frase destacada.
3. Análise semântica latente:

A Análise Semântica Latente (ASL) é um método não supervisionado potente para
proceder uma conceito subentendido da semântica de texto fundamentado na co-
ocorrência observada de palavras (DEERWESTER et al., 1990).
A ASL foi proposta para sumarização genérica única e para multi-documentos de

notícia como uma forma de discernir temas relevantes em documentos sem o uso
de recursos lexicais tais como WordNet (GONG; LIU, 2001). A proposição inicial
de Gong e Liu foi a seleção de uma frase para cada um dos tópicos principais. Eles
realizam a redução de dimensionalidade, mantendo apenas o número de sentenças
que pretende dispor no sumário e a frase com maior peso para cada um dos assuntos
propostos é selecionada para compor o resumo.
Sistemas que dependem de ASL exemplificam a definição dos modos de pontuação
das frase. Em diversificações do algoritmo, a representação do tópico continua
a mesma, enquanto o caminho das frases são apontadas e a escolha pode variar,
intervindo no desempenho do sumarizador na escolha por conteúdo importante.
4. Modelos de tópicos Bayesianos:

Os modelos Bayesianos são populares e rebuscados para representação do tema
proposto para sumarização (CELIKYILMAZ; HAKKANI-TUR, 2010). Esse mo-
delo original, para resumos de multi-documentos, procede de diversas distribuições
probabilísticas diferentes para palavras que surgem na entrada (HAGHIGHI; VAN-
DERWENDE, 2009).
Essas representações de modelo de tópico são interessantes porque podem reter
informações que se perdem na maioria das outras abordagens, como por exemplo
uma representação evidente dos documentos individuais que compõem o conjunto. A
representação especificada concederá o desenvolvimento de sumarizadores melhores,
que poderão disseminar as afinidades e diferenças entre os variados documentos que
formam a entrada para resumos multi-documentos.
Os modelos de tópicos ressaltam a utilidade de um procedimento diferente de pon-
tuação de frases: Divergência Kullback-Lieber (KL) . A divergência KL entre duas
distribuições de probabilidade pode capturar a discordância na probabilidade referida
aos mesmos eventos (ocorrência de palavras) pelas duas distribuições. A probabilida-
de das palavras do resumo pode ser medida de maneira direta, pelo número de vezes
que a palavra ocorre dividido pelo total do número de palavras.
A divergência KL oferece uma maneira de mensurar a importância das palavras, dada
por suas probabilidades, e as alterações no resumo de acordo com a entrada.
5. Agrupamento de frases e tópicos dependentes do domínio:

Nos resumos multi-documentos de notícias, as entradas, equivalem a variados artigos
de um mesmo tema, provavelmente de diversas fontes.
Em sumarização, a similaridade do co-seno é utilizada para determinar a similaridade
entre as representações do vetor das sentenças (SALTON et al., 1997). Nesta abor-
2.4. CONSIDERAÇÕES FINAIS 33
dagem, os grupos de frases similares são tratados como representantes para tópicos;
grupos com várias frases retratam consideráveis temas de tópicos na entrada.
A abordagem apoiada em grupos de frases para sumarização de multi-documentos
pesquisa a iteração no nível da frase. Quanto maior o número de frases em um cluster,
mais a informação do grupo é considerada como importante. A restrição de cada
frase a apenas um cluster é uma desvantagem do agrupamento de frases, porém para
sumarização de um domínio específico, esse método pode dar uma boa referência
dos temas que frequentemente são discutidos e do tipo de informação que um resumo
deveria transmitir.
2.4 Considerações Finais

O grande número de dados textuais disponíveis na Web faz crescer a necessidade por
técnicas de mineração de texto potentes. A Mineração de Texto busca obter informações
relevantes de um documento de texto e por ser um campo interdisciplinar, suas vantagens podem
se fornecidas a qualquer domínio que a utilize.
Na Classificação de Texto, os documentos podem ser categorizados automaticamente em
níveis categóricos de documentos a partir de textos livres. Nos últimos anos, com o progresso
das tecnologias da Web e redes sociais aumentou-se o interesse pela classificação de documentos
de texto contendo links ou outras meta-informações.
A Clusterização é muito estudado na área de texto, essa técnica agrupa automaticamente
dados textuais com base na similaridade do texto, a fim de encontrar documentos com conteúdo
semelhante. Nos últimos anos a tendência dominante de pesquisa nesta área tem sido no contexto
de dados de texto para aplicações dinâmicas (como como redes sociais ou aplicações de chat
on-line) e heterogêneas (texto disponível no contexto das ligações e de outros dados multimídias
heterogêneos) (AGGARWAL; ZHAI, 2012a).
Diferentemente da sumarização e categorização, o ponto central da mineração de opinião
é voltado para inferências semânticas e referência afetiva relacionada com a linguagem natural, o
que não exige excessiva compreensão do texto. O contexto social inclina-se a continuar obtendo
importância e um sistema inteligente a ter ainda mais acesso a conhecimentos pessoais globais
de um amplo número de pessoas, por isso a mineração de opinião poderá ser mais característica
para cada usuário ou grupo de propensão de usuários.
A Sumarização tem sido muito pesquisada e visa produzir um resumo de um ou mais
documentos de texto. Os métodos de compactação devem ser conciliados a diversos gêneros,
como páginas Web, artigos de revistas, levando em consideração a informação baseada no
contexto que direciona a seleção das sentenças.
No próximo capítulo mostraremos a aplicabilidade da mineração de texto no campo da
Psiquiatria, apresentando as principais pesquisas na área.
34
3
Mineração de Texto para Psiquiatria
Neste capítulo, veremos mais detalhes sobre o processo de Mineração de Texto usado
na Psiquiatria. Serão discutidas algumas das principais pesquisas sobre mineração de texto,
descrevendo as técnicas utilizadas. Na seção 3.1, temos uma visão geral dessa etapa. Na seção
3.2 são abordados quatro campos de aplicação na área de psiquiatria que utilizam a técnica de
mineração de texto e pesquisas relacionadas. Nas seções 3.3 e 3.4 são discutidas as relações
entre os trabalhos relacionados apresentados e feita uma consideração a respeito do capítulo.
3.1 Visão Geral

Com a expansão da literatura biomédica, a Mineração de Texto está se tornando essencial
para facilitar a extração de texto automatizada com a finalidade de obter informações relevantes
a partir de documentos não estruturados (ABBE et al., 2015). A combinação das técnicas de
Inteligência Artificial, Processamento de Linguagem Natural e Recuperação de Informação,
ajuda a Mineração de Dados na compreensão da complexa metodologia analítica da linguagem
escrita (COHEN; BLATTER; PATEL, 2008) (RZHETSKY; SERINGHAUS; GERSTEIN, 2009).
O primeiro uso da MT foi em informações de segurança para agências governamentais,
com a finalidade de detectar alertas terroristas e outras ameaças a segurança e só posteriormente
foi adaptado a outros campos, como a medicina (MEYSTRE et al., 2008). As ferramentas de
MT estão se tornando mais precisas e sofisticadas, ao ponto de poderem ser aplicadas a áreas
generalizadas, como a psiquiatria por exemplo.
3.2 Campos de Aplicação

Esta seção apresenta trabalhos que utilizam a mineração de texto no campo da psiquiatria.
Os trabalhos estão subdivididos em quatros áreas, de acordo com os principais temas identificados
no estudo de (ABBE et al., 2015): (1) Psicopatologia (estudos com foco em doenças mentais); (2)
Perspectiva do paciente (pensamentos e opiniões de pacientes); (3) Registros médicos (segurança,
descrição de tratamentos, qualidade dos cuidados, etc.) e (4) Literatura médica (reconhecimento
3.2. CAMPOS DE APLICAÇÃO 35
de novas informações científicas na literatura).
3.2.1 Psicopatologia
A psicopatologia, que estuda o sofrimento mental, pode ter registros de documentos de
pacientes com observações ou narrativas escritas.
A MT pode ser útil na identificação de características semânticas específicas para um
determinado estado psicológico ou doença. Dentre os trabalhos que possuem esse foco, pode-se
citar o de (BERNARDI; TUZZI, 2011), que ilustra exemplos do uso de medidas quantitativas
baseadas em textos léxicos dentro de um contexto particular de comunicação. O trabalho
desenvolvido tem por base um corpus composto de doze ensaios produzidos, por seis indivíduos
com autismo e seis participantes sem nenhuma deficiência, durante sessões de comunicação
facilitada. O objetivo principal é comparar a comunicação escrita de pacientes com distúrbios do
espectro do autismo com a escrita do grupo de controle. Outros trabalhos com base similar são
mencionados a seguir.
Piolat (PIOLAT; BANNOUR, 2009) propõe o estudo sobre o impacto da ansiedade dos
alunos através da forma como eles descrevem seus sentimentos (em texto) depois de passar ou
não em um exame. Esse desenvolvimento se deu através da análise e identificação de traços
específicos de um estado psicológico, com o uso de MT.
Outra aplicação que utiliza mineração de texto voltada a psicopatologia é descrita no
artigo de Yang (YANG et al., 2009). Esse trabalho analisa o impacto do encarceramento no
estado psicológico de reclusos que cumprem penas longas. Em um inquérito epidemiológico,
da saúde psicológica de prisioneiros na França, foram recolhidas respostas narrativas breves
de cinquenta e nove presos. Esses dados textuais serviram de base para análise de conteúdo
qualitativo e análise linguística.
Técnicas de Associação podem ser usadas no processo de mineração de texto, como por
exemplo testes de correlação (ZHANG et al., 2009). No trabalho citado, Zhang investiga o papel
dos diferentes aspectos da tensão psicológica de jovens que cometeram suicídio na zona rural
Chinesa. O estudo teve como base cento e cinco suicídios e o contexto e motivo do ocorrido
foram obtidos através de entrevistas com sobreviventes e amigos íntimos.
3.2.2 Perspectiva do Paciente

O campo de pesquisa Perspectiva do Paciente relaciona-se aos pensamentos, sentimentos
e comportamentos dos pacientes. O número de pacientes ou familiares que interagem pela
Internet e compartilham sobre experiências relacionadas as suas doenças ou terapias realizadas
para combatê-las tem crescido bastante (ABBE et al., 2015). A essas mensagens de experiências
pessoais expostas em sites, grupos de discussão, redes sociais foi dado o nome de Perspectiva do
Paciente.
Os meios de comunicação Web concedem formas para que as pessoas possam com-
partilhar opiniões e experiências de vida e auxiliar, assim, com informações que vão além das
fornecidas por profissionais do domínio. No trabalho de (CAMERON et al., 2013) é relatado o
desenvolvimento de uma plataforma Web semântica chamada PREDOSE que busca simplificar
o aprendizado epidemiológico de prescrição de atos de excesso de drogas utilizando a mídia
social. O PREDOSE utiliza posts em um fórum Web de conhecimento de domínio que são mo-
delados para uma ontologia de Abuso de Drogas elaborada de modo manual para descomplicar a
extração de informação semântica do conteúdo geral do usuário. Essa extração é feita através
da combinação de técnicas lexicais, apoiadas em semântica baseada em padrões. Avaliações
realizadas das técnicas de extração aplicadas indicaram 85% de precision e 72% de recall para
identificação de entidades, no conjunto de dados, com base em um padrão de ouro que foi criado
manualmente.
É possível predizer a saúde física e mental das pessoas de acordo com as palavras que
elas usam, porém o processo para lidar com essas palavras é complicado. No artigo (HE;
VELDKAMP; VRIES, 2012) foi desenvolvida uma técnica de avaliação textual para encontrar
pacientes que possuam Transtorno de Estresse Pós-Traumático (TEPT) . Foram usados processos
lexicais nas auto narrativas através de técnicas de mineração de texto. Foram utilizadas trezentos
relatos recolhidos on-line, e então extraídas as palavras-chaves intensamente discriminativas
para construção de um modelo de avaliação textual para classificar pessoas que possuem ou não
TEPT.
Em (NEUMAN et al., 2012) é apresentado o sistema que implementa a metodologia
pedesis para coleta das associações representativas relacionadas a depressão e para extração
dos domínios conceituais relevantes para descrevê-las. Com esse sistema é possível avaliar
automaticamente, em um texto, o nível de depressão de uma pessoa ou se a depressão é o tópico
principal abordado no documento. Ou seja, a depressão pode ser percebida de forma automática
em textos e o sistema de saúde mental poderá se favorecer desta habilidade de seleção.
Vários textos psiquiátricos, que expressam problemas depressivos, são publicados por
usuários da Internet através de serviços Web, tais como fóruns e blogs. Esses textos são escritos
em linguagem natural e podem fornecer informações sobre os problemas dos autores, como
por exemplo no estudo (WU; YU; CHANG, 2012) que demonstra a obtenção de padrões de
linguagem entre sentenças para identificação de causalidade a partir de textos psiquiátricos
disponibilizados on-line em uma clínica psiquiátrica virtual mantida por um grupo de profissio-
nais voluntários da Associação de Taiwan Mental Health Informatics.
Diversos eventos negativos, como a perda do emprego ou a morte de um ente querido,
podem provocar episódios depressivos, por isso reconhecer automaticamente tais eventos é
interessante para serviços psiquiátricos. No estudo (YU et al., 2011) são representados padrões
de linguagem de associação como processo para classificar frases que contenham eventos
negativos da vida em categorias pré-definidas (como, família, amor e trabalho, por exemplo).
No trabalho citado foi combinado um algoritmo supervisionado de mineração de dados com
um modelo semântico distribuído sem supervisão para descoberta de padrões de linguagem

de associação. Resultados experimentais apresentados por Liang-Chih Yu mostraram que os
padrões de linguagem de associação são características importantes para classificação de eventos
de vida negativos.
3.2.3 Registros Médicos

Registros Médicos (RM) que armazenam informações de pacientes de forma eletrônica
são cada vez mais usados. Nesses registros são inclusos, histórico médico, tratamentos, testes
e resultados de laboratórios entre outros. No entanto, os dados armazenados nesses registros
são desestruturados e difíceis de analisar para possivelmente detectar problemas de segurança,
sintomas, coexistência de transtornos ou doenças, características e subgrupos de terapias de
pacientes, dentre outros. (ABBE et al., 2015).
Em (ERIKSSON et al., 2013) é apresentado um método que visa identificar possíveis
Eventos Adversos (EAs) e, especialmente, possíveis Eventos Adversos a Drogas (EADs) em
narrativas clínicas dinamarquesas. Foi utilizado um resumo de características de medicamentos
de 7446 drogas para construção do dicionário EAD dinamarquês. Os dados textuais foram
estruturados para possibilitar o processo de análise computacional e partir do dicionário EAD
foi possível desenvolver um método para identificar possíveis EADS na narração textual clínica
desestruturada.
Os RMs oferecem grande oportunidade para exploração em grande proporção na psiquia-
tria, porém esses estudos necessitam de ferramentas que auxiliem na definição do resultado do
tratamento. Um exemplo de ferramenta com essa finalidade pode ser vista em (PERLIS et al.,
2012). Perlis descreve o desenvolvimento de uma ferramenta que utiliza PLN para classificar o
estado clínico transversal utilizando anotações textuais narrativas.
Outro fator ligado as pessoas com transtornos mentais é a alta prevalência do tabagismo,
importante problema de saúde pública. Visando analisar a prevalência e correlatos do tabagismo
em pessoas com doença mental grave (WU et al., 2013) foram investigados em RMs casos
diagnosticados com esquizofrenia ou transtorno bipolar. A aplicação ’CRIS-IE-Fumante’ usou
um software de PLN para extrair informações do status de fumantes, através de campos de texto
aberto.
Demonstrações de como registros de hospitais psiquiátricos podem consentir a reco-
nhecimento de correlações entre doenças podem ser vistas em (ROQUE et al., 2011). A abor-
dagem apresentada utiliza um dicionário baseado na Classificação Internacional de Ontologia de
Doenças1 e essa identificação da correlação entre as doenças pode possibilitar que elas sejam
mapeadas para estruturas de biologias de sistemas. Com a mineração de texto livre de registros
de pacientes, é possível acrescer o conhecimento das doenças, para obter um perfil abundantes
de caracteres visíveis de cada paciente.
1 https://bioportal.bioontology.org/ontologies/ICD10
3.2.4 Literatura Médica

O número de artigos da literatura biomédica vem crescendo atualmente e a exploração
dos mesmos se torna mais praticável com o uso de MT (ABBE et al., 2015). Os estudos atuais
podem abordar sobre terminologias clínicas, identificação de genes de susceptibilidade em
síndromes e reconhecimento de especialistas em um domínio científico.
Ferramentas de Mineração de Texto podem ser utilizadas para redução do trabalho de
diversas áreas, como por exemplo para produzir e manter revisões sistemáticas (WALLACE et al.,
2012). Nesse trabalho foram usados processos que resumem artigos indexados à MEDLINE em
campos inteiros exercendo técnicas de revisão sistemática e conclui-se que as metodologias de
mineração podem reduzir o trabalho de atualização das revisões sistemáticas
Na área biomédica as técnicas de MT podem extrair automaticamente informações
relevantes de grandes volumes de publicações que complementam métodos de bioinformática na
análise de dados gerados experimentalmente, como em (GONG et al., 2012) que disponibiliza
uma abordagem para prever genes de susceptibilidade do autismo da literatura biomédica. Os
resultados prognosticados integram a base de dados típica dos genes de susceptibilidade de
autismo.
A manifestação de doenças genéticas está ligada a uma rede de genes causativa e definir
a associação entre essa rede de genes e as possíveis doenças conexas pode ser um processo
complexo. O estudo (SARKAR, 2012) pesquisa a relação entre essas doenças por meio da
adequação de uma abordagem precursora no âmbito da recuperação de informação, o modelo
espaço vetorial. Os resultados do trabalho citado sugeriram que o uso da abordagem do modelo
espaço vetorial pode ser útil para identificação de novas potenciais relações entre doenças
complexas, para assim permitir a coordenação dos resultados baseados nos genes de várias
doenças complexas.
A área de Estimulação Magnética Transcraniana (EMT) possui papel importante na
psiquiatria, neurologia e neurociência e há vários comentários de elevada qualidade sobre essa
área que podem auxiliar no parecer de tendências pré-definidas, porém não permitem encontrar
novas tendências dentro da literatura (DIAS et al., 2011). Nesse trabalho, a mineração de dados
e mineração de texto é usada para descoberta de padrões dentro da literatura de EMT em sua
totalidade, tal como as tendências inerentes da bibliografia atual sobre EMT para o tratamento
da depressão.
Em biomedicina, parte relevante da literatura publicada está disponível de forma eletrônica,
incitando o desenvolvimentos de aplicações de mineração de texto para extração automática de
informações (AGARWAL; YU; KOHANE, 2011). Porém, os trabalhos de mineração de texto
inclinam-se a se concentrar apenas em eventos positivos. Nesse trabalho, Agarwal propõe que
eventos biomédicos negados carregam significância científica que podem ajudar pesquisadores a
formular hipóteses de investigação e desenvolve o BioNOT, um banco de dados de frases negadas
que podem ser usadas para extração dos eventos negados.

Como visto neste capítulo, a mineração de texto na área da psiquiatria já conta com várias
pesquisas. Essas pesquisas podem ser divididas em quatro campos de aplicação: psicopatologia,
perspectiva do paciente, registros médicos e literatura médica.
O Apêndice A.1 compara os trabalhos relacionados citados neste capítulo, relatando
algumas técnicas de pré-processamento e extração de conhecimento utilizadas pelos mesmos. Os
campos de aplicação são apresentados através de números, da seguinte forma: (1) Psicopatologia;
(2) Perspectiva do Paciente; (3) Registros Médicos e; (4) Literatura Médica.
Em psicopatologia, a maioria dos trabalhos citados utilizaram apenas a técnica de toque-
nização no pré-processamento textual, o trabalho de (BERNARDI; TUZZI, 2011) usou a técnica
de stemming para realização da análise sintática e o trabalho de (PIOLAT; BANNOUR, 2009) fez
uso de ontologias para análise semântica. Com a toquenização, as informações dos documentos
são alteradas para uma seguimento de caracteres delimitados por sinais primitivos como ponto,
vírgula e espaço. Ainda nesse campo, o aprendizado não supervisionado foi usado em apenas um
trabalho ( (BERNARDI; TUZZI, 2011)), os demais utilizaram aprendizado supervisionado, mas
especificamente técnicas de classificação. A tarefa de classificação, uma das mais conhecidas e
usadas, faz uso de aprendizagem de máquina para categorização de documentos.
Os trabalhos citados no campo de perspectiva do paciente apresentaram, além da toqu-
enização, a remoção de stopwords para análise morfológica. Com a remoção de stopwords, as
palavras comuns nos textos, como preposições, pronomes e artigos são eliminadas. Ainda no
pré-processamento textual, um dos trabalhos apresentados (WU; YU; CHANG, 2012), realizou
análise sintática , enquanto que (CAMERON et al., 2013) e (YU et al., 2011) analisaram o texto
com foco na semântica, através do reconhecimento de entidades mencionadas ou de etiquetagem
. Todos os trabalhos desse campo de aplicação, usaram aprendizado supervisionado, um deles
com a técnica de regressão logística (NEUMAN et al., 2012) e os demais com a de classificação.
Na área de registros médicos, em relação a análise morfológica, foi citado apenas o uso da
toquenização, já quanto a análise semântica tiveram trabalhos que utilizaram etiquetagem (HAAS
et al., 2014) (WU et al., 2013) e ontologia (ERIKSSON et al., 2013). No processo de mineração,
os trabalhos relacionados empregaram, além da classificação, os métodos de regressão e de
correlação.
No último campo de aplicação apresentado no capítulo, literatura médica, os trabalhos
apresentados usaram a toquenização e etiquetagem no pré-processamento do texto e tiveram
maior diversidade no processo de mineração, com as seguintes práticas: classificação, regras de
associação, co-ocorrência, similaridade e clusterização.
A área da psiquiatria tem buscado na mineração de texto, formas de auxílio para extração
do conhecimento de textos livres e científicos, a partir da extração de padrões e tendências dos
textos escritos em linguagem natural.
O capítulo a seguir apresentará o processo de desenvolvimento do classificador proposto
neste trabalho, o DisorderClassifier, que faz uso da mineração de texto para categorização de
transtornos mentais.
41
4
DisorderClassifier: classificação de texto para
categorização de transtornos mentais
No capítulo 2, foram expostos conceitos e etapas da Mineração de Texto, assim como

tarefas onde essa técnica pode ser aplicada, como por exemplo a Classificação de Texto. Já no
capítulo 3, vimos aplicações da mineração de texto na área da psiquiatria, principal foco dessa
pesquisa.
Propomos aqui o DisorderClassifier, método de classificação de texto para categorização
de depoimentos de acordo com o transtorno mental indicado pelo autor do texto. Esse método
foi implementado como um módulo do sistema Web Entendendo Meu Transtorno, um sistema
que disponibiliza ao usuário depoimentos pessoais sobre transtornos mentais, classificados de
acordo com a Taxonomia DSM-5. O sistema também conta com vídeos e conteúdos diversos
sobre a área de transtornos mentais.
O desempenho alcançado pelos algoritmos na classificação de texto pode variar de acordo
com as técnicas usadas na etapa de pré-processamento dos dados, de acordo com os parâmetros
adotados pelo próprio algoritmo. Por isso, foram realizados vários experimentos a fim de escolher
a técnica mais adequada ao nosso contexto.
Este capítulo se dedica a apresentar o trabalho desenvolvido nesta pesquisa de mestrado,
e está organizado em 5 seções. Na seção 4.1 é definido o problema que buscamos resolver; na
seção 4.2 é mostrada a arquitetura geral do sistema, seguida de uma breve descrição sobre a
mesma; a seção 4.3 descreve o módulo de classificação de texto (DisorderClassifier), relatando
as etapas de mineração de texto usadas, que é o foco principal do nosso trabalho; a seção 4.4
refere a interface do sistema, a saída final vista pelo usuário; por fim, a seção 4.5 traz uma breve
conclusão do capítulo.
4.1 Caracterização do Problema

Como visto no Capítulo 2, a Mineração de Texto pode contar com várias etapas, resu-
midas em: pré-processamento, extração do conhecimento e pós-processamento. Classificação
4.2. ARQUITETURA GERAL 42
de Texto é uma das tarefas da MT que objetiva classificar cada instância de um conjunto de
dados com base nos valores de seus atributos. Coleções de documentos organizadas de forma
hierárquica podem ser úteis para navegação e recuperação de informação (AGGARWAL; ZHAI,
2012a).
A maioria das pessoas sente necessidade de compartilhar experiências de vida, isso não é
diferente com portadores de transtornos mentais. Pode-se considerar que o formato textual é uma
das formas mais usadas para o armazenamento de informações. Existem diversos documentos
textuais com depoimentos de pessoas que vivem ou vivenciaram problemas psicológicos, e que
procuram compartilhar sua história de vida com outras pessoas com problemas semelhantes.
Essas histórias podem ser encontradas em diversas fontes como, blogs, sites de saúde, sistemas
de clínicas particulares, redes sociais.
A falta de estrutura e hierarquia na apresentação das histórias torna-se uma dificulta
para o usuário leigo e até mesmo para o profissional da área encontrar histórias que se adequem
ao contexto do seu paciente a fim de recomendar ao mesmo um conteúdo que poderá ajudá-lo
no processo de recuperação. A categorização dos documentos pode facilitar esse processo,
porém classificar o texto manualmente é um trabalho demorado e, em alguns casos, até mesmo
complexo, o que torna vantajoso a criação de um classificador de texto automático que aprenda a
partir de um conjunto de documentos previamente classificados.
O foco deste trabalho está na classificação de texto para categorização de depoimentos
pessoais com base no transtorno mental relatado no documento. Essa categorização, baseada
na taxonomia DSM-5, poderá ser visualizada no sistema Web Entendendo Meu Transtorno,
implementado para essa finalidade. Portando, propomos o DisorderClassifier, classificador
de texto escolhido de acordo com os melhores resultados de pré-processamento e variação de
parâmetros dos algoritmos de classificação.
4.2 Arquitetura Geral

A Figura 4.1 mostra a arquitetura geral do sistema Entendendo Meu Transtorno, composta
pelos seguintes módulos: aquisição dos documentos, pré-processamento dos dados textuais,
classificação de texto e interface.
As técnicas de pré-processamento e o algoritmo de classificação de texto usados no
protótipo são descritos com mais detalhes no capítulo 5 (Experimentos e Resultados).
O protótipo Entendendo Meu Transtorno foi desenvolvido para língua portuguesa, assim
sendo, todos os depoimentos usados estão em português, assim como a interface apresentada ao
usuário. Porém, já foram coletados depoimentos em inglês para criação de uma nova versão do
sistema.
A aquisição dos documentos textuais foi realizada de forma manual. Essa fase envolveu
a seleção das bases de texto, ou seja, dos relatos que constituíram os dados de interesse. Nessa
etapa, foram realizadas breves leituras de diversos depoimentos para selecionar aqueles narrados
4.2. ARQUITETURA GERAL 43
pela própria pessoa que sofreu o transtorno ou por alguém próximo a ela.
Figure 4.1: Arquitetura Geral do Sistema.
No pré-processamento dos dados textuais, houve a preparação dos dados de texto para
as fases posteriores de execução das tarefas de processamento. Nessa etapa, os textos foram
padronizados e estruturados. A seguir, realizou-se a redução dimensional dos dados.
O módulo de classificação de texto recebe os documentos pré-processados, já preparados
para extração do conhecimento. Nessa fase, um conjunto de documentos etiquetados é usado
no treinamento do algoritmo de aprendizagem de máquina, para possibilitar a categorização de
novos documentos.
O resultado da classificação é exposto no módulo de visualização, que apresentará ao
usuário os depoimentos categorizados de acordo com a taxonomia DSM-5. Através da interface
do sistema, o usuário poderá filtrar os depoimentos desejados de acordo com o transtorno metal
relatado e/ou pelo gênero do autor.
O sistema Entendendo Meu Transtorno foi implementado com o uso da linguagem Ruby
on Rails1 . Para o desenvolvimento do mesmo, foram adicionadas bibliotecas do Waikato Envi-
ronment for Knowledge Analysis (Weka)2 necessárias para o pré-processamento e a classificação
do texto.
1 http://rubyonrails.org/
2 http://www.cs.waikato.ac.nz/ml/weka/
4.3. COLETA DE DOCUMENTOS E PRÉ-PROCESSAMENTO DOS DADOS 44
4.3 Coleta de Documentos e Pré-Processamento dos Dados

Os documentos usados como base para classificação dos transtornos mentais foram
coletados de diversas fontes, tais como: redes sociais, blogs, sites voltados a saúde, livros,
entre outros. A escolha dos arquivos de texto teve como critério narrativas pessoais de quem
vive ou vivenciou experiências relacionadas a algum tipo de transtorno psicológico. Como já
mencionado, as narrativas utilizadas neste protótipo estão em português. Apesar da taxonomia
apresentada no sistema Entendendo Meu Transtorno apresentar as 22 categorias oferecidas
com suas respectivas subcategorias (Anexo B.1), para fins de classificação foram utilizadas
inicialmente apenas 4 subcategorias (Anorexia Nervosa, Espectro Autista, Transtorno Obsessivo
Compulsivo e Esquizofrenia). Foram escolhidas as subcategorias que ofereciam um maior
número de depoimentos.
O Pré-processamento dos dados é a fase mais demorada de todo o processo de des-
coberta do conhecimento, e sua complexidade pode variar de acordo com as fontes de dados
utilizadas (MUNKOVÁ; MUNK; VOZÁR, 2013).
A criação de uma representação interna do texto é essencial. Neste trabalho, foi adotado
o Modelo Espaço Vetorial (VSM - Vectorial Space Model) . Os documentos são exibidos como
vetores de identificadores em um espaço Euclidiano multidimensional, e cada uma das dimensões
corresponde a uma palavra do vocabulário (SUAREZ-TANGIL et al., 2014) (SALTON, 1989).
As palavras recebem pesos equivalentes a sua relevância a partir de sua frequência no documento.
Os documentos foram normalizados para que a similaridade entre eles seja determinada sem
levar em conta a extensão dos mesmos, considerando assim documentos de tamanhos diferentes.
O Modelo Espaço Vetorial e suas variações oferecem uma representação eficaz e eficiente
para fins de mineração, e podem ser usados para diversas aplicações, tais como: clustering,
classificação, indexação e pesquisa por similaridade (AGGARWAL; ZHAO, 2013).
Na fase de pré-processamento foram aplicadas as seguintes técnicas: toquenização,
análise da frequência de palavras, conversão de letras para minúsculas, remoção de stopwords e
stemming.
No processo de toquenização foi utilizado o algoritmo WordTokenizer, que gera o bag-
of-words. Esse tokenizer é oferecido pelo Weka para divisão das frases em tokens, através
dos seguintes delimitadores ’.,;:’"()?!’. A técnica n-gramas é outra abordagem muito usada,
ela fornece sequências contíguas de bytes, caracteres ou palavras (GRAOVAC; KOVAČEVIĆ;
PAVLOVIĆ-LAŽETIĆ, 2015). Testamos essa técnica nos experimentos, porém, no nosso caso,
ela não melhorou os resultados já obtidos sem seu uso. Na Figura 4.2 pode ser vista uma lista
de palavras geradas a partir do uso da técnica de toquenização. A lista é reordenada para que a
classe do corpus seja a última palavra.
A análise da frequência de palavras é feita pela ponderação dos termos com a utilização
da técnica TF (Frequency Term) * IDF (Inverse Document Frequency)3 . Essa técnica indica a
3 http://www.tfidf.com/
4.3. COLETA DE DOCUMENTOS E PRÉ-PROCESSAMENTO DOS DADOS 45
Figure 4.2: Exemplo de uma lista gerada a partir do uso da técnica de toquenização.
relevância de uma palavra de um documento em relação a um conjunto de documentos.

Com a ponderação TF-IDF, o peso de uma palavra aumenta a medida que cresce o
número de ocorrências da mesma, em um documento, através da ponderação TF. Porém, o
inverso da frequência do termo nos documentos, ou seja, o IDF, é integrado para minimizar o
peso dos termos mais frequentes no corpus, pois um termo que aparece em muitos documentos
não é útil para identificar relevância (SENIN; MALINCHIK, 2013).
As palavras que surgem na maioria dos documentos possuirão um valor IDF próximo a
0. Os pesos TF * IDF são eficientes na indicação de relevância, além de serem fáceis e rápidos
de calcular.
Outra técnica usada no pré-processamento foi a conversão das letras para minúsculas,
como parte da normalização do texto. Em seguida, foram deletadas as palavras de ligação
(stopwords) previamente identificadas em uma stoplist. Alguns cientistas afirmam que com a
remoção de stopwords pode haver perca de informações importantes ou que o texto pode receber
significados diferentes (MUNKOVÁ; MUNK; VOZÁR, 2013).
Além das palavras presentes na stoplist, foram deletados manualmente números presentes
no texto que estivessem soltos ou interligados a algum caractere especial, como o símbolo de
porcentagem (100%) por exemplo, além de letras avulsas (c, d, g, etc.) e caracteres como +, -, %
e etc..
A técnica de stemming, que serve para normalização morfológica, foi aplicada para
efeitos de comparação, porém não apresentou melhorias nem percas quanto a precisão do
classificador e a taxa de acerto de instâncias classificadas corretamente com o uso do algoritmo
SVM.
4.4. CLASSIFICAÇÃO DE TRANSTORNOS (DISORDERCLASSIFIER) 46
4.4 Classificação de Transtornos (DisorderClassifier)

A classificação ou categorização de documentos é um procedimento que se propõe a
atribuir uma ou mais classes pré-definidas aos documentos, para assim classificá-los em grupos
de acordo com seu conteúdo de texto (BLEIK et al., 2013).
Há diversos métodos que proporcionam a execução do treinamento e teste para construção
de um classificador. Na fase de treinamento, são apresentados exemplos ao classificador para que
ele possa conhecer e aprender a extensão textual, enquanto que os testes possibilitam a avaliação
do desempenho.
O algoritmo de classificação passa pela fase de treinamento, a partir do corpus de
documentos etiquetados, para indução de regras. Depois de validadas, as regras induzidas são
usadas para classificar novos documentos.
O módulo de classificação de texto, aqui apresentado, é responsável por determinar a
qual classe de transtorno os documentos pertencem. Como dito, consideramos no protótipo
depoimentos de quatro classes: Anorexia, Autismo, Toc e Esquizofrenia. Esse módulo recebe
como entrada um corpus de depoimentos já pré-processados e os resultados dessa classificação
servem como entradas para interface do sistema, Figura 4.3.
Figure 4.3: Módulo de Classificação.
Para indução do classificador do texto foi usado o algoritmo Support Vector Machine,
pois apresentou melhor desempenho em relação aos demais algoritmos testados. Os resultados
dos experimentos realizados podem ser vistos no Capítulo 5 dessa Dissertação.
A metodologia utilizada para treinamento e teste foi a Validação Cruzada (K-Fold Cross
Validation) com 10 folds. Com a Validação Cruzada, o conjunto de amostras inicial foi dividido
em dez subamostras. Dessas dez subamostras, uma amostra foi retirada para ser utilizada na
validação do modelo (conjunto de testes) e as k-1 (nove) subamostras ficaram compondo o
conjunto de treinamento. O processo foi então repetido dez vezes, de modo que cada uma das
4.5. INTERFACE COM O USUÁRIO 47
dez subamostras fosse utilizada ao menos uma vez como teste. O resultado final é a média
do desempenho do classificador nas dez iterações. O objetivo desta estratégia é aumentar a
confiabilidade da avaliação
4.5 Interface com o Usuário

Esta seção demonstra como ocorre a interação do usuário com o sistema. A interface, que
é o módulo de visualização do sistema, oferece acesso simples e direto aos dados, apresentando
ao usuário os depoimentos recuperados, classificados por tipo de transtorno mental. Esse módulo
recebe as saídas geradas pelo módulo anterior (Classificação de Transtornos) para apresentar ao
usuário os relatos pessoais categorizados.
Como mencionado, foram escolhidos inicialmente quatro transtornos mentais para fins
de classificação (Anorexia, Autismo, Toc e Esquizofrenia), porém na interface são oferecidas
todas as opções de transtornos categorizadas de acordo com a sugestão da taxonomia DSM-5.
O diagrama de classes do sistema pode ser visto na Figura 4.4, onde são mostradas a
estrutura e as relações entre as classes que modelam os objetos do sistema.
Figure 4.4: Diagrama de classes do sistema Entendendo Meu Transtorno.
No diagrama podem ser observados os atributos de cada classe e suas respectivas relações.
A classe User tem relação com as classes Diagnosis, Testimony, Comment, Expertise e Gender
e seus atributos se referem aos dados pessoais do usuário, que poderá se cadastrar como um
usuário simples (potencial paciente) ou um especialista (médico). A classe Disorder se refere a
transtorno mental, subcategoria da taxonomia DSM-5, enquanto que a DisorderGroup equivale
ao primeiro nível da taxonomia, ou seja, ao grupo ao qual determinados transtornos pertencem.

Testimony representa os depoimentos pessoais, alvos da classificação do sistema.
A interface foi implementada com base na estrutura de desenvolvimento Semantic UI 4
para criação dos layouts. A estrutura Semantic Ui tem por proposta a criação de interfaces
inteligentes com maior autonomia de funções para o usuário (DICKINSON, 2009)
Figure 4.5: Interface de entrada do sistema Entendendo Meu Transtorno.
A Figura 4.5 mostra a primeira tela vista pelo usuário, antes de se logar ao sistema. Ela é
subdividida em três partes. O usuário poderá visualizar uma breve explicação sobre o site, sobre a
4 http://semantic-ui.com/
definição de transtornos mentais e sobre a classificação DSM-5. Nessa tela inicial são oferecidas
as opções de entrar ou cadastrar-se, de saber sobre o trabalho desenvolvido e de contatos.
Ao escolher a alternativa Cadastre-se, o usuário é direcionado para página de cadastro
(Figura 4.6), onde digitará seus dados pessoais e, se for médico, poderá marcar a opção que
indica sua profissão e fornecer seu número do Conselho Regional de Medicina (CRM).
Ao se logar no sistema, o usuário simples terá como opção visualizar depoimentos
pessoais relacionados a transtornos mentais e filtrar sua pesquisa por tipo de transtorno, gênero e
faixa etária do autor ou da pessoa que o autor trata no texto (Figura 4.7). Ao escolher o botão
’Recomendados’, os relatos pessoais semelhantes ao perfil do usuário são filtrados, possibilitando
assim encontrar depoimentos adequados ao seu contexto sem a necessidade de procurar em todo
o corpus disponível.
Figure 4.6: Tela de Cadastro para o usuário
Ao visualizar um depoimento, o usuário poderá fazer comentários (Figura 4.8) de forma

anônima ou não, e interagir assim com outras pessoas cadastradas no sistema. O comentário é
vinculado ao depoimento exposto e só poderá ser visto através da seleção daquele determinado
depoimento.
Além de visualizar ou fazer comentários a respeito dos depoimentos propostos, também
é oferecido ao usuário do sistema a opção de cadastrar seu próprio depoimento (Figura 4.9). Ao
inserir um novo depoimento, são requeridas informações adicionais, tais como, o título do texto,
o transtorno mental ao qual o texto está associado, a faixa etária e o gênero da pessoa sobre a
qual o depoimento se relaciona.
Quem se registrar como médico poderá cadastrar pacientes (informando os dados pessoais
deles), e a partir dai uma senha automática, padronizada como ’paciente’, é gerada para os
mesmos (Figura 4.10).
Figure 4.7: Visualização dos depoimentos e opções de filtro
Figure 4.8: Comentários vinculados aos depoimentos.
Um médico pode ter vários pacientes cadastrados na sua conta, porém é necessário
selecionar um deles para que seu perfil possa ser considerado na atribuição de contexto a possíveis
depoimentos arquivados. Para o estabelecimento do contexto do paciente, o médico além de
fornecer seu gênero e sua faixa etária (através do fornecimento da data de nascimento), também
Figure 4.9: Adição de um novo depoimento.
poderá propor seu diagnóstico (Figura 4.11). Ou seja, ao selecionar os pacientes cadastrados, o
médico poderá realizar pesquisas e cadastros de depoimentos de forma individualizada.
Figure 4.10: Cadastro de pacientes.
Da mesma forma que os usuários simples, o médico poderá filtrar, visualizar, cadastrar
e fazer comentários sobre depoimentos de transtornos mentais, porém com a indicação do
paciente ao qual deseja indicar a leitura do depoimento. Os pacientes cadastrados pelos médicos
poderão acessar diretamente o sistema através da senha gerada automaticamente na finalização
do cadastro.
Existe um terceiro tipo de usuário, o administrador do sistema. O administrador é o
Figure 4.11: Descrição do diagnóstico do paciente.
responsável por cadastrar os níveis e subníveis de transtornos mentais (Figura 4.12) para possíveis
atualizações da taxonomia.
Figure 4.12: Lista de transtornos cadastrados pelo administrador
Todos os perfis de usuários podem cadastrar e visualizar vídeos relacionados à descrição

do sistema, para complementação do conhecimento sobre transtornos mentais (Figura 4.13). Os
vídeos podem ser diversos, desde depoimentos, entrevistas, aulas até reportagens.
Figure 4.13: Vídeos relativos a transtornos mentais

Neste capítulo, foi apresentado o DisorderClassifier, um método para classificação
de texto que objetiva categorizar relatos pessoais por tipo de transtorno mental. O método
de classificação aqui proposto foi implementado e vinculado ao sistema Entendendo Meu
Transtorno. O DisorderClassifier conta com quatro etapas principais: coleta dos documentos,
pré-processamento dos dados textuais, classificação do texto e visualização dos relatos a partir
dos resultados.
Nossas principais contribuições estão nos módulos de pré-processamento e classificação
de texto, que foram escolhidos a partir dos resultados obtidos por vários experimentos a nível
de atributos vinculados a cada técnica de pré-processamento, e particularidades associadas a
cada algoritmo de classificação, ver capítulo 5. As técnicas usadas no pré-processamento dos
dados, foram: toquenização, remoção de stopwords, stemming, análise da frequência de palavras
e conversão de letras para minúsculo. A classificação se deu através do algoritmo SVM.
No próximo capítulo, são mostrados os resultados dos experimentos, enfatizando as
técnicas de pré-processamento que proporcionaram melhor desempenho aos algoritmos de
classificação.
54
5
Experimentos e Resultados
Este capítulo apresenta os experimentos realizados para validar o método de classifi-

cação de texto usado na categorização de transtornos mentais. Como visto no capítulo 4, o
ClassifierDisorder foi utilizado no sistema web EntendendoMeuTranstorno, sistema que contém
depoimentos pessoais de pessoas que vivem ou já vivenciaram um transtorno mental.
Veremos a princípio uma descrição das bases de dados usadas no experimento (Seção 5.1),
incluindo a obtenção do corpus de depoimentos. Em seguida, temos a descrição dos experimentos
realizados, abrangendo as métricas aplicadas, procedimentos realizados e resultados obtidos.
Foram realizados dois experimentos. O primeiro experimento é referente a fase de
Pré-Processamento, que foi executada dentro deste trabalho de mestrado, afim de obter o melhor
desempenho na classificação textual (Seção 5.4.1).
O segundo experimento avalia o desempenho dos algoritmos de classificação mais usa-
dos na classificação de texto, a partir das características de pré-processamento que obtiveram
melhor resultado nos testes aplicados. O desempenho do ClassifierDisorder foi calculado usando
métricas tradicionais na classificação: Precisão Total e Curva ROC (Receiver Operating Charac-
teristic), comparando seu desempenho na área da classificação de texto voltado a depoimentos
sobre transtornos mentais.
5.1 Coleta de dados

A base de dados foi constituída a partir de diversas fontes da web (Apêndice C), tais
como: redes sociais, sites clínicos, blogs, livros, reportagens, etc. Esse processo de construção
da coleção de textos necessitou de atenção especial na identificação de depoimentos pessoais
parcialmente etiquetados por tipo de transtorno. Os depoimentos foram coletados manualmente,
pois se encontram de forma totalmente desestruturada e em variados lugares. Há blogs e
reportagens com o depoimento de apenas uma pessoa e outras fontes que nem mesmo utilizam
palavras-chaves que identifiquem que o texto se trata de uma história pessoal.
As histórias foram coletadas tendo como base a classificação DSM-5. O Manual Diagnós-
tico e Estatístico de Transtornos Mentais (DSM), feito pela Associação Americana de Psiquiatria,
5.2. PRÉ-PROCESSAMENTO 55
foi criado com o objetivo de classificar transtornos mentais através de critérios associados aos
mesmos, para assim facilitar o diagnóstico mais confiável desses distúrbios (ASSOCIATION
et al., 2013b).
Na taxonomia usada, para etiquetar os relatos, foram considerados os dois primeiros
níveis de classificação, como pode ser visto no Apêndice B.1. No entanto, quatro subcategorias
foram escolhidas para realização dos testes de classificação de texto. Essa restrição se deu devido
ao número de depoimentos encontrados por tipo de transtorno, no qual os mais frequentes foram:
Transtorno Obsessivo Compulsivo, Espectro Autista, Anorexia Nervosa e Esquizofrenia (Tabela
5.1).
Transtorno Mental Número de Depoimentos

Anorexia Nervosa 47 relatos
Espectro Autista 52 relatos
Transtorno Obsessivo Compulsivo 46 relatos
Esquizofrenia 23 relatos
Table 5.1: Transtornos Mentais que tiveram maior número de depoimentos coletados
5.2 Pré-Processamento
Dados textuais, geralmente, não são encontrados em formato adequado para extração
de conhecimento, sendo necessário muitas vezes o uso de métodos de extração e integração,
transformação, limpeza, seleção e redução de volume desses dados.
Algumas técnicas podem ser aplicadas na fase de pré-processamento dos dados: Toque-
nização, Remoção de Stopwords, Stemming, Conversão de Letras para Minúsculas e Análise da
Frequência de Palavras utilizando vetores ponderados do TF/IDF.
Nesse trabalho de mestrado, todas as técnicas citadas anteriormente foram aplicadas afim
de testar os efeitos que elas podem causar na precisão final do classificador. Os experimentos
foram realizados a partir das implementações disponibilizadas pelo Weka.
Quatro tipos de especificações de pré-processamento (Tabela 5.2) foram aplicadas. Dentre
as técnicas de pré-processamento existentes, foram escolhidas as seguintes, para realização dos
testes: toquenização, semoção de stopwords, stemming, conversão de todas as letras do texto
para minúsculas e análise da frequência das palavras.
Pré-processamento Toqueniz. Rem. Stopwords Stemming Letras Minúsculas Freq. de Palavras

PP1 X X - X X
PP2 X - - X X
PP3 X - - - -
PP4 X X X X X
Table 5.2: Parâmetros Usados no Pré-Processamento
5.3. ALGORITMOS DE CLASSIFICAÇÃO 56
No Pré-processamento PP1, apenas a técnica de Stemming não é aplicada, o texto é

dividido em tokens através da técnica de toquenização e convertido para letras minúsculas.
Palavras que não são relevantes, como artigos, pronomes, numerais e etc. são eliminadas e
a análise da frequência de palavras é feita. No PP2, não são usados os métodos Stemming e
Remoção de Stopwords, ou seja o texto continua com o mesmo volume de dados. No PP3 é
feito apenas o processo de toquenização, todos os demais são descartados, além de continuar
um grande volume de dados, ainda é desconsiderada a frequência de palavras em um texto e em
todos os documentos. E por fim, na opção PP4, todas as técnicas citadas são usadas.
O objetivo de realizar os testes com diferentes tipos de pré-processamento foi verificar
o impacto que as técnicas escolhidas teriam sobre os resultados de classificação. O filtro não
supervisionado StrintoWordVector presente no Weka 3.6, foi empregado nessa etapa.
5.3 Algoritmos de Classificação

Uma grande variedade de técnicas têm sido concebidas para a classificação de texto.
O texto pode ser modelado como dado quantitativo com frequência nos atributos de palavras,
porém esses atributos são escassos e possuem dimensionalidade alta, com frequência baixa na
maioria das palavras (AGGARWAL; ZHAI, 2012a).
Foram testados cinco algoritmos de classificação, para verificação das mudanças de
desempenho, aplicáveis no domínio de texto. Os algoritmos foram testados e avaliados com o
Weka 3.6 1 . Abaixo uma breve descrição dos algoritmos usados:
1. Decision Trees (J48): O algoritmo J48 produz árvores de classificação com base
em um acervo de dados de treinamento onde, a cada um dos nós, o algoritmo
define um atributo que, de forma eficiente, subdivide o conjunto de amostragens
em subconjuntos semelhantes e especificados por sua classe (HALL et al., 2009).
De acordo com a ocorrência do texto, determina-se a divisão mais provável e a
utiliza para fins de classificação (AGGARWAL; ZHAI, 2012a). O algoritmo tem por
critério o ganho de informações, conseguidas pelo atributo definido para subdivisão
do conjunto (HALL et al., 2009).
2. K-Nearest Neighbor (KNN): O método é utilizado na classificação automática de

texto desde o princípio dos estudos nessa área (YANG; LIU, 1999). O KNN, ou k
vizinhos mais próximos, é um método de aprendizado baseado em instâncias. Esse
método supõe que se duas instâncias são semelhantes, então elas são pertencentes a
uma mesma classe, ou seja, quando uma nova instância tem similaridade com uma
instância conhecida, a classe desta é concedida para a nova instância (MITCHELL,
1997). Essa similaridade é calculada a partir da distância das instâncias conhecidas
em relação a nova instância.
1 http://www.cs.waikato.ac.nz/ml/weka/downloading.html
5.4. METODOLOGIA DE EXPERIMENTOS 57
3. Naive Bayes: O método utiliza um modelo probabilístico que classifica o documento

com base na probabilidade dele pertencer a uma categoria de acordo com a ocorrência
de palavras presentes no texto (APHINYANAPHONGS et al., 2014) (MCCALLUM;
NIGAM et al., 1998). Portanto, o objetivo do documento é encontrar a melhor classe
para o documento. Sua base é a aplicação do Teorema de Bayes, no qual as variáveis
são independentes entre si.
4. Random Forest: O algoritmo produz uma árvore de classificação em cada iteração,

a partir de um subconjunto aleatório de atributos e instãncias de treinamento. Em
cada nó da árvore, um subconjunto aleatório de variáveis de previsão são seleciona-
dos (APHINYANAPHONGS et al., 2014).
5. Support Vector Machine (SVM): Esse modelo descreve as instâncias como pontos no
espaço e procura alcançar um hiperplano, ou conjuntos de hiperplanos, que divida
as instâncias por classes. O ponto principal desse classificador é definir os melhores
limites entre as diferentes classes e usá-los para classificação (AGGARWAL; ZHAI,
2012a). Dentre as opções de variação do SVM, encontra-se a variação otimizada
Sequential Minimal Optimization (SMO) (BALAHUR et al., 2013).
5.4 Metodologia de Experimentos

Os experimentos foram realizados com o uso da Validação Cruzada (do inglês, Cross-
Validation) para evitar a superposição dos conjuntos de teste.
A Validação Cruzada foi estratificada em dez vezes com o intuito de averiguar se o
modelo proporcionaria estimativas precisas. Ou seja, esta atribuição aleatória foi repetida dez
vezes e os resultados foram ponderados para medir o desempenho geral e reduzir assim a
variância da estimativa. Abaixo um passo-a-passo para melhor exemplificar essa validação:
O conjunto de dados é dividido em 10 subconjuntos de documentos de tamanhos

iguais, mantendo a proporção de documentos positivos e negativos em cada subcon-
junto.;
Em seguida um subconjunto é usado para teste e os outros nove para treinamento;
Essa variação do conjunto usado para teste e treinamento é repetida 10 vezes (total
de subconjuntos).
As métricas usadas para medir o desempenho dos algoritmos de classificação avaliados,

foram: Precisão e Curva ROC. Também é mostrada a porcentagem de instâncias classificadas
corretamente.
5.4.1 Testes com Variações de Parâmetros no Pré-Processamento

Como descrito na Seção 5.2, foram definidas quatro configurações de parâmetros para
a fase do pré-processamento (Tabela 5.2), com a variação das técnicas usadas no processo de
preparação dos dados. Para identificação dos melhores parâmetros a serem adotados nessa
etapa, as quatro configurações (PP1, PP2, PP3 e PP4) foram testadas em cinco algoritmos de
classificação (Árvore de Decisão (J48), KNN (IBK), Naive Bayes, Random Forest e SVM (SMO)).
Os algoritmos testados permaneceram com os parâmetros padrões já definidos no Weka 3.6,
levando em consideração apenas as variações do pré-processamento dos dados.
5.4.1.1 Precisão
A precisão é determinada pela relação entre o número de documentos classificados de

forma correta em uma determinada classe e o número de documentos classificados (corretamente
ou não) naquela classe. A Precisão é usada para verificar a qualidade dos resultados, é uma
medida de fidelidade. Quanto maior a precisão, mais precisamente a regra será correta para os
exemplos da classe.
A Precisão foi utilizada como uma das métricas para avaliar o impacto da variação
de parâmetros no pré-processamento dos dados. Os testes feitos com a utilização das quatro
especificações de pré-processamento para os cinco algoritmos de classificação citados no inicio
da subseção, primeiramente usaram as três maiores classes, quanto ao número de depoimentos
colhidos (Figura 5.1). As classes são: Anorexia, Autismo e Toc (com 47, 52 e 46 documentos
respectivamente, totalizando 145 arquivos textuais).
Figure 5.1: Precisão dos Algoritmos de Classificação com o Uso de Três Classes
(Autoria Própria).
Ao aplicar os quatro tipos de pré-processamento citados na Tabela 5.2, com o uso dos
respectivos algoritmos de classificação, Árvore de Decisão (J48), KNN (IBK), Naive Bayes,
Random Forest e SVM (SMO), foram obtidas as seguintes Matrizes de Confusão (para três
classes):
Figure 5.2: Matrizes de Confusão do Algoritmo J48 (Autoria Própria).
Figure 5.3: Matrizes de Confusão do Algoritmo KNN (Autoria Própria).
Como pode ser visto na Figura 5.2, os melhores resultados são conseguidos com o uso
dos pré-processamentos PP1 e PP4, em ambos é feita a análise de frequência das palavras, a
conversão das letras para minúsculas, a toquenização e a remoção de stopwords. A diferença
entre os melhores pré-processamentos para esse caso específico está no uso do stemming, o PP4
faz uso dessa técnica e o PP1 não. Porém, o stemming não interviu no resultado da matriz de
confusão desses dois pré-processamentos. Nos testes com algoritmo de classificação Árvore
de Decisão, o pior resultado foi tido com o uso do pré-processamento PP3, que usou apenas a
técnica de toquenização.
Os resultados das técnicas de pré-processamento usadas para a classificação com o
algoritmo KNN, são mostradas nas matrizes de confusão (Figura 5.3). Como visto, independente
do pré-processamento aplicado, todos os resultados foram inferiores aos do algoritmo Árvore de

Decisão. O pior resultado alcançado para as predições das classes Anorexia e Autismo, foi com
o pré-processamento PP4, porém para predição da classe Toc, os pré-processamentos inferiores
foram PP1 e PP3, com resultados iguais.
Figure 5.4: Matrizes de Confusão do Algoritmo Naive Bayes (Autoria Própria).
Figure 5.5: Matrizes de Confusão do Algoritmo Random Forest (Autoria Própria).
O algoritmo Naive Bayes, em geral, apresentou resultados inferiores ao algoritmo Árvore

de Decisão e superiores ao KNN (Figura 5.4). O número de acertos do algoritmo Naive Bayes nas
classes Anorexia e Autismo é menor do que os presentes nos resultados da Árvore de Decisão e
em relação a classe Toc, nos pré-processamentos PP1 e PP4 também é inferior ao número de
acertos do algoritmo KNN.
Os resultados conseguidos com o algoritmo Random Forest foram muito bons em
comparação ao Naive Bayes e KNN (Figura 5.5). Em confronto com Árvore de Decisão, o
Random Forest teve desempenho igual nas classes Autismo e Toc do pré-processamento PP4 e
superior na classe Toc com PP1 e Autismo com PP3. Os pré-processamentos mais eficientes
nessa execução, assim como na Árvore de Decisão, foram os PP1 e PP4. O PP4 faz uso do
stemming e em contraposição ao PP1, teve mais acertos na classe Autismo e mais erros nas
classes Anorexia e Toc.
Figure 5.6: Matrizes de Confusão do Algoritmo SVM (Autoria Própria).
O algoritmo SVM se mostrou o mais eficiente nos testes de classificação de texto

(Figura 5.6). Nos pré-processamentos PP1, PP2 e PP4 houve apenas um único erro de predição na
classe Anorexia. No PP3 que não usa as técnicas de análise de frequência de palavras, conversão
de letras para minúsculas, remoção de stopwords e stemming, houveram seis erros de predição
ao total, três na classe Anorexia, dois na classe Autismo e um na classe Toc.
Figure 5.7: Precisão dos Algoritmos de Classificação com o Uso de Quatro Classes
(Autoria Própria).
Em seguida, foram feitos os mesmos testes (de variações das especificações na fase de
pré-processamento) com o acréscimo de uma classe Figura 5.7, denominada Esquizofrenia (com
23 documentos). A adição dessa classe com menor número de depoimentos contribuiu para
diminuição do valor da precisão, nas quatro especificações de pré-processamento testadas nos
cinco algoritmos, diminuindo assim o desempenho do classificador.
Como visto, os resultados demonstrados em termos de Precisão, apontaram que os
pré-processamentos que obtiveram melhor desempenho, tanto com o uso de 3 classes como de 4
classes, foram PP1 e PP4, ou seja, a utilização das técnicas de análise da frequência de palavras,
conversão das letras para minúsculas, remoção de stopwords e stemming contribuíram para o
melhor desempenho dos algoritmos de classificação. Apenas para a utilização do algoritmo KNN,
que possui o pior desempenho nos testes realizados, PP2 e PP3 mostraram valores superiores.
5.4.1.2 Curva ROC
A Curva ROC é um método para visualizar e comparar a performance dos classificadores.

Para construção da Curva ROC são geradas várias tabelas de classificação, com valores de
corte que variam entre 0 e 1, onde são calculadas a sensibilidade e a especificidade de cada
valor (FAWCETT, 2006). A Curva ROC é um resumo estatístico útil para a determinação do
desempenho do teste.
Na Figura 5.8 e na Figura 5.9 podemos observar os valores da Curva ROC obtidos nos
experimentos realizados com três e quatro classes respectivamente. É gerada uma Curva ROC
para cada conjunto e calculada uma média entre eles, onde o valor 1 é o melhor resultado que
pode ser obtido, para porcentagem de amostras corretamente classificadas como positivas, dentre
todas as positivas reais.
Figure 5.8: Resultados da Área da Curva ROC com o Uso de Três Classes (Autoria
Própria).
Assim, como demonstrado através da métrica de Precisão, a Curva ROC também apre-
sentou melhores desempenhos para as especificações PP1 e PP4 em quatro dos cinco algoritmos
testados, porém a diferença de valor obtido das demais especificações foi pequena.
Figure 5.9: Resultados da Área da Curva ROC com o Uso de Quatro Classes (Autoria
Própria).
Portanto, a maioria dos algoritmos se beneficiaram em questão de competência de

classificação com a utilização das seguintes técnicas: toquenização, remoção de stopwords,
conversão de letras para minúsculo, análise da frequência de palavras e em alguns casos com uso
do stemming. Com exceção do algoritmo KNN, cujo desempenho se mostrou inferior com o uso
das técnicas de pré-processamento dos dados.
5.4.2 Testes com Variações de Parâmetros nos Algoritmos de Classificação

Com o objetivo de verificar se a variação dos parâmetros usados em cada algoritmo de
classificação poderia aumentar o desempenho do classificador, foram realizados experimentos
com os melhores resultados obtidos nos testes de variação do pré-processamento 5.3, vistos na
Seção 5.4.1.
Especificações e Resultados
Algoritmo
Nº de Classes Pré-processamento Precisão Acertos
Decision Tree (J48) 3 classes PP1 e PP4 0,961 95,8621%
Decision Tree (J48) 4 classes PP1 e PP4 0,924 92,2619%
KNN 3 classes PP3 0,804 59,3103%
KNN 4 classes PP3 0,738 54,7619%
Naive Bayes 3 classes PP4 0,874 86,2069%
Naive Bayes 4 classes PP2 0,823 74,4048%
Random Forest 3 classes PP1 0,949 94,4828%
Random Forest 4 classes PP4 0,908 89,8810%
SVM (SMO) 3 classes PP1, PP2 e PP4 0.993 99,3103%
SVM (SMO) 4 classes PP1 e PP4 0,962 95,8333%
Table 5.3: Pré-processamento com Melhor Desempenho para cada Algoritmo
Em seguida, experiências foram realizadas com as variações das especificações presentes

para cada algoritmo de classificação, possibilitando assim, a análise dos impactos que cada
componente relacionado ao algoritmo poderia causar no resultado final. A seguir serão mostradas
as descrições padrões dos algoritmos e os resultados das práticas efetuadas.
5.4.2.1 Decision Tree (J48)
Como apresentado na Tabela 5.3, os melhores resultados obtidos pelo algoritmo J48
foram tidos com o uso dos pré-processamentos PP1 e PP4, com precisão de 0,961 e Curva ROC
de 0,965 para 3 classes e precisão de 0,924 e Curva ROC de 0,946 para 4 classes, que equivale a
uma taxa de instâncias classificadas corretamente de 95,8621% e 92,2619% respectivamente.
A árvore gerada pela execução com 3 classes (Figura 5.10) obteve o mesmo resultado
com PP1 e PP4, a única diferença foi no tempo necessário para gerar o modelo, que foi maior
com o PP4 (0.7 segundos).
Figure 5.10: Árvore de Decisão (J48) com o uso de 3 classes
De acordo com a árvore de decisão com 3 classes, as palavras mais significativas

encontradas foram rivotril para classe Anorexia, rivotril e toc para classe Toc e sons, filho e
autista para classe Autismo.
Na árvore com 4 classes (Figura 5.11), com o acréscimo da classe Esquizofrenia, a palavra
lugares se tornou a mais relevante da classe Anorexia, as palavras rivotril e toc continuaram
como as mais significativas para classe Toc, com o acréscimo da palavra lugares. As palavras
mais consideráveis da classe Autismo continuaram as mesmas constadas na árvore com base em
3 classes e com o acréscimo da classe Esquizofrenia, essa teve como termo mais importante a
própria palavra esquizofrenia.
Dos parâmetros relativos ao algoritmo J48, descritos no Weka, podem ser citados: (1)
confidenceFactor e (2) minNumObj. O parâmetro confidenceFactor, por padrão possui o valor
Figure 5.11: Árvore de Decisão (J48) com o uso de 4 classes
0.25, e equivale ao fator de confiança utilizado para poda, enquanto que o parâmetro minNumObj
condiz ao número mínimo de casos por folha, e tem por padrão o valor 2.
Para realização dos experimentos, o valor de confidenceFactor foi alterado para 0.1 e 0.5,
e o valor de minNumObj para 1 e 10, respectivamente. O traço ’-’, presente em alguns espaços
das tabelas, equivale a nenhuma mudança no valor da precisão e da Curva ROC.
Parâmetro Valor Precisão Curva ROC

confidenceFactor 0.1 - -
minNumObj 1 menor (0.953) menor (0.954)
Table 5.4: Resultados das Alterações de Parâmetros do Algoritmo J48 com PP4 e 3
Classes
Parâmetro Mudança Precisão Curva ROC

minNumObj 1 - maior (0.949)
Table 5.5: Resultados das Alterações de Parâmetros do Algoritmo J48 com PP4 e 4
Classes
As modificações feitas nas especificações do algoritmo J48 não apresentaram melhorias

significativas (Tabela 5.4 e Tabela 5.5). A alteração do valor do fator de confiança usado para a
poda (confidenceFactor), tanto para um número inferior (0.1), quanto para um número superior
(0.5) ao valor padrão, não proporcionou mudanças no desempenho do classificador. Um modesto
aumento no valor da área da Curva ROC foi constatado ao se alterar o parâmetro correspondente
ao menor número permitido de casos por folha (minNumObj) para o valor 1 no teste com 4
classes, porém, isso não trouxe melhorias na precisão do modelo. Ao contrário, as mudanças
nesse parâmetro diminuíram a precisão e a Curva ROC dos demais casos.
5.4.2.2 KNN
Os melhores resultados obtidos pelo algoritmo KNN se deram com a utilização das
especificações do pré-processamento PP3, onde alcançou precisão de 0,804 e Curva ROC de
0,681 para 3 classes e precisão de 0,738 e Curva ROC de 0,693 para 4 classes, que equivale a
uma taxa de instâncias classificadas corretamente de 59,3103% e 54,7619% respectivamente.
Dentre os parâmetros do algoritmo KNN, podem ser mencionados: (1) knn, (2) Cross-
Validate e (3) distanceWeighting. O parâmetro KNN por padrão recebe o valor 1 e refere-se ao
número de vizinhos que serão usados; O CrossValidate é responsável por selecionar o melhor
valor k entre 1 e o valor especificado no parâmetro knn, porém vem desativado; E o parâmetro
distanceWeighting responsável por obter o método da distância de ponderação utilizada, por
padrão não utiliza ponderação de distância .
Para realização dos experimentos, o valor de knn foi alterado para 2, 5 e 10; o CrossVali-
date foi ativado e o parâmetro distanceWeighting foi mudado para Weight by 1/distance e Weight
by 1-distance.
Os experimentos praticados pela variação de parâmetros do algoritmo KNN, com 3
classes, mostrou mudanças em alguns dos resultados para determinadas medidas (Tabela 5.6):

knn 2 maior (0.831) maior (0.831)
knn 5 maior (0.865) maior (0.956)
knn 10 maior (0.854) maior (0.952)
CrossValidate true - -
distanceWeighting Weight by 1/distance - maior (0.731)
distanceWeighting Weight by 1-distance - maior (0.729)
Table 5.6: Resultados das Alterações de Parâmetros do Algoritmo KNN com PP3 e 3
Classes
As alterações efetuadas nas medidas padrões do algoritmo, com o uso de 4 classes,

também mostraram mudanças no quesito desempenho do classificador (Tabela 5.7).
As alterações realizadas nos parâmetros do algoritmo KNN melhoraram o desempenho
do mesmo significativamente. O maior desempenho alcançado para o modelo com 3 classes
com as configurações padrões havia sido com precisão de 0,804 e Curva ROC de 0,681 e com a
variação do parâmetro knn para o valor 5, a precisão aumentou para 0,865 e a Curva ROC para
0,956. Com isso a porcentagem de acertos do algoritmo, em relação as instâncias classificadas

knn 2 menor (0.619) maior (0.831)
knn 5 maior (0.789) maior (0.897)
knn 10 menor (0.609) maior (0.887)
CrossValidate true - -
distanceWeighting Weight by 1/distance - maior (0.77)
distanceWeighting Weight by 1-distance - maior (0.772)
Table 5.7: Resultados das Alterações de Parâmetros do Algoritmo KNN com PP3 e 4
Classes
corretamente, passou de 59,3103% para 76.5517%. com a variação de knn para 5, o modelo com
4 classes, também apresentou elevação no valor da precisão para 0.789 e da Curva ROC para
0.897, com diferença no valor da porcentagem de acertos (67.2619%), que foi menor do que o
teste com 3 classes, porém maior do que o valor obtido com a representação padrão.
5.4.2.3 Naive Bayes
Os melhores resultados obtidos pelo algoritmo Naive Bayes se deram com a utilização
das especificações dos pré-processamentos PP4 para o modelo com 3 classes (com precisão =
0.874 e Curva ROC = 0.899) e PP2 para o modelo com 4 classes (com precisão = 0.823 e Curva
ROC = 0.851), equivalente a, respectivamente, 86.2069% e 74.4048% de instâncias classificadas
corretamente.
Dentre os parâmetros do algoritmo Naive Bayes, podem ser especificados: (1) useKernel-
Estimator e (2) useSupervisedDiscretization. Ambos os parâmetros vem desabilitados por padrão.
O useKernelEstimator quando ativado usa um estimador de kernel para atributos numéricos, em
vez de uma distribuição normal e o useSupervisedDiscretization usa discretização supervisionada
para converter atributos numéricos para as nominais. Para realização dos experimentos, os dois
parâmetros foram ativados.
As experiências realizadas com as mudanças das configurações dos parâmetros do
algoritmo Naive Bayes, com 3 classes, mostraram alterações em alguns resultados (TABELA
5.8):
Parâmetro Opção Precisão Curva ROC

useKernelEstimator true menor (0.851) menor (0.884)
useSupervisedDiscretization true maior (0.958) maior (0.999)
Table 5.8: Resultados das Alterações de Parâmetros do Algoritmo Naive Bayes com PP4
e 3 Classes
Os resultados conseguidos pela variação de parâmetros no modelo com 4 classes, são

exibidos na Tabela 5.9.
As modificações realizadas nas especificações padrões, mostraram aumento de desem-
penho pela mudança do último parâmetro (useSupervisedDiscretization). A precisão do modelo
com 3 classes variou de 0,874 para 0.958 e a Curva ROC de 0.899 para 0.999, obtendo uma taxa
Parâmetro Opção Precisão Curva ROC

useKernelEstimator true menor (0.804) menor (0.859)
useSupervisedDiscretization true maior (0.916) maior (0.992)
Table 5.9: Resultados das Alterações de Parâmetros do Algoritmo Naive Bayes com PP2
e 4 Classes
de acertos de 95.1724%, consideravelmente maior do que a obtida com o parâmetro desativado,

que era de 86,2069%. Os resultados do modelo com 4 classes, com a mudança do mesmo
parâmetro, variaram quanto a precisão de 0,823 para 0.916, a Curva ROC de 0.851 para 0.992 e a
taxa de acertos de 74,4048% para 91.0714%. Ou seja, o uso da discretização supervisionada para
conversão atributos numéricos para as nominais possibilitou maior desempenho para o algoritmo
Naive Bayes.
5.4.2.4 Random Forest
Os melhores resultados obtidos pelo algoritmo Random Forest se deram com a utilização
das especificações de pré-processamento PP1 para o modelo com 3 classes (Precisão = 0,949 e
Curva ROC = 0.991) que obteve 94,4828% de instâncias classificadas corretamente e PP4 para o
modelo com 4 classes (Precisão = 0,908 e Curva ROC = 0.984) com 89,8810% de acertos.
Em relação aos parâmetros do algoritmo Random Forest, podemos citar: (1) maxDepth,
(2) numFeatures e (3) numTrees. O parâmetro maxDepth tem o valor 0 por padrão e equivale a
profundidade máxima das árvores; o numFeatures, que também possui 0 como valor padrão, é o
número de atributos para ser usado em seleção aleatória; e o numTrees, que tem por padrão o
número 100, condiz ao número de árvores a serem geradas.
Para realização dos experimentos, os valores de maxDepth e numFeatures foram alterados
para -1 e 10 e o valor de numTrees foi modificado para 50 e 150.
Os testes feitos com a modificação de parâmetros do algoritmo Random Forest, com 3
classes, apresentou resultados diferentes em alguns fatores (Tabela 5.10). Na tabela 5.11 são
mostrados os resultados dos experimentos com 4 classes.

maxDepth -1 menor (0.937) maior (0.994)
maxDepth 10 menor (0.937) menor (0.988)
numFeatures -1 menor (0.937) maior (0.994)
numFeatures 10 menor (0.901) menor (0.984)
numTrees Para 50 menor (0.934) -
numTrees Para 150 menor (0.948) maior (0.994)
Table 5.10: Resultados das Alterações de Parâmetros do Algoritmo Random Forest com
PP1 e 3 Classes
De acordo com as variações executadas nas medidas do algoritmo Random Forest, as

alterações no valor da profundidade máxima das árvores (maxDepth, em quase todos os casos,
elevaram valores na área da Curva ROC, porém não interferiu no valor da precisão. Nenhuma

maxDepth -1 menor (0.867) maior (0.988)
maxDepth 10 menor (0.870) maior (0.987)
numFeatures -1 menor (0.867) maior (0.988)
numFeatures 10 menor (0.888) maior (0.987)
numTrees 50 menor (0.872) menor (0.969)
numTrees 150 menor (0.872) maior (0.988)
Table 5.11: Resultados das Alterações de Parâmetros do Algoritmo Random Forest com
PP4 e 3 Classes
das alterações realizadas possibilitou maior desempenho ao algoritmo Random Forest, quanto ao
quesito precisão.
5.4.2.5 SVM (SMO)
Os melhores resultados obtidos pelo algoritmo SVM (SMO) se deram com a utilização das
especificações do pré-processamento PP1, PP2 e PP4 para o modelo com 3 classes (Precisão=
0.993 e Curva ROC= 0.997) e PP1 e PP4 para o modelo com 4 classes (Precisão= 0.962 e
Curva ROC= 0.986), com respectivamente 99.3103% e 95.8333% de instâncias classificadas
corretamente.
Em meio aos parâmetros do algoritmo SMO, descritos no Weka, podem ser destacados:
(1) c, que equivale ao parâmetro de complexidade C e (2) Kernel, que escolhe o kernel que será
usado. O parâmetro c tem o valor 1.0 como padrão e o kernel tem por opção padrão o PolyKernel
-C 250007 -E 1.0.
Para realização dos experimentos, o valor de c foi alterado para 0 e 10; e a opção de
Kernel foi alterada para as demais disponíveis, normalizepolykernel, puk e RBFKernel.
Os experimentos feitos através da variação de valores nos parâmetros do algoritmo SVM,
com os modelos com 3 e 4 classes, mostraram os seguintes resultados (Tabela 5.12) e (Tabela
5.13).

c 0 menor (0.105) menor (0.5)
c 10 - -
kernel normalizepolykernel menor (0.98) menor (0.987)
kernel puk menor (0.455) menor (0.515)
kernel RBFKernel menor (0.98) menor (0.985)
Table 5.12: Resultados das Alterações de Parâmetros do Algoritmo SVM com PP1 e 3
Classes
O algoritmo SVM possui desempenho elevado com a utilização os parâmetros padrões.

As alterações feitas nos parâmetros não apresentaram melhorias no desempenho do modelo. Ao
contrário, a escolha por outras opções de kernel diminuíram a Precisão e o valor da Curva ROC.

c 0 menor (0.078) menor (0.5)
c 10 - -
kernel normalizepolykernel menor (0.914) menor (0.939)
kernel puk menor (0.096) menor (0.51)
kernel RBFKernel menor (0.942) menor (0.975)
Table 5.13: Resultados das Alterações de Parâmetros do Algoritmo SVM com PP1 e 4
Classes

Neste capítulo foram mostrados os resultados experimentais obtidos com as etapas de pré-
processamento e classificação, dando-se maior destaque para as técnicas de pré-processamento
que proporcionaram maior desempenho para os algoritmos de classificação.
O desempenho dos classificadores de texto depende da aplicação específica. No contexto,
em que os algoritmos foram aplicados, depoimentos pessoais de pessoas com transtornos mentais,
o algoritmo SVM se sobressaiu. As técnicas de pré-processamento que permitiram o melhor
desempenho do SVM, foram: toquenização, remoção de stopwords, análise da frequência das
palavras e conversão de letras para minúsculas. O uso do stemming não apresentou melhorias
para esse algoritmo.
O algoritmo Naive Bayes apesar de muito utilizado na literatura para classificação de
texto (AGGARWAL; ZHAI, 2012a), nos testes aplicados não apresentou desempenho superior
aos demais algoritmos.
A performance do algoritmo KNN se mostrou desfavorecida entre as dos demais. Os re-
sultados das classificações dos algoritmos Decision Tree J48 e Random Forest foram semelhantes
e demonstraram excelente desempenho com o uso dos pré-processamentos PP1 e PP4.
As práticas mostraram diminuição na precisão e corretude de classificação com o
acréscimo da classe esquizofrenia na base de dados textuais. Essa classe possui número rela-
tivamente menor de documentos disponíveis na base para realização do treinamento e teste.
Enquanto a classe Anorexia, Autismo e Toc possuem 47, 52 e 46 relatos, a classe Esquizofrenia
conta com apenas 23 documentos.
Por fim, pôde-se perceber que a técnica SVM apresentou resultados eficazes para esse
contexto específico e manteve desempenho comparável com o uso de três e quatro classes, assim
como, com o uso de mais de um tipo de pré-processamento. A modificação dos parâmetros
padrões usados pelo algoritmo SVM não melhoraram o desempenho do classificador quanto a
precisão e a Curva ROC.
O próximo capítulo apresentará uma conclusão deste trabalho, apontando contribuições
na área de Classificação de Texto, as dificuldades encontradas e trabalhos futuros.
71
6
Conclusão
Esta Dissertação apresentou o ClassifierDisorder, um classificador de texto para catego-

rização de depoimentos pessoais por tipo de transtorno mental, baseado na taxonomia DSM-5.
Os depoimentos foram coletados de diversas fontes, tais como blogs, redes sociais e sites de
clínicas, para criação da base de dados.
Como visto, este trabalho foi desenvolvido no contexto da Mineração de Texto voltada
para categorização de documentos, que resultou na implementação do sistema EntendendoMeu-
Transtorno que disponibiliza tais relatos de forma estruturada. O processo geral para o de-
senvolvimento do método ClassifierDisorder conta com as fases de coleta dos documentos,
pré-processamento dos dados e classificação de texto.
Adotamos uma abordagem baseada na integração de técnicas estatísticas e linguísticas,
tais como: remoção de stopwords, stemming, análise da frequência das palavras, classificação
de texto com SVM, entre outros. O trabalho de minerar automaticamente textos relaciona-
dos a transtornos mentais contribuiu para o desenvolvimento de uma estrutura hierárquica de
depoimentos pessoais categorizados por tipo de transtorno.
A combinação das técnicas de pré-processamento, analisadas por cada atributo disponível,
contribuiu para que o desempenho do classificador fosse satisfatório, assim como a análise de
várias técnicas de classificação. Cada detalhe, discutido ao longo do texto é fruto de tentativas,
sendo escolhido a melhor opção para cada fase dos processos realizados.
Os resultados dos experimentos realizados nas fases de pré-processamento dos dados
textuais e classificação do texto possibilitaram escolher as técnicas que apresentaram melhores
resultados. O resultado do sistema implementado foi muito satisfatório.

Destacamos abaixo as principais contribuições do trabalho realizado, e relatado nesta
Dissertação de Mestrado:
Realização de uma revisão bibliográfica extensa sobre Mineração de Texto, incluindo

os principais conceitos e etapas para o desenvolvimento de um sistema de MT, bem
6.2. TRABALHOS FUTUROS 72
como os principais trabalhos relacionados a Mineração de Texto na área da Psiquiatria

- foco do nosso trabalho.
Coleta e etiquetagem de relatos sobre experiências de pessoas com transtornos

mentais para criação do repositório de documentos.
Definição de um método e construção de um protótipo para classificação de texto que

visa categorizar depoimentos pessoais com foco em transtornos mentais.
Experimentos comparativos para avaliação das melhores técnicas disponíveis para as

fases de pré-processamento e classificação do texto.
Construção de um protótipo que possibilite que o usuário visualize os resultados

oferecidos pelo método de classificação, assim como conteúdos relacionados, e insira
novos depoimentos.
6.2 Trabalhos Futuros

Este trabalho deixa em aberto diversas extensões, que podem ser implementadas de modo
a melhorar o trabalho aqui relatado. Dentre essas propostas, podemos citar:
classificação do texto por gênero e faixa etária do autor, para que o usuário possa
realizar pesquisas com base em seu contexto pessoal.
Implementação de um sistema de recomendação para recomendar depoimentos ao

usuário de acordo com seu perfil pessoal e de preferências.
Filtrar conteúdo ofensivo na opção disponível para comentários a partir de um

depoimento exposto.
Utilização de um corretor ortográfico, pois a ocorrência de erros de português é

comum em textos livres disponíveis em blogs, fóruns, redes sociais, etc.
Uso de um crawler para coleta personalizada de depoimentos pessoais (em primeira

pessoa) para enriquecer o classificador desenvolvido.
73
Referências
ABBE, A. et al. Text mining applications in psychiatry: a systematic literature review.

International journal of methods in psychiatric research, [S.l.], 2015.
AGARWAL, S.; YU, H.; KOHANE, I. BioN T: a searchable database of biomedical negated
sentences. BMC bioinformatics, [S.l.], v.12, n.1, p.1, 2011.
AGGARWAL, C. C. Data mining: the textbook. [S.l.]: Springer, New York, 2015.
AGGARWAL, C. C.; REDDY, C. K. Data clustering: algorithms and applications. [S.l.]: CRC
Press, 2013.
AGGARWAL, C. C.; ZHAI, C. Mining text data. [S.l.]: Springer Science & Business Media,
2012.
AGGARWAL, C. C.; ZHAI, C. A survey of text clustering algorithms. In: Mining text data.
[S.l.]: Springer, 2012. p.77–128.
AGGARWAL, C. C.; ZHAO, P. Towards graphical models for text processing. Knowledge and
information systems, [S.l.], v.36, n.1, p.1–21, 2013.
AGRAWAL, R.; BATRA, M. A detailed study on text mining techniques. International

Journal of Soft Computing and Engineering (IJSCE) ISSN, [S.l.], p.2231–2307, 2013.
AKILAN, A. Text mining: challenges and future directions. In: ELECTRONICS AND
COMMUNICATION SYSTEMS (ICECS), 2015 2ND INTERNATIONAL CONFERENCE ON.
Anais. . . [S.l.: s.n.], 2015. p.1679–1684.
APHINYANAPHONGS, Y. et al. Text classification for automatic detection of alcohol

use-related tweets. In: INTERNATIONAL WORKSHOP ON ISSUES AND CHALLENGES IN
SOCIAL COMPUTING. Anais. . . [S.l.: s.n.], 2014.
ASGHAR, M. Z. et al. Preprocessing in natural language processing. Editorial board, [S.l.],

p.152, 2013.
ASSOCIATION, A.-A. P. et al. Diagnostic and statistical manual of mental disorders. DSM-IV,
Washington, DC, [S.l.], 1994.
ASSOCIATION, A. P. et al. Diagnostic and statistical manual of mental disorders

(DSM-5®). [S.l.]: American Psychiatric Pub, 2013.
ASSOCIATION, D.-. A. P. et al. Diagnostic and statistical manual of mental disorders.

Arlington: American Psychiatric Publishing, [S.l.], 2013.
BALAHUR, A. et al. Detecting implicit expressions of affect in text using EmotiNet and its
extensions. Data & Knowledge Engineering, [S.l.], v.88, p.113–125, 2013.
BASARI, A. S. H. et al. Opinion mining of movie review using hybrid method of support vector
machine and particle swarm optimization. Procedia Engineering, [S.l.], v.53, p.453–462, 2013.
REFERÊNCIAS 74
BERNARDI, L.; TUZZI, A. Analyzing written communication in AAC contexts: a statistical

perspective. Augmentative and Alternative Communication, [S.l.], v.27, n.3, p.183–194,
2011.
BLEIK, S. et al. Text categorization of biomedical data sets using graph kernels and a controlled
vocabulary. IEEE/ACM Transactions on Computational Biology and Bioinformatics, [S.l.],
v.10, n.5, p.1211–1217, 2013.
CAMBRIA, E. et al. New avenues in opinion mining and sentiment analysis. IEEE Intelligent
Systems, [S.l.], v.28, n.2, p.15–21, 2013.
CAMERON, D. et al. PREDOSE: a semantic web platform for drug abuse epidemiology using
social media. Journal of biomedical informatics, [S.l.], v.46, n.6, p.985–997, 2013.
CELIKYILMAZ, A.; HAKKANI-TUR, D. A hybrid hierarchical model for multi-document
summarization. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL
LINGUISTICS, 48. Proceedings. . . [S.l.: s.n.], 2010. p.815–824.
CHOPRA, N. D.; GAIKWAD, K. Image and Text Spam Mail Filtering. Image and Text, [S.l.],
v.5, n.3, 2015.
COHEN, T.; BLATTER, B.; PATEL, V. Simulating expert clinical comprehension: adapting
latent semantic analysis to accurately extract clinical concepts from psychiatric narrative.
Journal of biomedical informatics, [S.l.], v.41, n.6, p.1070–1087, 2008.
DEERWESTER, S. et al. Indexing by latent semantic analysis. Journal of the American
society for information science, [S.l.], v.41, n.6, p.391, 1990.
DIAS, Á. M. et al. Whole field tendencies in transcranial magnetic stimulation: a systematic
review with data and text mining. Asian journal of psychiatry, [S.l.], v.4, n.2, p.107–112,
2011.
DICKINSON, I. In Favour of (more) Intelligence in the Semantic UI. In: SIXTH
INTERNATIONAL WORKSHOP ON SEMANTIC WEB USER INTERACTION.
Proceedings. . . [S.l.: s.n.], 2009.
ERIKSSON, R. et al. Dictionary construction and identification of possible adverse drug events
in Danish clinical narrative text. Journal of the American Medical Informatics Association,
[S.l.], v.20, n.5, p.947–953, 2013.
FAWCETT, T. An introduction to ROC analysis. Pattern recognition letters, [S.l.], v.27, n.8,
p.861–874, 2006.
FELDMAN, R. Techniques and applications for sentiment analysis. Communications of the
ACM, [S.l.], v.56, n.4, p.82–89, 2013.
FELDMAN, R.; SANGER, J. The Text Mining Handbook: advanced approaches in analyzing
unstructured data. [S.l.]: Cambridge University Press, New York, 2006.
FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing
unstructured data. [S.l.]: Cambridge University Press, 2007.
FERREIRA, R. et al. Assessing sentence scoring techniques for extractive text summarization.
Expert systems with applications, [S.l.], v.40, n.14, p.5755–5764, 2013.
REFERÊNCIAS 75
GONG, L. et al. Prediction of autism susceptibility genes based on association rules. Journal of
neuroscience research, [S.l.], v.90, n.6, p.1119–1125, 2012.
GONG, Y.; LIU, X. Generic text summarization using relevance measure and latent semantic
analysis. In: ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN
INFORMATION RETRIEVAL, 24. Proceedings. . . [S.l.: s.n.], 2001. p.19–25.
GRAOVAC, J.; KOVAČEVIĆ, J.; PAVLOVIĆ-LAŽETIĆ, G. Language Independent

n-Gram-Based Text Categorization with Weighting Factors: a case study. Journal of
Information and Data Management, [S.l.], v.6, n.1, p.4, 2015.
GUPTE, A. et al. Comparative study of classification algorithms used in sentiment analysis.

IJCSIT) International Journal of Computer Science and Information Technologies, [S.l.],
v.5, n.5, p.6261–6264, 2014.
HAAS, S. W. et al. Emergency Medical Text Classifier: new system improves processing and
classification of triage notes. Online journal of public health informatics, [S.l.], v.6, n.2,
2014.
HADDI, E.; LIU, X.; SHI, Y. The role of text pre-processing in sentiment analysis. Procedia
Computer Science, [S.l.], v.17, p.26–32, 2013.
HAGHIGHI, A.; VANDERWENDE, L. Exploring content models for multi-document

summarization. In: HUMAN LANGUAGE TECHNOLOGIES: THE 2009 ANNUAL
CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR
COMPUTATIONAL LINGUISTICS. Proceedings. . . [S.l.: s.n.], 2009. p.362–370.
HALL, M. et al. The WEKA data mining software: an update. ACM SIGKDD explorations
newsletter, [S.l.], v.11, n.1, p.10–18, 2009.
HALL, M.; WITTEN, I.; FRANK, E. Data mining: practical machine learning tools and
techniques. Kaufmann, Burlington, [S.l.], 2011.
HE, Q.; VELDKAMP, B. P.; VRIES, T. de. Screening for posttraumatic stress disorder using
verbal features in self narratives: a text mining approach. Psychiatry research, [S.l.], v.198, n.3,
p.441–447, 2012.
HUH, J.; YETISGEN-YILDIZ, M.; PRATT, W. Text classification for assisting moderators in
online health communities. Journal of biomedical informatics, [S.l.], v.46, n.6, p.998–1005,
2013.
IKONOMAKIS, M.; KOTSIANTIS, S.; TAMPAKAS, V. Text classification using machine

learning techniques. WSEAS Transactions on Computers, [S.l.], v.4, n.8, p.966–974, 2005.
JAIN, A. K.; DUBES, R. C. Algorithms for clustering data. [S.l.]: Prentice-Hall, Inc., 1988.
JIANG, S. et al. An improved K-nearest-neighbor algorithm for text categorization. Expert

Systems with Applications, [S.l.], v.39, n.1, p.1503–1509, 2012.
KATARIYA, M. N. P. et al. TEXT PREPROCESSING FOR TEXT MINING USING SIDE

INFORMATION. International Journal of Computer Science and Mobile Applications,
[S.l.], v.3, 2015.
REFERÊNCIAS 76
KORDE, V.; MAHENDER, C. N. Text classification and classifiers: a survey. International

Journal of Artificial Intelligence & Applications, [S.l.], v.3, n.2, p.85, 2012.
KRALLINGER, M. Development, application and evaluation of text-mining methods for

biomedical literature processing: from document categorization to gene ranking. , [S.l.], 2015.
KULKARNI, B. M.; KINARIWALA, S. Review on Fuzzy Approach to Sentence Level Text

Clustering. International Journal Of Scientific Research And Education, [S.l.], v.3, n.06,
2015.
LEE, L. H. et al. An enhanced support vector machine classification framework by using

Euclidean distance function for text document categorization. Applied Intelligence, [S.l.], v.37,
n.1, p.80–99, 2012.
LIN, C.-Y.; HOVY, E. The automated acquisition of topic signatures for text summarization. In:
COMPUTATIONAL LINGUISTICS-VOLUME 1, 18. Proceedings. . . [S.l.: s.n.], 2000.
p.495–501.
LIU, B. Sentiment analysis and opinion mining. Synthesis lectures on human language
technologies, [S.l.], v.5, n.1, p.1–167, 2012.
LLORET, E.; ROMÁ-FERRI, M. T.; PALOMAR, M. COMPENDIUM: a text summarization

system for generating abstracts of research papers. Data & Knowledge Engineering, [S.l.],
v.88, p.164–175, 2013.
MCCALLUM, A.; NIGAM, K. et al. A comparison of event models for naive bayes text
classification. In: AAAI-98 WORKSHOP ON LEARNING FOR TEXT CATEGORIZATION.
Anais. . . [S.l.: s.n.], 1998. v.752, p.41–48.
MEYSTRE, S. M. et al. Extracting information from textual documents in the electronic health
record: a review of recent research. Yearb Med Inform, [S.l.], v.35, p.128–44, 2008.
MINER, G. Practical text mining and statistical analysis for non-structured text data
applications. [S.l.]: Academic Press, 2012.
MITCHELL, T. M. Machine learning. 1997. Burr Ridge, IL: McGraw Hill, [S.l.], v.45, p.37,
1997.
MUNKOVÁ, D.; MUNK, M.; VOZÁR, M. Data pre-processing evaluation for text mining:
transaction/sequence model. Procedia Computer Science, [S.l.], v.18, p.1198–1207, 2013.
NEETHU, M.; RAJASREE, R. Sentiment analysis in twitter using machine learning techniques.
In: COMPUTING, COMMUNICATIONS AND NETWORKING TECHNOLOGIES
(ICCCNT), 2013 FOURTH INTERNATIONAL CONFERENCE ON. Anais. . . [S.l.: s.n.], 2013.
p.1–5.
NEUMAN, Y. et al. Proactive screening for depression through metaphorical and automatic text
analysis. Artificial intelligence in medicine, [S.l.], v.56, n.1, p.19–25, 2012.
PANG, B.; LEE, L. A sentimental education: sentiment analysis using subjectivity

summarization based on minimum cuts. In: ASSOCIATION FOR COMPUTATIONAL
LINGUISTICS, 42. Proceedings. . . [S.l.: s.n.], 2004. p.271.
REFERÊNCIAS 77
PERLIS, R. et al. Using electronic medical records to enable large-scale studies in psychiatry:
treatment resistant depression as a model. Psychological medicine, [S.l.], v.42, n.01, p.41–50,
2012.
PIOLAT, A.; BANNOUR, R. An example of text analysis software (EMOTAIX-Tropes) use: the
influence of anxiety on expressive writing. Current psychology letters. Behaviour, brain &
cognition, [S.l.], v.25, n.2, 2009, 2009.
RAMASUBRAMANIAN, C.; RAMYA, R. Effective pre-processing activities in text mining
using improved porter’s stemming algorithm. International Journal of Advanced Research
in Computer and Communication Engineering, [S.l.], v.2, n.12, p.2278–1021, 2013.
ROQUE, F. S. et al. Using electronic patient records to discover disease correlations and stratify
patient cohorts. PLoS Comput Biol, [S.l.], v.7, n.8, p.e1002141, 2011.
RZHETSKY, A.; SERINGHAUS, M.; GERSTEIN, M. B. Getting started in text mining: part
two. PLoS Comput Biol, [S.l.], v.5, n.7, p.e1000411, 2009.
SALTON, G. Automatic text processing: the transformation, analysis, and retrieval of. Reading:
Addison-Wesley, [S.l.], 1989.
SALTON, G. et al. Automatic text structuring and summarization. Information Processing &
Management, [S.l.], v.33, n.2, p.193–207, 1997.
SANKARASUBRAMANIAM, Y.; RAMANATHAN, K.; GHOSH, S. Text summarization
using Wikipedia. Information Processing & Management, [S.l.], v.50, n.3, p.443–461, 2014.
SARKAR, I. N. A vector space model approach to identify genetically related diseases. Journal
of the American Medical Informatics Association, [S.l.], v.19, n.2, p.249–254, 2012.
SAÚDE, O. M. da. CID-10: classificação estatística internacional de doenças com disquete vol.
1. [S.l.]: Edusp, 1994.
SENIN, P.; MALINCHIK, S. Sax-vsm: interpretable time series classification using sax and
vector space model. In: IEEE 13TH INTERNATIONAL CONFERENCE ON DATA MINING,
2013. Anais. . . [S.l.: s.n.], 2013. p.1175–1180.
SHEMILT, I. et al. Pinpointing needles in giant haystacks: use of text mining to reduce
impractical screening workload in extremely large scoping reviews. Research synthesis
methods, [S.l.], v.5, n.1, p.31–49, 2014.
SHIN, Y. et al. Evaluating complexity, code churn, and developer activity metrics as indicators
of software vulnerabilities. IEEE Transactions on Software Engineering, [S.l.], v.37, n.6,
p.772–787, 2011.
SHOLOM M. WEISS NITIN INDURKHYA, T. Z. a. Fundamentals of Predictive Text
Mining. 2.ed. [S.l.]: Springer-Verlag London, 2015. (Texts in Computer Science).
SUAREZ-TANGIL, G. et al. Dendroid: a text mining approach to analyzing and classifying
code structures in android malware families. Expert Systems with Applications, [S.l.], v.41,
n.4, p.1104–1117, 2014.
TABOADA, M. et al. Lexicon-based methods for sentiment analysis. Computational
linguistics, [S.l.], v.37, n.2, p.267–307, 2011.
REFERÊNCIAS 78
TAN, A.-H. et al. Text mining: the state of the art and the challenges. In: PAKDD 1999
WORKSHOP ON KNOWLEDGE DISOCOVERY FROM ADVANCED DATABASES.
Proceedings. . . [S.l.: s.n.], 1999. v.8, p.65–70.
TOON, E.; TIMMERMANN, C.; WORBOYS, M. Text-Mining and the History of Medicine:
big data, big questions? Medical history, [S.l.], v.60, n.02, p.294–296, 2016.
UYSAL, A. K.; GUNAL, S. The impact of preprocessing on text classification. Information

Processing & Management, [S.l.], v.50, n.1, p.104–112, 2014.
UYSAL, A. K.; GUNAL, S. Text classification using genetic algorithm oriented latent semantic
features. Expert Systems with Applications, [S.l.], v.41, n.13, p.5938–5947, 2014.
VANDERWENDE, L. et al. Beyond SumBasic: task-focused summarization with sentence

simplification and lexical expansion. Information Processing & Management, [S.l.], v.43, n.6,
p.1606–1618, 2007.
WALLACE, B. C. et al. Toward modernizing the systematic review pipeline in genetics:

efficient updating via data mining. Genetics in medicine, [S.l.], v.14, n.7, p.663–669, 2012.
WANG, D. et al. Towards enhancing centroid classifier for text classification—A

border-instance approach. Neurocomputing, [S.l.], v.101, p.299–308, 2013.
WEISS, S. M. et al. Text mining: predictive methods for analyzing unstructured information.
USA: Springer Science & Business Media, 2010.
WU, C.-Y. et al. Evaluation of smoking status identification using electronic health records and
open-text information in a large mental health case register. PloS one, [S.l.], v.8, n.9, p.e74262,
2013.
WU, J.-L.; YU, L.-C.; CHANG, P.-C. Detecting causality from online psychiatric texts using
inter-sentential language patterns. BMC medical informatics and decision making, [S.l.],
v.12, n.1, p.72, 2012.
WU, Q. et al. ForesTexter: an efficient random forest algorithm for imbalanced text
categorization. Knowledge-Based Systems, [S.l.], v.67, p.105–116, 2014.
XIE, B. et al. miRCancer: a microrna–cancer association database constructed by text mining on

literature. Bioinformatics, [S.l.], p.btt014, 2013.
YANG, S. et al. Doing time: a qualitative study of long-term incarceration and the impact of
mental illness. International journal of law and psychiatry, [S.l.], v.32, n.5, p.294–303, 2009.
YANG, Y.; LIU, X. A re-examination of text categorization methods. In: ACM SIGIR
CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL,
22. Proceedings. . . [S.l.: s.n.], 1999. p.42–49.
YU, L.-C. et al. Mining association language patterns using a distributional semantic model for
negative life event classification. Journal of biomedical informatics, [S.l.], v.44, n.4,
p.509–518, 2011.
ZHANG, J. et al. Psychological strains found from in-depth interviews with 105 Chinese rural
youth suicides. Archives of Suicide Research, [S.l.], v.13, n.2, p.185–194, 2009.
REFERÊNCIAS 79
ZHAO, Y.; KARYPIS, G. Empirical and theoretical comparisons of selected criterion functions
for document clustering. Machine Learning, [S.l.], v.55, n.3, p.311–331, 2004.
80
A
Mineração de Texto na Psiquiatria
Table A.1: Mineração de Texto em Campos de Aplicação da Psiquiatria.
Campo Autor Tarefa Pré-processamento Extração de

Conhecimento
1 (BERNARDI; Comparar comunicação escrita entre Toquenização, Re- Clusterização,
TUZZI, 2011) pacientes com autismo e grupo de con- moção de stopwords, Análise de
trole. Stemming correspondência
1 (PIOLAT; Avaliar impacto da ansiedade, a partir Toquenização, On- Classificação
BANNOUR, de conteúdo emocional. tologias
2009)
1 (YANG et al., Analisar o impacto no estado psi- Toquenização Classificação
2009) cológico de presos que cumprem pe-
nas longas.
1 (ZHANG et al., Investigar aspectos psicológicos de Toquenização Classificação
2009) jovens chineses que cometeram suicí-
dio em zona rural.
2 (CAMERON Adquirir conhecimento sobre atitudes Toquenização, Re- Co-ocorrência
et al., 2013) e comportamentos do abuso de drogas. moção de stopwords,
Reconhecimento de
entidades nomeadas
2 (HE; VELD- Encontrar pacientes com transtorno de Toquenização, Re- Classificação
KAMP; VRIES, estresse pós-traumático com o uso de moção de stopwords
2012) recursos lexicais.
2 (NEUMAN Examinar associações relacionadas a Toquenização Regressão logís-
et al., 2012) depressão em textos. tica
2 (WU; YU; Obter padrões de linguagem inter- Toquenização, Regras de associ-
CHANG, 2012) sentenciais para detectar a causalidade Análise sintática ação
a partir de textos psiquiátricos.
2 (YU et al., Descrever o uso de padrões de asso- Toquenização, Re- Classificação,
2011) ciação de linguagem para classificar moção de stopwords, Regras de
frases sobre eventos negativos da vida. etiquetagem associação
3 (HAAS et al., Melhorar a classificação automática Etiquetagem Classificação,
2014) dos registros do DE de dados. Similaridade
Continua na página seguinte
81
Table A.1 – Continuação da página anterior

Campo Autor Tarefa Pré-processamento Extração de
Conhecimento
3 (ERIKSSON Identificar possíveis eventos adversos Etiquetagem, On- Classificação
et al., 2013) e possíveis eventos adversos a medica- tologia
mentos.
3 (PERLIS et al., Extrair dados clínicos, como resulta- Toquenização Classificação,
2012) dos de tratamentos com antidepres- Regrassão
sivos. Logística
3 (WU et al., Investigar a prevalência de tabagismo Toquenização, Eti- Regressão
2013) e de fatores que influenciam o fumo quetagem
em pessoas que recebem cuidados de
saúde mental.
3 (ROQUE et al., Investigar comorbidade e estratificar Toquenização Correlação
2011) pacientes para descoberta de genes so-
brepostos.
4 (WALLACE Produzir e conservar revisões sis- Toquenização Classificação
et al., 2012) temáticas.
4 (GONG et al., Predizer genes de susceptibilidade do Toquenização, Regras de
2012) autismo etiquetagem associação,
Co-ocorrência
4 (SARKAR, Identificar potenciais relações entre Etiquetagem Similaridade
2012) desordens genéticas.
4 (DIAS et al., Descobrir padrões e tendências especí- Toquenização Clusterização
2011) ficas da área de EMT para o trata-
mento da depressão.
4 (AGARWAL; Identificar as relações negativas entre Toquenização e eti- Classificação
YU; KOHANE, genes e doenças. quetagem
2011)
82
B
Taxonomia DSM-5
Table B.1: Taxonomia DSM-5.
Categoria Subcategoria
(1) Transtornos de (1.1) Transtornos do Desenvolvimento Intelectual; (1.2) Transtornos de
Neurodesenvolvi- Comunicação; (1.3) Transtorno do Espectro Autista; (1.4) Transtorno de
mento Déficit de Atenção/Hiperatividade; (1.5) Transtorno de Aprendizagem
Específica; (1.6) Transtornos Motores.
(2) Espectro da (2.1) Transtorno da Personalidade Esquizotípica; (2.2) Transtorno Deli-
Esquizofrenia e rante; (2.3) Transtorno Psicótico Breve; (2.4) Transtorno Psicótico In-
Outros Transtornos duzido por Substância; (2.5) Transtorno Psicótico Associado a Outra
Psicóticos Condição Médica; (2.6) Transtorno Catatônico Associado a Outra
Condição Médica; (2.7) Transtorno Esquizofreniforme; (2.8) Transtorno
Esquizoafetivo; (2.9) Esquizofrenia; (2.10) Transtorno Psicótico Sem
Outra Especificação; (2.11) Transtorno Catatônico Sem Outra Especifi-
cação.
(3) Transtorno (3.1) Transtorno Bipolar I; (3.2) Transtorno Bipolar II; (3.3) Transtorno
Bipolar e Seus Ciclotímico; (3.4) Transtorno Bipolar Induzido por Substâncias; (3.5)
Correlatos Transtorno Bipolar Associado com Outra Condição Médica; (3.6)
Transtorno Bipolar Sem Outra Especificação.
(4) Transtornos De- (4.1) Transtorno da Desregulação da Disrupção do Humor; (4.2)
pressivos Transtorno Depressivo Maior – Episódio Único; (4.3) Transtorno Depres-
sivo Maior – Recorrente; (4.4) Transtorno Distímico; (4.5) Transtorno
Disfórico Pré-Menstrual; (4.6) Transtorno Depressivo Induzido por
Substâncias; (4.7) Transtorno Depressivo Associado a Outra Condição
Médica; (4.8) Transtorno Depressivo Sem Outra Especificação.
83
Table B.1 – Continuação da página anterior

(5) Transtornos de (5.1) Transtorno de Ansiedade de Separação; (5.2) Transtorno de Pânico;
Ansiedade (5.3) Agorafobia; (5.4) Fobia Específica; (5.5) Transtorno de Ansiedade
Social (Fobia Social); (5.6) Transtorno de Ansiedade Generalizada; (5.7)
Transtorno de Ansiedade Induzido por Substância; (5.8) Transtorno de
Ansiedade Associado a Outra Condição Médica; (5.9) Transtorno de
Ansiedade Sem Outra Especificação.
(6) Transtorno (6.1) Transtorno Obsessivo-Compulsivo; (6.2) Transtorno Dismórfico-
Obsessivo- Corporal; (6.3) Transtorno de Acumulação; (6.4) Transtorno de Puxar-
Compulsivo e Cabelo; (6.5) Transtorno de Escarificação; (6.6) Transtorno Obsessivo-
Seus Correlatos Compulsivo Induzido por Substâncias ou Transtornos Correlatos;
(6.7) Transtorno Obsessivo-Compulsivo Sem Outra Especificação Ou
Transtornos Correlatos.
(7) Transtorno (7.1) Transtorno de Vinculação Reativa; (7.2) Transtorno de Com-
Traumático e de promisso Social Desinibido; (7.3) Transtorno de Stress Agudo; (7.4)
Estresse e Seus Transtorno de Stress Pós-Traumático; (7.5) Transtornos de Ajustamento;
Correlatos (7.6) Transtorno Traumático ou de Stress Sem Outra Especificação e
Seus Correlatos.
(8) Transtornos (8.1) Transtorno de Despersonalização-Desrealização; (8.2) Amnésia
Dissociativos Dissociativa; (8.3) Transtorno Dissociativo de Identidade; (8.4)
Transtorno Dissociativo Sem Outra Especificação.
(9) Transtornos (9.1) Transtornos Somáticos-Sintomáticos; (9.2) Transtorno Hipocon-
Somáticos- dríaco Ansioso; (9.3) Transtorno Conversivo; (9.4) Fatores Psicológicos
Sintomáticos Afetados por uma Condição Médica; (9.5) Transtorno Factício; (9.6)
Transtorno Somático-Sintomático Sem Outra Especificação.
(10) Alimentação (10.1) Lambiscar (Picar); (10.2) Transtorno de Ruminação; (10.3)
e Transtornos Ali- Transtorno de Ingestão Alimentar Restritiva ou de Impedimento; (10.4)
mentares Anorexia Nervosa; (10.5) Bulimia Nervosa; (10.6) Transtorno de Com-
pulsão Alimentar Periódica; (10.7) Transtorno Alimentar sem Outra
Classificação.
(11) Transtornos (11.1) Enurese; (11.2) Encoprese.
de Eliminação
(Excreção)
84

(12) Transtornos (12.1) Transtorno de Insônia; (12.2) Transtorno de Hipersonolência;
do Sono e do (12.3) Deficiência Narcolepsia/Hiprocretina; (12.4) Síndrome de Sono
Despertar (Sono- Obstruído – Apneia, Hipopneia; (12.5) Apneia Central do Sono; (12.6)
Vigília) Hipoventilação Relacionada com o Sono; (12.7) Transtorno do Ritmo
Circadiano do Sono e do Despertar; (12.8) Transtorno do Levantar;
(12.9) Transtorno de Pesadelo; (12.10) Transtorno do Comportamento do
Movimento Rápido dos Olhos (REM) no Sono; (12.11) Transtorno das
Pernas Inquietas; (12.12) Transtorno do Sono Induzido por Substâncias.
(13) Disfunções (13.1) Transtorno da Ereção; (13.2) Transtorno Orgástico Feminino;
Sexuais (13.3) Ejaculação Atrasada; (13.4) Ejaculação Precoce; (13.5) Transtorno
Feminino do Interesse/Excitação Sexual; (13.6) Transtorno Masculino
do Desejo Sexual Hipoativo; (13.7) Transtorno da Penetração Pélvico-
Genital Dolorosa; (13.8) Disfunção Sexual Induzida por Substân-
cia/Medicação; (13.9) Disfunção Sexual Sem Outra Especificação.
(14) Disforia de (14.1) Disforia de Gênero em Crianças; (14.2) Disforia de Gênero em
Gênero Adolescentes e Adultos.
(15) Transtornos de (15.1) Transtorno de Desafio Opositivo; (15.2) Transtorno de Explosão
Conduta, de Cont- Intermitente; (15.3) Transtorno de Conduta; (15.4) Transtorno da Person-
role do Impulso e alidade Dissocial; (15.5) Transtorno do Comportamento de Disrupção
da Disrupção Sem Outra Especificação.
(16) Transtornos de (16.1) Transtornos Associados ao Álcool; (16.2) Transtornos Associados
Adição e de Uso de à Cafeína; (16.3) Transtornos Associados à Cannabis; (16.4) Transtornos
Substâncias Associados a Alucinógenos; (16.5) Transtornos Associados a Inalantes;
(16.6) Transtornos Associados a Opióides; (16.7) Transtornos Associ-
ados a Sedativos/Hipnóticos; (16.8) Transtornos Associados a Estimu-
lantes; (16.9) Transtornos Associados ao Tabaco; (16.10) Transtornos
Associados a Substâncias Desconhecidas; (16.11) Transtornos de Jogo.
(17) Transtornos (17.1) Delirium; (17.2) Transtorno Neurocognitivo Leve; (17.3)
Neurocognitivos Transtorno Neurocognitivo Maior.
(18) Transtornos da (18.1) Transtorno da Personalidade Borderline; (18.2) Transtorno da Per-
Personalidade sonalidade Obsessivo-Compulsiva; (18.3) Transtorno da Personalidade
Aversiva; (18.4) Transtorno da Personalidade Antissocial (Transtorno
Dissocial da Personalidade); (18.5) Transtorno da Personalidade Nar-
císica; (18.6) Transtorno da Personalidade com Traço Especificado.
85

(19) Transtornos de (19.1) Transtorno Exibicionista; (19.2) Transtorno Fetichista; (19.3)
Parafilias (Parafíli- Frotteurismo; (19.4) Transtorno de Pedofilia; (19.5) Transtorno de Maso-
cos) quismo Sexual; (19.6) Transtorno de Sadismo Sexual; (19.7) Transtorno
Travestismo; (19.8) Transtorno Voyeurístico; (19.9) Transtorno de
Parafilias Sem Outra Especificação.
(20) Outros (20.1) Lesões que não são Auto Suicidas; (20.2) Transtorno do Compor-
Transtornos Men- tamento Suicida.
tais
(21) Transtornos
do Movimento
Induzidos por
Medicamentos
(22) Outros Efeitos
Adversos de
Medicamentos
(23) Outras
Condições que
Podem Ser Foco
de Atenção Clínica
86
C
Fontes dos Depoimentos
As Figuras abaixo (Figura C.1, Figura C.2, Figura C.3 e Figura C.4 ) apresentam as
fontes, separadas por tipo de transtorno, de onde os depoimentos pessoais foram coletados para
fins de classificação.
Figure C.1: Links dos relatos referentes a Anorexia Nervosa (Autoria Própria)
87
Figure C.2: Links dos relatos referentes ao Espectro Autista (Autoria Própria)
Figure C.3: Links dos relatos referentes ao Transtorno Obsessivo Compulsivo (Autoria
Própria)
88
Figure C.4: Links dos relatos referentes a Esquizofrenia (Autoria Própria)

Disserta o P Mela Backup 05do08 00e33

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Disserta o P Mela Backup 05do08 00e33

Enviado por

Direitos autorais:

Formatos disponíveis

Francisca Pâmela Carvalho Nunes

DISORDERCLASSIFIER: CLASSIFICAÇÃO DE TEXTO PARA

Universidade Federal de Pernambuco

Francisca Pâmela Carvalho Nunes

DISORDERCLASSIFIER: CLASSIFICAÇÃO DE TEXTO PARA

Trabalho apresentado ao Programa de Pós-graduação em

Orientador: Prof. Dr. Ricardo Bastos Cavalcante Prudêncio

Dissertação de Mestrado – Universidade Federal de Pernambuco, 2016.

1. Mineração de Texto. 2. Classificação de Texto. 3. Depoimentos pessoais. 4.

Palavras-Chave: Mineração de Texto, classificação de texto, depoimentos pessoais,

Keywords: Text Mining, text classification, personal testimonies, mental disorder.

2.1 Estrutura de Mineração de Texto (AKILAN, 2015). . . . . . . . . . . . . . . . 19

4.1 Arquitetura Geral do Sistema. . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.1 Transtornos Mentais que tiveram maior número de depoimentos coletados . . . 55

A.1 Mineração de Texto em Campos de Aplicação da Psiquiatria. . . . . . . . . . . 80

B.1 Taxonomia DSM-5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

3 Mineração de Texto para Psiquiatria 34

4 DisorderClassifier: classificação de texto para categorização de transtornos men-

A Mineração de Texto na Psiquiatria 80

C Fontes dos Depoimentos 86

A Classificação/Categorização de Texto tem por objetivo rotular textos que estejam em

1.1 Motivação e Contexto

1.2 Trabalho Realizado

1.3 Organização do Trabalho

Capítulo 2 - Contextualiza resumidamente o cenário da Mineração de Texto. São

Capítulo 3 - É apresentado o estado da arte da fase de Mineração de Texto na área

Capítulo 4 - É mostrado o processo MT proposto neste trabalho. São descritos as

Capítulo 5 - São apresentados, a metodologia e os experimentos realizados, bem

O formato textual é um dos modos mais usadas para o armazenamento de informações.

2.1 Conceitos Básicos

Figure 2.1: Estrutura de Mineração de Texto (AKILAN, 2015).

2.2 Etapas da Mineração de Texto

Figure 2.2: Etapas da Mineração de Texto (Autoria Própria).

2. Padronização dos Documentos:

3. Preparação dos Dados:

etapas comuns, como toquenização, remoção de stopwords, conversão de letras em

Toquenização: O processo em que determinada frase é divida em pequenas

Figure 2.3: Processo de Toquenização (Autoria Própria).

Remoção de stopwords: diversas palavras existentes no decorrer de um

Figure 2.4: Processo de Remoção de Stopwords (Autoria Própria).

A remoção de stopwords poderá diminuir muito o tamanho da estru-

Conversão em letras minúsculas: Consiste em converter todas as entradas

Figure 2.5: Processo Stemming (RAMASUBRAMANIAN; RAMYA, 2013).

4. Representação dos Dados:

2.2.2 Extração de Conhecimento

Predição: por exemplo, classificação, regressão e análise de séries temporais.

Agrupamento: por exemplo, segmentação e análise de outlier.

Associação: por exemplo, análise de afinidade, análise de ligação e análise de

2.3 Tarefas de Mineração em Texto

Classificação ou Categorização de Texto: categorização de trechos, parágrafos ou

Clusterização ou Agrupamento de Texto: Agrupamento de termos, trechos, parágrafos

Mineração Web: mineração de dados e textos na Internet, com metas inerentes a

Processamento de Linguagem Natural: Processamento de linguagem de baixo nível

Sumarização de Texto: produção automática de uma versão menor (resumo) de um

Análise de Sentimentos ou Mineração de Opinião: considera a opinião das pessoas,

2.3.1 Classificação ou Categorização de Texto

2. Pré-processamento: fase em que a estruturação das informações é preparada para

3. Fase de Treinamento: nesta fase utiliza-se aprendizagem de máquina em documentos

O problema da classificação tem sido vastamente observado nas áreas de aprendizado

Existem diversas abordagens para classificação de textos em várias categorias e o uso de

Figure 2.6: Processo de Classificação de Texto (IKONOMAKIS; KOTSIANTIS;

Técnicas de aprendizado de máquina utilizam um conjunto de treinamento, para desen-