Escolar Documentos
Profissional Documentos
Cultura Documentos
Dissertação de Mestrado
RECIFE
2016
Universidade Federal de Pernambuco
Centro de Informática
Pós-graduação em Ciência da Computação
RECIFE
2016
Francisca Pâmela Carvalho Nunes
DisorderClassifier: classificação de texto para categorização de transtornos mentais/
Francisca Pâmela Carvalho Nunes. – RECIFE, 2016-
88 p.
Orientador Prof. Dr. Ricardo Bastos Cavalcante Prudêncio
———————————————————————–
Alex Sandro Gomes
Centro de Informática/UFPE
———————————————————————–
Renato Fernandes Corrêa
Centro de Artes e Comunicação/UFPE
———————————————————————–
Ricardo Bastos Cavalcante Prudêncio
Centro de Informática/UFPE
RECIFE
2016
Aos meus pais,
Carmo Leal dos Santos e
Francisca Almeida de Carvalho dos Santos
E ao meu marido,
Celles Antônio Lacerda Nunes Carvalho
Agradecimentos
Agradecer quem nos ajuda a vencer os obstáculos e que permanece ao nosso lado em
tempos de luta e de vitória é algo gratificante, porém complicado, pois faltam palavras para
expressar tamanha gratidão.
Sou grata pela vida do meu marido, Celles Nunes, que me deu todo apoio para prosseguir
rumo a essa conquista. Te amo e sei que posso contar sempre com você.
Agradeço aos meus pais, por terem fé que dias melhores viriam e pelas palavras de
ânimo, e a minha irmã por ouvir meus desabafos. Enfim, a toda a minha família.
Agradeço ao orientador Ricardo Bastos e a co-orientadora Flávia de Almeida, pelas
sugestões, correções e pela paciência que tiveram comigo.
Agradeço aos meus amigos, presentes preciosos que tenha a honra de ter, que sei que
também se alegram com a minha alegria. Em especial, quero agradecer aos meus manos Danila
e Kaio que vivenciaram parte da minha luta e sofreram juntos em suas lutas paralelas.
Um obrigada especial para o pessoal do CTI por me ceder o espaço para estudo e pelas
amizades que tive a oportunidade de fazer, quero levá-las pra vida. Desse grupo, agradeço em
destaque ao Guilherme, que muito me ajudou nesse processo e que mesmo em meio a tribulações
não me negou seu apoio.
Enfim, obrigada por tudo Senhor, és minha fortaleza!
O mais importante de tudo é nunca deixar de se perguntar. A curiosidade
tem sua própria razão de existir.
—ALBERT EINSTEIN
Resumo
Nos últimos anos, através da Internet, a comunicação se tornou mais ampla e acessível.
Com o grande crescimento das redes sociais, blogs, sites em geral, foi possível estabelecer uma
extensa base de conteúdo diversificado, onde os usuários apresentam suas opiniões e relatos
pessoais.
Esses informes podem ser relevantes para observações futuras ou até mesmo para o
auxilio na tomada de decisão de outras pessoas. No entanto, essa massa de informação está
esparsa na Web, em formato livre, dificultando a análise manual dos textos para categorização
dos mesmos. Tornar esse trabalho automático é a melhor opção, porém a compreensão desses
textos em formato livre não é um trabalho simples para o computador, devido as irregularidades
e imprecisões da língua natural.
Nessas circunstâncias, estão surgindo sistemas que classificam textos, de forma au-
tomática, por tema, gênero, características, entre outros, através dos conceitos da área de
Mineração de Texto (MT). A MT objetiva extrair informações importantes de um texto, através
da análise de um conjunto de documentos textuais.
Diversos trabalhos de MT foram sugeridos em âmbitos variados como, por exemplo,
no campo da psiquiatria. Vários dos trabalhos propostos, nessa área, buscam identificar ca-
racterísticas textuais para percepção de distúrbios psicológicos, para análise dos sentimentos
de pacientes, para detecção de problemas de segurança de registros médicos ou até mesmo
para exploração da literatura biomédica. O trabalho aqui proposto, busca analisar depoimentos
pessoais de potenciais pacientes para categorização dos textos por tipo de transtorno mental,
seguindo a taxonomia DSM-5.
O procedimento oferecido classifica os relatos pessoais coletados, em quatro tipos de
transtorno (Anorexia, TOC, Autismo e Esquizofrenia). Utilizamos técnicas de MT para o
pré-processamento e classificação de texto, com o auxilio dos pacotes de software do Weka.
Resultados experimentais mostraram que o método proposto apresenta alto índice de precisão
e que a fase de pré-processamento do texto tem impacto nesses resultados. A técnica de
classificação Support Vector Machine (SVM) apresentou melhor desempenho, para os fins
apresentados, em comparação a outras técnicas usadas na literatura.
In the last few years, through the internet, communication became broader and more
accessible. With the growth of social media, blogs, and websites in general, it became possible to
establish a broader, diverse content base, where users present their opinions and personal stories.
These data can be relevant to future observations or even to help other people’s decision
process. However, this mass information is dispersing on the web, in free format, hindering the
manual analysis for text categorization.
Automating is the best option. However, comprehension of these texts in free format is
not a simple task for the computer, taking into account irregularities and imprecisions of natural
language.
Giving these circumstances, automated text classification systems, by theme, gender,
features, among others, are arising, through Text Mining (MT) concepts. MT aims to extract
information from a text, by analyzing a set of text documents.
Several MT papers were suggested on various fields, as an example, psychiatric fields. A
number of proposed papers, in this area, try to identify textual features to perceive psychological
disorders, to analyze patient’s sentiments, to detect security problems in medical records or even
biomedical literature exploration. The paper here proposed aim to analyze potential patient’s
personal testimonies for text categorization by mental disorder type, according to DSM-5
taxonomy.
The offered procedure classifies the collected personal testimonies in four disorder types
(anorexia, OCD, autism, and schizophrenia). MT techniques were used for pre-processing and
text classification, with the support of software packages of Weka. Experimental results showed
that the proposed method presents high precision values and the text pre-processing phase has
impact in these results.
The Support Vector Machine (SVM) classification technique presented better perfor-
mance, for the presented ends, in comparison to other techniques used in literature.
5.1 Precisão dos Algoritmos de Classificação com o Uso de Três Classes (Autoria
Própria). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.2 Matrizes de Confusão do Algoritmo J48 (Autoria Própria). . . . . . . . . . . . 59
5.3 Matrizes de Confusão do Algoritmo KNN (Autoria Própria). . . . . . . . . . . 59
5.4 Matrizes de Confusão do Algoritmo Naive Bayes (Autoria Própria). . . . . . . 60
5.5 Matrizes de Confusão do Algoritmo Random Forest (Autoria Própria). . . . . . 60
5.6 Matrizes de Confusão do Algoritmo SVM (Autoria Própria). . . . . . . . . . . 61
5.7 Precisão dos Algoritmos de Classificação com o Uso de Quatro Classes (Autoria
Própria). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.8 Resultados da Área da Curva ROC com o Uso de Três Classes (Autoria Própria). 62
5.9 Resultados da Área da Curva ROC com o Uso de Quatro Classes (Autoria Própria). 63
5.10 Árvore de Decisão (J48) com o uso de 3 classes . . . . . . . . . . . . . . . . . 64
5.11 Árvore de Decisão (J48) com o uso de 4 classes . . . . . . . . . . . . . . . . . 65
C.1 Links dos relatos referentes a Anorexia Nervosa (Autoria Própria) . . . . . . . 86
C.2 Links dos relatos referentes ao Espectro Autista (Autoria Própria) . . . . . . . 87
C.3 Links dos relatos referentes ao Transtorno Obsessivo Compulsivo (Autoria Própria) 87
C.4 Links dos relatos referentes a Esquizofrenia (Autoria Própria) . . . . . . . . . . 88
Lista de Tabelas
1 Introdução 14
1.1 Motivação e Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Trabalho Realizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Mineração de Texto 18
2.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Etapas da Mineração de Texto . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Extração de Conhecimento . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.3 Pós-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Tarefas de Mineração em Texto . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1 Classificação ou Categorização de Texto . . . . . . . . . . . . . . . . . 24
2.3.2 Clusterização ou Agrupamento de Texto . . . . . . . . . . . . . . . . . 27
2.3.3 Análise de Sentimentos e Mineração de Opinião . . . . . . . . . . . . 28
2.3.4 Sumarização de Texto . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5 Experimentos e Resultados 54
5.1 Coleta de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3 Algoritmos de Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.4 Metodologia de Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.4.1 Testes com Variações de Parâmetros no Pré-Processamento . . . . . . . 58
5.4.1.1 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4.1.2 Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.4.2 Testes com Variações de Parâmetros nos Algoritmos de Classificação . 63
5.4.2.1 Decision Tree (J48) . . . . . . . . . . . . . . . . . . . . . . 64
5.4.2.2 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.4.2.3 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.4.2.4 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.4.2.5 SVM (SMO) . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6 Conclusão 71
6.1 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Referências 73
Anexos 79
B Taxonomia DSM-5 82
1
Introdução
Nos últimos anos, através da Internet, a comunicação se tornou mais ampla e acessível.
O usuário comum, além de receber informações disponíveis na Web, pode também contribuir de
forma simples com o conteúdo da mesma (por exemplo, através de fóruns, blogs, redes sociais,
etc.).
Com isso, a Internet possui uma grande base de conteúdo diversificado. Esse fato deve-se
à disponibilidade de diversas formas do internauta cooperar com experiências, opiniões, dúvidas,
desabafos, entre outros. Essas informações podem ajudar a área psiquiátrica a aprimorar seu
conhecimento sobre transtornos mentais através de relatos disponibilizados por pessoas que
vivem ou vivenciaram tal problema. Essas informações também são úteis ao usuário comum,
pois contribui para um melhor entendimento do assunto com base em histórias reais.
Apesar de essa informação estar disponível, ela se encontra disseminada pela Web, em
diversos formatos, o que dificulta a análise manual dos depoimentos a fim de saber a que contexto
ele pertence. Uma avaliação manual poderá consumir muito tempo.
A automação dessa função é a melhor opção. Porém, o processo para que o computador
entenda a linguagem natural não é trivial, pois eles costumam lidar com regras e semânticas
bem definidas, como as linguagens de programação (Ruby, Java, C, etc.). Quando se trata de
uma linguagem com irregularidades, abreviações, gírias, como é a linguagem humana, então o
processo se torna mais complexo.
Nesse contexto, surgiram sistemas de Mineração de Texto (MT) com o objetivo de extrair
padrões não triviais ou conhecimento a partir de documentos de texto (TAN et al., 1999)
citephe2012screening (XIE et al., 2013). Dentro da área de MT há diversas tarefas, uma delas
é a classificação/categorização de texto. A Classificação de Texto (CT) é um atual desafio de
investigação devido a necessidade de organizar um grande e crescente número de documentos
digitais no mundo todo (UYSAL; GUNAL, 2014a).
Modelos de CT podem ser usados para diversos problemas, como na detecção de spams
em e-mails (CHOPRA; GAIKWAD, 2015), na análise de sentimentos (HADDI; LIU; SHI, 2013),
na área da saúde (KRALLINGER, 2015) (HUH; YETISGEN-YILDIZ; PRATT, 2013), entre
outros.
1.1. MOTIVAÇÃO E CONTEXTO 15
para implementação de classificadores de texto, assim como as principais práticas para o pré-
processamento dos dados textuais.
O desenvolvimento do sistema proposto foi precedido por um estudo detalhado das fases
necessárias para implementação de um classificador de texto. Em especial, focamos nas etapas
de pré-processamento e classificação do dados textuais.
Para escolha da técnica de classificação a ser usada no desenvolvimento do protótipo,
foram estudados e comparados os algoritmos Naive Bayes, KNN, Random Forest, Decision Tree
e SVM (AGGARWAL, 2015). A partir das comparações realizadas, em termos de precisão,
taxa de acerto e valor da curva Roc, foi escolhido o algoritmo SVM, por ter apresentado melhor
desempenho em relação aos demais.
Estudamos ainda nesse trabalho algumas taxonomias disponíveis para hierarquizar tipos
de transtornos mentais, das quais foram analisadas as taxonomias CID-10 (SAÚDE, 1994),
DSM-4 (ASSOCIATION et al., 1994) e DSM-5 (ASSOCIATION et al., 2013a). A taxonomia
DSM-5 foi escolhida por ser bem estruturada e atual, com correções e atualizações a partir de
outras versões.
Para proporcionar a interação do usuário com os resultados disponibilizados pelo classifi-
cador, foi desenvolvida uma interface Web, onde o usuário poderá visualizar os depoimentos
categorizados, além de postar um novo depoimento ou escrever comentários a partir de um deter-
minado depoimento exibido. Além de pesquisar depoimentos a partir da hierarquia disponível, o
usuário tem a opção de filtrar os relatos pessoais por tipo de transtorno, gênero e faixa etária do
autor (quando tais informações estão disponíveis).
Capítulo 6 - Por fim, no capítulo de conclusão é feita uma análise dos objetivos e
resultados alcançados, além de propor melhorias para trabalhos futuros.
18
2
Mineração de Texto
A MT pode ser subdivida em duas partes, o refinamento do texto que transforma do-
cumentos textuais de forma livre em uma Forma Intermediária (FI) escolhida e a extração de
conhecimento que deduz padrões ou conhecimento a partir da forma intermediária (AKILAN,
2015).
Essa FI pode ser baseada no documento, onde cada entidade representa um documento
ou baseada em conceito no qual cada entidade representa um objeto ou conceito de um domínio
específico, como pode ser visto na Figura 2.1. A FI da mineração baseada em conceitos deriva
de padrões e relações através de objetos ou conceitos, como por exemplo modelagem preditiva
e descoberta associativa. Enquanto que, a FI da mineração baseada em documentos pode ser
realinhada ou ter informações relevantes extraídas de acordo com objetos de interesse em um
domínio específico. Por exemplo, dado um conjunto de artigos de notícias, primeiramente eles
serão transformados em uma FI e em seguida será feita a extração de conhecimento com a
finalidade de organizar os documentos de acordo com seu conteúdo, para fins de navegação e
visualização.
dados para serem processados posteriormente (UYSAL; GUNAL, 2014a). Nessa etapa os
documentos são selecionados e tratados. Na etapa de extração do conhecimento são aplicadas
as técnicas necessárias para o objetivo da aplicação de mineração de texto. Na última etapa,
pós-processamento, os resultados são analisados e validados.
2.2.1 Pré-Processamento
A fase de pré-processamento tem por finalidade preparar o conjunto de dados textuais
para servir de entrada para fase de extração de conhecimento.
1. Coleta de Documentos:
O primeiro ponto a ser considerado é a pesquisa e coleta dos documentos que serão
utilizados. Documentos relevantes para o processo de categorização são aqueles
que possuem palavras com maior peso de relevância (WEISS et al., 2010). Os
documentos podem ser coletados de redes sociais, páginas da Web, bancos de dados
e de arquivos escaneados e convertidos em texto.
5. Redução de Dimensionalidade:
As técnicas de redução de dimensionalidade podem ser usadas para métodos super-
visionados (classificação) e não supervisionados (agrupamento) e tem por objetivo
minimizar o tamanho dos dados (MINER, 2012). Na seleção ou transformação dos
recursos são removidas características consideradas irrelevantes para classificação.
A seleção e redução dos dados é importante devido as restrições de tempo de proces-
samento e espaço de memória, pois o número de exemplos e atributos disponíveis
pode dificultar o uso de algoritmos de extração de padrões.
2.3. TAREFAS DE MINERAÇÃO EM TEXTO 23
Análise de Tendências.
2.2.3 Pós-Processamento
Os modelos desenvolvidos devem ser avaliados quanto a sua qualidade e precisão, a partir
de uma perspectiva de análise de dados, para garantir que irão realmente resolver o problema e
satisfazer os objetivos para os quais foram construídos (MINER, 2012).
1. Coleta de documentos: fase em que são obtidos os dados que serão usados no
treinamento ou construção de classificadores.
4. Classificação: novos documentos ainda não rotulados são organizados nas categorias
pré-existentes a partir do aprendizado adquirido.
2. K-Nearest Neighbor
O algoritmo KNN pode ser usado para categorização de texto e é relativamente
simples para classificação dos documentos (MINER, 2012). A classificação é baseada
na distância dos "vizinhos" mais próximos dos documentos.
O processo de algoritmo KNN é a seguinte (JIANG et al., 2012): dado um documento
x de teste, encontra-se os K vizinhos mais próximos de x entre todos os documentos
de treinamento, e marcar os candidatos da categoria com base na categoria de vizinhos
K. A semelhança de x com cada documento vizinho é a pontuação da categoria do
documento vizinho. Ao classificar os scores das categorias candidatas, o sistema
atribui a categoria candidata, a maior pontuação para o documento de teste x.
3. Random Forest
O algoritmo Random Forest faz uso de amostra aleatória simples de recursos para
construção de suas árvores de decisão e como resultado, ele dá preferência para diver-
sos subespaços que abrange poucos recursos informativos para classe que pertence a
minoria (WU et al., 2014).
A técnica RF produz uma árvore de classificação em cada iteração e a classifi-
cação destas árvores individuais são combinadas para formar uma previsão final.
Em cada nó da árvore um subconjunto aleatório de variáveis de previsão são sele-
cionadas (APHINYANAPHONGS et al., 2014).
Devido aos aspectos complexos específicos dos conjuntos de dados de texto desequi-
librados, a aprendizagem com Random Forest a partir desses dados requisita novas
abordagens para ultrapassar os desafios pertinentes com a escolha da seleção de
sub-espaço e corte-ponto durante a execução de divisão do nó (WU et al., 2014).
4. Decision Trees
Com a Árvore de Decisão, uma regra é gerada para cada folha da árvore e o an-
tecedente da regra inclui uma condição para cada nó no caminho entre a raiz e aquela
folha (HALL; WITTEN; FRANK, 2011).
No contexto de dados textuais, os predicados são tipos de condições na presença
ou ausência de uma ou mais palavras no documento e a divisão do espaço de dados
2.3. TAREFAS DE MINERAÇÃO EM TEXTO 27
O número de hiperlinks que devem ser seguidos para navegar de um documento para
outro pela Web.
conjunto determinado de classes em que o documento deve ser classificado e na abordagem sem
supervisão a análise é feita pela determinação da orientação semântica de frases próprias dentro
do documento (FELDMAN, 2013). Na Figura 2.7 é mostrada a arquitetura geral de um sistema
de análise de sentimentos genérico
dagem, os grupos de frases similares são tratados como representantes para tópicos;
grupos com várias frases retratam consideráveis temas de tópicos na entrada.
A abordagem apoiada em grupos de frases para sumarização de multi-documentos
pesquisa a iteração no nível da frase. Quanto maior o número de frases em um cluster,
mais a informação do grupo é considerada como importante. A restrição de cada
frase a apenas um cluster é uma desvantagem do agrupamento de frases, porém para
sumarização de um domínio específico, esse método pode dar uma boa referência
dos temas que frequentemente são discutidos e do tipo de informação que um resumo
deveria transmitir.
3
Mineração de Texto para Psiquiatria
Neste capítulo, veremos mais detalhes sobre o processo de Mineração de Texto usado
na Psiquiatria. Serão discutidas algumas das principais pesquisas sobre mineração de texto,
descrevendo as técnicas utilizadas. Na seção 3.1, temos uma visão geral dessa etapa. Na seção
3.2 são abordados quatro campos de aplicação na área de psiquiatria que utilizam a técnica de
mineração de texto e pesquisas relacionadas. Nas seções 3.3 e 3.4 são discutidas as relações
entre os trabalhos relacionados apresentados e feita uma consideração a respeito do capítulo.
3.2.1 Psicopatologia
A psicopatologia, que estuda o sofrimento mental, pode ter registros de documentos de
pacientes com observações ou narrativas escritas.
A MT pode ser útil na identificação de características semânticas específicas para um
determinado estado psicológico ou doença. Dentre os trabalhos que possuem esse foco, pode-se
citar o de (BERNARDI; TUZZI, 2011), que ilustra exemplos do uso de medidas quantitativas
baseadas em textos léxicos dentro de um contexto particular de comunicação. O trabalho
desenvolvido tem por base um corpus composto de doze ensaios produzidos, por seis indivíduos
com autismo e seis participantes sem nenhuma deficiência, durante sessões de comunicação
facilitada. O objetivo principal é comparar a comunicação escrita de pacientes com distúrbios do
espectro do autismo com a escrita do grupo de controle. Outros trabalhos com base similar são
mencionados a seguir.
Piolat (PIOLAT; BANNOUR, 2009) propõe o estudo sobre o impacto da ansiedade dos
alunos através da forma como eles descrevem seus sentimentos (em texto) depois de passar ou
não em um exame. Esse desenvolvimento se deu através da análise e identificação de traços
específicos de um estado psicológico, com o uso de MT.
Outra aplicação que utiliza mineração de texto voltada a psicopatologia é descrita no
artigo de Yang (YANG et al., 2009). Esse trabalho analisa o impacto do encarceramento no
estado psicológico de reclusos que cumprem penas longas. Em um inquérito epidemiológico,
da saúde psicológica de prisioneiros na França, foram recolhidas respostas narrativas breves
de cinquenta e nove presos. Esses dados textuais serviram de base para análise de conteúdo
qualitativo e análise linguística.
Técnicas de Associação podem ser usadas no processo de mineração de texto, como por
exemplo testes de correlação (ZHANG et al., 2009). No trabalho citado, Zhang investiga o papel
dos diferentes aspectos da tensão psicológica de jovens que cometeram suicídio na zona rural
Chinesa. O estudo teve como base cento e cinco suicídios e o contexto e motivo do ocorrido
foram obtidos através de entrevistas com sobreviventes e amigos íntimos.
Os meios de comunicação Web concedem formas para que as pessoas possam com-
partilhar opiniões e experiências de vida e auxiliar, assim, com informações que vão além das
fornecidas por profissionais do domínio. No trabalho de (CAMERON et al., 2013) é relatado o
desenvolvimento de uma plataforma Web semântica chamada PREDOSE que busca simplificar
o aprendizado epidemiológico de prescrição de atos de excesso de drogas utilizando a mídia
social. O PREDOSE utiliza posts em um fórum Web de conhecimento de domínio que são mo-
delados para uma ontologia de Abuso de Drogas elaborada de modo manual para descomplicar a
extração de informação semântica do conteúdo geral do usuário. Essa extração é feita através
da combinação de técnicas lexicais, apoiadas em semântica baseada em padrões. Avaliações
realizadas das técnicas de extração aplicadas indicaram 85% de precision e 72% de recall para
identificação de entidades, no conjunto de dados, com base em um padrão de ouro que foi criado
manualmente.
É possível predizer a saúde física e mental das pessoas de acordo com as palavras que
elas usam, porém o processo para lidar com essas palavras é complicado. No artigo (HE;
VELDKAMP; VRIES, 2012) foi desenvolvida uma técnica de avaliação textual para encontrar
pacientes que possuam Transtorno de Estresse Pós-Traumático (TEPT) . Foram usados processos
lexicais nas auto narrativas através de técnicas de mineração de texto. Foram utilizadas trezentos
relatos recolhidos on-line, e então extraídas as palavras-chaves intensamente discriminativas
para construção de um modelo de avaliação textual para classificar pessoas que possuem ou não
TEPT.
Em (NEUMAN et al., 2012) é apresentado o sistema que implementa a metodologia
pedesis para coleta das associações representativas relacionadas a depressão e para extração
dos domínios conceituais relevantes para descrevê-las. Com esse sistema é possível avaliar
automaticamente, em um texto, o nível de depressão de uma pessoa ou se a depressão é o tópico
principal abordado no documento. Ou seja, a depressão pode ser percebida de forma automática
em textos e o sistema de saúde mental poderá se favorecer desta habilidade de seleção.
Vários textos psiquiátricos, que expressam problemas depressivos, são publicados por
usuários da Internet através de serviços Web, tais como fóruns e blogs. Esses textos são escritos
em linguagem natural e podem fornecer informações sobre os problemas dos autores, como
por exemplo no estudo (WU; YU; CHANG, 2012) que demonstra a obtenção de padrões de
linguagem entre sentenças para identificação de causalidade a partir de textos psiquiátricos
disponibilizados on-line em uma clínica psiquiátrica virtual mantida por um grupo de profissio-
nais voluntários da Associação de Taiwan Mental Health Informatics.
Diversos eventos negativos, como a perda do emprego ou a morte de um ente querido,
podem provocar episódios depressivos, por isso reconhecer automaticamente tais eventos é
interessante para serviços psiquiátricos. No estudo (YU et al., 2011) são representados padrões
de linguagem de associação como processo para classificar frases que contenham eventos
negativos da vida em categorias pré-definidas (como, família, amor e trabalho, por exemplo).
No trabalho citado foi combinado um algoritmo supervisionado de mineração de dados com
3.2. CAMPOS DE APLICAÇÃO 37
neste trabalho, o DisorderClassifier, que faz uso da mineração de texto para categorização de
transtornos mentais.
41
4
DisorderClassifier: classificação de texto para
categorização de transtornos mentais
de Texto é uma das tarefas da MT que objetiva classificar cada instância de um conjunto de
dados com base nos valores de seus atributos. Coleções de documentos organizadas de forma
hierárquica podem ser úteis para navegação e recuperação de informação (AGGARWAL; ZHAI,
2012a).
A maioria das pessoas sente necessidade de compartilhar experiências de vida, isso não é
diferente com portadores de transtornos mentais. Pode-se considerar que o formato textual é uma
das formas mais usadas para o armazenamento de informações. Existem diversos documentos
textuais com depoimentos de pessoas que vivem ou vivenciaram problemas psicológicos, e que
procuram compartilhar sua história de vida com outras pessoas com problemas semelhantes.
Essas histórias podem ser encontradas em diversas fontes como, blogs, sites de saúde, sistemas
de clínicas particulares, redes sociais.
A falta de estrutura e hierarquia na apresentação das histórias torna-se uma dificulta
para o usuário leigo e até mesmo para o profissional da área encontrar histórias que se adequem
ao contexto do seu paciente a fim de recomendar ao mesmo um conteúdo que poderá ajudá-lo
no processo de recuperação. A categorização dos documentos pode facilitar esse processo,
porém classificar o texto manualmente é um trabalho demorado e, em alguns casos, até mesmo
complexo, o que torna vantajoso a criação de um classificador de texto automático que aprenda a
partir de um conjunto de documentos previamente classificados.
O foco deste trabalho está na classificação de texto para categorização de depoimentos
pessoais com base no transtorno mental relatado no documento. Essa categorização, baseada
na taxonomia DSM-5, poderá ser visualizada no sistema Web Entendendo Meu Transtorno,
implementado para essa finalidade. Portando, propomos o DisorderClassifier, classificador
de texto escolhido de acordo com os melhores resultados de pré-processamento e variação de
parâmetros dos algoritmos de classificação.
pela própria pessoa que sofreu o transtorno ou por alguém próximo a ela.
No pré-processamento dos dados textuais, houve a preparação dos dados de texto para
as fases posteriores de execução das tarefas de processamento. Nessa etapa, os textos foram
padronizados e estruturados. A seguir, realizou-se a redução dimensional dos dados.
O módulo de classificação de texto recebe os documentos pré-processados, já preparados
para extração do conhecimento. Nessa fase, um conjunto de documentos etiquetados é usado
no treinamento do algoritmo de aprendizagem de máquina, para possibilitar a categorização de
novos documentos.
O resultado da classificação é exposto no módulo de visualização, que apresentará ao
usuário os depoimentos categorizados de acordo com a taxonomia DSM-5. Através da interface
do sistema, o usuário poderá filtrar os depoimentos desejados de acordo com o transtorno metal
relatado e/ou pelo gênero do autor.
O sistema Entendendo Meu Transtorno foi implementado com o uso da linguagem Ruby
on Rails1 . Para o desenvolvimento do mesmo, foram adicionadas bibliotecas do Waikato Envi-
ronment for Knowledge Analysis (Weka)2 necessárias para o pré-processamento e a classificação
do texto.
1 http://rubyonrails.org/
2 http://www.cs.waikato.ac.nz/ml/weka/
4.3. COLETA DE DOCUMENTOS E PRÉ-PROCESSAMENTO DOS DADOS 44
Figure 4.2: Exemplo de uma lista gerada a partir do uso da técnica de toquenização.
Para indução do classificador do texto foi usado o algoritmo Support Vector Machine,
pois apresentou melhor desempenho em relação aos demais algoritmos testados. Os resultados
dos experimentos realizados podem ser vistos no Capítulo 5 dessa Dissertação.
A metodologia utilizada para treinamento e teste foi a Validação Cruzada (K-Fold Cross
Validation) com 10 folds. Com a Validação Cruzada, o conjunto de amostras inicial foi dividido
em dez subamostras. Dessas dez subamostras, uma amostra foi retirada para ser utilizada na
validação do modelo (conjunto de testes) e as k-1 (nove) subamostras ficaram compondo o
conjunto de treinamento. O processo foi então repetido dez vezes, de modo que cada uma das
4.5. INTERFACE COM O USUÁRIO 47
dez subamostras fosse utilizada ao menos uma vez como teste. O resultado final é a média
do desempenho do classificador nas dez iterações. O objetivo desta estratégia é aumentar a
confiabilidade da avaliação
No diagrama podem ser observados os atributos de cada classe e suas respectivas relações.
A classe User tem relação com as classes Diagnosis, Testimony, Comment, Expertise e Gender
e seus atributos se referem aos dados pessoais do usuário, que poderá se cadastrar como um
usuário simples (potencial paciente) ou um especialista (médico). A classe Disorder se refere a
transtorno mental, subcategoria da taxonomia DSM-5, enquanto que a DisorderGroup equivale
4.5. INTERFACE COM O USUÁRIO 48
A Figura 4.5 mostra a primeira tela vista pelo usuário, antes de se logar ao sistema. Ela é
subdividida em três partes. O usuário poderá visualizar uma breve explicação sobre o site, sobre a
4 http://semantic-ui.com/
4.5. INTERFACE COM O USUÁRIO 49
definição de transtornos mentais e sobre a classificação DSM-5. Nessa tela inicial são oferecidas
as opções de entrar ou cadastrar-se, de saber sobre o trabalho desenvolvido e de contatos.
Ao escolher a alternativa Cadastre-se, o usuário é direcionado para página de cadastro
(Figura 4.6), onde digitará seus dados pessoais e, se for médico, poderá marcar a opção que
indica sua profissão e fornecer seu número do Conselho Regional de Medicina (CRM).
Ao se logar no sistema, o usuário simples terá como opção visualizar depoimentos
pessoais relacionados a transtornos mentais e filtrar sua pesquisa por tipo de transtorno, gênero e
faixa etária do autor ou da pessoa que o autor trata no texto (Figura 4.7). Ao escolher o botão
’Recomendados’, os relatos pessoais semelhantes ao perfil do usuário são filtrados, possibilitando
assim encontrar depoimentos adequados ao seu contexto sem a necessidade de procurar em todo
o corpus disponível.
Quem se registrar como médico poderá cadastrar pacientes (informando os dados pessoais
deles), e a partir dai uma senha automática, padronizada como ’paciente’, é gerada para os
mesmos (Figura 4.10).
Um médico pode ter vários pacientes cadastrados na sua conta, porém é necessário
selecionar um deles para que seu perfil possa ser considerado na atribuição de contexto a possíveis
depoimentos arquivados. Para o estabelecimento do contexto do paciente, o médico além de
fornecer seu gênero e sua faixa etária (através do fornecimento da data de nascimento), também
4.5. INTERFACE COM O USUÁRIO 51
poderá propor seu diagnóstico (Figura 4.11). Ou seja, ao selecionar os pacientes cadastrados, o
médico poderá realizar pesquisas e cadastros de depoimentos de forma individualizada.
Da mesma forma que os usuários simples, o médico poderá filtrar, visualizar, cadastrar
e fazer comentários sobre depoimentos de transtornos mentais, porém com a indicação do
paciente ao qual deseja indicar a leitura do depoimento. Os pacientes cadastrados pelos médicos
poderão acessar diretamente o sistema através da senha gerada automaticamente na finalização
do cadastro.
Existe um terceiro tipo de usuário, o administrador do sistema. O administrador é o
4.5. INTERFACE COM O USUÁRIO 52
responsável por cadastrar os níveis e subníveis de transtornos mentais (Figura 4.12) para possíveis
atualizações da taxonomia.
5
Experimentos e Resultados
foi criado com o objetivo de classificar transtornos mentais através de critérios associados aos
mesmos, para assim facilitar o diagnóstico mais confiável desses distúrbios (ASSOCIATION
et al., 2013b).
Na taxonomia usada, para etiquetar os relatos, foram considerados os dois primeiros
níveis de classificação, como pode ser visto no Apêndice B.1. No entanto, quatro subcategorias
foram escolhidas para realização dos testes de classificação de texto. Essa restrição se deu devido
ao número de depoimentos encontrados por tipo de transtorno, no qual os mais frequentes foram:
Transtorno Obsessivo Compulsivo, Espectro Autista, Anorexia Nervosa e Esquizofrenia (Tabela
5.1).
5.2 Pré-Processamento
Dados textuais, geralmente, não são encontrados em formato adequado para extração
de conhecimento, sendo necessário muitas vezes o uso de métodos de extração e integração,
transformação, limpeza, seleção e redução de volume desses dados.
Algumas técnicas podem ser aplicadas na fase de pré-processamento dos dados: Toque-
nização, Remoção de Stopwords, Stemming, Conversão de Letras para Minúsculas e Análise da
Frequência de Palavras utilizando vetores ponderados do TF/IDF.
Nesse trabalho de mestrado, todas as técnicas citadas anteriormente foram aplicadas afim
de testar os efeitos que elas podem causar na precisão final do classificador. Os experimentos
foram realizados a partir das implementações disponibilizadas pelo Weka.
Quatro tipos de especificações de pré-processamento (Tabela 5.2) foram aplicadas. Dentre
as técnicas de pré-processamento existentes, foram escolhidas as seguintes, para realização dos
testes: toquenização, semoção de stopwords, stemming, conversão de todas as letras do texto
para minúsculas e análise da frequência das palavras.
1. Decision Trees (J48): O algoritmo J48 produz árvores de classificação com base
em um acervo de dados de treinamento onde, a cada um dos nós, o algoritmo
define um atributo que, de forma eficiente, subdivide o conjunto de amostragens
em subconjuntos semelhantes e especificados por sua classe (HALL et al., 2009).
De acordo com a ocorrência do texto, determina-se a divisão mais provável e a
utiliza para fins de classificação (AGGARWAL; ZHAI, 2012a). O algoritmo tem por
critério o ganho de informações, conseguidas pelo atributo definido para subdivisão
do conjunto (HALL et al., 2009).
5. Support Vector Machine (SVM): Esse modelo descreve as instâncias como pontos no
espaço e procura alcançar um hiperplano, ou conjuntos de hiperplanos, que divida
as instâncias por classes. O ponto principal desse classificador é definir os melhores
limites entre as diferentes classes e usá-los para classificação (AGGARWAL; ZHAI,
2012a). Dentre as opções de variação do SVM, encontra-se a variação otimizada
Sequential Minimal Optimization (SMO) (BALAHUR et al., 2013).
Essa variação do conjunto usado para teste e treinamento é repetida 10 vezes (total
de subconjuntos).
5.4.1.1 Precisão
Figure 5.1: Precisão dos Algoritmos de Classificação com o Uso de Três Classes
(Autoria Própria).
Ao aplicar os quatro tipos de pré-processamento citados na Tabela 5.2, com o uso dos
respectivos algoritmos de classificação, Árvore de Decisão (J48), KNN (IBK), Naive Bayes,
5.4. METODOLOGIA DE EXPERIMENTOS 59
Random Forest e SVM (SMO), foram obtidas as seguintes Matrizes de Confusão (para três
classes):
Como pode ser visto na Figura 5.2, os melhores resultados são conseguidos com o uso
dos pré-processamentos PP1 e PP4, em ambos é feita a análise de frequência das palavras, a
conversão das letras para minúsculas, a toquenização e a remoção de stopwords. A diferença
entre os melhores pré-processamentos para esse caso específico está no uso do stemming, o PP4
faz uso dessa técnica e o PP1 não. Porém, o stemming não interviu no resultado da matriz de
confusão desses dois pré-processamentos. Nos testes com algoritmo de classificação Árvore
de Decisão, o pior resultado foi tido com o uso do pré-processamento PP3, que usou apenas a
técnica de toquenização.
Os resultados das técnicas de pré-processamento usadas para a classificação com o
algoritmo KNN, são mostradas nas matrizes de confusão (Figura 5.3). Como visto, independente
5.4. METODOLOGIA DE EXPERIMENTOS 60
superior na classe Toc com PP1 e Autismo com PP3. Os pré-processamentos mais eficientes
nessa execução, assim como na Árvore de Decisão, foram os PP1 e PP4. O PP4 faz uso do
stemming e em contraposição ao PP1, teve mais acertos na classe Autismo e mais erros nas
classes Anorexia e Toc.
Figure 5.7: Precisão dos Algoritmos de Classificação com o Uso de Quatro Classes
(Autoria Própria).
Em seguida, foram feitos os mesmos testes (de variações das especificações na fase de
pré-processamento) com o acréscimo de uma classe Figura 5.7, denominada Esquizofrenia (com
5.4. METODOLOGIA DE EXPERIMENTOS 62
23 documentos). A adição dessa classe com menor número de depoimentos contribuiu para
diminuição do valor da precisão, nas quatro especificações de pré-processamento testadas nos
cinco algoritmos, diminuindo assim o desempenho do classificador.
Como visto, os resultados demonstrados em termos de Precisão, apontaram que os
pré-processamentos que obtiveram melhor desempenho, tanto com o uso de 3 classes como de 4
classes, foram PP1 e PP4, ou seja, a utilização das técnicas de análise da frequência de palavras,
conversão das letras para minúsculas, remoção de stopwords e stemming contribuíram para o
melhor desempenho dos algoritmos de classificação. Apenas para a utilização do algoritmo KNN,
que possui o pior desempenho nos testes realizados, PP2 e PP3 mostraram valores superiores.
Figure 5.8: Resultados da Área da Curva ROC com o Uso de Três Classes (Autoria
Própria).
Assim, como demonstrado através da métrica de Precisão, a Curva ROC também apre-
sentou melhores desempenhos para as especificações PP1 e PP4 em quatro dos cinco algoritmos
testados, porém a diferença de valor obtido das demais especificações foi pequena.
5.4. METODOLOGIA DE EXPERIMENTOS 63
Figure 5.9: Resultados da Área da Curva ROC com o Uso de Quatro Classes (Autoria
Própria).
Especificações e Resultados
Algoritmo
Nº de Classes Pré-processamento Precisão Acertos
Decision Tree (J48) 3 classes PP1 e PP4 0,961 95,8621%
Decision Tree (J48) 4 classes PP1 e PP4 0,924 92,2619%
KNN 3 classes PP3 0,804 59,3103%
KNN 4 classes PP3 0,738 54,7619%
Naive Bayes 3 classes PP4 0,874 86,2069%
Naive Bayes 4 classes PP2 0,823 74,4048%
Random Forest 3 classes PP1 0,949 94,4828%
Random Forest 4 classes PP4 0,908 89,8810%
SVM (SMO) 3 classes PP1, PP2 e PP4 0.993 99,3103%
SVM (SMO) 4 classes PP1 e PP4 0,962 95,8333%
Table 5.3: Pré-processamento com Melhor Desempenho para cada Algoritmo
para cada algoritmo de classificação, possibilitando assim, a análise dos impactos que cada
componente relacionado ao algoritmo poderia causar no resultado final. A seguir serão mostradas
as descrições padrões dos algoritmos e os resultados das práticas efetuadas.
Como apresentado na Tabela 5.3, os melhores resultados obtidos pelo algoritmo J48
foram tidos com o uso dos pré-processamentos PP1 e PP4, com precisão de 0,961 e Curva ROC
de 0,965 para 3 classes e precisão de 0,924 e Curva ROC de 0,946 para 4 classes, que equivale a
uma taxa de instâncias classificadas corretamente de 95,8621% e 92,2619% respectivamente.
A árvore gerada pela execução com 3 classes (Figura 5.10) obteve o mesmo resultado
com PP1 e PP4, a única diferença foi no tempo necessário para gerar o modelo, que foi maior
com o PP4 (0.7 segundos).
0.25, e equivale ao fator de confiança utilizado para poda, enquanto que o parâmetro minNumObj
condiz ao número mínimo de casos por folha, e tem por padrão o valor 2.
Para realização dos experimentos, o valor de confidenceFactor foi alterado para 0.1 e 0.5,
e o valor de minNumObj para 1 e 10, respectivamente. O traço ’-’, presente em alguns espaços
das tabelas, equivale a nenhuma mudança no valor da precisão e da Curva ROC.
poda (confidenceFactor), tanto para um número inferior (0.1), quanto para um número superior
(0.5) ao valor padrão, não proporcionou mudanças no desempenho do classificador. Um modesto
aumento no valor da área da Curva ROC foi constatado ao se alterar o parâmetro correspondente
ao menor número permitido de casos por folha (minNumObj) para o valor 1 no teste com 4
classes, porém, isso não trouxe melhorias na precisão do modelo. Ao contrário, as mudanças
nesse parâmetro diminuíram a precisão e a Curva ROC dos demais casos.
5.4.2.2 KNN
Os melhores resultados obtidos pelo algoritmo KNN se deram com a utilização das
especificações do pré-processamento PP3, onde alcançou precisão de 0,804 e Curva ROC de
0,681 para 3 classes e precisão de 0,738 e Curva ROC de 0,693 para 4 classes, que equivale a
uma taxa de instâncias classificadas corretamente de 59,3103% e 54,7619% respectivamente.
Dentre os parâmetros do algoritmo KNN, podem ser mencionados: (1) knn, (2) Cross-
Validate e (3) distanceWeighting. O parâmetro KNN por padrão recebe o valor 1 e refere-se ao
número de vizinhos que serão usados; O CrossValidate é responsável por selecionar o melhor
valor k entre 1 e o valor especificado no parâmetro knn, porém vem desativado; E o parâmetro
distanceWeighting responsável por obter o método da distância de ponderação utilizada, por
padrão não utiliza ponderação de distância .
Para realização dos experimentos, o valor de knn foi alterado para 2, 5 e 10; o CrossVali-
date foi ativado e o parâmetro distanceWeighting foi mudado para Weight by 1/distance e Weight
by 1-distance.
Os experimentos praticados pela variação de parâmetros do algoritmo KNN, com 3
classes, mostrou mudanças em alguns dos resultados para determinadas medidas (Tabela 5.6):
corretamente, passou de 59,3103% para 76.5517%. com a variação de knn para 5, o modelo com
4 classes, também apresentou elevação no valor da precisão para 0.789 e da Curva ROC para
0.897, com diferença no valor da porcentagem de acertos (67.2619%), que foi menor do que o
teste com 3 classes, porém maior do que o valor obtido com a representação padrão.
Os melhores resultados obtidos pelo algoritmo Naive Bayes se deram com a utilização
das especificações dos pré-processamentos PP4 para o modelo com 3 classes (com precisão =
0.874 e Curva ROC = 0.899) e PP2 para o modelo com 4 classes (com precisão = 0.823 e Curva
ROC = 0.851), equivalente a, respectivamente, 86.2069% e 74.4048% de instâncias classificadas
corretamente.
Dentre os parâmetros do algoritmo Naive Bayes, podem ser especificados: (1) useKernel-
Estimator e (2) useSupervisedDiscretization. Ambos os parâmetros vem desabilitados por padrão.
O useKernelEstimator quando ativado usa um estimador de kernel para atributos numéricos, em
vez de uma distribuição normal e o useSupervisedDiscretization usa discretização supervisionada
para converter atributos numéricos para as nominais. Para realização dos experimentos, os dois
parâmetros foram ativados.
As experiências realizadas com as mudanças das configurações dos parâmetros do
algoritmo Naive Bayes, com 3 classes, mostraram alterações em alguns resultados (TABELA
5.8):
Os melhores resultados obtidos pelo algoritmo Random Forest se deram com a utilização
das especificações de pré-processamento PP1 para o modelo com 3 classes (Precisão = 0,949 e
Curva ROC = 0.991) que obteve 94,4828% de instâncias classificadas corretamente e PP4 para o
modelo com 4 classes (Precisão = 0,908 e Curva ROC = 0.984) com 89,8810% de acertos.
Em relação aos parâmetros do algoritmo Random Forest, podemos citar: (1) maxDepth,
(2) numFeatures e (3) numTrees. O parâmetro maxDepth tem o valor 0 por padrão e equivale a
profundidade máxima das árvores; o numFeatures, que também possui 0 como valor padrão, é o
número de atributos para ser usado em seleção aleatória; e o numTrees, que tem por padrão o
número 100, condiz ao número de árvores a serem geradas.
Para realização dos experimentos, os valores de maxDepth e numFeatures foram alterados
para -1 e 10 e o valor de numTrees foi modificado para 50 e 150.
Os testes feitos com a modificação de parâmetros do algoritmo Random Forest, com 3
classes, apresentou resultados diferentes em alguns fatores (Tabela 5.10). Na tabela 5.11 são
mostrados os resultados dos experimentos com 4 classes.
das alterações realizadas possibilitou maior desempenho ao algoritmo Random Forest, quanto ao
quesito precisão.
Os melhores resultados obtidos pelo algoritmo SVM (SMO) se deram com a utilização das
especificações do pré-processamento PP1, PP2 e PP4 para o modelo com 3 classes (Precisão=
0.993 e Curva ROC= 0.997) e PP1 e PP4 para o modelo com 4 classes (Precisão= 0.962 e
Curva ROC= 0.986), com respectivamente 99.3103% e 95.8333% de instâncias classificadas
corretamente.
Em meio aos parâmetros do algoritmo SMO, descritos no Weka, podem ser destacados:
(1) c, que equivale ao parâmetro de complexidade C e (2) Kernel, que escolhe o kernel que será
usado. O parâmetro c tem o valor 1.0 como padrão e o kernel tem por opção padrão o PolyKernel
-C 250007 -E 1.0.
Para realização dos experimentos, o valor de c foi alterado para 0 e 10; e a opção de
Kernel foi alterada para as demais disponíveis, normalizepolykernel, puk e RBFKernel.
Os experimentos feitos através da variação de valores nos parâmetros do algoritmo SVM,
com os modelos com 3 e 4 classes, mostraram os seguintes resultados (Tabela 5.12) e (Tabela
5.13).
6
Conclusão
classificação do texto por gênero e faixa etária do autor, para que o usuário possa
realizar pesquisas com base em seu contexto pessoal.
Referências
AGARWAL, S.; YU, H.; KOHANE, I. BioN T: a searchable database of biomedical negated
sentences. BMC bioinformatics, [S.l.], v.12, n.1, p.1, 2011.
AGGARWAL, C. C. Data mining: the textbook. [S.l.]: Springer, New York, 2015.
AGGARWAL, C. C.; REDDY, C. K. Data clustering: algorithms and applications. [S.l.]: CRC
Press, 2013.
AGGARWAL, C. C.; ZHAI, C. Mining text data. [S.l.]: Springer Science & Business Media,
2012.
AGGARWAL, C. C.; ZHAI, C. A survey of text clustering algorithms. In: Mining text data.
[S.l.]: Springer, 2012. p.77–128.
AGGARWAL, C. C.; ZHAO, P. Towards graphical models for text processing. Knowledge and
information systems, [S.l.], v.36, n.1, p.1–21, 2013.
AKILAN, A. Text mining: challenges and future directions. In: ELECTRONICS AND
COMMUNICATION SYSTEMS (ICECS), 2015 2ND INTERNATIONAL CONFERENCE ON.
Anais. . . [S.l.: s.n.], 2015. p.1679–1684.
ASSOCIATION, A.-A. P. et al. Diagnostic and statistical manual of mental disorders. DSM-IV,
Washington, DC, [S.l.], 1994.
BALAHUR, A. et al. Detecting implicit expressions of affect in text using EmotiNet and its
extensions. Data & Knowledge Engineering, [S.l.], v.88, p.113–125, 2013.
BASARI, A. S. H. et al. Opinion mining of movie review using hybrid method of support vector
machine and particle swarm optimization. Procedia Engineering, [S.l.], v.53, p.453–462, 2013.
REFERÊNCIAS 74
GONG, L. et al. Prediction of autism susceptibility genes based on association rules. Journal of
neuroscience research, [S.l.], v.90, n.6, p.1119–1125, 2012.
GONG, Y.; LIU, X. Generic text summarization using relevance measure and latent semantic
analysis. In: ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN
INFORMATION RETRIEVAL, 24. Proceedings. . . [S.l.: s.n.], 2001. p.19–25.
HAAS, S. W. et al. Emergency Medical Text Classifier: new system improves processing and
classification of triage notes. Online journal of public health informatics, [S.l.], v.6, n.2,
2014.
HADDI, E.; LIU, X.; SHI, Y. The role of text pre-processing in sentiment analysis. Procedia
Computer Science, [S.l.], v.17, p.26–32, 2013.
HALL, M. et al. The WEKA data mining software: an update. ACM SIGKDD explorations
newsletter, [S.l.], v.11, n.1, p.10–18, 2009.
HALL, M.; WITTEN, I.; FRANK, E. Data mining: practical machine learning tools and
techniques. Kaufmann, Burlington, [S.l.], 2011.
HE, Q.; VELDKAMP, B. P.; VRIES, T. de. Screening for posttraumatic stress disorder using
verbal features in self narratives: a text mining approach. Psychiatry research, [S.l.], v.198, n.3,
p.441–447, 2012.
HUH, J.; YETISGEN-YILDIZ, M.; PRATT, W. Text classification for assisting moderators in
online health communities. Journal of biomedical informatics, [S.l.], v.46, n.6, p.998–1005,
2013.
JAIN, A. K.; DUBES, R. C. Algorithms for clustering data. [S.l.]: Prentice-Hall, Inc., 1988.
LIN, C.-Y.; HOVY, E. The automated acquisition of topic signatures for text summarization. In:
COMPUTATIONAL LINGUISTICS-VOLUME 1, 18. Proceedings. . . [S.l.: s.n.], 2000.
p.495–501.
LIU, B. Sentiment analysis and opinion mining. Synthesis lectures on human language
technologies, [S.l.], v.5, n.1, p.1–167, 2012.
MCCALLUM, A.; NIGAM, K. et al. A comparison of event models for naive bayes text
classification. In: AAAI-98 WORKSHOP ON LEARNING FOR TEXT CATEGORIZATION.
Anais. . . [S.l.: s.n.], 1998. v.752, p.41–48.
MEYSTRE, S. M. et al. Extracting information from textual documents in the electronic health
record: a review of recent research. Yearb Med Inform, [S.l.], v.35, p.128–44, 2008.
MINER, G. Practical text mining and statistical analysis for non-structured text data
applications. [S.l.]: Academic Press, 2012.
MITCHELL, T. M. Machine learning. 1997. Burr Ridge, IL: McGraw Hill, [S.l.], v.45, p.37,
1997.
MUNKOVÁ, D.; MUNK, M.; VOZÁR, M. Data pre-processing evaluation for text mining:
transaction/sequence model. Procedia Computer Science, [S.l.], v.18, p.1198–1207, 2013.
NEETHU, M.; RAJASREE, R. Sentiment analysis in twitter using machine learning techniques.
In: COMPUTING, COMMUNICATIONS AND NETWORKING TECHNOLOGIES
(ICCCNT), 2013 FOURTH INTERNATIONAL CONFERENCE ON. Anais. . . [S.l.: s.n.], 2013.
p.1–5.
NEUMAN, Y. et al. Proactive screening for depression through metaphorical and automatic text
analysis. Artificial intelligence in medicine, [S.l.], v.56, n.1, p.19–25, 2012.
PERLIS, R. et al. Using electronic medical records to enable large-scale studies in psychiatry:
treatment resistant depression as a model. Psychological medicine, [S.l.], v.42, n.01, p.41–50,
2012.
PIOLAT, A.; BANNOUR, R. An example of text analysis software (EMOTAIX-Tropes) use: the
influence of anxiety on expressive writing. Current psychology letters. Behaviour, brain &
cognition, [S.l.], v.25, n.2, 2009, 2009.
RAMASUBRAMANIAN, C.; RAMYA, R. Effective pre-processing activities in text mining
using improved porter’s stemming algorithm. International Journal of Advanced Research
in Computer and Communication Engineering, [S.l.], v.2, n.12, p.2278–1021, 2013.
ROQUE, F. S. et al. Using electronic patient records to discover disease correlations and stratify
patient cohorts. PLoS Comput Biol, [S.l.], v.7, n.8, p.e1002141, 2011.
RZHETSKY, A.; SERINGHAUS, M.; GERSTEIN, M. B. Getting started in text mining: part
two. PLoS Comput Biol, [S.l.], v.5, n.7, p.e1000411, 2009.
SALTON, G. Automatic text processing: the transformation, analysis, and retrieval of. Reading:
Addison-Wesley, [S.l.], 1989.
SALTON, G. et al. Automatic text structuring and summarization. Information Processing &
Management, [S.l.], v.33, n.2, p.193–207, 1997.
SANKARASUBRAMANIAM, Y.; RAMANATHAN, K.; GHOSH, S. Text summarization
using Wikipedia. Information Processing & Management, [S.l.], v.50, n.3, p.443–461, 2014.
SARKAR, I. N. A vector space model approach to identify genetically related diseases. Journal
of the American Medical Informatics Association, [S.l.], v.19, n.2, p.249–254, 2012.
SAÚDE, O. M. da. CID-10: classificação estatística internacional de doenças com disquete vol.
1. [S.l.]: Edusp, 1994.
SENIN, P.; MALINCHIK, S. Sax-vsm: interpretable time series classification using sax and
vector space model. In: IEEE 13TH INTERNATIONAL CONFERENCE ON DATA MINING,
2013. Anais. . . [S.l.: s.n.], 2013. p.1175–1180.
SHEMILT, I. et al. Pinpointing needles in giant haystacks: use of text mining to reduce
impractical screening workload in extremely large scoping reviews. Research synthesis
methods, [S.l.], v.5, n.1, p.31–49, 2014.
SHIN, Y. et al. Evaluating complexity, code churn, and developer activity metrics as indicators
of software vulnerabilities. IEEE Transactions on Software Engineering, [S.l.], v.37, n.6,
p.772–787, 2011.
SHOLOM M. WEISS NITIN INDURKHYA, T. Z. a. Fundamentals of Predictive Text
Mining. 2.ed. [S.l.]: Springer-Verlag London, 2015. (Texts in Computer Science).
SUAREZ-TANGIL, G. et al. Dendroid: a text mining approach to analyzing and classifying
code structures in android malware families. Expert Systems with Applications, [S.l.], v.41,
n.4, p.1104–1117, 2014.
TABOADA, M. et al. Lexicon-based methods for sentiment analysis. Computational
linguistics, [S.l.], v.37, n.2, p.267–307, 2011.
REFERÊNCIAS 78
TAN, A.-H. et al. Text mining: the state of the art and the challenges. In: PAKDD 1999
WORKSHOP ON KNOWLEDGE DISOCOVERY FROM ADVANCED DATABASES.
Proceedings. . . [S.l.: s.n.], 1999. v.8, p.65–70.
TOON, E.; TIMMERMANN, C.; WORBOYS, M. Text-Mining and the History of Medicine:
big data, big questions? Medical history, [S.l.], v.60, n.02, p.294–296, 2016.
UYSAL, A. K.; GUNAL, S. Text classification using genetic algorithm oriented latent semantic
features. Expert Systems with Applications, [S.l.], v.41, n.13, p.5938–5947, 2014.
WEISS, S. M. et al. Text mining: predictive methods for analyzing unstructured information.
USA: Springer Science & Business Media, 2010.
WU, C.-Y. et al. Evaluation of smoking status identification using electronic health records and
open-text information in a large mental health case register. PloS one, [S.l.], v.8, n.9, p.e74262,
2013.
WU, J.-L.; YU, L.-C.; CHANG, P.-C. Detecting causality from online psychiatric texts using
inter-sentential language patterns. BMC medical informatics and decision making, [S.l.],
v.12, n.1, p.72, 2012.
WU, Q. et al. ForesTexter: an efficient random forest algorithm for imbalanced text
categorization. Knowledge-Based Systems, [S.l.], v.67, p.105–116, 2014.
YANG, S. et al. Doing time: a qualitative study of long-term incarceration and the impact of
mental illness. International journal of law and psychiatry, [S.l.], v.32, n.5, p.294–303, 2009.
YANG, Y.; LIU, X. A re-examination of text categorization methods. In: ACM SIGIR
CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL,
22. Proceedings. . . [S.l.: s.n.], 1999. p.42–49.
YU, L.-C. et al. Mining association language patterns using a distributional semantic model for
negative life event classification. Journal of biomedical informatics, [S.l.], v.44, n.4,
p.509–518, 2011.
ZHANG, J. et al. Psychological strains found from in-depth interviews with 105 Chinese rural
youth suicides. Archives of Suicide Research, [S.l.], v.13, n.2, p.185–194, 2009.
REFERÊNCIAS 79
ZHAO, Y.; KARYPIS, G. Empirical and theoretical comparisons of selected criterion functions
for document clustering. Machine Learning, [S.l.], v.55, n.3, p.311–331, 2004.
80
A
Mineração de Texto na Psiquiatria
B
Taxonomia DSM-5
Categoria Subcategoria
(1) Transtornos de (1.1) Transtornos do Desenvolvimento Intelectual; (1.2) Transtornos de
Neurodesenvolvi- Comunicação; (1.3) Transtorno do Espectro Autista; (1.4) Transtorno de
mento Déficit de Atenção/Hiperatividade; (1.5) Transtorno de Aprendizagem
Específica; (1.6) Transtornos Motores.
(2) Espectro da (2.1) Transtorno da Personalidade Esquizotípica; (2.2) Transtorno Deli-
Esquizofrenia e rante; (2.3) Transtorno Psicótico Breve; (2.4) Transtorno Psicótico In-
Outros Transtornos duzido por Substância; (2.5) Transtorno Psicótico Associado a Outra
Psicóticos Condição Médica; (2.6) Transtorno Catatônico Associado a Outra
Condição Médica; (2.7) Transtorno Esquizofreniforme; (2.8) Transtorno
Esquizoafetivo; (2.9) Esquizofrenia; (2.10) Transtorno Psicótico Sem
Outra Especificação; (2.11) Transtorno Catatônico Sem Outra Especifi-
cação.
(3) Transtorno (3.1) Transtorno Bipolar I; (3.2) Transtorno Bipolar II; (3.3) Transtorno
Bipolar e Seus Ciclotímico; (3.4) Transtorno Bipolar Induzido por Substâncias; (3.5)
Correlatos Transtorno Bipolar Associado com Outra Condição Médica; (3.6)
Transtorno Bipolar Sem Outra Especificação.
(4) Transtornos De- (4.1) Transtorno da Desregulação da Disrupção do Humor; (4.2)
pressivos Transtorno Depressivo Maior – Episódio Único; (4.3) Transtorno Depres-
sivo Maior – Recorrente; (4.4) Transtorno Distímico; (4.5) Transtorno
Disfórico Pré-Menstrual; (4.6) Transtorno Depressivo Induzido por
Substâncias; (4.7) Transtorno Depressivo Associado a Outra Condição
Médica; (4.8) Transtorno Depressivo Sem Outra Especificação.
Continua na página seguinte
83
C
Fontes dos Depoimentos
As Figuras abaixo (Figura C.1, Figura C.2, Figura C.3 e Figura C.4 ) apresentam as
fontes, separadas por tipo de transtorno, de onde os depoimentos pessoais foram coletados para
fins de classificação.
Figure C.1: Links dos relatos referentes a Anorexia Nervosa (Autoria Própria)
87
Figure C.2: Links dos relatos referentes ao Espectro Autista (Autoria Própria)
Figure C.3: Links dos relatos referentes ao Transtorno Obsessivo Compulsivo (Autoria
Própria)
88