Você está na página 1de 32

3

Etapas da Metodologia de Minerao de Textos


Neste captulo so analisadas e discutidas as etapas da metodologia para
Minerao de Textos que est sob anlise, conforme inicialmente proposto por
Aranha em [29]. Em seu trabalho, Aranha sugere o que seria um modelo completo
para aquisio de conhecimento a partir de textos, porm com aprofundamento na
sub-etapa de Pr-processamento. O objetivo deste captulo apresentar de forma
clara e detalhada todos os passos e tcnicas consideradas at o presente momento
como estado da arte, contemplando todas as etapas da metodologia em estudo,
conforme ilustrado na Figura 3
2
.

COLETA
COLETA PR-
PROCESSAMENTO
PR-
PROCESSAMENTO INDEXAO
INDEXAO
MINERAO
MINERAO
ANLISE
ANLISE
Formao da base
de documentos ou
Corpus.
Robs de Crawling
atuando em
qualquer ambiente.
Preparao dos
dados.
Processamento
de Linguagem
Natural (PLN).
Objetivo acesso
rpido, busca.
Recuperao de
Informao (IR)
Clculos,
inferncias e
extrao de
conhecimento.
Minerao de
Dados (DM).
Anlise humana.
Navegao.
Leitura e
Interpretao dos
dados.
1
1
2
2
3
3
4
4
5
5
Base Base Text Mining Text Mining Pessoas Pessoas

Figura 3 Diagrama que ilustra a metodologia de Minerao de Textos com o
encadeamento de tcnicas proposta por Aranha.

Coleta a etapa inicial e tem como objetivo formar uma base de dados
textual, conhecida na literatura como Corpus ou Corpora. Pode se dar de vrias
maneiras, porm todas necessitam de grande esforo, a fim de se conseguir
material de qualidade e que sirva de matria-prima para a aquisio de
conhecimento.

2
A Figura 3 no sofreu nenhuma modificao em relao quela apresentada inicialmente por
Aranha em sua Tese de Doutorado.
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
27
Pr-processamento a etapa executada imediatamente aps a Coleta e tem
como objetivo prover alguma formatao e representao da massa textual.
bastante onerosa, com a aplicao de diversos algoritmos que consomem boa
parte do tempo do processo de extrao de conhecimento.
Indexao o processo que organiza todos os termos adquiridos a partir de
fontes de dados, facilitando o seu acesso e recuperao. Uma boa estrutura de
ndices garante rapidez e agilidade ao processo, tal como funciona o ndice de um
livro.
Aps terem sido obtidas uma estrutura para os dados e uma forma de prover
rpido acesso, a etapa de Minerao propriamente dita responsvel pelo
desenvolvimento de clculos, inferncias e algoritmos e que tem como objetivo a
extrao de conhecimento, descoberta de padres e comportamentos que possam
surpreender.
Finalmente, a Anlise a ltima etapa deve ser executada por pessoas
que, normalmente, esto interessadas no conhecimento extrado e que devem
tomar algum tipo de deciso apoiada no processo de Minerao de Texto.
A seguir, so mencionados detalhes especficos de cada etapa, com a
meno de algoritmos, implementaes, problemas e solues propostas na
literatura.

3.1.
Coleta
Entende-se por Coleta o processo de busca e recuperao de dados e este
tem como finalidade formar a base textual da qual se pretende extrair algum tipo
de conhecimento. Coletar dados uma tarefa bastante custosa aonde existem
diversos desafios, a comear pela descoberta da localizao das fontes de dados.
Basicamente, so trs os principais ambientes de localizao das fontes:
pastas de arquivos encontradas no disco rgido de usurios, tabelas de diversos
bancos de dados e a Internet. As particularidades destes trs ambientes sero
relatadas a seguir.
As pastas de arquivos so talvez a forma mais natural de se armazenar
documentos na forma digital. Coletar documentos no disco rgido de um
computador algo que exige bastante cautela, pois necessrio fazer a distino
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
28
entre arquivos textuais produzidos por pessoas e arquivos binrios e de
configurao, normalmente interpretados apenas pela mquina. Algumas
iniciativas podem ajudar no gerenciamento de documentos eletrnicos, como o
caso dos sistemas de GED (gerenciamento eletrnico de documentos) para
grandes empresas e dos sistemas de busca local como o Google Desktop, Yahoo!
Desktop e Ask J eeves Desktop. Alguns sistemas operacionais tambm incluram
esta funcionalidade em suas novas verses, como o caso do Windows Vista,
desenvolvido e comercializado pela Microsoft.
A obteno de massa textual a partir de tabelas de banco de dados se d,
principalmente, atravs do contedo de colunas do tipo string, que nada mais so
do que campos de armazenamento de texto livre, sem nenhuma restrio a no ser
a quantidade mxima de caracteres suportada por registro. Como os dados podem
estar espalhados por diversas tabelas de diversos bancos de dados, a construo de
um Data Warehouse [2][3] vista como um timo ponto de partida para a
obteno de dados, uma vez que a teoria de DW prega a integrao de diversas
fontes. Ainda neste tipo de sistema, supe-se que seja realizada uma etapa de pr-
processamento, aonde um dos objetivos prover uma limpeza dos dados,
garantindo qualidade no que se est disponibilizando.
O terceiro ambiente de localizao de fontes de dados a Internet. Neste, a
heterogeneidade o desafio predominante, aonde encontrada uma infinidade de
tipos de pgina, como notcias de revistas, bloggers, anncios, documentos,
artigos tcnicos e planilhas. Para a realizao da coleta neste ambiente, comum a
utilizao de ferramentas de apoio, como Motores de Busca Baseados em Rob
(Robotic Internet Search Engines) e Diretrios de Assunto (Subject Directories)
[30].
Crawler ou Webcrawler o nome dado aos robs especializados em
navegar na Internet, de forma autnoma e exploratria, com o objetivo de realizar
a coleta automtica de documentos. Para tanto, necessrio que as pginas HTML
sejam interpretadas de forma correta, com a identificao de hiperlinks, seguido
de visitao, conforme o ser humano realiza. Outra funo importante saber
gerenciar bem seu caminho de percurso, que tem a forma de um grafo, de modo a
impedir que o rob visite vrias vezes a mesma pgina ou entre em ciclos eternos.
H uma forma alternativa de utilizao de crawlers, que faz uma coleta
segmentada, fazendo a varredura de forma orientada. Os robs que se utilizam
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
29
desta forma variante so chamados de crawlers focados. Um crawler deste tipo
altamente efetivo na construo de colees de documentos de qualidade sobre
tpicos especficos e oriundos da web, usando simples computadores caseiros
[31]. So considerados mais inteligentes que os crawlers normais, pois fazem
uso de algoritmos que identificam documentos similares, agilizando a busca e
dispensando o uso de grandes recursos de hardware.
Finalmente, aps a apresentao dos trs ambientes, necessrio destacar
que em ambientes de pesquisa e desenvolvimento de Minerao de Textos,
comum a utilizao de corpus conhecidos, previamente coletados e preparados,
com a diversidade suficiente para que sejam empregados em trabalhos de pesquisa
e de natureza cientfica. A Tabela 3 apresenta um resumo dos principais corpus
utilizado como benchmark pela comunidade de pesquisadores em geral.

Tabela 3 Resumo das principais colees de texto usadas pela comunidade cientfica
Corpus Definio
Reuters 21578 Corpus Coletnea de 21.578 notcias publicadas pela agncia de
notcias Reuters no ano de 1987. Desenvolvida em 1996 por
Lewis e disponvel no formato SGML
3
.
Reuters Corpus RCV1 Corpus tambm desenvolvido pela agncia Reuters, com
880 mil arquivos em ingls, contendo notcias publicadas
entre 20/08/1996 e 19/08/1997. Atualmente mantido pela
agncia americana NIST
4
e disponvel no formato XML.
Movie Review Data Set Coleo de crticas pessoais sobre filmes coletadas do
IMDb
5
. Ao todo so duas mil avaliaes, dividas
igualmente em dois grupos: o de comentrios favorveis,
ou seja, o autor assistiu e recomenda o filme; e o de
comentrios desfavorveis, com avaliaes negativas e
suas respectivas justificativas.
The Brown Corpus The Brown Corpus of Standard American English foi um
dos primeiros corpus criados para o propsito de
processamento de textos. Constitudo de textos de
diversos gneros, com aproximadamente um milho de
palavras.
Penn Tree Bank Coleo de notcias extradas do Wall Street Journal, com
etiquetas morfossintticas manualmente identificadas.
CETENFolha Coleo compilada pelo NILC
6
, com cerca de 24 milhes
de palavras em portugus, criada com base nos textos
publicados no J ornal Folha de So Paulo.

3
SGML uma metalinguagem para definio de linguagens de marcao para documentos.
4
National Institute of Science and Technology (http://www.nist.gov)
5
The Internet Movie Database (http://www.imdb.com)
6
Ncleo Interinstitucional de Lingstica Computacional (http://www.nilc.icmsc.sc.usp.br)
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
30
3.2.
Pr-processamento
Pr-processamento a etapa realizada imediatamente aps a Coleta, com o
objetivo de se obter alguma estrutura para a massa textual. Pr-processar textos ,
por muitas vezes, o processo mais oneroso da metodologia de MT, uma vez que
no existe uma nica tcnica que possa ser aplicada para a obteno de uma
representao satisfatria em todos os domnios. Assim sendo, para se chegar
representao adequada, pode ser necessria a realizao de muitos experimentos
empricos [32].
O principal objetivo de se pr-processar textos aumentar a qualidade
inicial dos dados, aonde diversas tcnicas podem ser aplicadas e at mesmo
combinadas, num processo similar ao mecanismo de pipeline, aonde a sada de
determinado programa entrada para outro, similar a uma estrutura de dutos
interconectados.
Normalmente, o produto final do pr-processamento uma estrutura do tipo
atributo-valor, conforme verificado na Tabela 4. As linhas fazem aluso a cada
um dos documentos da coleo, enquanto que as colunas fazem referncia aos
atributos, presentes ou no, em cada um dos documentos. A interseco entre
atributos e documentos marcada pelo peso dado a determinado atributo em
determinado documento (por exemplo, pode-se utilizar a freqncia de apario
do atributo no documento). Esta estrutura precisa ser significante, representativa e
que reflita fielmente a diversidade original dos dados. De posse desta estrutura,
possvel a execuo da etapa de Minerao, precedida ou no da de Indexao.

Tabela 4 Representao atributo-valor obtida partir da etapa de Pr-processamento
Atrib1 ... AtribN
Doc1 V11 ... V1N
... .... .... ....
Docm Vm1 ... Vmn

P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
31
3.2.1.
Tokenization (Atomizao)
Tokenization o primeiro passo da etapa de pr-processamento e sua
execuo tem como finalidade extrair unidades mnimas de texto a partir de um
texto livre. Cada unidade chamada de token e que, na grande maioria das vezes,
corresponde a uma palavra do texto, podendo tambm estar relacionado a mais de
uma palavra, smbolo ou caractere de pontuao. um termo bastante utilizado ao
longo desta dissertao, mesmo nos momentos em que palavra pode parecer ter
o mesmo sentido. De fato, muitas vezes um token representa uma e apenas uma
palavra no texto, conforme j mencionado. Entretanto, preferiu-se manter o termo
tcnico verificado na literatura. Como exemplo, a frase Zico foi o maior jogador
da histria! possui oito tokens, conforme mostra o exemplo abaixo:

Zico foi o maior jogador da histria!
[Zico] [foi] [o] [maior] [jogador] [da] [histria] [!]


O caractere que sempre descartado na gerao de tokens o espao,
como pode ser observado na transformao acima. Existem diversas estratgias
para a obteno dos tokens de um texto. A quebra de um texto em seus
delimitadores uma estratgia simples e que apresenta bons resultados quando se
possui uma grande massa de dados. Por exemplo, pode-se quebrar um texto nos
seguintes delimitadores, alm do espao: () <>!-?.;- |.
Entretanto, a tarefa de identificao de tokens, que relativamente simples
para o ser humano, pode ser bastante complexa de ser executada por um
computador. Este fato atribudo ao grande nmero de papis que os
delimitadores podem assumir. Por exemplo, o ponto pode ser usado para marcar
o fim de uma sentena, mas tambm usado em abreviaes e nmeros. Outro
exemplo o travesso, que pode indicar o incio de uma citao no texto ou,
quando entre dgitos, indicar um nmero de telefone (ex., (21) 2235-7553) ou uma
operao de subtrao, tambm entre nmeros.
possvel acrescentar mais informaes Tokenization, com a adio de
dicionrios e regras de formao. Em [33] apresentado um subsistema que faz
uso de tais artefatos, unindo funes e camadas, de forma similar a uma linha de
montagem, como ilustrado na Figura 4.
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
32

Figura 4 Linha de montagem de um procedimento de Tokenization.

A linha de montagem comea com a apresentao de um fluxo de texto ao
subsistema. Entende-se por fluxo de texto toda e qualquer seqncia de caracteres.
Em Gerao Simples, so identificados os tokens preliminares com base em uma
lista de delimitadores e o espao em branco. Em seguida, feita a Identificao
de Abreviaes, com a ajuda de dicionrios pr-estabelecidos. Existem diferentes
tipos de abreviao, com uma ou mais palavras ou com ou sem utilizao de
pontuao. Em Identificao de Palavras Combinadas, palavras que foram
separadas por determinados caracteres como & e - so unidas, formando um
nico token. Estas palavras podem ou no estar separadas por espaos, como em
AT&T e AT & T. Em Identificao de Smbolos de Internet, observada a
existncia de endereos de e-mail, endereos de sites (URLs) e endereos IP. Em
Identificao de Nmeros, so identificadas toda e qualquer forma de
apresentao de nmero, incluindo tambm medidas e valores. Por ltimo, a
Identificao de Tokens Multi-vocabulares observa a apario de palavras que
precisam estar unidas em nico token, com o objetivo de manter o sentido original
encontrado no texto. A Tabela 5 apresenta, passo a passo, a exemplificao do
resultado da execuo desse subsistema.

Gerao Simples de Tokens
Identificao de Abreviaes
Identificao de Palavras Combinadas
Identificao de Smbolos de Internet
Identificao de Nmeros
Identificao de Tokens Multi-vocabulares
Nova Lista de Tokens
Fluxo de Texto
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
33
Tabela 5 Exemplificao do resultado da execuo de um subsistema de Tokenization
que baseia-se em dicionrios pr-estabelecidos e regras de formao.
Descrio Tokens
Primeiramente, o fluxo de texto
apresentando ao subsistema de
Tokenization.
A Casa & Lar se mudou. Agora, atendemos na
Av. Dom Casmurro, n 200. Voc tambm
pode comprar pelo nosso endereo na Internet:
http://www.casaelar.com.br. Comprando por l,
voc tem at R$ 100,00 de desconto em tubos e
caixas dgua!
Em seguida so gerados os
tokens preliminares, com a
observao de espaos em
branco e delimitadores.
[A][Casa][&][Lar][se][mudou][.][Agora][,]
[atendemos] [na] [Av][.] [Dom] [Casmurro][,]
[n][] [200][.] [Voc] [tambm][pode]
[comprar] [pelo] [nosso] [endereo] [na]
[Internet][:]
[http][:][/][/][www][.][casaelar][.][com][.][br][.
] [Comprando] [por] [l][,] [voc] [tem] [at]
[R$] [100][,][00] [de]
[desconto][em][tubos][e][caixas][d][][gua][!]
Logo aps, so identificadas as
abreviaes (em verde), as
palavras combinadas (em
amarelo) e os smbolos de
Internet (em azul).
[A][Casa&Lar][se][mudou][.][Agora][,][atende
mos] [na] [Av.] [Dom] [Casmurro][,] [n]
[200][.] [Voc] [tambm][pode] [comprar]
[pelo][nosso] [endereo] [na][Internet][:]
[http://www.casaelar.com.br][.][Comprando][p
or] [l][,] [voc] [tem] [at] [R$] [100][,][00]
[de]
[desconto][em][tubos][e][caixas][d][][gua][!]
Por ltimo so identificados os
nmeros e os tokens multi-
vocabulares. Esta a lista final
que ser retornada pelo
subsistema Tokenization de
acordo com o exemplo de
entrada.
[A][Casa&Lar][se][mudou][.][Agora][,]
[atendemos] [na] [Av. Dom Casmurro][,] [n
200][.] [Voc] [tambm][pode] [comprar]
[pelo] [nosso] [endereo] [na] [Internet][:]
[http://www.casaelar.com.br] [.] [Comprando]
[por] [l][,] [voc] [tem] [at] [R$ 100,00] [de]
[desconto][em][tubos][e][caixas dgua][!]

P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
34
3.2.2.
Correo Ortogrfica
Erros ortogrficos so comuns quando se trabalha com grandes massas de
dados, especialmente se geradas a partir de digitao manual por seres humanos.
O trabalho de identificao automtica destes erros vem sendo objeto de estudo
por cientistas no mundo inteiro.
Em 1965, o cientista russo Vladimir Levenshtein apresentou um algoritmo
que define a distncia de edio entre dois strings (seqncia de caracteres). Este
algoritmo ficou conhecido por Distncia de Levenshtein ou, simplesmente,
Distncia de Edio e baseia-se no nmero mnimo de operaes necessrias
para transformar um string em outro. a partir desta idia que muitos corretores
automticos de ortografia se baseiam para detectar um erro e sugerir sua possvel
correo, atravs dos candidatos que possuem as menores distncias.
As operaes que transformam uma seqncia de caracteres em outra pode
ser de: insero (insero de um novo caractere no string destino), eliminao
(eliminao de um caractere no string origem) e substituio (substitui um
caractere do string origem, com o objetivo de transformar no string destino).
O Exemplo abaixo exibe os passos necessrios para transformar casas em
massa, definindo a distncia de edio em 3 (trs).

1. casas masas (substituio de c por m)
2. masas mass (eliminao de a)
3. mass massa (insero de a)

Outra abordagem que apresenta bons resultados a tcnica de indexao por
n-gramas de letras. Uma n-grama de letras uma seqncia de n letras de uma
dada palavra. Para exemplificar, a palavra maleta pode ser dividida em quatro
3-gramas, tambm conhecido como trigramas: mal, ale, let e eta. A idia
que os erros ortogrficos mais comuns s afetam poucos constituintes de n-
grama, ento, podemos buscar pela palavra correta atravs daqueles que
compartilham a maior parte dos n-gramas com a palavra errada [29].
A idia de indexar as n-gramas de uma palavra segue a mesma da etapa de
Indexao, a qual ser explicada no decorrer desta dissertao. O objetivo
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
35
manter uma lista de n-gramas apontando para as palavras que o contm. Quando
a palavra procurada, os n-gramas so processados e procurados no ndice. A
palavra que apresentar o maior nmero de n-gramas associados ser a de maior
relevncia, indicando um possvel candidato para correo [29].
Existem diversas abordagens para o problema de correo ortogrfica. Para
um estudo mais detalhado sobre as diversas tcnicas, vide [34].

3.2.3.
Reduo do Lxico
Um dos grandes desafios da Minerao de Textos, seno o maior, e o que a
faz ser muito mais complexa que a Minerao de Dados, o elevado nmero de
dimenses existentes, se considerarmos que cada token em um texto mapeado
para uma dimenso. Logicamente, um texto simples possui algumas centenas de
palavras, ao passo que uma tabela com dados estruturados, com um pouco mais de
algumas dezenas de colunas j considerada uma estrutura de grande porte.
Existem inmeras solues para a reduo de um lxico, com o objetivo de
se obter apenas os tokens que realmente so importantes e traduzem a essncia de
um texto. A seguir, so explicadas as principais abordagens encontradas na
literatura.

3.2.3.1.
Seleo de Caractersticas
Seleo de Caractersticas o procedimento que define, atravs da aplicao
de algoritmos e mtricas, o subconjunto mais discriminante de um conjunto inicial
de caractersticas, reduzindo-se ento o espao inicial.
Este procedimento bastante til, em particular em Minerao de Textos,
onde o nmero de dimenses de um lxico (cada token representa uma dimenso)
demasiadamente alto, conforme j mencionado. Como benefcios dessa reduo
est o aumento da performance das Tarefas de Minerao e a diminuio do
tempo de execuo dos algoritmos correspondentes.
Uma das preocupaes que se deve ter quando da aplicao de algoritmos
de Seleo de Caractersticas a de que a Reduo do Lxico no afete de
maneira drstica o sistema, com perda mnima da informao.
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
36
A seguir, so apresentadas as principais mtricas baseadas puramente em
estatstica e que definem o quo importante determinado token para o lxico.

Freqncia de Documentos: Esta mtrica utiliza um critrio
bastante simples e intuitivo que computar o nmero de documentos
no qual determinado termo aparece e remover aqueles cuja
freqncia est abaixo de um limiar predefinido. A suposio que
termos raros no so significativos para a discriminao entre classes
de texto ou que, pelo menos, esta eliminao no impacte no
desempenho global. Esta a tcnica mais simples de reduo, visto
que a complexidade se mantm constante em relao ao nmero de
documentos.

Ganho de Informao: Define a importncia de determinado termo
para a discriminao entre classes de documentos previamente
conhecidos, verificando o quanto cada termo est correlacionado
com cada classe. Esta mtrica baseada em outra, definida no
mbito da Teoria da Informao, chamada de Entropia. A Entropia
mede a quantidade de informao de um atributo, caracterizando a
impureza de um conjunto de exemplos. Dado um conjunto S de
exemplos, uma categorizao em C categorias c1,c2,...,cn, e a
probabilidade de determinado exemplo pertencer determinada
categoria, probabilidade esta denotada por p
i
, a Entropia E(S)
definida como:

( )
i
n
i
i
p p S E lg ) (
1

=
=

O ganho de informao para um token T de um conjunto de
documentos D permite verificar a diminuio da entropia quando
utilizamos T como parte do lxico e, conseqentemente, parte
influente na discriminao entre classes [35]. Seja P(T) o conjunto
dos valores que T pode assumir; seja x um elemento deste conjunto e
seja S
x
o subconjunto de S formado pelos dados em que T=x; a
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
37
entropia que se obtm ao particionar S em funo de T dada por
duas equaes:
( )
( )
x
T P x
x
S Entropia
S
S
T E

= ) (

( ) ( ) ( ) T E S Entropia T S Ganho = ,

Informao Mtua: Informao Mtua um critrio normalmente
usado em modelagem estatstica da linguagem em associaes de
palavras correlatas [36]. Se for considerada uma tabela de
contingncias de um termo t e uma categoria c, A o nmero de
vezes que t e c co-ocorrem, B o nmero de vezes que t ocorre sem
c, C o nmero de vezes que c ocorrem sem t, e N o nmero total
de documentos, ento o critrio de informao mtua entre t e c
definido como:

( )
( )
( ) ( ) c P t P
c t P
c t I
r r
r

= log ,

E estimado usando:

( )
( )( ) B A C A
N A
c t I
+ +

log
,

I(t,c) tem naturalmente o valor de zero se t e c so independentes.
Para medir a importncia de um termo em uma seleo de
caractersticas global, combinam-se as pontuaes especficas da
categoria de um termo em duas formas alternativas:

( ) ( ) ( )
i i
m
i
r avg
c t I c P t I ,
1

=
=

( ) ( ) { }
i
m
i
c t I t I , max
1
max
=
=
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
38
Estatstica
2
: Esta mtrica mede a falta de independncia entre t e c
e pode ser comparada distribuio
2
com um grau de liberdade
para julgar extremos. Usando uma tabela de contingncias de um
termo t e uma categoria c, onde A o nmero de vezes que t e c co-
ocorrem, B o nmero de vezes que t ocorre sem c, C o nmero de
vezes que c ocorre sem t, D o nmero de vezes que nem c nem t
ocorrem, e N o nmero total de documentos, a medida de
importncia definida por:

( )
( )
( )( )( )( ) D C B A D B C A
CB AD N
c t
+ + + +

=
2
2
,

A estatstica
2
tem naturalmente um valor de zero se t e c so
independentes. Calcula-se para cada categoria a estatstica
2
entre
cada termo no conjunto de documentos e quela categoria, e ento
so combinadas as pontuaes especficas da categoria pra cada
termo atravs de:

( ) ( ) ( )
i i
m
i
r avg
c t c P t ,
2
1
2


=
=

3.2.3.2.
Remoo de Stopwords
Em um documento, existem muitos tokens que no possuem nenhum valor
semntico, sendo teis apenas para o entendimento e compreenso geral do texto.
Estes tokens so palavras classificadas como stopwords e correspondem ao que
chamado de stoplist de um sistema de Minerao de Textos.
Uma lista de stopwords constituda pelas palavras de maior apario em
uma massa textual e, normalmente, correspondem aos artigos, preposies,
pontuao, conjunes e pronomes de uma lngua. A identificao e remoo
desta classe de palavras reduz de forma considervel o tamanho final do lxico,
tendo como conseqncia benfica o aumento de desempenho do sistema como
um todo.
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
39
A stoplist pode ser definida manualmente, por um especialista no domnio
do assunto, ou de forma automtica, atravs da freqncia de apario das
palavras no lxico. Um percentual K das palavras de maior apario define a lista
de remoes. A Tabela 6 ilustra uma pequena stoplist definida manualmente e a
identificao e descarte de tokens. J a Tabela 7 apresenta uma stoplist obtida
automaticamente a partir de um sistema pronto, com a lista das 100 palavras de
maior apario.

Tabela 6 Identificao e Remoo de Stopwords (os tokens descartados esto
tachados)
Stoplist Texto
A
O
pelo
por
em
na
no
como
l
seu
deve
sua
nosso
nossa
.
!
;
,
De
do
da
tambm
se
comigo
pela
?
s
Um
uma
sobre
so
cada
isso
[A][Casa&Lar][se][mudou][.][Agora][,]
[atendemos] [na] [Av. Dom Casmurro][,] [n
200][.] [Voc] [tambm][pode] [comprar]
[pelo] [nosso] [endereo] [na] [Internet][:]
[http://www.casaelar.com.br] [.]
[Comprando] [por] [l][,] [voc] [tem] [at]
[R$ 100,00] [de]
[desconto][em][tubos][e][caixas dgua][!]

Tabela 7 Stoplist obtida automaticamente a partir de um sistema de Minerao de
Texto pronto.
A

ainda
ano
anos
ao
aos
apenas
as
s
at
brasil
com
Como
contra
da
das
de
depois
deve
dia
disse
diz
do
dois
dos
e

ela
ele
em
entre
era
est
estado
esto
eu
foi
folha
Foram
governo
grande
h
hoje
isso
j
local
maior
mais
mas
mesmo
Mil
milhes
muito
mundo
na
no
nas
no
nos
o
ontem
os

ou
pas
para
paulo
pela
pelo
pessoas
pode
por
porque
presidente
quando
quero
que
quem
r
rio
so
se
segundo
sem
ser
ser
seu
seus
s
sobre
sua
tambm
tem
ter
todos
trs
um
uma
us
vai

P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
40
3.2.3.3.
Normalizao
Normalizao a tcnica de Reduo de Lxico que se baseia no
agrupamento de tokens que compartilham de um mesmo padro. Existem diversas
abordagens de agrupamento, que vo desde a identificao morfolgica do token
at o reconhecimento de sinnimos e conceitos similares.
Em geral, a aplicao de tcnicas de Normalizao introduz uma melhora
significativa nos sistemas de Minerao de Texto. Esta melhora varia de acordo
com o escopo, o tamanho da massa textual e o que se pretende obter como sada
do sistema (normalmente definido pela natureza da Tarefa de Minerao, captulo
4). Sistemas de Classificao so os que mais se beneficiam deste tipo de reduo
do lxico, uma vez que utilizam a estatstica como base terica central.
De acordo com a forma de agrupamento das realizaes das palavras, os
processos de normalizao podem ser de vrios tipos. Os principais so:

Stemming: O processo de stemming concentra-se na reduo de
cada palavra do lxico, at que seja obtida sua respectiva raiz.
Desta maneira, tem-se como principal benefcio a eliminao de
sufixos que indicam variao na forma da palavra, como plural e
tempos verbais. Os algoritmos em geral no se preocupam com o
uso do contexto no qual a palavra se encontra, e esta abordagem
parece no ajudar muito. Casos em que o contexto ajuda no
processo de stemming no so freqentes, e a maioria das palavras
pode ser considerada como apresentando um significado nico
[37]. A seguir, uma lista dos principais mtodos encontrados na
literatura:

o Mtodo do Stemmer S: Mtodo simples que foca apenas
em algumas poucas terminaes de palavras do ingls. Os
principais sufixos a serem removidos so: ies, es e s (com
excees). Embora este mtodo no introduza muito
impacto nos lxicos, bastante utilizado por seu carter
conservador e que raramente surpreende o usurio.
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
41
o Mtodo de Porter: Este mtodo se concentra na
identificao das diferentes formas e inflexes referentes
mesma palavra e sua substituio por um radical comum.
Por exemplo, as seguintes palavras compartilham do
mesmo radical: CORRER, CORRIDA, CORRIDO e
CORRIDO. Neste caso, a aplicao do Mtodo de Porter
mapearia todas estas palavras para seu radical comum
CORR. importante ressaltar que este mtodo remove
60 sufixos diferentes em uma abordagem multifsica.

o Mtodo de Lovins: Mtodo de passo nico. Sensvel ao
contexto e abrange uma gama maior de sufixo (250 ao
todo). Baseia-se numa lista de regras, chamada de regras de
Lovins, e que, num passo nico, faz a remoo de, no
mximo, um nico sufixo por palavra. Apesar de no
incluir vrios sufixos em sua abordagem, o mais agressivo
dos algoritmos apresentados.

Lemmatization: Substitui as diversas formas de representao da
palavra pela forma primitiva. As formas livro, livros e
livraria apontam todas para a palavra livro. Este mtodo tem a
vantagem de manter uma estrutura que preserva o sentido das
palavras, ao contrrio dos mtodos de stemming.

Identificao de Sinnimos, Hierarquias e Relacionamentos
Associativos: A identificao destes em uma coleo textual
auxilia na reduo do lxico, de modo a se concentrar basicamente
no significado das palavras. Normalmente, realizado com base
em um dicionrio chamado de thesaurus. Um thesaurus definido
como um repositrio de mapeamentos entre termos variantes
sinnimos, abreviaes, acrnimos e ortografias alternativas para
um termo preferido nico para cada conceito.

P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
42
3.2.3.4.
Expresses Multi-vocabulares
O processo de deteco e associao de uma seqncia de tokens em um
nico token chamado de criao de Expresses Multi-vocabulares, e pode ser
bastante til em Minerao de Textos, tanto para a reduo do lxico quanto para
o resultado final das tarefas de Minerao.
Na literatura lingstica temos algumas classes de expresses multi-
vocabulares, que so: colocaes, expresses e expresses idiomticas. Como
apresentado em [37][38], a diferena entre estas classes est relacionada ao
dinamismo da linguagem. Dessa forma, colocaes so as combinaes mais
dinmicas de palavras, conforme elas vo sofrendo um processo de fossilizao,
se transformam em expresses idiomticas. A partir desse ponto de vista, so os
tipos mais fossilizados de combinaes, de forma que as palavras combinadas se
desgarram do significado das palavras individuais da combinao. Isso quer
dizer que a diferena entre esses termos est relacionada com o uso. Exemplos
dessa dinmica so Vos Merc, Voc e c, ou mesmo em boa hora,
embora e bora. A freqncia de uso durante uma considervel quantidade de
tempo seria responsvel pela mudana no status de palavra para expresses multi-
vocabulares. Por esse motivo, as abordagens estatsticas tm se destacado bastante
na soluo desses problemas [29].

3.2.4.
Identificao do Incio e Fim de Sentenas
A identificao do incio e do fim de sentenas em um texto uma das
tarefas mais difceis da etapa de Pr-processamento e, normalmente, realizada
por ltimo, visto que muitos dos problemas menores de processamento de
linguagem natural j foram resolvidos. Para exemplificar a dificuldade inerente,
tem se o exemplo da presena do ponto no texto, aonde este pode estar
indicando o trmino de uma sentena, presena de uma abreviao ou, em casos
mais raros, ambos. Veja os exemplos abaixo:



P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
43
necessrio ter um bom relacionamento com seu orientador de Ph.D.

necessrio ter um bom relacionamento com seu orientador de Ph.D. Tenha
certeza de que ele ser fundamental na definio das pesquisas.

necessrio ter um bom relacionamento com o orientador de Ph.D. Fernando
Pessoa.


No primeiro exemplo, o segundo ponto da abreviao Ph.D. acabou
incorporando tambm a funo de delimitador de sentena. Neste caso, no h
grandes problemas, pois se trata de uma sentena no seguida por outra. No
segundo exemplo, o ponto da abreviao assume novamente as duas funes,
mas seguido por outra sentena. Isto dificulta um pouco a identificao dos
limites, mas pode ser resolvido pela observao da primeira palavra aps o
ponto Tenha - que apresenta sua letra inicial na forma maiscula.
Entretanto, no terceiro exemplo, esta observao leva a uma deciso errnea sobre
os limites, uma vez que a palavra aps o segundo ponto da abreviao Ph.D.
um substantivo prprio e que, por via de regra, deve ter sua letra inicial maiscula.
A deciso se um determinado caractere ou no um delimitador de sentena
pode ser encarado como um problema de classificao (seo 4.1). Desta forma,
possvel que a partir de um conjunto previamente etiquetado de textos e sentenas,
possamos treinar um classificador que aprenda os padres que permitam um
ser humano decidir quando comea e termina uma sentena. Estudos preliminares
apontam para uma taxa de acerto de 98% com o uso desta abordagem [39].
Outra abordagem o uso de heursticas baseadas em regras, que so
ajustadas de acordo com o contexto e com a lngua. Apesar de no atingirem a
mesma performance dos classificadores, o uso desta abordagem introduz uma
tima alternativa quando no se dispe de uma base de dados etiquetada para
treino. A Figura 5 define um exemplo deste tipo de heurstica, conforme tambm
encontrado em [39].

P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
44

Entrada: Texto com pontuaes
Sada: Mesmo texto com Delimitadores de Fim de Sentena (DFS) claramente
identificados.

Estratgia:
1. Transformar todos os caracteres do texto que no fazem parte da lista de
delimitadores por um caractere padro
2. Aplicar a lista de regras abaixo para todos os delimitadores do texto e marcar os
que satisfazem a lista
3. Retransformar os caracteres do passo 1.
4. Aps completar o passo 3, todos os DFS estaro claramente identificados no
texto

Regras:
1. Todos os caracteres entre parnteses so considerados DFS (!?)
2. Se ou aparecer antes de um ponto, ento este ponto um DFS
3. Se o caractere seguinte ao ponto no for um espao em branco, ento o
ponto no um DFS
4. Se )}] aparecer antes de um ponto ento este um DFS
5. Se o token o qual o ponto est grudado tiver seu caractere inicial maisculo
E o token possui menos que 5 caracteres E o token seguinte tambm iniciado
por um caractere maisculo ento este ponto no um DFS.
6. Se o token o qual o ponto est grudado possuir tambm outros pontos
ento nenhum deles um DFS
7. Se o token o qual o ponto est grudado comea com caractere minsculo E
o prximo token um espao em branco precedido de um token que tem seu
primeiro caractere em maisculo ento este ponto um DFS
8. Se o token o qual o ponto est grudado possuir menos que 2 caracteres ento
o ponto no um DFS
9. Se o token o qual o ponto est grudado for seguido de um espao em branco
e que, por sua vez, seguido por um outro token que iniciado por um destes
caracteres $({[ ento este ponto um DFS.
10. Caso exista algum ponto que no se enquadre nas regras acima ento este no
um DFS.

Figura 5 Exemplo de uma heurstica de deteco de incio e fim de sentenas
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
45
3.2.5.
Etiquetagem POS
Etiquetagem POS (do ingls, part of speech) consiste da identificao
sinttica de cada token extrado do corpus. Esta tcnica geralmente utilizada
quando se pretende realizar algum tipo de abordagem lingstica mais elaborada,
como a Identificao de Entidades Nomeadas de um texto, explicada na seo
3.2.6 desta dissertao.
Podemos resumir em oito as principais classes sintticas da maioria das
linguagens, que so: verbos, nomes, adjetivos, advrbios, preposies,
conjunes, pronomes e determinantes. Qualquer token que no possa ser
enquadrado nestas classes classificado como sendo pontuao ou interjeio.
A identificao da classe sinttica de tokens encarada na literatura como
um tpico problema de Classificao (seo 4.1) aonde, dada uma observao,
deve se optar por uma entre k classes distintas, aonde k a classe que mais se
identifica com a observao. A Estatstica a abordagem de Classificao em
Minerao de Textos que, de longe, a mais utilizada e que apresenta os melhores
resultados. Entretanto, necessrio que haja um conjunto de treinamento e teste
(seo 4.1.1) suficientemente grande para a correta calibragem do algoritmo. Para
a Etiquetagem POS isto no chega a ser um problema, visto que a maioria dos
textos compartilha das mesmas classes sintticas para as palavras e existem
diversos corpus anotados na literatura.
Os dois principais algoritmos de Classificao POS so o HMM (do ingls,
Hidden Markov Model) [40][41][42] e o TBL (do ingls, Transformation Based
Learner) [43]. Ambos os algoritmos podem ser aplicados em outros objetivos,
como a utilizao do HMM na identificao da estrutura macro de um texto (ex.,
autor, ttulo) e do TBL para resoluo de ambiguidade sinttica.

3.2.6.
Identificao de Entidades Nomeadas
A Identificao de Entidades Nomeadas tem como objetivo encontrar no
texto tokens que fazem aluso a figuras do mundo real, como personalidades,
lugares e organizaes. Para fazer a identificao necessria a utilizao de
informaes adquiridas a partir de tcnicas anteriormente apresentadas, como a
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
46
etiquetagem POS e a identificao do incio e fim de sentenas. O uso de
dicionrios especializados contendo listas de nomes prprios, lugares e
organizaes e a utilizao de pistas textuais, como identificao de palavras
que comeam por maisculas, completam o kit de ferramentas que so
utilizadas nesta etapa do pr-processamento.
Reconhecer entidades em um texto recurso bastante valioso para MT.
Entretanto, apesar de parecer um problema trivial de ser solucionado, pode ser
extremamente complexo de ser automatizado. Como exemplos seguem os
seguintes:

(1) J oo R. Carrilho J unior
(2) Luiz Incio Lula da Silva
(3) Ronaldo Fenmeno do Real Madrid

No caso 1 temos um nome prprio no trivial porque contm uma
abreviao no meio que poderia ser considerado como ponto final. No caso 2
temos um item funcional da que poderia separar o nome em dois distintos:
Luiz Incio Lula e Silva. Finalmente, o caso 3 contm de fato duas entidades,
sendo que no h, aparentemente, como distingu-lo do caso 2.

3.2.7.
Parsing (Anlise Sinttica)
Todas as tcnicas de Pr-processamento apresentadas at o momento tinham
como objetivo o enriquecimento de tokens como se fossem unidades sem ligao.
Parsing a tcnica de PLN que define uma estrutura aonde pode ser observada a
funo sinttica de cada token em uma sentena (ex., sujeito, objeto, etc.), bem
como sua relao com os demais.
Normalmente a estrutura definida do tipo rvore, com os tokens
representados como folhas, ns internos definindo agrupamento entre tokens
e a raiz, nica, definindo a sentena como um todo.
comum encontrar na literatura o termo rvore de Derivao para a
estrutura montada, a qual, durante sua construo, verificada a adequao das
seqncias de palavras s regras de construo impostas pela linguagem, na
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
47
composio de frases, perodos ou oraes. Dentre estas regras, pode-se citar a
concordncia e a regncia nominal ou verbal, bem como o posicionamento de
termos na frase. Um termo corresponde a um elemento de informao (palavra ou
expresso), e tratado como unidade funcional da orao, participando da
estrutura como um de seus constituintes, denominados sintagmas.
A anlise sinttica de uma orao em portugus deve levar em conta os
seguintes sintagmas: termos essenciais (sujeito e predicado), termos integrantes
(complementos verbal e nominal) e termos acessrios (adjunto adverbial, adjunto
adnominal e aposto). A anlise do perodo, por sua vez, deve considerar o tipo de
perodo (simples ou composto), sua composio (por subordinao, por
coordenao) e a classificao das oraes (absoluta, principal, coordenada ou
subordinada). A Figura 6 ilustra uma rvore de derivao simples para a frase
J os comeu o bolo. Os ns interiores da rvore representam os sintagmas (SN
significa sintagma nominal e SV sintagma verbal) e os ns folhas representam as
palavras.


Figura 6 rvore de Derivao simples para a frase "J os comeu o bolo".

S
SN
SV
NOME
SN
V
SUBST ART
Jos comeu
O
bolo
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
48
3.3.
Indexao
3.3.1.
Representao de Documentos
Os sistemas de Recuperao de Informao, cedo ou tarde, esbarram no
problema de representao de documentos e consultas de usurios. Um
documento precisa ser codificado de uma forma que facilite sua manipulao e
que permita uma correta mensurao de seus termos.
Existem diversos modelos para representao de documentos na literatura
de RI. Entretanto, a grande contribuio para a Minerao de Textos , sem
dvida, o Modelo de Espao Vetorial (em ingls, Vector Space Model), que
representa um documento utilizando uma abstrao geomtrica. Desta forma,
documentos so representados como pontos em um espao Euclidiano t-
dimensional em que cada dimenso corresponde a um token do lxico. Desta
forma, D
i
diz respeito ao i-simo componente do documento D, o qual possui um
peso associado.
O Modelo de Espao Vetorial a forma mais comum de representar
documentos. A principal vantagem na representao vetorial est na natureza da
maioria dos algoritmos da etapa de Minerao, os quais j esto preparados para
lidar com esse tipo de codificao, como o Naive Bayes (seo 4.1.3) para o
problema de Classificao e o K-Means [54] para o de Clusterizao.
O principal problema da utilizao deste modelo est na alta
dimensionalidade inerente Minerao de Textos, pois dado um corpus com um
pouco mais de algumas centenas de documentos, o nmero de tokens facilmente
ultrapassa a marca de centenas de milhares.
Na literatura de Minerao de Textos comum se usar o termo saco de
palavras (do ingls, bag of words) para este tipo de representao. A analogia
explicada devido ao prprio formato, aonde um documento visto como um
container de tokens, aonde a ordem e a ligao entre os tokens no tem nenhum
valor para o sistema. Esta modelagem visivelmente pobre em relao a todos os
recursos que o vocabulrio de uma lngua pode oferecer, inviabilizando grandes
tcnicas de PLN. Entretanto, a codificao bag of words vem apresentando bons
resultados na literatura, justificando a sua abordagem puramente estatstica. Em
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
49
[44] introduzido um estudo comparativos com novas abordagens para o
problema de representao de documentos. A Figura 7 ilustra como fica a
representao de um documento utilizando o modelo saco de palavras.














Figura 7 Exemplificao do modelo saco de palavras.


3.3.2.
Medidas de Similaridade entre Documentos
No processo de Recuperao de Informao necessrio que, dado um
documento D, seja possvel o clculo de quo similar D em relao aos demais
documentos que compem o corpus. Partindo da premissa que dois documentos
so idnticos se compartilham do mesmo conjunto de tokens, intuitivo que o
contrrio tambm defina dois documentos totalmente diferentes, com a concluso
de que no h similaridade entre eles.
Sendo assim, a medida de similaridade mais bvia entre dois documentos
o nmero de tokens em comum. Caso se esteja usando a representao saco de
palavras na forma binria, cada documento mapeado em um vetor de zeros e
uns, aonde zero assinala a ausncia de determinado token e um assinala a
presena. Desta forma, matematicamente a similaridade entre dois documentos o
"Quem revela o
segredo dos outros
passa por traidor; quem
revela o prprio
segredo passa por
imbecil."
1
IMBECIL
1 PRPRIO
1 TRAIDOR
2 POR
2 PASSA
1 OUTROS
1 DOS
2 SEGREDO
2 O
2 REVELA
2 QUEM
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
50
produto dos dois vetores, visto que o nico resultado diferente de zero quando
h coincidncia de tokens, acarretando na verificao de um token em comum.
Em um nmero elevado de dimenses possvel que seja difcil a real
discriminao de quo similar um documento do outro simplesmente usando o
critrio da contagem de tokens. Ao invs disso, pode ser necessrio usar um
critrio que leve em considerao tambm a freqncia na qual estes aparecem no
lxico. Assim, a mtrica de contagem de tokens com bnus definida pelas duas
equaes abaixo:

( ) ( ) ( )

=
=
K
j
j w i D de Similarida
1


( )
( )

+
=
. 0
, ) ( / 1 1
contrrio caso
documentos os ambos em ocorre j token se j df
j w

Na primeira equao tem se um novo documento com K tokens sendo
comparado a um documento D(i). O clculo da similaridade computado,
primeiramente, atravs do nmero de tokens em comum, conforme realizado na
mtrica anterior. Em seguida, calcula-se tambm o bnus, que justamente o
diferencial na verificao da similaridade. Para cada token encontrado em ambos
os documentos, calculado o bnus de 1/df(j), onde df(j) o nmero de
documentos em que o token j ocorre no lxico. Desta forma, se um token ocorre
em muitos documentos, o bnus pequeno. Logo, se o token aparece em poucos
documentos, o bnus maior.
Por ltimo, a mtrica mais utilizada e que apresenta os melhores resultados
na literatura a similaridade baseada no ngulo co-seno formado pelos vetores
que representam os documentos Cosine Similarity, em ingls. Para Cosine
Similarity, apenas os documentos positivos so computados, isto , apenas os
tokens que aparecem em ambos os documentos. A freqncia dos tokens tambm
considerada, fazendo com que o clculo da similaridade resulte no conjunto de
equaes abaixo:

( ) ( ) ( ) ( ) j df N j tf j w / lg * =

P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
51
( ) ( )

=
2
j w D norm

( ) ( ) ( ) ( ) ( ) ( ) ( )
2 1 2 1 2 1
* / * , cos d norm d norm j w j w d d ine
d d
=

O peso de um token em um documento w(j) computado pela frmula tf-idf,
onde j o j-simo token no lxico, tf(j) a freqncia deste token no documento,
N o nmero de documentos no corpus e df(j) o nmero de documentos no qual
o token figura. Cosine definido na literatura como a mtrica padro de medida
de similaridade entre documentos, servindo como benchmark para efeito de
comparaes entre novas medidas propostas por pesquisadores e estudiosos.

3.3.3.
Listas Invertidas
A estrutura de dados que alavancou a rea de Recuperao de
Informao, principalmente no campo de Mquinas de Busca, foi a estrutura de
Listas Invertidas. A principal caracterstica desta estrutura que, ao invs de
termos documentos apontando para tokens, temos os tokens indicando em quais
documentos estes esto contidos. A Figura 8 ilustra uma estrutura aonde os
documentos apontam para os tokens. J na Figura 9, ilustrada a estrutura de
Listas Invertidas e sua principal caracterstica.


Figura 8 Documentos apontando para seus tokens.

D1 D2 D3
CASA ELE ESQUINA LIVRO
Documentos
Tokens
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
52

Figura 9 Estrutura de Lista Invertida com os tokens apontando para os documentos.

O objetivo principal de um sistemas de Recuperao de Informao
otimizar a velocidade de processamento de uma consulta solicitada por um
usurio. A estrutura de Listas Invertidas possibilita o rpido acesso para a
resoluo de consultas, uma vez que o acesso a cada palavra digitada pelo usurio
feito automaticamente pelo ndice, evitando que seja feita uma varredura
seqencial em todos os arquivos, a fim de se encontrar as palavras envolvidas na
consulta.
Tipicamente, existem dois tipos de ndices: o primeiro tipo tido como
simplrio onde cada token de um lxico referencia os documentos aonde ele se
encontra; e o tipo mais especializado que, alm de indicar em quais documentos
ele est, informa tambm em que posio dentro do arquivo ele figura. Essa
segunda verso, sem dvida, permite a elaborao de consultas mais complexas e
eficientes, com a penalizao de demandar muito mais tempo para a criao e
manuteno do ndice, bem como um aumento significativo do espao de
armazenamento gasto.

3.3.4.
Processamento de Consultas
Aps ter sido realizado o processo de Indexao de todos os documentos
que compem o corpus, o sistema de Recuperao de Informao est pronto para
que consultas sejam realizadas. Entende-se por consulta uma necessidade
D1
D2
D3
CASA
ELE
ESQUINA
LIVRO
Tokens Documentos
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
53
especfica de um usurio, que ao precisar de determinada informao acessa o
sistema e descreve o que deseja obter atravs de palavras-chave.
As Mquinas de Buscas da Internet, como o Google, se utilizam de tudo o
que possvel para o processamento da consulta do usurio. Para tanto, partem do
princpio que a informao, de fato, existe e que est perdida em algum lugar na
Web e sua principal funo encontr-la.
O poder de Recuperao de um sistema est, principalmente, na capacidade
deste encontrar exatamente o que o usurio precisa. Para tanto, necessrio que
as consultas possam ser elaboradas de forma flexvel. Por exemplo, determinado
usurio gostaria de obter todos os documentos aonde apaream as palavras Bush
e Iraque. Podemos definir os principal operadores, que so: AND, OR e NOT.
As consultas que se utilizam de tais operadores so chamadas de consultas
booleanas, aonde caso no so encontrados exatamente o que se deseja, nada
retornado ao usurio. Abaixo esto trs exemplo de utilizao dos operadores
descritos:

Pel AND Poltica
(Pel AND Futebol) NOT Maradona
(Pel OR Garrincha) AND Argentina

A interpretao destas consultas bem simples. Na primeira, o usurio est
interessado em ver todos os documentos que, de alguma forma, citam Pel e
Poltica juntos. J na segunda consulta, o interesse est em achar documentos que
ligam Pel a Futebol, sem que haja qualquer citao sobre o tambm ex-colega de
profisso Maradona. Finalmente, na terceira consulta o usurio necessita obter
documentos que citem Pel ou Garrincha e que, necessariamente, citem o pas
vizinho Argentina.
Existe ainda outras funcionalidades que podem ser disponibilizadas, como a
Busca por Frase e a utilizao de caracteres curinga. A Busca por Frase ou
Phrase Query, em ingls, o nome dado formulao de consulta atravs da
concatenao de palavras, formando uma frase, conforme o exemplo Romrio
jogou no Flamengo. Note que para que algum documento seja recuperado, ele
necessariamente precisa conter as palavras Romrio,jogou,no e
Flamengo, respeitando a ordem de apario e a sua correta concatenao. Desta
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
54
forma, se algum documento contiver a frase Romrio jogou h muito tempo atrs
no Flamengo, este no ser recuperado, dado que existem outras palavras
intermedirias no desejadas entre as que esto sendo procuradas. Para que haja
uma implementao de processamento de consulta que contemple a Busca por
Frase, necessrio que se faa uso do ndice que, alm de armazenar os tokens e
seus documentos, registre tambm a posio de cada token, conforme visto na
seo 3.3.3.
Quanto utilizao de caracteres curingas, estes servem para que sejam
recuperados documentos que contenham palavras parcialmente informadas pelo
usurio. Por exemplo, supondo que o usurio gostaria que fossem recuperados
todos os documentos que contenham as palavras urubu e urucum. A busca
poderia ser formulada atravs da utilizao de curingas, como uru*, aonde o *
faz o papel de curinga. Todos os documentos que contivessem ambas as
palavras seriam recuperados, assim como ocorreria na consulta urubu OR
urucum. A diferena est que, na consulta que utiliza curingas, tambm so
retornados documentos que contenham quaisquer palavras que comecem com
uru, como uruguaiana. A estrutura de dados auxiliar que possibilita a
utilizao desse tipo de busca chamada de rvore B [45].

3.3.5.
Avaliao das Consultas
Avaliar o resultado das consultas o ltimo estgio de um processo de
Recuperao de Informao. Existem, basicamente, dois critrios que so
utilizados para se avaliar uma consulta: tempo de resposta e qualidade dos
resultados. Um sistema de busca ideal deveria retorna os documentos mais
relevantes no menor tempo possvel. Entretanto, a relao entre tempo de resposta
e qualidade dos dados conflitante, isto , quanto mais preciso for o resultado da
consulta, mais tempo leva para que se operacionalize sobre a estrutura de ndices.
Existem vrios outros fatores que afetam essa relao, como a estrutura de
hardware disponvel, implementao e tamanho do ndice, tempo de latncia e
tempo de acesso ao disco.
Focando apenas na qualidade dos dados retornados pelos sistemas de RI,
esto duas mtricas consideradas, hoje em dia na literatura, como sendo padro na
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
55
avaliao do resultado do processamento de consultas Preciso e Recall- mas
que no so de uso exclusivo dos sistemas de RI, sendo bastante utilizadas
tambm para efeito de medio do resultado de algoritmos de Classificao de
Textos, Descoberta de Entidades Nomeadas entre outros. Tanto Preciso como
Recall so explicadas de forma detalhada na seo 4.1.2.
A avaliao de Mquinas de Busca da Web introduziu uma nova forma de
avaliar os resultados das consultas, atravs do critrio de ranking. O principal
objetivo desse novo critrio foi observar se, dada uma consulta por palavras-
chaves, o resultado continha os documentos mais relevantes nas primeiras
posies, aparecendo logo que possvel para o usurio. Isto extremamente
importante para o acesso, visto que quase toda consulta na Web retorna uma
grande quantidade de documentos, dada a grande proporo que tomou a maior
rede de computadores.
Para que se implemente o ranking do resultado, algumas estratgias focadas
no ambiente web so importantes, levando em considerao a prpria estrutura de
documentos e interligao entre estes que, como j citado, similar a um grafo
direcionado.
A mais intuitiva estratgia baseia-se no conceito de popularidade de um
documento, ou no caso da Internet, de uma pgina HTML. Assim, so
contabilizados o nmero de in-links que um pgina possui, ou seja, o nmero de
links que apontam para determinada pgina HTML e que, fisicamente, esto
dentro de outras pginas HTML. Websites como cnn.com e terra.com.br,
teoricamente, deveriam possuir um maior nmero de in-links que um site pessoal
ou de menor abrangncia.
Existem na literatura dois importantes algoritmos que implementam o
ranking na web atravs de sua estrutura. O primeiro o HITS [46] criado por J on
Kleinberg [47] e que tem como princpio bsico a diviso das pginas na Internet
em duas categorias: Hubs e Authorities. O outro o PageRank [48], famoso por
ser o algoritmo utilizado pela Mquina de Buscas do Google, tendo sido criado
pelos prprios fundadores da empresa, Larry Page e Sergey Brin como parte de
suas pesquisas de Doutorado na Universidade de Stanford.

P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
56
3.4.
Minerao
A fase de Minerao envolve decidir quais algoritmos devero ser aplicados
sobre a massa de dados desenvolvida at o momento. Para tanto, deve se optar por
uma ou mais Tarefas de Minerao, que nada mais do que decidir o que se quer
obter de informao. Por exemplo, se a necessidade de informao do usurio
obter o relacionamento entre documentos, verificando o grau de similaridade e a
formao de grupos naturais, ento a tarefa a ser escolhida a clusterizao. Em
contrapartida, se estes grupos de documentos j existem, seja pela execuo de
algoritmos ou pelo conhecimento prvio de especialistas, ento a indicao de
aonde um novo documento deve ser encaixado conseguida atravs de
algoritmos de classificao.
Embora as tarefas de clusterizao e classificao sejam compartilhadas
entre Minerao de Textos e Minerao de Dados, outras so especficas da
primeira, como a sumarizao e extrao de caractersticas. No prximo
captulo, so exploradas todas as Tarefas de Minerao de Textual, assim como a
relao dos principais algoritmos.

3.5.
Anlise da Informao
A Etapa de Anlise da Informao tambm pode ser chamada de Ps-
processamento de dados e diz respeito verificao da eficincia da aplicao dos
algoritmos da etapa anterior. Em outras palavras, o momento de se avaliar se o
objetivo foi cumprido da melhor forma possvel, que descobrir conhecimento
novo e inovador a partir de pilhas de documentos no-estruturados.
Existem diversas maneiras de se avaliar a minerao como um todo, seja de
forma qualitativa ou quantitativa. A utilizao de mtricas, conforme j
mencionado, considerada uma forma quantitativa, ao passo que a utilizao do
conhecimento de especialistas no domnio considerada uma forma qualitativa.
Os especialistas devem sempre ser consultados, em todas as etapas da Minerao,
balizando a anlise, ajudando a resolver situaes de conflito, indicando caminhos
e complementando informaes. Entretanto, alguns conflitos podem ocorrer como
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A
57
a divergncia de opinies entre dois ou mais especialistas, bem como, a prpria
mudana de opinio de um mesmo ao longo do tempo.
Por ltimo, a forma mais intuitiva de se analisar um resultado fazendo uso
de elementos grficos, atravs de ferramentas de visualizao. A introduo de
grficos, com noes de cores e distncias, ajuda a entender o sentido de grandes
e complexos conjuntos de dados, que no so facilmente manuseados.
P
U
C
-
R
i
o

-

C
e
r
t
i
f
i
c
a

o

D
i
g
i
t
a
l

N


0
5
2
1
3
5
0
/
C
A

Você também pode gostar