Stemming Reduzir palavras a sua raiz, processo denominado de conflaction -etivos Comparar relevncia Similaridade semntica *.pdf, *.doc, *.txt Ftrica PDF -> Text. (tempo) Stemming (tempo) ndexao -anco de dados (tempo) Estatstica (Computacao lingstica) (tempo) Tamanho Corpus (espao/tempo) Tipo implementao: perl e C++ (tempo) Local e online (tempo) Relevncia dos dados (categrico) assa de dados Conunto de Teses da USP (2 GB) Separadas por topicos. Tempo de processamento de cpu Local