Escolar Documentos
Profissional Documentos
Cultura Documentos
_____________________________________________________________________________________________________
INTRODUO
Qual o melhor caminho para chegar ao centro na hora do rush? Aonde se pode
encontrar um bom restaurante nestas proximidades? Qual a melhor poca para viajar
para o caribe? Qual a melhor empresa para investir em aes? Qual computador
comprar que atenda s necessidades especficas de um determinado usurio?
Tomar decises algo corriqueiro na vida das pessoas, para isto, faz-se uso de
diversas tcnicas que apoiem este processo, como por exemplo: pedir ajuda a um amigo,
fazer uma consulta na Internet, contratar um especialista da rea, entre outros. Nestas
situaes, o que se deseja um meio pelo qual possa auxiliar a realizar boas decises,
ou seja, uma recomendao.
O ser humano est acostumado a pedir recomendaes. Esta atividade to
comum e frequente, que se viu a possibilidade de se realizar recomendaes
automticas atravs de sistemas computacionais. Empresas como Amazon, NetFlix,
Ebay, Youtube, Google, Yahoo, entre outras, se destacaram por fazer uso destes
sistemas e investir no desenvolvimento de novos mtodos relacionados a esta
V. 12 N 2, dezembro, 2014____________________________________________________________
_____________________________________________________________________________________________________
SISTEMAS DE RECOMENDAO
V. 12 N 2, dezembro, 2014____________________________________________________________
_____________________________________________________________________________________________________
maior. Os slogans afirmam que o mundo est a apenas um clique de distncia. Mas ser
que isto verdade?
Ainda h falta de informao, s que agora o problema se apresenta de uma forma
diferente, falta informao relevante. A grande quantidade de contedo acaba gerando
uma sobrecarga de informao que pode ser vista facilmente ao navegar pela Internet.
Isto acaba desestimulando o usurio, pois h dificuldade em encontrar o que se
realmente deseja, como consequncia, o usurio se sente perdido em meio a um mundo
de informaes sem saber como encontrar o que lhe interessa. Mas surge a questo:
como encontrar o contedo de interesse do usurio em meio a tanta informao?
Os sistemas de recomendao surgiram como uma resposta dificuldade das
pessoas de escolher em meio a grande variedade de produtos e servios e as vrias
alternativas apresentadas.
Sistemas de Recomendao so ferramentas de software e tcnicas que fornecem
sugestes de itens que sejam teis para um usurio. Segundo Ricci (et al., 2011) os
Sistemas de Recomendao tentam prever quais so os produtos ou servios mais
adequados, com base nas preferncias e restries do usurio. Para completar esta
tarefa, os sistemas de recomendao coletam dos usurios suas preferncias, e que
podem ser explicitas, atravs das avaliaes de produtos, ou implcitas, inferidos atravs
da interpretao das aes do usurio.
Os sistemas de recomendao surgiram para auxiliar no processo de indicar e
receber indicaes, desta forma, procuram facilitar a busca por contedo interessante ao
usurio prevendo itens que possam ser relevantes ao mesmo.
Segundo Ricci (et al., 2011) a fim de implementar a sua funo principal,
identificando os itens teis para o usurio, o sistema de recomendao deve predizer que
item vale a pena recomendar. Para isto, o sistema deve ser capaz de prever a utilidade de
alguns deles, ou, pelo menos, comparar a utilidade de alguns dos itens e, ento decide
quais os itens recomendar com base nesta comparao.
Sistemas de Recomendao envolve a construo de um modelo ou perfil de
interesses do usurio. A construo deste perfil varia de acordo com a tcnica de
recomendao utilizada tendo como as principais tcnicas de recomendao a Filtragem
Colaborativa, Recomendao Baseada em Contedo, O modelo Hbrido, entre outros.
3
MINERAO DE TEXTO
V. 12 N 2, dezembro, 2014____________________________________________________________
_____________________________________________________________________________________________________
DESCRIO DO PROBLEMA
V. 12 N 2, dezembro, 2014____________________________________________________________
_____________________________________________________________________________________________________
Tais mudanas permitiram uma nova dinmica onde segundo (PIVA et al.,2011)
provocou uma mudana de paradigma no sentido que a individualizao cedeu lugar
colaborao e a aprendizagem independente passou a ser sustentada por experincias
colaborativas entre alunos e professores e alunos entre si.
Uma das principais ferramentas dos AVAs voltadas a construo do
conhecimento de forma colaborativa so os Fruns de Discusses. Os fruns so
espaos de discusses e troca de ideias em torno de temas propostos por seus
participantes. Este instrumento permite que cada participante submeta sua colaborao
referente ao tema proposto, buscando assim o entendimento mtuo. Segundo Silva
(2006, apud Okada) o frum uma ferramenta assncrona que representa um espao
para debates no qual pode ocorrer o entrelaamento de muitas vozes para a construo e
desconstruo de pensamentos, para questionar e responder dvidas, trilhando novos
caminhos para a aprendizagem.
Sobre a importncia destes debates Kenski (2002) traa o seguinte comentrio:
Interagir com o conhecimento e com as pessoas para aprender
fundamental. Para a transformao de um determinado grupo
de informaes em conhecimentos preciso que estes sejam
trabalhados, discutidos, comunicados. As trocas entre colegas,
os mltiplos posicionamentos diante das informaes
disponveis, os debates e as anlises crticas auxiliam a sua
compreenso e elaborao cognitiva. As mltiplas interaes e
trocas comunicativas entre parceiros do ato de aprender
possibilitam que estes conhecimentos sejam permanentemente
reconstrudos e reelaborados.
DESCRIO DO SISTEMA
V. 12 N 2, dezembro, 2014____________________________________________________________
_____________________________________________________________________________________________________
_____________________________________________________________________________________________________
tendem a ter pesos TF*IDF mais elevadas do que as palavras comuns a todos os
documentos.
Entretanto, o objetivo do uso da ponderao de termos neste trabalho, de
identificar os principais tpicos debatidos no frum. Alm do mais, com a extrao
das stopwords possvel eliminar grande parte dos termos que no apresentam
significncia ao contexto da discusso. Sendo assim para que se possa identificar as
palavras-chave, faz-se necessrio utilizar um algoritmo que atribua pesos mais
significativos aos termos mais frequentes na coleo de documentos, ou seja, nos
tpicos do frum.
Pelo fato de dar menor peso aos termos que so frequentes dentro de um documento,
mas no to frequente na coleo, o TF*IDF no se torna adequado para a resoluo
do problema em questo.
Proposto em 2001 por Khoo Khyou Bun e Mitsuru Ishizuka, o TF*PDF (Term
Frequency * Proportional Document Frequency) uma abordagem que busca
atribuir pesos mais significativos aos termos mais frequentes na coleo de
documentos.
Em sua abordagem inicial, o algoritmo TF*PDF usado para reconhecer os termos
que explicam os principais temas de cada arquivo de notcias (Hot Topics) semanais.
Sua proposta se baseia no conceito de que sempre que houver um hot topic no ar,
o tema ser discutido com frequncia em muitos documentos e fontes de notcias.
Diferente da atribuio convencional de peso trabalhado no mtodo TF*IDF, no
algoritmo TF*PDF, o peso de um termo linearmente proporcional frequncia, e
exponencialmente proporcional relao do documento que contm o termo. Sendo
assim o algoritmo PDF representado pela frmula a seguir:
PDF = exp(ni/N)
Desde sua proposta inicial em 2001 por Bun e Ishizuka o TF*PDF tem se
demonstrado uma excelente ferramenta na minerao de texto para a deteco de
tpicos em um documento ou em um conjunto deles. Diversos trabalhos nos ltimos
anos tem demonstrado a eficincia deste algoritmo como: (JAHNAVI; RADHIKA,
2012); ZHE et al., 2012); (REN et al., 2011); (KAUR ; GUPTA 2012); MA (2011),
entre outros.
Sendo assim, este trabalho faz uso deste mtodo como ferramenta de minerao de
texto a fim de extrair os principais temas debatidos nos fruns de aprendizagem.
Para se calcular a frequncia do termo (TF) foi adotado uma abordagem diferente.
Como no feito clculo de similaridade entre os documentos a coleo de
documentos (os diferentes tpicos do frum de discusso) so agrupados como um
nico documento e os pesos TFs so calculados para todos os termos em relao a
um nico documento. Uma vez feito isto, o clculo do peso PDF realizado levando
em considerao a frequncia do termo em relao ao conjunto de documentos.
Uma vez que atravs do algoritmo TF*PDF os termos dos documentos so
ponderados realizada a ordenao deles para identificar quais os principais termos
referenciados nesta discusso.
4. Uma vez feita a identificao dos principais tpicos discutidos no frum, o sistema
seleciona os cinco primeiros termos e os submeter a um motor de busca. No
exemplo aqui proposto, foi utilizado a API do motor de busca Bing que oferece
5000 consultas gratuitas por ms, e permite que os links sejam retornados tanto em
XML quanto em JSON.
V. 12 N 2, dezembro, 2014____________________________________________________________
_____________________________________________________________________________________________________
A PESQUISA
V. 12 N 2, dezembro, 2014____________________________________________________________
_____________________________________________________________________________________________________
CONCLUSO
V. 12 N 2, dezembro, 2014____________________________________________________________
10
_____________________________________________________________________________________________________
V. 12 N 2, dezembro, 2014____________________________________________________________