Você está na página 1de 8

Extrao de Informaes na Web

Mrio Henrique A. C. Adaniya 1, Mario Lemes Proena Jr1

Resumo: observado um crescimento exponencial nas informaes contidas


na Web, e com todo este crescimento, por muitas razes deixamos de agregar valor ao nosso conhecimento ou utilizar informaes pelo simples fato de no termos a capacidade de processar demasiado volume. Para tanto, estudos em reas como Recuperao de Informao e Extrao de Informao visam tratar os documentos em si e a informao contida nestes documentos. E a WebMining engloba as duas reas entre outras, transformando tais informaes em algo til para ns.

Introduo

Cada vez mais encontramos toda e qualquer informao que precisamos disponveis online. uma tendncia que grandes editoras com revistas e publicaes impressas esto aderindo, mantendo os impressos tradicionais e publicando virtualmente os mesmos contedos e adicionando outros exclusivos na edio online. A World Wide Web (Web) um meio de comunicao popular e interativo para disseminar informao atualmente [11]. Todo dia, mais e mais pginas so indexadas pelos motores de buscas. Blogs surgem aos milhares com pessoas expressando suas idias, opinies e experincias. Sites de relacionamento, fruns, Wikis armazenam contedos imensos dos mais diversificados assuntos. E neste pandemnio, como encontrar o que estamos procurando? Como descobrir se a informao recuperada confivel?

Departamento de Computao Universidade Estadual de Londrina (UEL) Caixa Postal 6001 86051-990 Londrina PR Brasil {mhadaniya}@dc.uel.br, {proenca}@uel.br

Extrao de Informaes na Web

Recuperao de Informao

Recuperao de Informao (RI) a tarefa de encontrar documentos relevantes a partir de um corpus ou conjunto de textos em resposta a uma necessidade de informao de um usurio [13]. Recuperao de Informao possui limites muito bem delimitados, e qualquer tarefa alm de prover ao usurio os documentos, no um sistema de recuperao de informao. 2.1 Recuperao de Informao na WEB Muitas caractersticas devem ser levadas em conta quando estamos recuperando documentos na WEB [10]: Tamanho da Internet O tamanho da Internet, segundo Zhang e seu grupo de pesquisa [14], estima-se que em Janeiro de 2008 a Internet continha 62400000 hostnames ativos. observada que para a Internet a cada cinco anos ela dobra de tamanho; Dinamismo da Internet As tcnicas de Recuperao de Informao so geralmente estticas, enquanto a Web est em constante metamorfose; Duplicao - 30% do contedo da Internet uma cpia de algum contedo existente; Comportamentos especficos estimado que 85% dos usurios utilizam apenas a primeira pgina retornada das search engines, e 28% modificam sua consulta original; Mltiplos tipos de usurio Possui muitos tipos de usurios e cada usurio utiliza a Internet para uma tarefa especfica; Idiomas Como a Internet se tornou algo mundial, as pginas so encontradas em mais de 100 idiomas; Alta Linkagem (High Linkage) Cada pgina contm aproximadamente oito links para outras pginas;

Com estas caractersticas, podemos ter uma noo da dificuldade do campo de Recuperao de Informao na Web. E muitas vezes, o usurio no sabe expressar sua necessidade, tornando a tarefa muito mais penosa.

Extrao de Informao

O contraste entre os objetivos dos sistemas de Extrao da Informao e Recuperao de Informao podem ser descritos como seguem: Recuperao de Informao recupera

28

CI Volume 4 Nmero 2 2009

Extrao de Informaes na Web

documentos relevantes de uma coleo, enquanto Extrao de Informao extrai informaes relevantes de documentos. Consequentemente, as duas tcnicas se complementam, e usadas em combinao podem prover uma ferramenta poderosa [7]. 3.1 Abordagens Na Extrao de Informao, observamos claramente a distino de duas abordagens [2]: Knowledge Engineering e Automatic Training. Em Knowledge Engineering o sistema praticamente construdo manualmente pelo knowledge engineer 2. Sua construo se baseia no conhecimento que o engenheiro possui do cenrio e domnio com o qual vai se trabalhar. A abordagem de automatic training no necessita de um especialista, mas algum que tenha o conhecimento suficiente do domnio da aplicao. Uma vez que os documentos de corpus foram anotados, um algoritmo de treino executado, treinando o sistema para novos textos. Utilizam mtodos estatsticos, e aprendem regras com a interao com o usurio. Nenhuma das duas abordagens superior a outra, pois a extrao depende de muitas variveis, e muitas vezes, variveis externas, logo, no podemos apontar nenhuma abordagem como completa. Ambas utilizadas em conjunto caminha para um sistema ideal. 3.2 Tipos de Dado A Extrao ocorre em documentos, e eles so categorizados em trs tipos [7]: I. Documentos livre/sem estruturao: Texto livre basicamente o texto onde no encontramos nenhuma forma de estrutura, e o tipo mais encontrado. Originalmente o objetivo de Extrao de Informao era desenvolver sistemas capazes de extrair informaes chaves de textos em linguagem natural. Documentos semi-estruturados: No so textos totalmente livres de estrutura, mas tambm as estrutura existente no to severa, os textos semiestruturados encontram-se no intermdio. O pesquisador Sergel Abiteboul diferencia dentro do contexto de semiestruturados, em cinco categorias [1][5]: Estrutura Irregular,Estrutura Implcita, Estrutura Parcial, Estrutura Indicativa e Estrutura Flexvel. III. Documentos estruturados : Informaes textuais contidas em banco de dados ou qualquer outro gnero de documento com uma estruturao rgida,

II.

a pessoa mais familiarizada com o sistema de Extrao de Informao, e conhece melhor o formalismo para expressar as regras para o sistema.

CI Volume 4 Nmero 2 2009

29

Extrao de Informaes na Web

so a base de textos estruturados. Como seguem uma moldura sem grandes diferenas de um documento para outro, sua informao facilmente extrada. 3.3 Avaliao Os critrios de avaliao consistem em: quanta informao foi extrada (recall), quanto da informao extrada correta (precision) e quanto da informao extrada suprflua (overgeneration) [12]. Quando a Cobertura aumenta, a Preciso tende a diminuir e vice-versa, pois so inversamente proporcionais. Preciso e Cobertura esto sempre no intervalo de [0; 1], sendo 0 o pior resultado e 1 o melhor. A F-measure mede considerando a preciso e a cobertura. O parmetro quantifica a preferncia da cobertura sobre a preciso. Geralmente utilizamos = 1, balanceando assim as duas medidas.

Para esclarecer um pouco mais o conceito de Preciso e Cobertura, tomamos um total de 16 termos extrados. Desses 16 termos, apenas 4 so nomes corretos e espervamos no total 8 nomes, ento nossa Preciso de 50%. Resultando em uma preciso mdia. A Cobertura so os nomes extrados corretamente sobre o total de termos que extramos, resultando em apenas 25%. Isso significa que de toda informao extrada, apenas 25% relevante para o domnio do sistema.

Web Mining

Web Mining o uso das tcnicas de Minerao de Dados para descobrir e extrair automaticamente a informao de documentos na Web [8]. A Minerao de Dados refere-se ao processo no trivial de identificao de padres vlidos, previamente desconhecidos e potencialmente teis de dados [9]. Seguindo o conceito de Etzione, que utiliza da Descoberta do Conhecimento (Knowledge Discovery Database) como base, ele decompe a Web Mining em quatro tarefas: Resource finding (Coleta de Documentos), Information selection and pre-processing (Pr-processamento), Generalization (Extrao de Padres) e Analysis (Anlise).

4.1 Categorias de WEB Mining Com o crescimento exponencial das fontes de informao disponveis na Web ao nosso redor, cresce a necessidade de automatizar ferramentas que busquem as informaes desejadas e corretamente. Ferramentas mais eficazes no rastreamento, tanto do lado dos

30

CI Volume 4 Nmero 2 2009

Extrao de Informaes na Web

servidores como dos clientes, so comumente alvos de pesquisas e projetos na busca de uma minerao de dados. Do lado dos servidores, temos extensas listas de logs, registros de usurios ou perfil de usurio, entre outros itens que podem ser analisados [4].

4.1.1 Minerao de Contedo A Minerao de Contedo e a Recuperao de Informao so muitas vezes utilizadas em conjunto. Enquanto uma realiza a minerao diretamente do contedo dos documentos a outra incrementa o poder de busca de outras ferramentas e servios. udio, vdeo, dados simblicos, metadados e vnculos de hipertexto fazem parte do contedo de documentos da Web atualmente, e como tal, na minerao de contedos tambm so analisados. Existem reas de pesquisas destinadas a minerao de dados multimdias, entretanto, como uma enorme parte da Web constituda de texto e hipertexto, permanecendo assim o foco em dados de texto. Com o continuo crescimento da Web, as pesquisas voltadas para ferramentas mais eficazes, melhorias nas tcnicas de minerao e extrao de dados se desenvolveram. Podemos observar duas grandes abordagens quando tratamos de Minerao de Contedo: Baseado em Agente (Agent-Based) e Banco de Dados (Database). Baseado em Agente (Agent-Based): Esta abordagem de minerao de dados trabalha diretamente com o campo de Inteligncia Artificial, provendo um sistema autnomo ou semi-autnomo, que trabalha para a coleta de conhecimento e organizao das informaes na WEB delimitado pelo escopo do sistema. Banco de Dados (Database): A abordagem de Banco de Dados, como o nome pressupem, trabalha com a organizao e integrao dos documentos semi-estruturados para um documento estruturado, como em um banco de dados relacional, usando inclusive consultas e mecanismos de banco de dados para acesso e analise das informaes. A rea de minerao de textos est bem esclarecida, com muitas tcnicas, uma das quais seria reestruturar o documento para uma linguagem entendida pela maquina. Uma minerao que vem ganhando destaque em pesquisas a minerao em servios da Web tais como grupo de noticias, grupos de e-mails, lista de discusso. Outro conceito introduzido por estes pesquisadores, chamado de Web Intelligence, que promete transformar os servios da Web em entidades inteligentes, de forma que elas possam interagir e se comunicar atravs de uma linguagem comum.

4.1.2 Minerao de Estrutura Como o prprio nome descreve, nesta categoria de minerao estamos preocupados com a estrutura dos documentos Web e como estes esto ligados entre si. Os vnculos de ligao de hipertexto so os principais objetos de estudos nesta categoria. Podemos visualizar a Web como um grafo orientado, onde os ns representam pginas e as setas entre os pares de ns representam os vnculos entre as pginas. Como ocorre em citaes bibliogrficas quando um artigo bastante citado indicando que provavelmente este artigo tem um peso

CI Volume 4 Nmero 2 2009

31

Extrao de Informaes na Web

importante perante outros que abordam o mesmo tema, o mesmo pode ser observado entre os documentos Web. Podemos drasticamente comparar que se uma pagina contm muitas setas entrando, ela teria certa relevncia quanto ao seu contedo ser confivel.

4.1.3 Minerao de Uso A minerao de uso utiliza os dados secundrios provindos de logs de servidores, logs de browsers, perfis de usurio, cookies, sees ou transaes de usurios, pasta favoritos, consultas do usurio, cliques de mouse e qualquer outro dado gerado pela interao do usurio com a Web. As aplicaes da minerao de dados de uso so classificadas em duas categorias: aprendizado de perfil de usurio (modelagem em interfaces adaptativas) e aprendizado de padres de navegao de usurio. Talvez umas das tcnicas em mais utilizao atualmente, devido ao grande nmero de E-Commerce, pois com isto podemos adaptar sites de acordo com o cliente, recomendar produtos de acordo com compras passadas ou baseadas nas similaridades entre perfis de usurios.

4.1.4 Web Semntica A Web Semntica uma extenso da web j existente, onde a informao ganha melhores significados, proporcionando aos humanos trabalhar melhor em conjunto com os computadores [3]. Acredita-se muito que Web Semntica ser o prximo passo evolutivo da Web, pois possui uma linguagem semntica muito rica, e.g., Web Ontology Language 3. Como somos expostos a muitas informaes de diversas maneiras, no sabemos lidar com o que exatamente correto ou til para ns, resultando em uma sobrecarga de informao. Observamos duas caractersticas importantes para este fenmeno: demasiado volume e a falta de uma definio semntica interpretvel por programas e sistemas [6]. Algumas reas estudadas na Inteligncia Artificial casaram muito bem, pelo fato de serem mecanismos que captam a semntica do contedo e se ajustam de acordo com as necessidades. Uma das abordagens propostas era de dotar a Internet de inteligncia prpria, construindo pginas mais elaboradas e ricas semanticamente e onde agentes pudessem raciocinar sobre semntica, logo, modelando uma Web Semntica. A semntica obtida atravs de ontologias, que so modelos de dados representando o conhecimento adquirido sobre um mundo ou parte deste em um conjunto de conceitos existentes em um domnio e os relacionamentos entre estes. As ontologias descrevem geralmente: indivduos, classes, atributos e relacionamentos. Muitos problemas so enfrentados nesta rea de estudo, mas grandes avanos so observados. Como fazer a ontologia chegar ao usurio comum sem ser to complicada, como assegurar que o contedo ser sempre preciso e claro, padres ontolgicos, entre outros so as discusses que direcionam as pesquisas na rea.
3

Web Ontology Language - http://www.w3.org/TR/owl-feature

32

CI Volume 4 Nmero 2 2009

Extrao de Informaes na Web

Referncias Bibliogrficas
[1] ABITEBOUL, S. Querying semi-structured CONFERENCE ON DATABASE THEORY (1997). data. INTERNATIONAL

[2] APPELT, D. E., AND ISRAEL, D. J. Introduction to information extraction technology. Tutorial for IJCAI-99 (1999). [3] BERNERS-LEE, T., HENDLER, J., AND LASSILA, O. The semantic web. Scientific American 279, 5 (2001), 3443. [4] COOLEY, R., MOBASHER, B., AND SRIVASTAVA, J. Web mining: Information and pattern discovery on the world wide web:, 1997. [5] DA SILVEIRA, I. C. Extrao semntica de dados semi-estruturados atravs de exemplos e ferramentas visuais. Masters thesis, Universidade Federal do Rio Grande do Sul, 2001. [6] DE FREITAS, F. L. G. Anais do XXIII Congresso da Sociedade Brasileira de Computao., vol. Volume 8: Jornada de Mini-Cursos em Inteligncia Artificial. SBC, 2003, ch. Ontologias e a Web Semntica, pp. 152. [7] EIKVIL, L. Information extraction from world wide web - a survey. [8] ETZIONE, O. The world wide web: quagmire or gold mine? Communications of the ACM 39 (1996), 6568. [9] FRAWLEY, W. J., PIATETSKY-SHAPIRO, G., AND MATHEUS, C. J. Knowledge discovery in databases: An overview. AI Magazine 13 (1992), 5770. [10] HUANG, L. A survey on web information retrieval technologies, 2000. [11] KOSALA, R., AND BLOCKEEL, H. Web mining research: A survey. SIGKDD Explorations 2 (2000), 115. [12] LEHNERT, W., AND SUNDHEIM, B. A performance evaluation of text-analysis technologies. AI Magazine 12 (1991), 8194. [13] SMEATON, A. Information retrieval: Still butting heads with natural language processing? Information Technology, M.T Pazienza ed., Springer-Verlag Lecture Notes in Computer Science 1299 (1997), 115138. [14] ZHANG, G.-Q., ZHANG, G.-Q., YANG, Q.-F., CHANG, S.-Q., AND ZHOU, T. Evolution of the internet and its core. New Journal of Physics 10 (December 2008), 111.

CI Volume 4 Nmero 2 2009

33

Extrao de Informaes na Web

34

CI Volume 4 Nmero 2 2009

Você também pode gostar