Você está na página 1de 3

O desao da participa c ao humana do IT-Coimbra no P agico

Arlindo Veiga
Instituto de Telecomunica c oes, Coimbra; DEEC - Universidade de Coimbra aveiga@co.it.pt

Carla Lopes
Instituto de Telecomunica c oes, Coimbra; Instituto Polit ecnico de Leiria calopes@co.it.pt

Dirce Celorico
Instituto de Telecomunica c oes, Coimbra dircelorico@co.it.pt

Jorge Proen ca
Instituto de Telecomunica c oes, Coimbra jproenca@co.it.pt

Fernando Perdig ao
Instituto de Telecomunica c oes, Coimbra; DEEC - Universidade de Coimbra fp@co.it.pt

Sara Candeias
Instituto de Telecomunica c oes, Coimbra saracandeias@co.it.pt

Resumo Na qualidade de grupo de investiga c ao em Processamento Computacional da L ngua portuguesa, pretendemos, neste documento, relatar a experi encia vivenciada na participa c ao do grupo ludIT no P agico Portugu es M agico. Estando o nosso trabalho mais centrado, de uma forma geral, no Processamento Autom atico da Fala, exprimiremos obrigatoriamente uma vis ao decorrente de, como participantes humanos, ter entrado num desao que levanta quest oes de l ngua distintas das que, at e ao momento, t em sido levantadas no ambito da investiga c ao que temos desenvolvido e que est ao mais relacionadas com o Processamento da Linguagem Natural. Num relato breve, descrevemos a estrat egia adotada e as diculdades encontradas. Decorrentes delas, apresentamos igualmente algumas opini oes, as quais podem vir a ser consideradas como sugest oes a acolher numa pr oxima edi c ao do P agico ou de um desao de perl semelhante. Finalizamos com uma tentativa de interpreta c ao do resultado obtido pela participa c ao do ludIT. Palavras chave
A L TEX, estilo

cessamento da Fala s ao areas que se encontram relacionadas e que a compreens ao da estrutura da L ngua Portuguesa com vista ao seu processamento passa tamb em pelo entendimento quer das necessidades quer das diculdades sentidas por cada uma dessas areas. A possibilidade da participa c ao humana no P agico foi encarada, no seio do grupo de investiga c ao de Processamento da Fala do Instituto de Telecomunica c oes (polo de Coimbra), como uma primeira abordagem ao tema do processamento da linguagem natural e da recupera c ao de informa c ao e como uma forma pormenorizada de entender a problem atica da obten c ao de respostas n ao triviais em arquivos de informa c ao complexos. Acabou por se tornar um desao cativante no sentido de conseguir responder, de forma t ao completa quanto poss vel, ` as quest oes levantadas.

2 A Estrat egia
A estrat egia adotada na participa c ao do ludIT no P agico come cou por usar o sistema siga, mas convergiu rapidamente para a pesquisa de temas atrav es da Wikip edia on-line. Assumimos que a grande maioria das p aginas n ao teria sido atualizada desde abril de 2011 at e` a altura da nossa participa c ao (novembro de 2011). Tal foi vericado na maioria dos casos, com apenas algumas exce c oes. De facto, a procura na enciclop edia livre on-line mostrou-se eciente para dar respostas a a c oes de pergunta complexa, bem como se revelou muito r apida na apresenta c ao de resultados. A pesquisa personalizada com indica c ao dos dom nios de pesquisa, bem como o algoritmo embebido no sistema de pesquisa da Wikip edia para dar respostas com palavras parecidas, constituiu um fator decisivo nos resultados alcan cados. A pesquisa por categoria

1 O Porqu e da Participa c ao
No contexto da comunidade cient ca do processamento Computacional da L ngua Portuguesa, ser a consensual admitir que o Processamento da Linguagem Natural, a Lingu stica Computacional e o Pro-

tamb em acelerou o processo de obten c ao de p aginas relevantes. Introduzindo o t tulo das p aginas da Wikip edia on-line no siga, foi sempre l a encontrada uma op c ao de resposta. Bastou ent ao vericar se a informa c ao da resposta existia nessa p agina da vers ao de abril de 2011.

3 As Diculdades
Como participantes humanos, sentimos algumas contrariedades em ultrapassar certas diculdades, principalmente as relacionadas com o elevado n umero de respostas a associar a uma pergunta. A t tulo de exemplo, ultrapassava 50 o n umero de respostas corretas ligadas ` a pergunta Tribos ind genas que vivem na Amaz onia (quest ao 019). Seria talvez interessante atribuir menos respostas, mas estar a elas associado um grau de import ancia ou de relev ancia. Por outro lado, foi tamb em evidente a aus encia de respostas na ` quest Wikip edia a algumas das quest oes. A ao 153 Toureiros a cavalo de pa ses lus ofonos com carreira internacional, por exemplo, n ao p ode car associado nenhum dos cavaleiros taurom aquicos Ribeiro Telles, pelo facto de a sua atividade, ainda que claramente conhecida no meio taurom aquico, n ao vir sucientemente representada na Wikip edia. Exemplos como este evidenciam a necessidade de que os conte udos da Wikip edia, por forma a acautelarem uma representa c ao de informa c ao sociocultural e enciclopedista, devem ser continuadamente alargados. Outra diculdade encontrada prendeu-se com o tempo de espera para obter as p aginas quando o tema de pesquisa conduzia a uma lista muito extensa. Seria mais funcional apresentar menos resultados, mas mais relevantes. A ambiguidade gerada pela enuncia c ao de algumas quest oes, apesar de ser esse o objetivo do desao, foi outra das diculdades sentidas no ato de pesquisar informa c ao. Para indicar os Locais referidos n Os Lus adas (quest ao 144), dever-se-iam considerar espa cos geogr acos como Continentes e Rios? E a ilha encantadora simbolizada pela Ilha dos Amores? E o cabo das tormentas gurado no Adamastor? E os Pol ticos lus ofonos do s eculo XX assassinados - quest ao 122? Teriam que ter nascido e, tamb em, teriam que ter sido assassinados, na extens ao do s ec. XX? Ou seriam aceites respostas que assegurassem apenas uma das asser c oes? Um aspeto muito revelador da diculdade do desao (nada trivial, de facto), e que a resposta estava, algumas vezes, dependente da interpreta c ao textual, reclamando uma leitura interpretativa do conte udo (vd. resposta a Pintores estrangeiros com uma liga c ao forte a Portugal ou ao Brasil - quest ao 152, como exemplo). Uma participa c ao menos cuidada poderia levar a dar respostas desarrazoadas. O facto de, para responder a quest oes n ao triviais, ter exigido detetar focos (pontos-chave) tem aticos no ambito do assunto, bem como ter requerido a pondera c ao sobre a pertin encia das rela c oes que se podem estabelecer no espa co de campos sem anticos e lexicais, levou-nos naturalmente ` a consciencializa c ao de alguns dos pro-

blemas inerentes ao desenvolvimento de sistemas autom aticos de recolha de informa c ao. Confrontados com o ato de selecionar informa c ao relevante, levanos a crer que a intelig encia necess aria para dar respostas a quest oes de natureza complexa e um desao enorme mas essencial no desenvolvimento dos sistemas autom aticos para encontrar respostas n ao triviais. Acrescenta-se que o conhecimento pr evio do assunto tornou a pesquisa, por vezes, mais facilitada e eciente, revelando que a opera c ao de procura est a dependente do aporte de erudi c ao de quem a executa. De facto, se em algumas quest oes se revelou uma maisvalia a cultura geral dos membros do grupo, a par da entreajuda que se fomentou entre eles, a experi encia que o grupo j a det em na procura de informa c ao permitiu um maior ajuste das palavras-chave a pesquisar.

4 O Resultado
Mais do que destacar o resultado obtido pelo ludIT no P agico, gostar amos de observar que o sucesso da classica c ao alcan cada foi a consequ encia do empenho do grupo, constitu do por 6 elementos motivados pelo desao, os quais, por serem investigadores, est ao naturalmente treinados para compreender a indispensabilidade de aferir a pertin encia quando se pesquisam dados e se testam pr aticas. A busca de informa c ao, para ser pertinente, deve ser muitas das vezes efetuada com temas que n ao est ao diretamente relacionados com o assunto. Esta tarefa torna-se seguramente de mais dif cil execu c ao se efetuada por meios autom aticos. Na verdade, o facto de o ludIT ter sa do bem-sucedido do desao lan cado mostra, em nosso entender, que existe ainda um fosso signicativo entre o desempenho humano e o desempenho autom atico na obten c ao de respostas que requerem uma interpreta c ao mais na em termos de rela c oes sem anticas, lexicais e comunicativas. O resultado mostra igualmente que foi feito um esfor co, quer temporal quer de representatividade, ao se ter tido como um objetivo interno responder de forma t ao completa quanto poss vel ` as quest oes levantadas pelo desao.

5 A Conclus ao
Vivemos numa sociedade de informa c ao com necessidade de eci encia. Toda a tecnologia que nos envolve tem sido desencadeada por esta urg encia de sistemas de busca ecaz. As necessidades de informa c ao s ao cada vez mais complexas. Desenvolver sistemas autom aticos capazes de encontrar respostas a perguntas complexas, em l ngua portuguesa, e um desao t ao interessante quanto pertinente. A participa c ao humana num desao como o denido pelo P agico - Portugu es M agico mostrou-se interessante e tamb em cativante uma vez que foi capaz de induzir a necessidade de dar respostas de forma completa. O resultado pode ser uma mais-valia para validar ou comparar sistemas autom aticos. Pode servir tamb em para detetar debilidades de abrang encia da Wikip edia. Tomando a ideia deste desao, tal-

vez seja poss vel denir, num futuro pr oximo, outros, alargados a p ublicos mais vastos, seguindo a ideia de colabora c ao on-line para solucionar problemas reais.