Shsconf cmlf12 000286

Dtecter le potentiel dambigut dune requte le cas
des recherches portant sur lactualit

Lalleman, Fanny
1 2
, & Fabre, Ccile
1

1
CLLE, Universit de Toulouse & CNRS
2
Orange Labs
{fanny.lalleman et cecile.fabre}@univ-tlse2.fr
Heinecke, Johannes
Orange Labs
Johannes.heinecke@orange.com

1 Introduction : rexaminer la question de lambigut des requtes
i

Le traitement de l'ambigut est considr comme un enjeu important pour lamlioration des
performances dun systme : lapport dune phase de dsambigusation a t dmontr plusieurs
reprises, par exemple par (Schtze et Pederson, 1995) ou plus rcemment (Stokoe et al., 2003). De fait, de
nombreux travaux ont t consacrs cette question depuis les annes 1990. Les solutions proposes pour
la rsoudre se sont dabord focalises sur le traitement de lambigut lexicale par recours des
dictionnaires ou, en recherche dinformation multilingue, des corpus aligns (Krovetz et Croft, 1992 ;
Sanderson, 2000 ; Stokoe, 2005). Ces travaux taient fonds sur une double hypothse : la polysmie et
lhomonymie des mots sont la source principale de lambigut, et les mots de la requte fournissent des
indices contextuels pour permettre une dsambigusation mutuelle. On se situerait donc dans le cas dune
tche classique de dsambigusation lexicale (word sense disambiguation). Cette conception de
lambigut dans le contexte de la recherche dinformation (RI) est aujourdhui remise en cause.
Tout dabord, linadquation de dictionnaires gnriques (typiquement Wordnet) pour le traitement
smantique de requtes sest avre patente, pour plusieurs raisons : les emplois recenss dans des
ressources lexicales externes peuvent ne pas tre reprsentatifs de ceux qui apparaissent dans la base de
textes ; en particulier, la prsence massive dentits nommes, non recenses dans ces dictionnaires, pose
des problmes dambigut spcifiques (Ehrmann, 2008 ; Sanderson, 2008). Ensuite, lexamen de
requtes issues de contextes oprationnels de RI par opposition aux donnes dvaluation artificielles
longtemps pratiques dans les campagnes TREC
ii
a montr que beaucoup de requtes sont constitues
dun seul mot et ne fournissent donc pas dindices contextuels pour mener bien cette tche. Enfin,
dautres types dambigut ont t mis en vidence. Sprck-Jones et al. (2007) en identifient trois, relatifs
au sens du mot, aux diffrents aspects de linformation considre, au type de la requte :
The ambiguity may be of the word sense, or of reference aspect. The request house
may mean building, home, or firm, and the request house prices may refer to
actual prices or economic factors. There is also the issue of request type e.g. topic vs
home-page seeking ()
Song et al. (2009) distinguent quant eux des requtes rellement ambigus, dont les termes ont plusieurs
sens (Giant rfre un film ou une quipe sportive), et des requtes larges qui couvrent plusieurs sous-
thmes (ex : songs).
La question de lambigut des requtes sest donc complexifie. Et plus encore si on considre que
lintention de lutilisateur est elle-mme souvent vague : non seulement son expression linguistique l'est
ncessairement, mais il peut tre difficile de considrer quun besoin informationnel prcis et
parfaitement prdtermin prvaut lexpression de la requte. En rponse ce problme, des traitements

2 4 7 1
Article available at http://www.shs-conferences.org or http://dx.doi.org/10.1051/shsconf/20120100286
non superviss de lambigut sont proposs comme alternative aux traitements de dsambigusation
classique : des procdures de clusterisation des textes visent faire merger les diffrents emplois des
mots de la requte reprsents dans la base documentaire interroge et fournir lutilisateur les moyens
de percevoir lambigut latente (Navarro et al., 2011 ; Zhai et al., 2003).
Dans ce contexte de redfinition de la nature et du traitement de lambigut en RI, lobjectif du travail
que nous prsentons ici est dexaminer cette notion travers ltude des requtes produites dans un
systme de RI, le site 2424actu.fr dOrange, oprationnel du 1/10/2009 au 1/09/2011. Celui-ci vise le
traitement dune base de documents relatifs lactualit franaise, domaine particulirement mouvant et
par consquent propice lexamen de la question de lambigut. Nous cherchons dterminer la nature
de lambigut des requtes en examinant les logs de requtes disponibles et en les confrontant
diffrents indices contextuels qui enrichissent la perception de la variabilit smantique des termes de la
requte. Nous commenons par prsenter les donnes (requtes et bases de textes) sur lesquelles nous
avons travaill avant de dtailler ces indices et de les appliquer nos donnes.
2 Prsentation des donnes issues dun site dactualits
Les donnes utilises dans cette exprience proviennent d'une plateforme dactualits dveloppe dans un
contexte industriel. Ce site permet de consulter lactualit franaise en temps rel, et propose diffrents
modes daccs linformation : lutilisateur peut exprimer une requte en utilisant une barre de recherche
traditionnelle, il peut galement naviguer dans la base en utilisant des entres thmatiques ou en explorant
des clusters de documents. Nous tudions ici les requtes qui ont permis dinterroger la base de
documents. Les donnes que nous avons constitues associent ces requtes et les documents, en les
organisant temporellement.
2.1 Le corpus : requtes et base de textes
Le corpus de requtes choisi pour cette tude correspond une priode temporelle de huit mois, de mai
dcembre 2010. Pendant cette priode, les utilisateurs ont produit prs d1/2 million de requtes (487 231
exactement), contenant 30 668 requtes diffrentes. Cet ensemble de requtes est partitionn par mois.
Dans le cadre de cette tude, nous nous sommes concentrs sur les 400 requtes les plus souvent
formules en slectionnant les 50 requtes les plus frquentes de chaque partition temporelle, dont le
Tableau 1 montre un extrait.
Tableau 1 : Extrait des requtes utilisateurs anne 2010
Mai sport foot (8344) - rforme retraites (6459) - festival de cannes (6444) - johnny hallyday
(4627) ruption islande (4409)
Juin sport foot (9884) apro facebook (4415) international (4275) rforme retraites (3840)
afghanistan (3323)
Juillet sport foot (7068) - rforme retraites (3498) - international (3399) - inondation var (3387) -
afghanistan (2984)
Aot sport foot (8049) - incendie russie (6570) - hati (3125) - afghanistan (3109) - sortie cinma
(2927)
Sept grve rer (2812) - sport foot (2600) - afghanistan (1023) - delarue (962) - johnny hallyday
(888)
Oct grve (14358) - grve rer (12179) - mineurs chili fr (5549) - afghanistan (3978) - larry
clark (3801)
Nov grve (9412) - rforme retraites (5650) - ruption (2573) - international (2389) -
afghanistan (2355)

2 4 7 2
Dc wikileaks (19796) - cte divoire (8574) - neiges (5914) - sortie cinma (5370) - grve
(3223)
Dans le mme temps, nous avons collect un corpus de documents. Ces documents correspondent aux
actualits disponibles sur le site de mai dcembre 2010, soit la base de textes vers laquelle les requtes
des utilisateurs ont t mises. Le corpus est donc partitionn de la mme manire que les requtes
(Tableau 2). Cette collection de documents, de nature exclusivement textuelle, est constitue de sources
htrognes : audio ou journaux tlviss retranscrits, dpches AFP, articles de journaux. Les documents
proviennent des diffrents partenaires du site (AFP, Le Monde, Le Point, LExpress, France Tlvision,
Paris Match, etc.).
Tableau 2 : Corpus de documents (nombre de documents par corpus)
Mai 2010 Juin 2010 Juillet 2010 Aout 2010 Sept 2010 Oct 2010 Nov 2010 Dc 2010
23521 26782 15773 19543 17634 22822 16015 11096
2.2 Premiers lments de caractrisation des requtes
Les caractristiques formelles des requtes offrent demble des lments dapprciation du potentiel
dambigut dune requte. Leur taille moyenne est un premier critre susceptible de nous renseigner sur
le degr de spcificit de linformation exprime. Ltude de Spink et al. (2002) a ainsi montr que la
longueur des requtes en anglais (provenant du moteur Excite Web) tait de 2,6 mots et qu'elle variait peu
dans le temps. Dans notre corpus, la longueur moyenne d'une requte est infrieure, puisquelle est de
1,73 mots. Les requtes multi-mots sont donc minoritaires dans notre corpus. On trouve principalement :
- des termes nominaux complexes ou des noms propres composs (assemble nationale, cte
divoire) ;
- des termes avec effacement du joncteur grammatical (rforme retraites, grve RER) ;
- un terme associ une spcification dordre temporel ou spatial (boue Hongrie, mare noire
Etats-Unis) ;
- des termes juxtaposs selon des associations smantiques varies (proxntisme quipe de
France, carla bruni photos).
Le deuxime critre de caractrisation des requtes susceptible de conditionner leur degr dambigut est
la nature des termes qui les composent, et plus particulirement la proportion de noms propres, ou plus
largement dentits nommes (dsormais EN). Barr et al. (2008) signalent que des requtes en anglais
(issues du site Yahoo!) contiennent 40% de noms propres et 30% de noms communs. Plus
spcifiquement, diffrentes tudes ont montr limportance des lieux et des personnes dans lexpression
de la requte : (Spink et al., 2004) dcomptent de 11 17% de noms de personnes, (Gan et al., 2008) prs
de 38% de requtes contenant des termes de type gographique . Cette tendance se retrouve plus
fortement encore dans notre corpus de requtes. Une annotation manuelle de 392 requtes nous a permis
de dnombrer 70% de requtes contenant une entit nomme. Or le potentiel dambigut de ces units a
t tudi aussi bien en linguistique quen TAL, quil sagisse dhomonymie dans le cas des noms de
personne (Artiles et al., 2007) ou de mtonymie dans le cas des toponymes (Lecolle, 2007 ; Ehrmann,
2008).
Dautres critres seraient galement intressants mobiliser dans cette tude prliminaire, comme le
degr de gnricit des termes, la complexit morphologique, ou le nombre de sens recenss, indices
utiliss par (Mothe et Tanguy, 2005) pour prdire la difficult dune requte. En ltat, on peut dj
concevoir que les caractristiques de ces requtes souvent rduites un seul mot et comportant
beaucoup dentits nommes sont des indicateurs dambigut. Sajoutent cela les caractristiques du

2 4 7 3
champ de la collection de documents : lactualit, par nature changeante, caractrise par la
transformation du contexte rfrentiel, fait rapidement voluer les informations associes aux termes de la
recherche.
Dans ltude, nous nous focalisons sur les requtes comportant un seul terme, quil sagisse dun mot
isol ou dun terme complexe correspondant au premier type de requtes plusieurs mots prsent
prcdemment (assemble nationale, cte divoire) : cela nous permet la fois de nous concentrer sur un
seul cas de figure, qui maximise les risques dambigut et qui est le plus frquent dans notre corpus, et de
simplifier la tche danalyse. Lensemble de lanalyse qui suit porte donc sur 247 requtes (soit 62% du
corpus de requtes au complet).
3 Analyse des requtes
3.1 Les lments de contextualisation de la recherche
Notre objectif tant de dtecter lambigut dune requte, nous cherchons identifier les indices
susceptibles de mettre au jour la diversit des sens ou, pour reprendre le terme de Sprck-Jones et al.
(2007), des aspects rfrentiels quelle recouvre. Le contexte applicatif qui est le ntre fournit des
lments de contextualisation de la recherche qui constituent un ensemble de points de vue
complmentaires sur la requte (Hearst, 2009, Allan et al. 2003). Ces lments peuvent avoir trois
origines : ils peuvent concerner lutilisateur (lments de spcification de son besoin ou de son profil), les
documents de la base (caractristiques externes ou linguistiques), ou provenir de ressources externes de
type lexicographique et encyclopdique susceptibles de fournir des connaissances gnrales relatives aux
termes employs.
Du point de vue de l'utilisateur, nous manquons dinformations stratgiques concernant son profil, et
mme dinformations anonymises permettant de lidentifier (adresse IP) : il nest pas possible de savoir
quelles requtes ont t formules par un mme utilisateur. Nous pouvons nanmoins tudier dun point
de vue global les stratgies de reformulation qui ont t utilises, ou exploiter des informations
temporelles pour regrouper des requtes proches. Ainsi il est intressant de savoir que deux requtes
proches comme grve et grve rer coexistent au mois d'octobre 2010, l'une tant donc potentiellement la
spcification de l'autre (sans que les deux requtes aient t ncessairement formules successivement par
un mme utilisateur).
Du ct de la base de textes, nous disposons de plusieurs lments de contextualisation de la recherche
informations temporelles et caractristiques portant sur la source dont est issu le document. Parmi celles-
ci, nous utilisons le fait que les documents sont catgoriss sur le plan thmatique, selon un classement
hrit de l'AFP. On compte six thmatiques : ECONOMIE (questions conomiques), INTERNATIONAL
(actualits hors de France), SOCIETE, POLITIQUE, CULTURES (musique, sciences, art, people) et SPORT. Par
ailleurs, nous pouvons mobiliser des indices lies au co-texte dapparition des termes de la requte
(cooccurrences).
Nous avons enfin utilis une ressource externe, Wikipdia, comme talon pour estimer le potentiel
dambigut des requtes. Lutilisation de cette encyclopdie en ligne plutt que dun dictionnaire se
justifie par la possibilit de pouvoir ainsi prendre en compte les entits nommes.
Outre ces trois dimensions dtude, nous avons considr la temporalit des documents et des requtes
comme une dimension essentielle de notre tude. L'actualit est rythme par le temps. La recherche
d'information dans ce contexte particulier hrite de cette contrainte, et permet d'accder des indices
invisibles sans la trame temporelle. Il est donc apparu pertinent de regarder les requtes utilisateurs du
point de vue diachronique. On voit alors apparatre diffrents profils de requtes qui tmoignent de la
fluctuation des thmes dactualit dans des temporalits mme courtes et offrent un autre point de vue sur
la diversit des facettes auxquelles une requte est susceptible de renvoyer.

2 4 7 4
Dans ce qui suit, les corpus de requtes et de textes sont apprhends partir des diffrents modes de
caractrisation que nous venons dvoquer.
3.2 Catgorisation thmatique
La catgorisation thmatique des documents de la base fournit une grille macroscopique de dcoupage de
linformation en six thmes (INTERNATIONAL, SOCIETE, POLITIQUE, CULTURES, ECONOMIE, SPORT). Ce
nombre de catgories est trs limit. Elles ont nanmoins une pertinence car elles sont utilises par lAFP
et les journalistes pour classer et typer les flux dinformation. Elles reprsentent donc les domaines
principaux de l'actualit. Cette information est disponible pour chaque texte de la base
iii
. Prcisons quun
texte est rattach une seule catgorie thmatique. On dispose ainsi dun mode de classification certes
grossier mais adapt aux spcificits thmatiques de la base de textes, quil est donc intressant dutiliser
pour catgoriser les requtes et observer leur distribution ventuelle sur plusieurs domaines, indice
potentiel dambigit ou tout au moins dambivalence.
Pour raliser cette catgorisation, nous avons projet les requtes d'une priode temporelle donne sur la
base textuelle correspondant la mme priode. Dans la mesure o il sagit de requtes un seul terme, la
procdure didentification du sous-ensemble de textes pertinent est extrmement simple : nous retenons
les textes qui contiennent la requte. Chaque fois que le terme de la requte apparat dans un document,
on incrmente le compteur de la catgorie thmatique du document cible. A la fin du calcul, pour limiter
les catgories rsiduelles on ne retient que celles qui reprsentent plus de 10% des textes lis la requte.
Les rsultats montrent que 54% des requtes sont mono-catgorielles : tous les textes auxquels elles sont
associes relvent de la mme catgorie. 46% sont donc pluri-catgorielles, le nombre de catgories
pouvant aller de 2 6. La rpartition des requtes qui donnent lieu un classement thmatique unique
peut varier fortement par priode (environ 67% pour le sous-corpus de dcembre contre 27% dans le
sous-corpus de mai).
La pluri-catgorisation fournit-elle un premier indice de lambigut de la requte ? La comparaison des
deux types de requtes ainsi dgages (mono vs pluri-catgories) fournit quelques lments danalyse. On
constate que les requtes mono-catgorises contiennent massivement des EN (80%) comme par exemple
miss france ou audrey pulvar (catgorises en CULTURES). Quelques requtes contiennent des noms
communs comme neiges (SOCIETE) ou agriculture (ECONOMIQUE). Ces deux derniers exemples montrent
quon peut avoir affaire des requtes larges, sous-spcifies, mais dont la porte sinscrit dans une seule
thmatique. La part des EN dans les requtes pluri-catgorises est de 60%, cest donc moins que dans le
cas des requtes mono-thmatiques.
Ltude des requtes pluri-catgorises montre plusieurs cas dambigut. Pour une requte comme royal,
le renvoi plusieurs thmatiques recouvre un cas clair dhomonymie. La requte est catgorise comme
suit: INTERNATIONAL (27), POLITIQUE (63), SPORT (40). La catgorie POLITIQUE renvoie Sgolne Royal
alors que la catgorie SPORT correspond l'adjectif royal . D'autres requtes pluri-catgorielles comme
obama ou sarkozy correspondent un autre cas de figure. Ainsi la requte sarkozy pointe vers trois
catgories : INTERNATIONAL (196), POLITIQUE (544), SOCIETE (182). Ce type de requte dsigne une
personnalit prsente sur diffrents sujets et qui endosse diffrents rles : il intervient sur des problmes
de nature politique qui peuvent se poser hors de France (INTERNATIONAL), mais il est galement prsent
sur des terrains socitaux en lien avec une srie de suspicions daffaires ou de faits divers (SOCIETE).
Enfin, on dtecte galement des requtes pluri-catgorises qui manifestent une ambigut rfrentielle
relle : il sagit de requtes comme otages, ruption ou ministre. En effet, ces requtes montrent que
lutilisateur peut avoir tendance dsigner de faon trs vague et implicite des vnements qui dominent
lactualit au moment o il exprime la requte. A lchelle de la base de textes, ce type de requte peut
par contre tre associ une information trs parpille. Par exemple, la requte intempries parat peu
ambige dans un contexte d'actualit, pourtant la catgorisation faire ressortir deux thmatiques :
INTERNATIONAL et SOCIETE, signifiant que la France nest pas la seule touche (catgorie SOCIETE) mais
que plusieurs endroits dans le monde ont t victimes d'intempries (catgorie INTERNATIONAL).

2 4 7 5
Les thmatiques offrent donc un premier point de vue sur le potentiel dambigut dune requte, et
rvlent la diversit des formes dambigut luvre, depuis une relle ambigut lexicale jusqu une
ambigut rfrentielle relative une pluralit dvnements associs un terme. Mais elles montrent des
limites videntes. Du fait du petit nombre de catgories thmatiques trs gnrales, le classement dune
requte dans une seule catgorie ne permet pas de dduire quelle est univoque. En particulier, une
catgorie comme INTERNATIONAL recouvre une multitude de sujets et de thmes dans l'actualit, elle
permet surtout de localiser les news (hors de France en l'occurrence). La consquence directe est qu'elle
capte normment de requtes, et par exemple 40% des requtes mono-catgorielles sont tiquetes
INTERNATIONAL. Le problme est similaire pour la catgorie CULTURES, peu prcise.
3.3 Consultation dune ressource externe
L'utilisation d'une ressource externe pour rendre compte de l'ambigut des requtes est la dmarche la
plus couramment employe pour apprcier lambigut des requtes, comme nous lavons signal en
introduction (Sanderson, 2008). Nous avons utilis l'encyclopdie en ligne Wikipdia qui fournit une
indication de la diversit des notions associes un terme, travers les pages dites dhomonymie ou de
dsambigusation. Ces pages rpertorient les diffrents sujets et articles correspondant une mme forme.
Par exemple, une des requtes frquentes dans notre corpus, ruption, renvoie vers une page qui recense
les diffrents domaines demploi du mot ruption ruption volcanique, cutane, solaire assortis de la
mention du nom dun groupe de musique et dune chanson.
Nous avons procd une annotation manuelle de deux de nos sous-corpus de requtes, soit 91 requtes.
Elle a consist tout dabord dterminer si le terme de la requte tait prsent dans Wikipdia. Cest le
cas de 67 % des requtes. Sur les 61 requtes trouves, 35 pointent vers une seule entre dans Wikipdia
(57%), 26 correspondent des entres multiples (43%). Sagit-il dun autre regard sur lambigut ou bien
y a-t-il un recouvrement avec lanalyse prcdente ?
L'utilisation de Wikipdia pour reprer l'ambigut montre immdiatement ses limites : lambigut qui
est dcrite dans lencyclopdie ne correspond que rarement une ambigut relle dans la base de textes.
En gnral, Wikipdia recense plus dacceptions que celles qui apparaissent dans le contexte de
lactualit. Cest particulirement le cas des noms de personne. Par exemple, si Johnny Hallyday pointe
vers une page homonymique, cest quil peut tre un cascadeur ou un chanteur ; l'actualit ne connait bien
sr que le chanteur. La situation inverse est galement frquente : des termes univoques selon Wikipdia
se dclinent selon plusieurs emplois ou sous-domaines dans la base de textes, comme illustr dans le
paragraphe suivant dans le cas des noms de pays.
Nous avons confront cette catgorisation de nature encyclopdique la catgorisation thmatique
ralise prcdemment. On remarque que les proportions entre requtes univoques et potentiellement
ambigus sont assez similaires : il existe 54 57% de requtes pluri-catgorises selon les deux points de
vue. On constate nanmoins que le dsaccord est important. En effet, en calculant l'accord inter-
annotateurs (entre les deux types de classification) grce la mesure du coefficient du Kappa de Cohen
iv
,
nous obtenons un coefficient proche de 0,15 signifiant un accord trs faible. A titre dexemple, un
dsaccord intressant concerne le terme hati, univoque dans Wikipdia mais pluri-catgoris par la
classification thmatique en SOCIETE, INTERNATIONAL et CULTURES. Dans lactualit, hati dsigne le pays
mais galement une srie dvnements conscutifs au tremblement de terre de janvier 2010. De faon
gnrale, les noms de pays ne sont pas ambigus au sens de Wikipdia, qui, en tant quencyclopdie, ne
considre pas les effets mtonymiques des toponymes ; ces termes sont par contre trs mouvants au
regard de la catgorisation thmatique. De mme, la requte afghanistan (une seule entre dans
Wikipdia) renvoie la fois la guerre en Afghanistan (catgorie INTERNATIONAL) et aux otages franais
(catgorie SOCIETE). La double catgorisation SOCIETE et INTERNATIONAL, bien que trs grossire, en rend
mieux compte. On peut enfin citer la requte facebook qui dans le cadre de l'actualit ne concerne pas le
site (seul dcrit dans Wikipdia), mais l'entreprise (CULTURES) ou les vnements lis au site comme les
apros facebook (SOCIETE). La nature de lambigut repre est donc bien diffrente selon les mthodes

2 4 7 6
utilises, et les exemples de dcalage que nous avons examins montrent que la catgorisation thmatique
capte mieux la ralit des emplois du corpus.
3.4 Cooccurrence
Lanalyse que nous venons de faire de lutilisation de Wikipdia illustre le dcalage dune ressource
externe avec lutilisation qui est faite des termes de la requte dans la base de textes interroge. Cela
confirme que cest bien la base de textes qui fournit la grille la plus pertinente pour apprcier lambigut
des requtes. Nous avons poursuivi lanalyse en recherchant dans les textes eux-mmes des lments
dinformation sur le comportement smantique des requtes dans la base textuelle. Nous avons opt pour
une procdure trs simple danalyse, consistant examiner la cooccurrence des termes des requtes dans
les textes. Ce procd est couramment utilis pour tudier la variation smantique en diachronie (Picton,
2009) ou la polysmie (Yarowsky, 1995 ; Turney, 2004 ; Audibert, 2003). Nous procdons ici une
analyse des cooccurrents de surface laide de loutil Antconc (Anthony, 2011) sur le corpus non
lemmatis, en utilisant la mesure dinformation mutuelle (note IM). Le contexte considr est une
fentre de 3 mots avant et aprs lunit tudie. Lintrt de cette analyse distributionnelle dans notre
contexte dtude est de pouvoir identifier des liens forts entre la requte et des cooccurrents qui
permettent de dgager un ou des comportements smantiques de cette requte. Cette approche est
nanmoins plus exploratoire : elle sappuie sur un examen manuel et ne permet pas de dboucher comme
dans les deux cas prcdents sur un score dambigut potentielle.
Nous nous focalisons sur lanalyse des cooccurrents des requtes qui ont t pluri-catgorises par la
catgorisation thmatique, de manire observer le lien entre la pluri-catgorisation des textes et la
diversit des contextes dapparition des termes. Cette analyse montre que la diversit thmatique des
requtes se traduit effectivement dans les contextes dapparition. Cest ce que montre l'exemple royal
(Tableau 3). Le terme de la requte a pour cooccurrents des noms qui fonctionnent avec l'adjectif royal
(Stadium royal, Royal Navy, etc.). Certains dentre eux commencent par une majuscule, signe qu'ils
appartiennent une EN. Sgolne apparat galement comme cooccurrent, et les autres termes renvoient
des thmatiques qui concernent la femme politique (Tempte, Xynthia).
Tableau 3 : Collocats du mot royal
royal : collocats mots-pleins (Fentre de 3 mots gauche et droite) [Corpus Juin]
Stadium (IM:14), Wever (IM:14), Tempte (IM:14), Navy (IM:14), Recours (IM:13),
proposition (IM:13), hospital (IM:13), Bibliothque (IM:13), Bart (IM:13), Xynthia (IM:12),
Bangkok (IM:12) , Sgolne (IM:12) (.)
Un autre exemple intressant concerne la requte tabac, qui a t catgorise en ECONOMIE (27) et en
SOCIETE (25). L'analyse de ses cooccurrents (Tableau 4) montre la fois la dimension marchande du
terme (ECONOMIE) : dbits, transformation, multinationale et la dimension sant publique (SOCIETE)
avec sensibiliser et hypertension.
Tableau 4 : Collocats du mot tabac
tabac : collocats mots-pleins (Fentre de 3 mots gauche et droite) [Corpus Nov]
Barman (IM:16), dbits (IM:16), cooprative (IM:15), transformation (IM:15), Sensibiliser
(IM:14), kilo (IM:14), Dordogne (IM:13), plantations (IM:13), multinationales (IM:13),
hypertension (IM:13)

2 4 7 7
Enfin, la requte ministre (Tableau 5), pluri-catgorielle et ambigu du point de vue rfrentiel, est
fortement associe des cooccurrents qui spcifient le terme ministre comme vietnamien, ymnite, ou de
nombreux noms propres tels que Cowen, Ouattara et Gillard.
Tableau 5 : Collocats du mot ministre
ministre : collocats mots-pleins (Fentre de 3 mots gauche et droite) [Corpus Nov]
Cowen (IM:15), Socrates (IM:14), Brian (IM:13), Ouattara (IM:11), Gillard (IM:11),
dominicain (IM:11), Alassane (IM:11), Hubert (IM: 11,64), hyper (IM:11), vietnamien (IM :
11), promue (IM: 11), ddouaner (IM: 11), relance (IM:11), Manmohan (IM:11), ymnite
(IM: 10)

Grce la cooccurrence, nous accdons aux vnements dcrits dans les documents de notre base
dessinant un contexte prcis d'utilisation des termes de la requte dans un texte d'actualit. Ils nous
informent sur la diversit des facettes rfrentielles attaches la requte.
3.5 Reformulation
Bien que les informations concernant l'utilisateur soient trs incompltes, les requtes sont en elles-
mmes des traces de la diversit des modes dexpression qui sont utiliss au fil des recherches (Song et
al., 2009 ; Jansen et al., 2009). La faon dont une requte a t reformule, ou en tous cas (en labsence
dinformation sur lidentit de lutilisateur), les diffrentes manires dont un terme a t utilis dans une
srie de requtes, fournissent des indices sur la diversit des points de vue exprims par lutilisateur. La
version tendue d'une requte courte peut nous informer sur les types de spcification possible dune
requte smantiquement large. En observant les requtes pluri-catgorises telles que royal, sarkozy ou
ministre on voit se dessiner diffrents types d'extensions de ces requtes. Il sagit bien entendu dans tous
les cas de formulations moins frquentes puisque plus spcifiques.
L'tude de la reformulation des requtes parat donc tre une piste intressante pour discriminer les
requtes pluri-catgorises par la catgorisation thmatique. En effet, les observations laissent apparatre
deux modes de reformulation diffrents.
Le premier type de reformulation produit des extensions qui compltent la requte et qui entretiennent
une relation de spcification avec celle-ci. Cette procdure permet d'identifier un sens et de lever une
ambigut lexicale ou rfrentielle. Par exemple, pour la requte royal, deux sens apparaissent : Sgolne
Royal (sgolne royal, segolne royal tf1) et l'adjectif royal (mariage royal, royal emirat, mariage
royal sude). Les requtes qui manifestent une ambigut rfrentielle comme ministre ont des extensions
qui spcifient le mot ambigu. Ainsi, les mots associs la requte permettent de crer une unit o le
rfrent est identifi comme jupp ministre, borloo premier ministre, dmission 1
er
ministre belge. Le
deuxime type de reformulation consiste principalement ajouter un autre terme juxtapos permettant de
resserrer une thmatique ou de prciser une requte large . Par exemple, une requte pluri-catgorise
comme sarkozy prsente les deux types de reformulations :
soit on retrouve un fonctionnement similaire une requte comme royal avec sarkzoy/ guillaume
sarkozy, o l'on voit apparatre un phnomne d'homonymie sur la requte sarkozy.
soit un autre terme juxtapos est ajout, quil sagisse dun autre nom propre (sarkozy merkel) ou
dun nom commun (sarkozy criminalit), ce qui permet de rduire la recherche d'information
un seul aspect de la requte sarkozy.
Lanalyse des reformulations opres par les utilisateurs montre la complexit de certaines requtes qui
peuvent potentiellement manifester plusieurs types dambigut. Cependant, cet indice doit tre exploit

2 4 7 8
avec prcaution, dans la mesure o les spcifications sont peu frquentes, et npuisent certainement pas
lventail des sens que recouvre le terme.
3.6 Diachronie
La dernire dimension que nous tudions est la dimension temporelle. Elle va nous amener croiser la
plupart des dimensions danalyse que nous venons de prsenter. Les requtes n'ont pas toutes le mme
comportement dans le temps. Nous distinguons deux types de requtes :
Les requtes durables : ce sont des requtes qui apparaissent frquemment tout au long des 8
mois dactualit que couvre notre corpus. Sur le Graphique 1, ce cas est illustr par les requtes
hati et afghanistan.
Les requtes ponctuelles : leur dure de vie est plus rduite, elles prsentent des fluctuations
beaucoup plus marques selon les vnements qui sont apparus sur cette priode. Cest le cas des
requtes sarkozy ou grve sur ce mme graphique.
On peut faire lhypothse que cette diffrence de comportement a un impact sur lambigut
potentielle. Nous pouvons par exemple supposer que des requtes trs ponctuelles correspondront un
vnement spcifique et seront plus univoques.
Notre attention se porte sur les requtes durables : exprimes de manire trs rcurrente par les
utilisateurs pour accder l'information, sont-elles pour autant porteuses du mme type d'information au
fil du temps ? Nous nous concentrons ici sur lexemple dune requte trs frquente sur toute la priode,
hati. Nous croisons la dimension temporelle avec les autres points de vue dont nous disposons :
catgorisation thmatique, cooccurrence et reformulations. Rappelons que ce terme est univoque selon
Wikipdia (cest un pays).
Graphique 1 : Frquences relatives d'apparition en %
0
5
10
15
20
mai juin juillet aot sept oct nov dc
haiti
sarkozy
afghanistan
grve

La requte hati a un comportement intressant vis--vis de la catgorisation thmatique. Cette requte est
la plupart du temps catgorise en INTERNATIONAL (au mois de juin, aot, octobre et novembre). Malgr
une tendance forte la mono-catgorisation, on observe plusieurs changements:
Au mois de juin, la requte est catgorise en CULTURES et en SPORT.
Au mois de dcembre, la requte est catgorise la fois en SOCIETE et en INTERNATIONAL.
Nous savons galement que la thmatique INTERNATIONAL est trs englobante. On peut donc supposer que
cette requte a une capacit de variation forte.

2 4 7 9
Dans un deuxime temps, nous observons si cette variation mise en vidence par la catgorisation
thmatique se retrouve dans les documents de la base textuelle, pour cela nous ralisons une analyse des
cooccurrents frquents et fortement lis au terme hati sur plusieurs priodes temporelles (mai, aot,
octobre, novembre, dcembre). L'hypothse est que la variation se traduit par la prsence de cooccurrents
diffrents selon la priode temporelle.
Dans le Tableau 6, sont prsents les cooccurrents les plus frquents de hati diffrentes poques
temporelles. Nous constatons quils sont effectivement trs diffrents. Nous discernons plusieurs
vnements importants comme l'annonce des lections au mois d'aot 2010 : lection, invalide, rappeur
(candidature du rappeur Wyclef Jean). Au mois d'octobre c'est l'pidmie de cholra qui apparat
(radiqu, ralentie, kits, cholra) suivie de l'ouragan Tomas au mois de novembre. Le seul cooccurrent de
hati prsent sur plusieurs mois est Minustah qui dsigne la mission des Nations Unies pour la
stabilisation du pays, qui constitue de fait un arrire-plan stable. On dtecte donc une variation des
vnements associs au terme hati, induite par cette actualit mouvemente.

Tableau 6 : hati , cooccurrents en diachronie.
hati : 5 plus frquents collocats mots-pleins (Fentre de 3 mots gauche et droite)
Mai Crowe (IM:12), Etats (IM:11), unis (IM: 9), Forte (Im: 9), Russell (IM: 8)
Aot quittait (IM:14), invalide (IM:13), Minustah (IM:13), lection (IM:13), rappeur (IM 13)
Oct radiqu (IM:13), ralentie (IM:13), kits (IM:13), adoptions (IM: 13), cholra (IM:12)
Nov Tomas (IM:17), Ouragan (IM:15), Casques (IM:14), Minustah (IM:14), vques (IM: 14)
Dec adopts (IM:14), passeraient (IM:14), Minustah (IM:13), secouent (IM:13), recomptage
(IM:13)

L'analyse des reformulations de la requte hati tout au long du corpus (Tableau 7) vient conforter les
observations faites sur les cooccurrents de hati en contexte. En effet, les utilisateurs procdent des
reformulations qui permettent d'identifier des thmes associs l'actualit dHati. On retrouve en
particulier les thmatiques des lections et de ladoption.

Tableau 7 : Reformulations de la requte hati
Mai
hati adoption (26) - hati sisme (2) - adoption hati (1) - hati cacao (1)
Juin hati adoption (26) - hati actu (2) - images du sisme en hati (2)
Aot hati adoption (8) - hati 17 (3) - hati aujourdhui (2) - officiellement candidat hati (2) -
tremblement de terre hati (2) hati sisme (2) - lection en hati (1)
Sept hati adoption (4) - radio d'hati (2) - hati reconstruction (1)
Oct hati adoption (11) - lection hati (4) - adoption hati (2)
Nov hati adoption (16) - hati cholra (9) - bilan d'octobre aujourdhui hati cholra (4) -
hati 18 novembre (2) - hati association l'ile aux enfants (2)

2 4 8 0
Dc hati adoption (68) - hati lection (11) - hati actualits 11 12 2010 (3) - hati cholra (3) -
hati jude clestin (3) - lections hati (2)

L'analyse que nous avons effectue sur la requte hati fait intervenir trois faisceaux d'information : la
catgorisation thmatique, la distribution de la requte dans les textes et les reformulations de cette
requte. La catgorisation nous a surtout montr que les thmatiques lies cette requte pouvaient
voluer, malgr un ancrage fort dans la catgorie INTERNATIONAL. Nous savons que cette thmatique est
difficile interprter et qu'elle cache potentiellement une diversit plus grande. L'analyse des
cooccurrents de la requte hati dans les documents et les processus de reformulation ont effectivement
confirm cette diversit. En effet, on peut observer au moins deux emplois possibles du mot hati :
comme rfrence au tremblement de terre ou dans un sens locatif. Hati semble manifester une
polyvalence de base (le lieu, le pays et les habitants) et des variations contextuelles propres l'actualit.
Ainsi lorsque le pays Hati a t touch par une pidmie de cholra, les cooccurrents de mot Hati
dans le document ont chang. La requte a pris une signification diffrente, touche par une variation
contextuelle.
Cet exemple manifeste une source de variation particulire, dcrite par (Lecolle, 2007) sous le terme de
polysigniance . Etudie dans le cadre des noms de lieux par Lecolle (2007), la polysignifiance
renvoie au fait quun nom de lieu habit peut prsenter des valeurs smantico-rfrentielles diffrentes,
dsignant la fois au lieu, mais aussi les habitants et linstitution qui le gouverne. Ces glissements
smantiques peuvent amener certains noms de lieu revtir un sens vnementiel comme par exemple
Outreau, tudi par Lecolle, qui a pris la valeur derreur judiciaire en supplment de sa valeur locative, ou
Tchernobyl, qui dsigne dsormais une catastrophe nuclaire. Cette mallabilit du nom de lieu dcrite
par (Lecolle, 2007) ouvre une gamme large de possibilits, et suscite des problmes vidents si les
diffrentes valeurs ne peuvent tre discrimines et apparaissent dans des contextes identiques. La
polysigniance ne peut pas tre apprhende par le biais de ressources lexicographiques ou de bases de
connaissances qui ne rendent pas compte de ces diffrentes valeurs, la fonction de localisation tant
gnralement la seule tre retenue dans le cas des noms de lieu.
4 Conclusion
Dans cette tude, nous avons examin les formes que prend lambigit dans un contexte oprationnel de
recherche dinformation, en considrant les termes employs dans les requtes un seul mot, majoritaires
dans le corpus que nous avons constitu. Nous avons tabli et test un ensemble de critres permettant
dapprcier lambivalence rfrentielle de ces termes en croisant diverses sources d'informations, en
labsence dindices contextuels contenus dans la requte elle-mme. Ces diffrents indices nous ont
amen tudier l'ambigut des requtes dans toute sa complexit, en tenant compte la fois
dinformations issues de la base de textes (catgorisation, cooccurrences) et des trajets de recherche des
utilisateurs (reformulations).
Nous avons montr les limites de lutilisation dune ressource externe de type encyclopdique : celle-ci a
tendance surestimer la dimension homonymique de certains termes qui sont monorfrentiels dans la
base de textes, et galement sous-estimer la polysmie de certaines units, particulirement les
toponymes, qui se sont avrs particulirement mouvants dans le corpus. Le recours dautres moyens
dobservation, adapts cette fois aux particularits du contexte de recherche dinformation qui est analys,
constitue une piste plus intressante danalyse. Lexistence dune catgorisation thmatique des textes
fournit un premier critre de tri facile mettre en uvre, mais son pouvoir de discrimination est limit en
ltat, du fait de catgories trs gnrales. Lobservation conjointe des cooccurrents des termes dans les
textes et de leurs reformulations fait en effet ressortir de nombreux sujets ou vnements dont la
granularit est beaucoup plus fine. Enfin, la prise en compte de ces diffrents niveaux danalyse dans une
perspective diachronique rvle le caractre mouvant de linformation vnementielle attache au mme
terme sur une priode de quelques mois.

2 4 8 1
Ces diffrents indices nous ont permis de mettre au jour plusieurs sources d'ambigut: la polysmie
(tabac) et lhomonymie (royal), classiquement tudies dans les travaux en recherche dinformation, se
combinent avec dautres formes dambigut. Ainsi, on trouve parmi les requtes frquentes des termes
auxquels manque une spcification (ruption, otages ou ministre), probablement parce quelle est
considre par lutilisateur comme suffisamment saillante dans lactualit pour ne pas ncessiter dtre
mentionne. Dans ce cas, lambigut surgit de la confrontation avec les textes, dans lesquels ces termes
peuvent recevoir des spcifications diverses. Mais cest surtout lutilisation prdominante de noms
propres qui constitue une source dambivalence majeure sur le plan rfrentiel. Des requtes larges
sont constitues de termes qui prsentent diffrentes facettes, quil sagisse de noms de personne occupant
certains rles (sarkozy, obama) ou de noms de lieux (hati, afghanistan), dont on a vu la propension
voquer des vnements de nature diverse au fil du temps. Ces dimensions de lambigut en recherche
dinformation ne sont pas prises en compte dans les ressources externes susceptibles dtre utilises.
Dans cette perspective, lenjeu sur le plan applicatif semble moins de rsoudre lambigut potentielle de
la requte (comme cest le cas lorsquon a affaire une ambigut lexicale classique) que de trouver des
modalits pour prsenter lutilisateur les diffrentes facettes du terme quil emploie. La prsentation de
reformulations ou de cooccurrents frquents, ou le classement des textes par catgorie thmatique
constituent des pistes possibles. Notre prochain objectif est dvaluer lintrt sur le plan ergonomique de
ce dernier critre.
Rfrences bibliographiques

Allan, J. et al. (2003). Challenges in Information Retrieval and Language Modeling. SIGIR Forum, vol. 37, 1, 3147.
Anthony, L. (2011). AntConc (Version 3.2.2) [Computer Software]. Tokyo, Japan :Waseda University. Disponible
partir de http://www.antlab.sci.waseda.ac.jp/
Artiles, J., Gonzalo, J. and Sekine, S. (2007). The semeval-2007 weps evaluation : Establishing a benchmark for the
web people search task. In Proceedings of the 4th International Workshop on Semantic Evaluations (Semeval-
2007), 6469.
Audibert, L. (2003). Etude des critres de dsambigisation smantique automatique : rsultats sur les cooccurrences.
In Actes de la 10me confrence Traitement Automatique des Langues Naturelles (TALN 2003), 3544.
Barr, C., Jones, R. and Regelson, M. (2008). The linguistic structure of English web-search queries. In Proceedings
of the Conference on Empirical Methods in Natural Language Processing (EMNLP '08). Association for
Computational Linguistics, Stroudsburg, PA, USA, 10211030.
Erhmann, M. (2008). Les Entits Nommes, de la linguistique au TAL : statut thorique et mthodes de
dsambigusation. Thse de doctorat, Paris VII.
Gan, Q., Attenberg, J., Markowetz, A. and Suel, T. (2008). Analysis of geographic queries in a search engine log. In
Proceedings of the rst international workshop on Location and the web, LOCWEB 08, 4956.
Hearst, M. A. (2009). Search User Interfaces. Cambridge University Press.
Jansen, B., Booth, D., Spink A. (2009). Patterns of query reformulation during web searching. Journal of the
American Society for Information Science and Information Technology, 60(7), 13581371.
Krovetz, R. and Croft, W. B. (1992). Lexical ambiguity and information retrieval. ACM Trans. Inf. Syst., 10, 11541.
Lecolle, M. (2007). Polysignifiance du toponyme, historicit du sens et interprtation en corpus. Le cas Outreau.
Corpus, (6), 101125.
Mothe, J. et Tanguy, L. (2005). Linguistic features to predict query difficulty, ACM SIGIR Workshop: Predicting
Query Difficulty - Methods and Applications, Salvador - Bahia Brazil.
Navarro, E., Chudy, Y., Gaume, B., Cabanac, G., Pinel-Sauvagnat, K. (2011). Kodex ou comment organiser les
rsultats dune recherche dinformation par dtection de communauts sur un graphe biparti ? In actes de la
confrence CORIA, Avignon, 2540.

2 4 8 2
Picton, A. (2009). Diachronie en langue de spcialit. Dfinition d'une mthode linguistique outille pour reprer
l'volution des connaissances en corpus. Un exemple appliqu au domaine spatial. Thse de doctorat en Sciences
du Langage, Universit Toulouse 2.
Sanderson, M. (2000). Retrieving with good sense. Information Retrieval, 2(1), 4565.
Sanderson, M. (2008). Ambiguous queries: test collections need more sense. In SIGIR, 499506.
Schutze, H. and Pedersen, J.O. (1995). Information retrieval based on word senses. In Symposium on Document
Analysis and Information Retrieval.
Song, R., Luo, Z., Nie, J.-Y., Yu, Y. and Hon, H.-W. (2009). Identification of ambiguous queries in web search.
Information Processing and Management, 45(2), 216229.
Sprck-Jones, K., Robertson, S. E. and Sanderson, M. (2007). Ambiguous requests: implications for retrieval tests,
systems and theories. SIGIR Forum 41, 2, 817.
Spink, A., Jansen, B. J., Wolfram, D., and Saracevic, T. (2002). From e-sex to e-commerce: Web search changes.
IEEE Computer, 35(3),107109.
Spink, A., Jansen, B. J. and Pedersen, J. (2004). Searching for people on web search engine. Journal of
Documentation, 60(3), 266278.
Stokoe, C., Oakes, M. P. and Tait, J. (2003). Word sense disambiguation in information retrieval revisited. In SIGIR,
59166.
Stokoe, C. (2005). Automated word sense disambiguation for web information retrieval. In Proceedings of SIGIR
Forum, 68.
Turney, P. (2004). Word Sense Disambiguation by Web Mining for Word Co-Occurrence Probabilities. In Actes de
la 3eme conference internationale Evaluation of Systems for the Semantic Analysis of Text (SENSEVAL-3
2004), Barcelone, Espagne, 2526 juillet 2004.
Yarowsky, D. (1995). Unsupervised Word Sense Disambiguation Rivaling Supervised Methods. In Proceedings of
Association for Computational Linguistics (ACL 1995) (Ed.), Cambridge, MA, 189196.
Zhai, C. X., Cohen, W. W. and Lafferty, J. (2003). Beyond independent relevance : methods and evaluation metrics
for subtopic retrieval. In Proceedings of the 26th annual international ACM SIGIR conference on Research and
development in information retrieval, SIGIR 03, 1017.

i
Nous remercions Michelle Lecolle (Universit de Metz & CELTED) pour les suggestions quelle nous a
apportes la lecture de larticle.
ii
Text Retrieval Conferences : http://trec.nist.gov/.
iii
La catgorisation est disponible soit parce quelle a t annote manuellement par des professionnels sur
certains types de textes (dpches AFP, presse crite), soit parce quelle a t calcule par des procds de
clusterisation des documents.
iv
Cohen, J. (1960). A coefficient of agreement for nominal scales, Educ. Psychol. Meas., 20, 27-46.

2 4 8 3

Shsconf cmlf12 000286

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Shsconf cmlf12 000286

Enviado por

Direitos autorais:

Formatos disponíveis

Dtecter le potentiel dambigut dune requte le cas

des recherches portant sur lactualit

Você também pode gostar