Escolar Documentos
Profissional Documentos
Cultura Documentos
Sommaire
I. Introduction........................................................................................................................... 3 II. Principe des services de recherche..................................................................................... 4 II.1 Petit historique de la recherche sur Internet .................................................................... 4 II.2 Les enjeux daujourdhui et de demain ........................................................................... 5 II.3 Les familles doutils de recherche ................................................................................... 6
II.3.1 LAnnuaire........................................................................................................................................... 6 II.3.2 Le moteur de recherche (Search engine).............................................................................................. 6 II.3.3 Le Mtamoteur..................................................................................................................................... 7
III. Lindexation des pages ...................................................................................................... 8 III.1 La soumission directe d'une page Internet ..................................................................... 8 III.2 LInsertion automatique des pages................................................................................. 8 III.3 Le principe du Crawler................................................................................................... 9 III.4 Lanalyse dun site ......................................................................................................... 9
III.4.1 Extraction des mtadonnes ............................................................................................................... 9 III.4.2 Les mtadonnes ne suffisent pas !................................................................................................... 10 III.4.3 Lanalyse structurelle globale........................................................................................................... 10 III.4.4 Lanalyse smantique ....................................................................................................................... 11 III.4.5 La pondration des mots cls............................................................................................................ 13 III.4.6 Les limites de lindexation................................................................................................................ 13
III.5 Cas particulier : Google et le PageRank....................................................................... 14 IV. Traitement des requtes .................................................................................................. 15 IV.1 Langage naturel ou mots cls ? .................................................................................... 15 IV.2 Principales diffrences entre moteurs .......................................................................... 16 IV.3 Mots cls ...................................................................................................................... 18 IV.4 Rsultats trouvs en fonction des requtes lances...................................................... 19
IV.4.1 Recherches avances ........................................................................................................................ 19 IV.4.2 Ordre des rsultats lors du rendu des rponses ................................................................................. 19
V. Conclusion.......................................................................................................................... 20 VI. Annexes ............................................................................................................................. 21 VI.1 Quelques Chiffres ........................................................................................................ 21 IV.2 Bibliographie / Webographie ....................................................................................... 22
Page 2 / 22
I. Prambule
"Internet est comme l'union de toutes les bibliothques du monde entier, o malheureusement, quelqu'un s'est amus renverser tous les livres exposs sur les tagres" Notre monde tend s'informatiser de plus en plus notamment par l'entremise d'Internet. En effet, ce dernier s'est insmin dans notre quotidien et dans notre vie professionnelle. Ds que l'on se pose une question surfer sur la toile nous permet d'obtenir de promptes rponses bien qu'il existe des milliards de sites. Grce des outils rapides et simples d'utilisation que sont les moteurs de recherche, nous sommes mme de trouver ce que nous cherchons au travers d'un petit champ de texte, comme l'itinraire pour se rendre notre lieu de vacances ou un rendez-vous d'affaires, pour appeler le plombier, trouver un tutoriel. Internet nous offre une multitude de possibilits et les moteurs de recherche nous permettent d'y accder plus facilement. Mais que se cache-t-il derrire cette interface sobre, cet outil devenu indispensable? Il s'agit certainement l d'une question que seuls peu de gens se posent et qui pourtant parait trs intressante. Quels sont leurs principes ? Comment sont indexes toutes ces pages Internet ? Comment les moteurs de recherche interprtent-ils nos requtes? Comment les moteurs obtiennent les rsultats en fonction des demandes? Lobjectif de ce mmoire est doffrir un aperu des diffrentes techniques utilises ou pouvant tre utilises par les moteurs de recherche pour indexer les pages, et les outils mis disposition de linternaute pour saisir ses requtes. Nous tenterons de rpondre cette problmatique par une approche dingnieurs : comprendre aussi bien les aspects business que scientifiques, car nous sommes conscients que les enjeux de la recherche sur le net dpassent largement le cadre de la thorie scientifique.
Page 3 / 22
Page 4 / 22
Ces deux points font largement appel aux concepts drivs de lIntelligence Artificielle, et en particulier linguistique et la reconnaissance des formes.
Page 5 / 22
II.3.1 LAnnuaire
L'annuaire (ou directory) est en fait une liste de liens subdiviss en catgories suivant une structure en arbre, accompagne d'une brve description. Bien que ce procd ft pionnier en la matire, il tend disparatre. En effet, le fait de devoir slectionner les catgories dans lequel on recherche suppose que l'on sache exactement o chercher. Et on peut se demander o se positionne le site qui appartient plusieurs catgories. Mais cette question, les moteurs utilisant ce procd vous rpliqueront qu'ils se trouvent dans toutes celles susceptibles de correspondre. Nanmoins, on doit lui reconnatre un gros avantage, celui de mettre en quelque sorte dans le contexte, ainsi les recherches dans la base de donnes sont diminues, en plus d'obtenir des rsultats plus pertinents. Quelques annuaires : Yahoo, Voil,
Page 6 / 22
II.3.3 Le Mtamoteur
Certains moteurs ont opt pour une solution plus conomique, puisqu'ils utilisent les bases de donnes des autres moteurs. Ainsi les mtamoteurs rassemblent plusieurs moteurs de recherche. L'un des avantages vidents de ce procd pourrait tre d'obtenir des rsultats plus pertinents, puisque la recherche s'tend sur un plus grand nombre de sites indexs, sites figurant sur tel moteur, mais pas sur un autre. Nanmoins, la redondance de sites affichs peut-tre un inconvnient gnant. De mme que l'augmentation considrable de rsultat qui peut engendrer un dlai d'attente suprieur. De plus, le fait d'envoyer diffrentes requtes diffrents serveurs rallonge galement le temps de rponse. Quelques mtamoteurs : Infospace, Askjeeves, MyWay, Websearch.com
Cest ici que sachve notre tout dhorizon des services de recherche sur le Web. Nous allons maintenant tudier plus en dtail les moteurs de recherche eux-mmes, dun point de vue plus technique et plus fonctionnel.
Page 7 / 22
Page 8 / 22
plus courte en dure. Pour cela, ces moteurs utilisent des programmes automatiss appels Spiders, Crawlers, Bots ou encore Robots (lquivalent franais, peu utilis, est robot dindexation ). Ces spiders parcourent sans interruption les pages dj indexes, naviguant de lien en lien la recherche de nouveaux liens et en recense les pages. Ensuite des logiciels tel que ICE (Intelligence Concept Extraction) permettent d'tablir les rapports entre les termes que les spiders ou crawlers ont trouv dterminants dans ces pages, les mots cls et les autres paramtres.
Page 9 / 22
De la date de cration et de dernire modification De la taille du fichier Du nom de fichier et de ladresse URL laquelle il se trouve
Les autres mtadonnes dpendent du type de fichier. Pour une image, il sagira des dimensions de celle-ci, pour une vido, de sa longueur, pour un fichier MP3 on cherchera a extraire les tags ID3 (donnes renseignant sur lauteur, lalbum dun fichier mp3). Dans le cas dune page Web (fichier HTML ou quivalent), il sagira dextraire le titre de la page (balise <title>), et les donnes contenues dans les balises <meta>. Par exemple :
<title>Bienvenue sur le site de Y Mistikrik ?, l'association de thtre de l'EFREI !</title> <meta name="keywords" content="theatre,thatre,efrei,association,etudiante,asso,mistikrik,ye" /> <meta name="description" content="Y Mistikrik? est l'association de thatre de l'EFREI. Venez dcouvrir sur ce site notre assoce, la troupe, les pices que nous avons jou et les photos !" />
La premire ligne montre le titre du document HTML. La deuxime fournit des mots cls en rapport avec le site (ici le site de lassociation de thtre de lEFREI http://assos.efrei.fr/theatre/index.php ). La dernire contient une brve description du contenu du site. On trouve aussi dautres balises <meta> renseignant sur lauteur, le logiciel utilis pour gnrer la page, etc.
Page 10 / 22
<h2>Le Site...</h2> <a href="/index.php">Accueil</a> <a href="/mika/cv.php">Consulter mon CV</a> <a href="/contact.php">Crdits et Contact</a> <a href="/design/index.php">Webdesign</a> <a href="/labo/index.php">Web applications</a> <a href="/extras/index.php">Extras</a>
(exemple de structure typique dun menu - http://www.lesitedemika.org ) Par ce procd, le robot arrive dans la plupart des cas dterminer la structure globale dune page, et faire abstraction des lments non significatifs.
Je mappelle Mickal MARCHAL, j'ai 21 ans, j'habite en Seine-Saint-Denis (France) et je suis actuellement en deuxime anne de cycle ingnieur l'EFREI, o je prpare mon diplme d'ingnieur en Technologies de l'Information et du Management. Je suis donc un futur ingnieur informaticien, passionn comme il se doit par les technologies et le dveloppement. Les mots de liaison ont t supprims (en gris) Le robot utilise aussi la structure HTML du document pour juger de la pertinence des mots. Ainsi, une phrase en gras, ou un texte crit plus gros sera considre comme important par un spider. De mme, les liens, ou les mots en majuscules verront leur importance saccroitre. Mais si tout le site est en gras, les poids des mots restera le mme.
Page 11 / 22
Je mappelle Mickal MARCHAL, j'ai 21 ans, j'habite en Seine-Saint-Denis (France) et je suis actuellement en deuxime anne de cycle ingnieur l'EFREI, o je prpare mon diplme d'ingnieur en Technologies de l'Information et du Management. Je suis donc un futur ingnieur informaticien, passionn comme il se doit par les technologies et le dveloppement. Les mots en gras, en majuscules, et les liens ont t accentus Le robot va ensuite parcourir les liens situs au fil du texte et dterminer leurs motscls. Si des mots cls sont identiques ceux trouvs dans le texte, il y a de fortes chances que le texte analys soit corrl avec ces mots cls.
Je mappelle Mickal MARCHAL, j'ai 21 ans, j'habite en Seine-Saint-Denis (France) et je suis actuellement en deuxime anne de cycle ingnieur l'EFREI, o je prpare mon diplme d'ingnieur en Technologies de l'Information et du Management. Je suis donc un futur ingnieur informaticien, passionn comme il se doit par les technologies et le dveloppement. le lien EFREI renvoie http://www.efrei.fr, rfrenc avec les mots cls ingnieur , informatique , management , cole , etc. Ces mots deviennent alors plus importants (en rouge). La rptition de mots (et encore plus, dexpressions) au fil dun texte est aussi un indicateur dimportance (toutefois moindre).
Je mappelle Mickal MARCHAL, j'ai 21 ans, j'habite en Seine-Saint-Denis (France) et je suis actuellement en deuxime anne de cycle ingnieur l'EFREI, o je prpare mon diplme d'ingnieur en Technologies de l'Information et du Management. Je suis donc un futur ingnieur informaticien, passionn comme il se doit par les technologies et le dveloppement. les mots ingnieur et technologies sont accentus (en bleu) Au final, le spider aura dtermin les mots les plus importants comme tant : Mickal Marchal Mickal Marchal (car les deux mots sont tous les deux en gras cte cote, lexpression Mickal Marchal est accentue) EFREI Ingnieur Technologies Information Management Futur Futur ingnieur informaticien Etc.
Page 12 / 22
Mais il faut aussi se rappeler que la multitude des contenus, des mises en page ou des informations ne font pas non plus de lindexation une science exacte. Les moteurs de recherche commettent de nombreuses erreurs de rfrencement, entrainant des lapsus plus ou moins loufoques. Ainsi, en tapant le mot failure (chec) sur Google.com, le premier rsultat renvoy est la biographie officielle de George W. Bush, sur le site de la Maison Blanche !
Page 13 / 22
l'augmentation du PageRank de la page B est d'autant plus importante que le PageRank de la page A est lev. En d'autres termes, il est bien plus efficace d'avoir un lien depuis la page d'accueil de Google que depuis une page dun site personnel. l'augmentation du PageRank de la page B est d'autant plus importante que la page A fait peu de liens. En d'autres termes, si la page A juge qu'il n'y a qu'une page qui mrite un lien, alors il est normal que le PageRank de la page B augmente plus que dans le cas o de nombreuses pages obtiennent un lien.
Le PageRank est donc un moyen assez puissant de dterminer la popularit dune page autrement dit, sa qualit. Le PageRank est une note donne sur 10 chaque page. Les petits sites ont souvent un PR entre 0 et 2, les sites de moyenne frquentation ont un PR gnralement situ entre 3 et 6. Les PR suprieurs sont rservs aux gros ou trs gros sites : seuls les gants comme Google, Yahoo, Amazon, la NASA ou Microsoft peuvent prtendre au PageRank 10. Il faut toutefois noter que PageRank ninflue pas sur les mots cls du site, mais sur lordre de classement du site lui-mme sur Google, lorsque la requte saisie contient les mots-cls du site. En recherchant http sur Google (mot prsent sur quasiment tous les sites de la plante), les premiers rsultats sont les sites PageRank lev : Microsoft, puis le W3C (organisme de standardisation du web, donc du protocole http), Altavista, CNN, Yahoo, etc. La qute du PageRank lev est lobjectif numro un des spcialistes en rfrencement, quand on connait les parts de march de Google. Augmenter le PR dune unit peut amener des centaines de milliers de nouveaux visiteurs sur un site !
Page 14 / 22
Page 15 / 22
Page 16 / 22
AltaVista
N de pages (millions) Contenu 1100 Web, Usenet, Images, MP3, Audio, Video OUI OUI AND Oui, en utilisant les guillemets (") Oui, utilisant "*"; par ex.: "auto*" trouve autos, automobile, etc. OUI Oui: langue des pages, title, keyword, url, link, site, image. Ex.: "image:foto.jpg"
AllTheWeb (FAST)
2100 Web, News, Photos, Videos, Audio, FTP, PDF, SWF NON OUI AND Oui, en utilisant les guillemets (") NON
HotBot
3300 Web, Usenet, News
Google
3000 Web, Usenet, News, PDF (22 millions), DOC, XLS, PPT, RTF OUI OUI AND Oui, en utilisant les guillemets (") OUI (seulement anglais)
Version franaise Recherche avance Oprateur standard Recherche de phrases Pluriel/ singulier
OUI OUI AND Oui, en utilisant les guillemets (") OUI (seulement anglais)
OUI Oui: langue, filtre de mots et domaines,date de mise jour et dimension des pages
Recherche par langue Filtre pour les enfants Regroupement de rsultats Personnalisation des rsultats des recherches
OUI Oui: position gographique, type de fichier, date, url, etc. Utiliser les "meta words" dans le texte de la recherche ou sinon les options OUI OUI OUI Oui: visualise 10/25/50/75/100 sites par page; description brve, complte ou seulement l'adresse OUI
OUI Oui: title, keyword, url, link, site, image. Ex.: "image:photo.jpg"
OUI
OUI
OUI
OUI 7-45 j.
OUI 20-30 j.
Traduction des pages web;Bouton "J'ai de la chance" amne directement au 1er rsultat,version cache des pages, autres... OUI 15-30 j.
Page 17 / 22
Renvoie les documents ne contenant pas le mot qui suit l'oprateur Renvoie les documents contenant les mots proches du mot cherch Renvoie les documents contenant la phrase entire Le symbole "+" classifie un mot comme essentiel Le symbole "-" exclut un mot de la recherche
Fast ET +
OU
non
PROCHE SAUF
non -
"" * oui
Google Voil Par + ou ET dfaut ou ou AND + par non par dfaut dfaut ou ou OR ou OR OU non non PROCHE ou NEAR - ou - ou NOT AND ou SANS NOT ou AND NOT "" "" "" non oui non oui non indiff.
Webcrawler + ou AND
indiff. indiff.
indiff. oui
indiff. indiff.
indiff. oui
indiff. indiff.
indiff. indiff.
Source: Le Monde Interactif Comme l'utilisateur est toujours susceptible de mal orthographier un mot ou faire une faute de frappe, les moteurs de recherche proposent selon les cas d'effectuer la recherche sur les synonymes des mots ou des mots ayant une orthographe proche.
Page 18 / 22
Pour tendre la recherche, certains moteurs comme AltaVista proposent de traduire les mots que l'utilisateur a entrs avant de lancer la requte.
Page 19 / 22
Certains moteurs vont jusqu' personnaliser la liste. En effet, le moteur peut enregistrer les sites les plus visits par l'utilisateur avec sa dure et peut ainsi tre capable de graduer l'apprciation d'un site par cet utilisateur. Il est possible alors d'instaurer des degrs d'apprciation sur ce site avec des commentaires et de supprimer des sites automatiquement des listes de rsultats. Les sites les plus apprcis par l'utilisateur se positionnent en tte de liste. L'on peut se rendre compte rapidement compte d'un inconvnient majeur : vu que ces donnes sont stockes sur l'ordinateur de l'utilisateur, celui-ci ne pourra bnficier uniquement de ces amliorations sur un de ses pc et ceux qui partagent leur ordinateur hsiteront simplement les utiliser.
V. Conclusion
Ce mmoire ne fait queffleurer le monde complexe et impitoyable des moteurs de recherche. Nombre de secrets sont bien gards, et nombre dincertitudes planent sur les algorithmes utiliss par Google et ses pairs. Mais, une chose est certaine : les principes de base sont bien l. Comprendre le fonctionnement, mme succinctement, dun moteur de recherche, permet de mieux entrevoir les possibilits et la puissance quils nous offrent en tant quutilisateurs, mais aussi en tant quentrepreneurs.
Page 20 / 22
VI. Annexes
VI.1 Quelques Chiffres
Comment arrive-t-on sur un site Web ? Etude CommerceNet/Nielsen Media - Juillet 1997 71,0% Par les moteurs de recherche 9,8% Conseill par amis ou collgues 8,5% Journaux quotidiens ou priodiques 8,4% Lien sur un autre site 8,1% Par hasard, en surfant 3,6% Signal la TV 3,3% Guides sur les sites web Parts de march des moteurs de recherche aux USA Etude Nielsen Netratings - Juillet 2004
Page 21 / 22
Parts de march des moteurs de recherche en France Etude Indicateur.com - Fvrier 2006 Moteur
1. Google 2. MSN 3. Yahoo 4. Voila 5. Aol 6. Free 7. Club Internet 8. Altavista 9. 9Online 10. Lycos
PDM
72,20 6,37 5.74 5,07 1,54 1,2 0,44 0,34 0,19 0,14
Page 22 / 22