Université de Cergy-Pontoise
Master Ingénierie éditoriale et communication, 2012
Cours de Dominique Lahary -
dominique.lahary@valdoise.fr – [retour à la page d’accueil]

Les outils de recherche sur Internet

Objectif :

Avoir une vue générale sur les outils de recherche d’information sur Internet.

Savoir distinguer les différents types.

Comprendre comment l’information peut être (ou ne pas être) trouvée.

1     Les outils de recherche. 1

1.1      Les moteurs de recherche. 1

1.1.1      Les moteurs généralistes. 2

1.1.2      Les moteurs spécialisés. 2

1.1.3      Les moteurs de recherche interne. 2

1.2      Les annuaires (ou répertoires) de sites. 2

1.3      Les métamoteurs. 3

1.3.1      Les métamoteurs classiques. 3

1.3.2      Les métamoteurs cartographiques ou heuristiques. 3

1.4      Les portails et sites de référence. 3

1.4.1      Les portails généralistes. 3

1.4.2      Les portails spécialisés. 3

1.4.3      Tout est portail ! 3

1.5      Les outils de recherche spécialisés. 3

1.5.1      Les agrégateurs de news. 3

1.5.2      La recherche d’articles. 3

1.5.3      La recherche de livres. 4

1.5.4      La recherche de thèses. 4

1.5.5      La recherche d’images. 4

1.5.6      La recherche de vidéos. 4

1.5.7      La recherche de cartes et d’itinéraires. 4

1.5.8      La recherche sur les blogs. 4

1.5.9      La recherche sur les bases de données. 4

1.5.10    La recherche sur les personnes et les réseaux sociaux. 5

1.5.11    Services de questions-réponses. 5

2     Grammaire de la recherche. 5

2.1      Les requêtes. 5

2.2      Les résultats. 5

3     Le référencement (Google) – Merci à Christian Ducharme. 5

3.1      Principes de base. 5

3.2      Vers le web 3.0. 6

3.3      Le PageRank. 6

4     Web invisible et morphologie du web.. 6

4.1      Les types de web invisible. 6

4.2      Le nœud papillon. 6

5     Laissez venir à moi l’information.. 6

5.1      Les alertes sur messagerie. 6

5.2      Les fils RSS. 6

Pour en savoir plus. 7

1         Les outils de recherche

1.1        Les moteurs de recherche

Un moteur de recherche visite périodiquement une partie des ressources accessibles sur Internet et met à jour une base de données comprenant l'indexation de tout ou partie des mots des fichiers visités.

L'interrogateur peut donc formuler sa recherche à l'aide de mots contenus dans les fichiers.

Le résultat fournit par le moteur consiste en listes de pages Web (ou plus généralement des listes de fichiers) contenant le ou les mots saisis.

Ces résultats sont classés selon un ordre de pertinence qui peut prendre en compte tout ou partie des critères suivants :

-         la place des mots formulés dans la requête (titre, métadonnées, haut de la page, etc.),

-         leur fréquence,

-         la notoriété de la page (nombre d'autres pages web y renvoyant).

-> article de Wikipedia

1.1.1        Les moteurs généralistes

Google : http://www.google.fr et ses services spécialisés

Bing (Microsoft) : http://www.bing.com

Yahoo : http://fr.yahoo.com

Altavista : http://fr.altavista.com

Voila : http://www.voila.fr

http://www.exalead.fr | Article de Wikipedia | Regardez sous le champ de saisie les Recherches associées

Sauvegarder une requête dans ses favoris :
http://www.google.fr/search?hl=fr&q=papillons&btnG=Recherche+Google&meta=lr%3Dlang_fr

1.1.2        Les moteurs spécialisés

Scirus : http://www.scirus.com

CNDP : http://www.cndp.fr/spinoo

etc.

-> Guide des moteurs spécialisés (université de Jussieu) http://webdoc.snv.jussieu.fr/specialises.htm

1.1.3        Les moteurs de recherche interne

Exemples parmi tant d’autres : http://www.lemonde.fr/, http://www.senat.fr

1.2        Les annuaires (ou répertoires) de sites

Un annuaire ou répertoire de site est une base de donnée constituée généralement non automatiquement décrivant une sélection de sites et les indexant généralement à l'aide d'une liste arborescente de sujets (ou catégories) jouant à la fois le rôle d'une classification et d'une indexation matière. On peut dire qu'il s'agit d'un catalogue de sites. Une notice peut comprendre une description du site établie par l'organisme éditeur de l'annuaire ou formulé par l'éditeur du site.

L'interrogateur peut formuler sa recherche à l'aide de mots et/ou en se déplaçant dans l'arborescence de sujets.

La recherche par mot repose sur l'indexation des mots contenus dans le nom du site, la classification, éventuellement sa description.

Le résultat fournit par l'annuaire consiste en listes de sites. Certains annuaires proposent un classement des résultats selon que le ou les mots de la recherche figurent dans les sujets ou ailleurs (nom, description du site, etc.)

-> article de Wikipedia

L’annuaire historique n’en est plus un : Yahoo !

Francité : http://www.francite.com

BonWeb : http://www.bonweb.com

Netguide: http://www.netguide.fr

Dmoz open directory project : http://dmoz.org

(version française : http://www.dmoz.org/World/Fran%c3%a7ais)

Les signets de la Bibliothèque nationale de France : http://signets.bnf.fr

Abondance (par région française) : http://annuaire.abondance.com

1.3        Les métamoteurs

Un métamoteur lance la recherche sur plusieurs moteurs et annuaires de sites et affiche les résultats fournis par les instruments de recherche qu'il a utilisés.

L'interrogateur formule sa recherche à l'aide de mots sans savoir, dans le cas où des moteurs et des annuaires seraient simultanément sollicités, s'ils sont contenus dans les fichiers ou seulement dans leur description établie dans un annuaire.

Le résultat consiste en listes de pages et/ou de sites.

-> article de Wikipedia

1.3.1        Les métamoteurs classiques

Docpile : http://www.dogpile.com (Google, Yahoo!, Bing)

Metacrawler : http://www.metacrawler.com (Google, Yahoo!, Bing)

Mamma : http://www.mamma.com/ (avec recherche sur Twitter)

Search-22: http://www.search-22.com (un seul à la fois !)

Hooseek : http://www.hooseek.com

Copernic, métamoteur à télécharger : http://www.copernic.com

1.3.2        Les métamoteurs cartographiques ou heuristiques

KartOO était un métamoteur de recherche à interface cartographique et interactive. Il est fermé depuis le 23 janvier 2010.

Mapstan : http://www.mapstan.net (sur inscription)

Taggraph : http://taggraph.com (recherche d’images)

1.4        Les portails et sites de référence

1.4.1        Les portails généralistes

Portail2 : http://www.portail2.com

… et vos fournisseurs d’accès à Internet (FAI) préférés

1.4.2        Les portails spécialisés

http://www.cismef.org

http://www.culture.fr, à différencier de http://www.culturecommunication.gouv.fr/

etc.

1.4.3        Tout est portail !

Google, recherche « portail : http://www.google.fr/search?hl=fr&q=portail&meta=lr%3Dlang_fr&aq=f&oq=

1.5        Les outils de recherche spécialisés

1.5.1        Les agrégateurs de news

Google news : http://news.google.fr

Yahoo actualités: http://fr.news.yahoo.com

1.5.2        La recherche d’articles

Google Scholar : http://scholar.google.fr/

Refdoc (INIST / CNRS) : http://www.refdoc.fr (payant)

Pressedd : http://www.pressedd.com/ (payant)

Indexpresse : http://www.indexpresse.fr (sur abonnement)

Cd-Rap : http://www.cdrap.org/ (dans les locaux des bibliothèques abonnées)

Et aussi http://revodoc.valdoise.fr  si vous êtes inscrit dans une bibliothèque du Val d'Ois'e

1.5.3        La recherche de livres

Références seules : les catalogues

Catalogue collectif de France : http://ccfr.bnf.fr/ (en travaux le 01/04/2011)

RéVOdoc ; le catalogue collectif du Val d’Oise : http://revodoc.valdoise.fr

Mais au-delà :

Indexation intégrale et feuilletage

Google Recherche de livres : http://books.google.fr

et aussi Google Scholar : http://scholar.google.fr

Amazon :

Programme « cherchez dans le livre » (Canada) : http://www.amazon.ca/gp/switch-language/help/customer/display.html/184-6388568-0331830?ie=UTF8&nodeId=14209881&language=fr%5FCA

« Cherchez au coeur » (France) : http://www.amazon.fr/Chercher-Coeur-Livres/b?ie=UTF8&node=306966011

Gallica2 : http://gallica2.bnf.fr

Description: http://www.bnf.fr/fr/collections_et_services/bibliotheques_numeriques_gallica/a.gallica_bibliotheque_numerique_bnf.html

Blog: http://blog.bnf.fr/gallica/

Europeana : http://www.europeana.eu (plus que des livres!)

Description : http://www.addnb.fr/Europeana-la-bibliotheque et http://fr.wikipedia.org/wiki/Europeana

1.5.4        La recherche de thèses

Signet Thèses de la BnF : http://signets.bnf.fr/html/categories/c_011theses.html

1.5.5        La recherche d’images

Moteurs généralistes :

Google : http://images.google.fr/imghp?hl=fr&tab=wi

Bing : http://www.bing.com/images/search?q=&FORM=BIFD

Yahoo!: http://fr.images.search.yahoo.com/images

Search-22 http://www.search-22.com/downloads/images.php (métamoteur, un seul à la fois !)

1.5.6        La recherche de vidéos

Moteurs généralistes :

Google http://video.google.fr/?hl=fr

Fooooo http://fr.fooooo.com

Youtube: http://www.youtube.com/

Dailymotion: http://www.dailymotion.com/fr

1.5.7        La recherche de cartes et d’itinéraires

Mappy : http://www.mappy.fr

ViaMichelin : http://www.viamichelin.fr

Google Maps : http://maps.google.fr/maps?hl=fr&tab=il

1.5.8        La recherche sur les blogs

Technorati: http://technorati.com

Google recherche de blogs : http://blogsearch.google.fr

Dmoz : http://www.dmoz.org/World/Fran%C3%A7ais/Informatique/Internet/Weblogs/ (annuaire)

Bloglines : http://www.bloglines.com

Comment trouver des blogs: Intelligence-Center: http://c.asselin.free.fr/french/weblogs_moteurs.htm

1.5.9        La recherche sur les bases de données

DADI (bases de données gratuites disponibles sur Internet) : http://dadi.univ-lyon1.fr

1.5.10    La recherche sur les personnes et les réseaux sociaux

123people : http://www.123people.fr

Whozat : http://www.whozat.com

Pipl : http://www.pipl.com

Spock : http://www.spock.com

Yasni.com : http://yasni.com

Ziki : http://www.ziki.com/fr/community

Sans parler de… Google : http://www.google.fr

Les réseaux sociaux permettent aussi de trouver des personnes :

Facebook : http://www.facebook.com

Copains d’avant : http://copainsdavant.linternaute.com

Viadeo : http://www.viadeo.com/

LinkedIn : http://www.linkedin.com/

Etc.

è La question des identités numériques :

Blog Les identités numériques de Julien Pierre : http://www.identites-numeriques.net

1.5.11                  Services de questions-réponses

Commerciaux :

Yahoo questions réponses : http://fr.answers.yahoo.com/

Bibliothèques :

Sindbad (BnF) : http://www.bnf.fr/pages/zNavigat/frame/accedocu.htm?ancre=reponses_distance.htm

Biblioses@me : http://www.bibliosesame.org

Guichets du savoir (Bibliothèque municipale de Lyon) : http://www.guichetdusavoir.org

2         Grammaire de la recherche

2.1        Les requêtes

·         Unitermes et chaînes de caractères

·         Opérateurs booléens

·         Autres éléments d’une « recherche avancée » : langue, site, date…

·         Reformulation

·         Sérendipité : http://archivesic.ccsd.cnrs.fr/documents/archives0/00/00/06/89/sic_00000689_02/sic_00000689.html

2.2        Les résultats

·         Ordre des résultats

·         Affichage des résultats : listes et cartographie, structure des résultats affichés

3         Le référencement (Google) – Merci à Christian Ducharme

·         Les règles de référencement évoluent constamment
Ex. Règle annoncée récemment : la pénalisatin du poids des pages

3.1        Principes de base

·         Texte > Image

·         Image : balises de remplacement [alt et title]

Page structurée respectant les principes d’HTML

·         Rédaction en bon français

·         Importance du titre (balise <Title>)

·         URL significatif (utiliser l’URL-rewriting)

·         Premières lignes de texte privilégiées

Importance des mots clés

qui seront privilégiée

par le moteur

3.1        Vers le web 3.0

·         Analyse linguistique (le multilinguisme pénalisé)

·         Sur requête imprécise, présentation de résultats sur différents thèmes

3.2        Le PageRank

·         Entre dans la composition de l’algorithme e classement des résultats.

·         Mesure la « popularité » d’une page web :

o         Plus il y a de liens externes qui pointent sur une page, plus son Pagerank est bon.

o         lus les Pagerank des sites qui pointent une page sont élevés, plus le Pagerank de celle-ci est élevé

4         Web invisible et morphologie du web

4.1        Les types de web invisible

http://www.chez.com/maxboxer/cours/ri_webinvisible.html

http://c.asselin.free.fr/french/invisible_web.htm

http://www.digimind.fr/actu/publications/infographies-web-veille/604-quest-ce-que-le-web-invisible.htm

4.2        Le nœud papillon

http://www.webmaster-hub.com/publication/La-structure-du-web-est-en-forme.html

5         Laissez venir à moi l’information

5.1        Les alertes sur messagerie

Google Actualités : http://www.google.fr/alerts?hl=fr&t=1

5.2        Les fils RSS

Netvibes : http://www.netvibes.com/

Exemple : http://www.netvibes.com/bdvo

-> Comment ça marche: http://www.commentcamarche.net/contents/www/rss.php3

Pour en savoir plus

Intelligence-Center.com, Recherche d'informations, intelligence économique on-line et veille sur internet : http://c.asselin.free.fr/

Les 15 moteurs alternatifs du moment : http://www.journaldunet.com/solutions/moteur-referencement/dossier/07/1122-moteurs-alternatifs/0.shtml

« Toute l'info sur le référencement et les moteurs de recherche » : http://www.abondance.com

Conseil en référencement : http://www.outiref.com/

Revue Netsources : http://www.bases-publications.com/revues/netsources/e-docs/00/00/00/07/document_revue.phtml