Google, le livre, l'accès, la collection
Message de Dominique Lahary à la liste de diffusion biblio-fr, 27/04/2005

Le médecin
Il sera une page dans un livre de 10 000 pages que l'on mettra dans une bibliothèque qui aura un million de livres, une bibliothèque parmi un million de bibliothèques.

Juliette
Pour retrouver cette page, ce ne sera pas commode.

Le médecin
Mais si. Ça se retrouvera dans le catalogue, par ordre alphabétique et par ordre de matières... jusqu'au jour où le papier sera réduit en poussière... et encore, cela brûlera certainement avant. Il y a toujours des incendies dans les bibliothèques.

Eugène Ionesco, Le roi se meurt

Le médecin, bien sûr, ment. On ne retrouve pas une page d'un livre dans un catalogue " par ordre alphabétique et par ordre de matières ".

Beaucoup a été écrit sur biblio-fr et ailleurs à propos du projet de numérisation de Google et du projet qu'a annoncé Jean-Noël Jeanneney et pour lequel il a obtenu l'appui de Jacques Chirac. Je propose tout simplement, et sans angélisme, de nous réjouir des initiatives des uns et des autres. Et de revenir brièvement sur quelques thèmes.

L'indexation tout d'abord. Lisez ou relisez le texte d'Hubert Guillaud Google et le défi de l'indexation paru le 3 février 2005 sur Internetactu dont il est le rédacteur en chef (http://www.internetactu.net/index.php?p=5810) et qu'il a posté sur biblio-fr le 7 février.
On n'a pas à mon sens assez souligné que le projet de Google est d'abord un projet d'indexation, puisqu'il ne s'agit pas forcément d'accéder à l'intégralité d'un livre sur écran ni même de le décharger.
Il s'agit tout simplement d'ENTRER DANS UN LIVRE PAR L'INTERIEUR. Voilà la nouvelle fondamentale.
Cela fait quand même bientôt 15 ans que le web a changé la donne en matière d'indexation : la logique dominante, c'est l'indexation du texte intégral. Que les livres, les livres imprimés, soient enfin accessibles de cette façon, signifierait tout simplement qu'ils rejoignent le mouvement général. Il n'est que temps.

Indexation d'abord, mais aussi feuilletage. Dans une librairie, ne rentrez-vous pas dans les livres par l'intérieur ? Ne feuilletez-vous pas ? Enfin tomberaient les intimidantes murailles que sont les notices bibliographiques, précieuses quand il s'agit de décrire, mais si pauvres quand il s'agit d'accéder. Que Google ou quelque autre dominant d'un moment n'ait pas le monopole de la constitution de ces nouveaux accès, il pourra s'en réjouir. Mais il faudra s'en désespérer si les autres projets misent sur des logiques d'accès désormais dépassées.
Voilà mon premier point.

Le second, c'est que le web, qu'on s'en réjouisse ou s'en lamente, est un espace unique de recherche. La plupart des internautes n'usent pour l'essentiel que d'un outil. Quiconque peaufine une collection séparée interrogeable sur son seul site se coupe du mouvement général et condamne ses données à une vie marginale au bord de la société de l'information d'aujourd'hui. Je cite Hubert Guillaud :
" C'est à nous d'apporter encore plus au pot commun : pour exister, nos contenus doivent être "plus" et "mieux" indexables que les autres. "

C'est-à-dire indexables PAR les autres ! Nous raisonnons en collections séparées et entendons garder le monopole de leur indexation, dont nous vantons l'ordonnance et la cohérence qui nous assimilons à l'ordre de la culture et de l'esprit. J'ai lu sur ce sujet ces derniers mois, sous des plumes illustres, des propos qui m'inquiètent et dénotent d'une méconnaissance du changement de paradigme que nous sommes en train de vivre. Et qui se manifeste par deux phénomènes complémentaires : la déconnexion du stockage et de l'indexation (laissez donc indexer vos données par les autres) et le dialogue direct entre l'utilisateur et le document, sans le détour par nos langages documentaires.

Le troisième point devrait découler à l'évidence du précédent, et je me désole que la religion des décideurs ne semble pas encore faite à ce sujet : le texte ne peut exister dans la société de l'information qu'en mode texte. Mieux vaut moins de texte, mais du texte, que davantage de texte glacé en mode image, quels que soient les progrès que pourraient faire leur indexation : ça ne vaudra jamais le texte intégral.

Le quatrième point c'est qu'on ne peut plus raisonner collection par collection. L'usager, quel qu'il soit, du chercheur au curieux ou à l'amateur, raisonne global et n'entend pas se limiter aux ressources d'un seul organisme. Voilà pourquoi les indexations de base sont mondiales. C'est seulement dans un second temps qu'on peut s'intéresser éventuellement à telle collection particulière, et user de son indexation spécifique. Il n'est de cohérence que construite au coup par coup par l'utilisateur, en fonction de ses besoins et de ses désirs. Cela ne signifie pas que les cohérences partielles de collections soient inutiles, à condition que leurs gardiens en saisissent la relativité.

Le cinquième point, évidemment, est essentiel. Qui constitue des collections ?
Ce qui signifie également aujourd'hui : Qui constitue des collections numériques indexables ?
Dans l'édition duMonde du 20 avril 2005 débute en première page un article d'Olivier Ertzscheid intitulé " Le jour où notre disque dur aura disparu ". En voici le début :
" Quand les moteurs de recherche sont venus indexer le contenu des disques durs, je n'ai rien dit parce que ce n'était pas mon disque dur. Quand ils sont venus regarder le contenu des courriels pour afficher des publicités en rapport avec leur contenu, je n'ai rien dit car ce n'était pas mes courriels. Quand ils ont commencé à numériser des livres et à en proposer des extraits en finançant l'opération grâce à la pub, je n'ai rien dit car ce n'était pas mes livres. Et puis, quand le disque dur de mon ordinateur ayant disparu je n'ai plus eu d'autre choix que de m'en remettre à des services distants en ligne, quand ma machine n'a plus été qu'une clé d'accès à mes espaces informationnels on line, je n'ai rien eu à dire, car il était déjà trop tard. "
Cet article est important à divers égards, mais je vais ici privilégier ce qui est en rapport avec notre propos.
Je cite plus loin :
" A la fin du XIXe siècle, le bibliographe belge Paul Otlet souhaitait réunir dans un même lieu, baptisé Mundaneum, toutes les connaissances du monde. Aujourd'hui, les grands espaces du Web mettent cette utopie à portée de main. La bibliothèque universelle regroupant tous les savoirs est pour bientôt. Google, mais aussi Yahoo! s'y emploient, avec leurs projets pharaoniques de numérisation d'ouvrages de bibliothèques publiques. Comme viennent de le comprendre les Français, la question n'est plus desavoir s'il faut en être ou non. Il le faut ! "

On voit ici que la bataille qui s'amorce, c'est celle du stockage. Elle est essentielle. Que ceux qui veulent avoir une influence sur ce qui sera indexé par les outils communs de la société de l'information construisent des politiques de stockage numérique et en gardent la maîtrise. Leurs efforts auront un effet relatif : ce qui est accessible est la résultante d'initiatives les plus diverses, y compris bénévoles, comme le rappelait Livres-Hebdo (" Google : qui a peur du grand numérisateur ? ", Livres-Hebdo, 11/02/2005, p. 6-9) : gloire aux précurseurs l'ABU (http://abu.cnam.fr/) et à tant d'autres. Mais il n'est pas indifférent que dans cette cour chamarrée, les initiatives publiques concertées pèsent du poids qu'elles voudront bien peser.

Ma conclusion, puisque nous sommes ici dans une liste de diffusion concernant les bibliothèques, c'est que la période passionnante et dangereuse que nous vivons met à mal bien des certitudes et bien des identités. Moi qui ne cesse de répéter que l'important c'est l'accès, non le stockage, que les bibliothèques sont des donneuses d'accès à des contenus sur lesquels elles ne peuvent rêver de maintenir une maîtrise absolue, voilà que viens de tenir des propos inverses : " laissons aux autres l'indexation, maîtrisons le stockage ". Reformulons.

L'important n'est pas de concevoir les accès mais de les faciliter. Facilitons donc l'indexation ouverte, et dans celles de nos bases de données notamment bibliographiques qu'il est encore utile d'entretenir, changeons ce qui doit l'être pour tenir compte de tout l'acquis de la décennie écoulée sur le web en matière de mode de recherche, et surtout de trouvaille.

Et si nous ne raisonnons plus bibliothèque par bibliothèque mais sur un plan global, alors oui, la maîtrise des données est un enjeu capital. La législation sur la société de l'information doit permettre aux bibliothèques, archives et centres de documentation de constituer par numérisation, copie et transfert des collections d'intérêt public. Dois-je rappeler qu'au mois de juin l'Assemblée nationale doit examiner en première lecture un projet de loi sur le droit d'auteur et les droits voisins dans la société de l'information ?
Rendez-vous sur http://droitauteur.levillage.org.

Dominique Lahary
S'exprimant à titre personnel

(Dernière minute : paraît ce mercredi 27 avril 2005 en librairie Quand Google défie l'Europe : Plaidoyer pour un sursaut de Jean-Noël Jeanneney, éd Mille et une nuits, 120 pages, 9 €).