Médiathèmes   no10 2008
Une collection publiée par l'Association des bibliothécaires de France
 

Des protocoles et des formats
par Dominique Lahary

Le Web 2.0 ne naît pas de rien. Il est le produit d'une histoire, certes brève (une quarantaine d'années), mais intense. Elle est faite du mutations sociales et culturelles, mais aussi de protocoles. C'est une histoire de protocoles et de formats. Racontons-là.

Au commencement n'était pas le web, mais Internet.

C'est en 1969 que de Département de la Défense des États-Unis mit en œuvre le réseau Arpanet qui permettait à des ordinateurs distants d'être tous reliés entre eux de telle façon qu'une attaque sur une partie du réseau ne l'empêche pas de fonctionner.

Ce réseau fut ensuite utilisé par les universités américaines, les grandes administrations, les musées et les bibliothèques, puis finit par s'étendre à l'échelle internationale sous le nom d'Internet.

Les échanges au sein d'Internet fonctionnent selon le système de la commutation par paquets : un message émis par un ordinateur est découpé en paquets portant l'adresse de l'expéditeur et celle du destinataire, ainsi que les informations nécessaire pour la mise en ordre des paquets à l'arrivée. Chaque paquet chemine indépendamment en employant des voies disponibles entre des ordinateurs relais appelés routeurs. A l'arrivée, le message est reconstitué par la remise en ordre des paquets.

Un tel système ne fonctionne que si les ordinateurs connectés au réseau disposent chacun d'une adresse les désignant de façon non ambiguë : c'est l'adresse IP (Internet protocol), composée d'une suite de nombres séparés par des points. La version actuellement la plus utilisée est la quatrième, dite Ipv4, qui comprend quatre nombres compris entre 0 et 255. Comme elle arrive à saturation, comme un système d'immatriculation d'automobiles ou de numérotation téléphonique, elle est en train d'être supplantée par la version 6 dite Ipv6 longue de 16 octets au lieu de 4 et qui permet de formuler... 667 millions de milliards d'adresses par millimètre carré de surface terrestre !

Le dialogue de machine à machine est défini par un ensemble de règles appelé protocole. En réalité, il n'y a pas un protocole mais tout une pile qu'on peut ainsi schématiser :

5 Application FTP, Telnet, courrier (SMTP, POP), HTTP, streaming (RTSP...), pear to pear (BigTorrent, GNUtella...)
4 Transport TCP
3 Réseau IP
2 Liaison Ethernet, Token Ring...
1 Physique RTC, ADSL...

Sur Internet :

Jusqu'au début des années 1990, travailler sur Internet nécessitait de manipuler un certain nombre de codes qu'on inscrivait sur des écrans en deux couleurs (par exemple noir et blanc). Ceux qui ont connu le Minitel auront une idée de l'esthétique de ce premier Internet, mais non de son langage, compris des seuls initiés.

L'informatique avait fait entre temps connu une double mue grâce à deux innovations essentielles :

C'est en 1989 et 1990 que se produisit à Genève, au Cern (Centre européen de recherche nucélaire), un événement qui allait bouleverser le monde : l'invention du World Wide Web (aujourd'hui désigné sous la forme abrégée de " web ") par l'Anglais Tim Berners Lee et le Français Robert Cailliau. On devrait leur élever des statues, au moins virtuelles !

Leur idée fut simple : créer des pages lisibles sur un écran graphique et reliables entre elles par des liens hypertextes. On naviguerait ainsi d'une page à l'autre, celles-ci pouvant se trouver à de grandes distances. D'abord conçu par Tim Berners-Lee pour le réseau interne du Cern, ce système fut appliqué à cet Internet déjà vieux de 20 ans mais qui allait alors connaître une destinée aussi imprévisible qu'extraordinaire.

Quatre pré-requis étaient nécessaires pour mettre en œuvre cette géniale invention : l'architecture client-serveur, un protocole, un système d'adresses et un langage.


Le dialogue entre le navigateur et le serveur web

C'est l'invention du web qui a en quelques années répandu l'usage d'Internet dans le monde entier et auprès de toutes les catégories d'usagers : le monde scientifique et de l'éducation, les entreprises, les administrations, le grand public. C'est elle qui a permis que les services non web d'Internet se répandent parallèlement, à commencer par la messagerie. En même temps, le web est devenu une plate-forme pour ces services.

Le web est à l'origine, et est encore en grande partie, fait de pages statiques qu'on ne peut mettre à jour qu'en les remplaçant. On peut bien sûr les écrire en HTML " dans le texte ", mais une première génération de logiciels de création de sites web est apparue : les éditeurs HTML, qui permettaient d'écrire des pages presque aussi facilement qu'on écrit un courrier avec un traitement de texte. On les chargeait ensuite sur son site grâce au protocole FTP.

Mais le web a aussi bientôt servi à interroger des bases de données, par exemple des catalogues de bibliothèques. Au début des années 1990, on ne pouvait le faire que par le protocole Telnet qui permettait de simuler un terminal en mode graphique.

Puis on a inventé l'interfaçage web des bases de données :


Schéma d'interrogation d'une base de données par le web

Ce principe a permis de développer toutes sortes de services sur Internet : acheter des marchandises en ligne, recherche un horaire de chemin de fer, utiliser une plate-forme de e-administration, interroger un catalogue de bibliothèque et bien sûr un moteur de recherche.

On a vu que le protocole http permettait, grâce à sa méthode POST, d'envoyer des données vers un serveur. Les pages ou portions de pages comportant des champs de saisie sont appelés des formulaires, usage prévu par le langage HTML. Il arrive souvent que la requête génère un URL qui peut être sauvegardée dans ses favoris. On le reconnaît en ce qu'il comporte souvent un point d'interrogation :


URL d'une requête dans le moteur de recherche Exalead

La messagerie fait partie des applications gérables à partir de formulaire. Quand on utilise un logiciel spécialisé de messagerie tel qu'Outlook ou Lotus Notes, on se sert d'un client qui émet selon le protocole SMTP et reçoit selon le protocole POP des données qui arrive sur so disque dur. Mais quand on fait de la messagerie sur le web, on utilise tout simplement la méthode POST du protocole HTTP.

Mais revenons aux sites web proprement dit. Le système des pages statiques posait un problème : si on voulait conserver un environnement constant pour des raisons d'image et de navigation ou le faire évoluer en fonction des besoins, il fallait corriger une à une chacune des pages ! Pour résoudre ce problème, on a d'abord eu recours au système des frames (cadres) qui permettait de gérer différentes portions d'un écran dans des fichiers différents. On pouvait ainsi gérer chacune d'elle séparément.


Le premier site de l'ABF comportait deux frames, celui de gauche comportant le menu.

Mais ce système avait le grand désavantage de perturber le principe de l'hypertexte. Un lien vers un fichier ne permettait souvent d'afficher qu'une portion du site dont on perdait l'environnement global. Et quand on repérait une page intéressante sur le site, on ne pouvait pas, sans une manipulation connue des plus expert, la sauvegarder dans ses favoris ; on ne sauvegardait d'une page d'accueil.

Un nouveau mode de gestion de site est alors apparu : les CMS (Content Management Systems), qui battirent en brèche les éditeurs HTML. Le protocole FTP ne sert plus qu'à charger des images fixes ou animées ou des documents joints. Tout se passe en ligne, sur le web, grâce au système des formulaires et donc à la méthode POST du protocole HTTP. L'administrateur construit un squelette, et les gestionnaires du sites n'ont plus qu'à créer des rubriques, sous rubriques et article générant autant de pages.

Les sites ainsi gérés sont dits dynamiques. Quand on clique sur un élément d'un menu ou un mot clé, on génère une requête qui provoque l'envoi d'une page web créée à la volée. Une base de données, souvent gérées avec le SGBD (système de gestion de base de données) MySQL, contient les informations qui permettront de générer les pages.

Une partie de ses sites sont gérés grâce au langage PHP (Personnal Home Page). Quant aux logiciels de CMS, il en existe bien sûr un grand nombre, mais l'un des plus répandu en France est un logiciel libre : SPIP (Système de publication pour l'internet partagé).


Ecran de gestion sous Spip du site de l'Interassociation archives-bibliothèques-documentation

On reconnaît les URL d'un site géré avec un CMS ; hormis les pages d'accueil, car ils se terminent non par un nom de fichier mais par une requête, comportant souvent un point d'interrogation :


URL d'une page du site ABF

Une bonne partie des sites gérés avec un CMS offrent deux possibilités :

Les logiciels permettant de créer des blogs ou des wikis sont des CMS. Toujours avec la méthode POST d'HTTP !

Voilà où nous en sommes de cette histoire. Mais il fait signaler qu'entre temps se sont développé :

C'est cette série de protocoles et de formats qui a rendu possible le Web 2.0. Vraiment, quelle histoire !

[Le passage suivant n'a pas été publié]
En voici, par ordre d'apparition dans ce récit, les ingrédients. Les reconnaîtrez-vous ?

Web
Internet
commutation par paquets
routeur
adresse IP
Ipv4
Ipv6
protocole
RT
ADSL
IP
TC
TCP/IP
FTP
Telnet
SMTP
POP
interfaces graphiques
mode caractère
client-serveur
clients
serveurs
World Wide Web
liens hypertextes
navigateurs
serveurs web
HTTP
GET
POST
URL
DNS
HTML
SGML
pages statiques
éditeurs HTML
à la volée
formulaires
CMS
sites dynamiques
PHP
SPIP
blogs
wikis
XML
streaming
RTSP
Peer to Peer
BigTorrent
GNUtella
.


   Publié en ligne par Dominique Lahary
   Adresse de ce document : http://www.lahary.fr/pro/2008/mediathemes10-protocolesformats.htm
   Page d'accueil professionnelle : http://www.lahary.fr/pro