Université de Cergy-Pontoise
Mastère Ingénierie éditoriale et communication, année 2009-2010
Cours de Dominique Lahary - dom.lahary@orange.fr - http://www.lahary.fr/pro/ucp

1. La structuration de l’information

Objectifs:

·         Montrer comment les professions traitant de l’information structurent (ou non) leur information.

·         Montrer comment la structuration de l'information permet de la gérer

·         Montrer comment la globalisation se manifeste par un processus complexe de partage de standards susceptible de supprimer ou d’atténuer les différences entre métiers dans la structuration de l’information.

1     L'âge des professions. 2

1.1     Les bibliothèques. 2

1.1.1      ISBD (international standard bibliographic description) 2

1.1.2      MARC (Machine Readable Cataloguing) 3

1.1.3      Accès par les contenus. 4

1.1.4      Les données bibliographiques : entrée / stockage / sortie. 4

1.1.5      Schéma sommaire d’une base de donnée bibliographique. 4

1.2     L'impression, l’édition. 7

1.2.1      A l’origine : le flou. 7

1.2.2      Structuration physique, structuration logique. 8

1.2.3      Les langages à balise (Mark-up Languages) : SGML, XML. 9

1.3     Le Web. 9

1.3.1      HTML. 9

1.3.2      XML. 10

1.3.3      Les feuilles de style : CSS. 10

1.4     L’auteur 10

1.4.1      Indigence primitive. 10

1.4.2      Feuilles de style. 10

1.5     Une chaîne numérique complète ?. 11

2     Retour sur la logique de la structuration. 11

2.1     Structurer pourquoi ?. 11

2.2     Les logiques de structuration. 11

2.3     Ne pas confondre…... 11

2.4     Les métadonnées. 11

3     La globalisation ou l’âge des standards. 12

Conclusion. 13

 


1         L'âge des professions

Prologue: l'info est structurée.

Mais la structuration ne se fait pas par objet (ex.: les données bibliographiques) mais par profession (l'économie, la sociologie et l’histoire peuvent expliquer cet apparent paradoxe).

1.1        Les bibliothèques

Objectifs :

·         Décrire : produire de l’information sur l’information (information secondaire). C’est le catalogage.

·         Accéder : donner des clés pour accéder à l’information secondaire. C’est l’indexation.

1.1.1        ISBD (international standard bibliographic description)

Ce schéma de catalogage précède l’informatisation des catalogues de bibliothèque mais demeure une référence.

8 zones subdivisées en sous-zones. Les séparateurs entre zones et sous-zones sont des signes de ponctuations conventionnels.

Zone

Ponctuation

Principales sous-zones

1. Titre et mention de responsabilité

 

Titre propre

:

Complément de titre

/

Première mention de responsabilité

;

Autres mentions de responsabilité

2. Edition

 

Mention de l’édition

3. Zone particulière à certains types de documents
    (publications en série, documents cartographiques, musique imprimée et documents électroniques)

4. Adresse bibliographique

 

Lieu de publication

:

Nom de l’éditeur

,

Année de publication

5. Collation

 

Nombre de pages ou d’autres unités (CD…)

:

Mention d’illustration

;

Format

6. Collection

(

Mention de collection

,

ISSN

;

Numéro du volume dans la collection

)

 

7. Notes

8. ISBN et prix

 

 

 

 

Exemple d’une notice bibliographique selon l’ISBD :

 

Le catalogage : méthode et pratiques. 1, Monographies et publications en série / par Isabelle Dussert-Carbone et Marie-Renée Cazabon. - Nouv. éd. - Paris : Éd. du Cercle de la librairie, 1991. - 479 p. : ill. ; 24 cm. - (Collection Bibliothèques, ISSN 0184-0886).

Bibliogr. p. 465-476. - ISBN 2-7654-0458-5

¡


1.1.2        MARC (Machine Readable Cataloguing)

Famille de formats née aux Etats-Unis à la fin des années 1960 et toujours en vigueur.

Les formats MARC, dont il existe plusieurs variantes nationales ou internationales, permettent aux bibliothèques, au lieu de cataloguer chaque ouvrage, de récupérer les données chez un fournisseur ou dans un système coopératif.

Exemple présenté ici : UNIMARC (format universel très utilisé en France)

10 blocs comportant chacun des zones divisées en sous-zones, chacune étant obligatoire ou facultative, répétable ou non répétable :

0XX

Numéros d’identification (zone 8 de l’ISBD)

1XX

Informations codées (date de création de la notice, date de publication du document, type de document, langue du document, pays de publication, etc.)

2XX

Informations descriptives (le “ pavé ISBD ”, zones 1 à 6)

3XX

Notes

4XX

Liens éventuels avec d’autres notices bibliographiques

5XX

Titres associés (toutes formes du titre différant du titre propre figurant sur la page de titre et que l’on peut utiliser comme points d’accès, comme le titre uniforme)

6XX

Analyse du contenu (accès sujet, classifications, etc.)

7XX

Responsabilité intellectuelle (personnes physiques, collectivités auteurs, congrès)

8XX

Usage international (organisme créateur de la notice, lien à une ressource électronique, etc.),

9XX

Données locales (espace d’usage libre, non prescrit par le format, pouvant faire l’objet de recommandations nationales)

Exemple de notice bibliographique en Unimarc, présentée pour plus de clarté sous forme de tableau (en bleu les éléments de l’ISBD, en vert les accès) :

Guide

 

008866camøø22002653øø450ø

Guide

001

 

01-0088058‑

Numéros
d’identification

005

 

20000129163844.0‑

010

øø

$a2-7654-0551-4$bbr.$d295øF

100

øø

$a19920512d1994øøøømøøy1|||a0103øøøø||‑

Données
codées

101

$afre‑

102

øø

$aFR‑

105

øø

$aayyyzzzz00|z|‑

106

øø

$ar‑

200

$aˆLecatalogage$eméthode et pratiques$h1$iMonographies et publications en série$fpar Isabelle Dussert-Carbone et Marie-Renée Cazabon

Description
bibliographique

205

øø

$aNouv. éd.

210

øø

$aParis$cCercle de la Librairie$d1994

215

øø

$a493 p.$cill.$d24 cm

225

$aCollection Bibliothèques$x0184-0886‑‑

300

øø

$aBibliogr. p. 465-476

410

ø1

$aBibliothèques‑

Liens

461

øø

$tLe catalogage$v1‑

606

øø

$aDescription bibliographique$yFrance$xGuides, manuels, etc.$2Rameau‑

Accès
sujet

676

øø

$a025.32$v20‑

700

ø1

$aDussert-Carbone$bIsabelle$4070‑

Accès
responsabilité

701

ø1

$aCazabon$bMarie-Renée$4070‑_


1.1.3        Accès par les contenus

·         ·         Les langages documentaires peuvent comporter à la fois un vocabulaire et une syntaxe exprimant de façon conventionnelle le contenu d’un document. Les documentalistes parlent de mots clés et les bibliothécaires de mots matière ou d’autorités matière. Dans l’exemple ci-dessus emprunté au langage documentaire Rameau (Répertoire d’autorités matière alphabétique et encyclopédique unifié) en usage dans les bibliothèques françaises :

Description bibliographiqueFrance -- Guides, manuels, etc.

Les nuages de tags c’est (en gros) à la même chose

·         ·         Au-delà des langages documentaire, la tendance est à un accès par tous les mots d’un champ ou tous les mots de tous les champs. Par exemple : accès par les mots du résumé d’un ouvrage, qui peut (comme dans la base Electre) être contenu dans la notices bibliographique.

1.1.4        Les données bibliographiques : entrée / stockage / sortie

 

Input

Inside

Output

Échange

Import

 

Export

 

Stockage

 

Stockage

 

 

Affichage

Catalogage
(masque de saisie)

 

Affichage
Impression

 

1.1.5        Schéma sommaire d’une base de donnée bibliographique

Schémas logiques

La notice bibliographique, comprenant au moins les éléments descriptifs du document, est liée à la description des exemplaires physiques possédés, dont le système va gérer le prêt éventuel.

Les éléments normalisés (par exemple les auteurs et les sujets) permettent un accès contrôlé par un vocabulaire et une syntaxe.

Ils peuvent être décomposés entre autorité (normalisée) et vedette (point d’accès éventuellement composite).

 

La gestion du prêt permet de lier le fichier des emprunteurs à celui des exemplaires via celui du des transactions.

 

 

 

 

 

Schéma informatique

Le système fabrique des index, fichiers permettant un accès rapide aux données. Ces index sont nourris par les données saisies pour les accès contrôlés par un langage documentaire, mais aussi, le cas échéant, par les mots contenus dans les données bibliographiques. Ils sont généraux (n’importe quel mots) ou spécifiques à certains champs (pour permettre par exemple une recherche par auteur).

On dit que les champs des notices bibliographiques nourrissant les index sont indexés.

 


Exemple d’une recherche sur le catalogue collectif valdoisien RéVOdoc : http://revodoc.valdoise.fr

 

 

 

1.2        L'impression, l’édition

Objectifs :

·         Imprimer sur papier.

·         Publier sous diverses formes (cédéroms, internet…).

1.2.1        A l’origine : le flou

En général, les éditeurs maîtrisent peu leurs références. Cette situation perdure largement aujourd’hui.


1.2.2        Structuration physique, structuration logique

Un livre présente une structure physique. Ainsi, les éléments d’une page (à gauche) peuvent être modélisés sous une forme arborescente (à droite)

(schémas établis par Pierre-Yves Duchemin)

Mais on peut identifier également une structure logique également exprimable sous forme d’arborescence, où nous distinguons :

·         les éléments uniques des éléments répétables

·         les éléments obligatoires (cadre continu) des éléments facultatifs (cadre en pointillé)

Nous avons esquissés quelques notions de base permettant la formalisation d’une structure.

La distinction entre structure logique et structure physique permet

·         de produire l’édition par combinaison entre les deux,

·         de structurer un document indépendamment de sa forme physique, ce qui autorise une multiplicité d’éditions (impression en grand format et en format de poche, cédérom, internet…),

·         d’associer à des éléments logiques des formes physiques propres à une édition (police, corps, couleur, gras, souligné, italique, etc.)

1.2.3        Les langages à balise (Mark-up Languages) : SGML, XML

La structure arborescente que nous avons représenté sous forme d’image peut s’exprimer dans un fichier « à plat » (c’est-à-dire un fichier qui sera lu par le système dans l’ordre séquentiel) grâce aux balises : <balise ouvrante>, </balise fermante>.

Exemple sommaire, où les retraits de texte ne sont là que pour aider à la lecture humaine :

<livre>

<page de titre>

<auteur>Isabelle Dussert-Carbone</auteur>

[etc.]

<titre>Le catalogage : méthode et pratiques. 1, Monographies et publications en série </titre>

<editeur>Cercle de la Librairie</editeur>

</page de titre>

<corps de l’ouvrage>

<partie>

<chapitre>

<sous-chapitre>

<texte>xxxxxxxxxxxxxxxxxxxxxxxxxxxx</texte>

</sous-chapitre>

[etc.]

</chapitre>

[etc.]

</partie>

[etc.]

</corps de l’ouvrage>

<table des matières>xxxxxxxxxxxxxxxxxxxxxxxxxxxx</table des matières>

</livre>

Dans les années 1980 a été développé sur ce principe le SGML (Standard Mark-Up Language), très complexe, qui n’a connu d’application que par de grands groupes d’édition ou industriels.

La fin des années 1990 a connu l’émergence d’XML, plus simple. C’est une structure générique qui permet de bâtir toutes sortes de modèles comportant une liste d’éléments et une syntaxe : livre, article de périodique, etc. Vous pouvez vous amuser à concevoir un modèle XML pour carte de visite.

XML est adopté par un nombre croissant de professions appelée à gérer de l’information structurée.

Un groupe européen d’éditeur appelé… EDItEur (http://www.editeur.org) a défini un modèle XML pour décrire un livre : ONIX

(voir http://www.editeur.org/ et, en français, http://www.editeur.org/ONIX2.0TradFr.Guide.pdf).

On y retrouve des éléments comparables à ceux gérer par les formats MARC des bibliothécaires mais aussi d’autres informations utile au monde de l’édition et de la librairie, comme la présentation de l’auteur :

<Contributor>

<PersonNameInverted>Schuwer, Philippe</PersonNameInverted>

<BiographicalNote> Philippe Schuwer a été secrétaire de rédaction dans la presse, sous-directeur

de fabrication aux PUF, directeur aux éditions Tchou, directeur de département chez

Hachette, Nathan et Larousse. Diplômé du British Institute et de l’Ecole des hautes études en

sciences sociales, il a créé les premiers cours d’édition à l’Université Paris VIII.

</BiographicalNote>

</Contributor>

ou des informations sur le matériel promotionnel (présentoirs, fac-similés agrandis de la couverture…), ou encore la largeur du livre, indispensable pour gérer le stockage (les bibliothécaires ne mentionnent que la hauteur). ONIX est un standard émergeant dans le monde de l’édition.

1.3        Le Web

Objectifs :

·         Publier

1.3.1        HTML

Le world wide web, qui a permis au début des années 1990 l’explosion d’Internet, repose à l’origine sur le langage HTML dans lequel sont écrit les pages. C’est un langage à balises simplifié. Pour voir du HTML, il suffit, quand vous affichez une page web, de cliquer dans la barre de menu sur Affichage puis de sélectionner Source.

HTML a surtout été utilisé pour décrire des éléments physiques de présentation (corps, police, gras, italique, etc.)

On peut voir le fichier source d’une page web en sélectionnant « Fichier source » dans l’onglet « Affichage ».

1.3.2        XML

XML est de plus en plus utilisé comme langage de description de pages web.

1.3.3        Les feuilles de style : CSS

La présentation physique d’un ensemble de pages web peut être gérée par un fichier extérieur dit feuille de style à chaque page HTML ou XML. Les pages comprendront alors des éléments logiques (titres de différents niveaux, corps de texte, etc.) et la feuille de style assignera des caractéristiques physiques à chaque élément. On peut ainsi les modifier en une seule fois pour toutes les pages. La syntaxe des feuilles de style est régit par le CCS (Cascading Style Sheet).

Chaque fichier HTML ou XML peut aussi comporter des éléments de style mais cela ne permet pas de gérer les changements de présentation dans plusieurs fichiers à la fois.

1.4        L’auteur

Objectifs :

·         Créer

·         Faire publier

1.4.1        Indigence primitive

L’auteur produit un texte manuscrit, puis de plus en plus tapé à la machine, et enfin saisie sur un ordinateur. Il ne se soucie généralement pas de la structure et saisit en fonction d’une présentation matérielle.

Pour l’éditeur, toutes les présentation matérielles saisies par l’auteur, si elles donnent des indications sur ses intentions de présentation, l’encombrent dans le traitement du texte : il doit généralement supprimer tous les enrichissements (gras, italiques, etc.)

1.4.2        Feuilles de style

Les logiciels de traitement de texte permettent généralement de gérer une structure par le système de la feuille de style. Sur la barre d’outils supérieure de Word, choisissez Format puis Style pour créer des éléments de style. A chacun d’eux est assigné un aspect matériel, que vous pouvez changer en une seule fois pour tout le document. Vous pouvez par exemple créer des titres de différents niveaux.

Dans Word, grâce à la feuille de style, une table des matières peut être créée automatiquement (Insertion > Tables et index > Table des matières).

Si vous avez affiché la présente page en format RTF, vous pouvez visionner le style de chaque séquence textuelle dans la barre d’outils Mise en forme.

Apprenons à structurer avec Word (ou un autre logiciel de traitement de texte)

(on peut visionner et modifier le style de chaque élément dans la barre d’outils Mise en forme)

Spontanément , les utilisateurs d’un traitement de texte travaillent pour la présentation et non pour la structure. Ce faisant, il font un travail qui est toujours à recommencer.

Quelques conseils :

·         Donner au fichier un nom significatif (qui permettra de le rechercher)

·         Utiliser une feuille de style

·         Afficher les caractères invisibles (espaces, saut de ligne ou de paragraphe, …) en cliquant sur l’icône ¶ de la barre d’outils Standard pour maîtriser la structure.

·         ·Gérer les retrait grâce à Format > Paragraphe et non par des tabulations

·         Gérer des paragraphes grâce à Format > Paragraphe, en définissant les espacements avant et après en nombre de point, plutôt que de les séparer par deux sauts de paragraphes successifs.

·         Pour présenter des tableaux (par exemple une colonne de mots et une colonne de chiffres), créer un véritable tableau plutôt que d’utiliser les tabulations (qui décalent les données si vous changez la taille de la police).

1.5        Une chaîne numérique complète ?

Dans le monde universitaire sont tentées des expériences pour permettre une chaîne numérique continue, de la saisie par l’auteur à l’édition sur papier ou en ligne.

Les auteurs de mémoires ou de thèses doivent alors saisir leur texte en respectant une feuille de style. Cela permet ensuite une conversion automatique de word en XML.

Sur une chaîne de traitement de thèses en ligne, voir  http://sourcesup.cru.fr/cyberdocs/.

On voit ainsi se dessiner l’espoir d’une chaîne numérique complète qui irait :

·         pour les produits imprimés, de l’auteur à l’imprimeur ;

·         pour les produits numériques, de l’auteur à la publication sur le web ou un support électronique mobile (cédérom ; e-book).

On peut même imaginer une chaîne allant jusqu’à l’utilisateur final, qui pourrait récupérer et librement utiliser, manipuler, rediffuser l’œuvre, mais souvent les nécessités de la protection du droit d’auteur conduisent à briser la chaîne.

2         Retour sur la logique de la structuration

2.1        Structurer pourquoi ?

Structurer c'est séparer le logique du physique

C'est inscrire le contenu dans une forme pour pouvoir :

·         le retrouver (grâce à des index spécifiques)

·         le publier sous des formes diverses.

Qui structure l’information qu’il produit ou qu’il gère maîtrise ses contenus.

Qui structure l’information qu’il produit ou qu’il gère en maîtrise l'expression et la présentation.

2.2        Les logiques de structuration

Les modèles de structuration logique de l’information :

·         définissent des éléments éventuellement hiérarchisés (le nom comprend le prénom et le nom de famille, etc.),

·         assignent à chaque élément des attributs : répétitivité, obligation, format.

La structuration physique se fait par assignation à chaque élément de caractéristiques physiques.

2.3        Ne pas confondre…

·         identification : élément non ambigu permettant de distinguer un objet d’un autre

·         structuration de l’information : découpage de l’information en champ susceptible de se retrouver d’un enregistrement à l’autre (auteur, titre…)

·         classification ou classement : mise en ordre d’objets pour pouvoir les retrouver ou d’information pour les regrouper selon un critère (par exemple leur contenu) – on peut distinguer le classement physique et la classification intellectuelle, des livres pouvant être classés physiquement (classement) d’après une classification intellectuelle

Combinaison entre les trois notions : un découpage de l’information peut comporter

·         un ou des éléments d’identification (l’ISBN, le titre)

·         un ou des éléments de classification (l’indice Dewey, la cote d’un livre)

2.4        Les métadonnées

Cette notion qui concerne un nombre croissant de métier désigne les « données sur les données » : classifications, catégories, mots clés…

Elles correspondent à ce que les bibliothécaires appellent « catalogage » mais peut porter sur des informations plus larges.
Exemple : le DublinCore (utilisé pour les bibliothèques électroniques)

Élément

(anglais)

Commentaire

1. Titre

Title

Titre principal du document

2. Créateur

Creator

Nom de la personne, de l'organisation ou du service à l'origine de la rédaction du document

3. Sujet ou
     mots clés

Subject

Mots-clefs, phrases de résumé, ou codes de classement

4. Description

Description

Résumé, table des matières, ou texte libre.

5. Éditeur

Publisher

Nom de la personne, de l'organisation ou du service à l'origine de la publication du document

6. Contributeur

Contributor

Nom d'une personne, d'une organisation ou d'un service qui contribue ou a contribué à l'élaboration du document. Chaque contributeur fait l'objet d'un élément Contributor séparé

7. Date

Date

Date d'un évènement dans le cycle de vie du document

8. Type de
     ressource

Type

Genre du contenu

9. Format

Format

Type MIME, ou format physique du document

10. Identifiant de la ressource

Identifier

Identificateur non ambigu : il est recommandé d'utiliser un système de référencement précis, afin que l'identifiant soit unique au sein du site

11. Source

Source

Ressource dont dérive le document : le document peut découler en totalité ou en partie de la ressource en question.

12. Langue

Language

 

13. Relation

Relation

Lien avec d'autres ressources. De nombreux raffinements permettent d'établir des liens précis, par exemple de version, de chapitres, de standard, etc.

14. Couverture

Coverage

Couverture spatiale (point géographique, pays, régions, noms de lieux) ou temporelle

15. Droits

Rights

Droits de propriété intellectuelle, Copyright, droits de propriété divers

 

3         La globalisation ou l’âge des standards

Les standards sont indispensables dans un monde où on échange l’information.

Il en existe deux sortes :

·         les standards de droit ou normes, produits par des organismes habilités : en France l’Afnor (Association française de normalisation) sur le plan international l’ISO (International Standard Organisation),

·         les standards de fait, émanant d’un organisme informel ou non habilité ou d’une entreprise.

Il existe des batailles de standard, et ce n’est pas forcément le meilleur qui gagne. Mais il est important d’utilisé le standard auquel la majorité s’est rallié.

Un organisme dont la mission est d’établir les standards du web, le W3C (World Wide Web Consortium), où siègent des organismes publics et privés, prend une place croissante dans la définition des standards de structuration de l’information, au-delà) du seul Web. Il jour un rôle moteur dans le développement d’XML.

Alors qu’XML s’impose de plus en plus comme un standard universel, les standards propres à certaines professions survivent. On peut penser que leurs jours sont comptés.

La standardisation permet d’échapper aux frontières entre métiers, mais aussi entre logiciels. Les données transitent d’un logiciel à l’autre, les standards permettent leur conversion.

Comme le disait une revue informatique à la fin des années 1990 : « Nous passons de la dictature du logiciel à la démocratie du document. »

Conclusion

Vous arrivez dans un monde en mutation où les corporatismes contrarient l'unification, avec un va et vient entre unification et particularisme

Le professionnel de l'information structurée peut être au cœur de la stratégie des organisations.

A vous de jouer !