Séminaire MSH : L’encodage du texte

Date : 14/11/2013
Lieu : MSH Val de Loire à Tours & Salle de visoconférence à Orléans

Organisé dans le cadre du séminaire de l’atelier numérique de la MSH “Pratiques numériques en SHS”

Date : 14 Novembre 2013

Lieu : MSH Val de Loire à Tours & Salle de visioconférence à Orléans

Cette première session du 14 novembre 2013 (de 14h00 à 17h00) sera consacrée à l’encodage du texte.

Programme :

> L’encodage des textes et la recherche en sciences humaines par Elena Pierazzo (Maitre de Conférences en Digital Humanities au Kings College de Londres).

> Exemple d’encodage d’un texte par Elena Pierazzo et Lauranne Bertrand (ingénieur au sein de l’équipe des Bibliothèques Virtuelles Humanistes (BVH) au Centre d’Études Supérieures de la Renaissance – CESR)

A Tours : rendez-vous à la MSH Val de Loire – 33 rue Ferdinand de Lesseps – Salle 147
A Orléans : session en visioconférence : rendez-vous salle Prony sur le site de Polytech Galilée

L’intégralité de cette présentation est à voir ou a revoir en vidéo :

Part. 1 Approche théorique

Part. 2 Approche pratique

Part. 3 Exercices pratiques

Compte-rendu

Pourquoi encoder les textes ?

Pourquoi faire des éditions numériques ?

L’édition numérique permet de faire ce qu’on ne peut pas faire avec le papier, qui soit à la fois utile pour la recherche, et facilement accessible. L’édition numérique de manuscrits, par exemple permet l’édition de sources difficilement consultables du fait de leur unicité (un manuscrit est unique et ne peut être consulté que dans son lieu de conservation, parfois à l’étranger) et de leur fragilité.
Plusieurs exemples illustrent les possibilités offertes par le numérique :

dans un manuscrit du Moyen Âge numérisé apparaissent tour à tour, en survol d’un mouvement de souris ou par simple sélection d’une option, le texte en mode image, en translittération, avec les abréviations développées ou non, en français régularisé ou non, etc., selon le mode de lecture désiré ;
autre exemple : les manuscrits de Beckett, où la numérisation permet de comparer en vis-à-vis deux versions d’un même paragraphe de l’écrivain, et ainsi de faciliter l’analyse comparative ;
dernier exemple, les brouillons de Proust, où l’on peut suivre dans une même double page une reconstitution chronologique des différentes zones de texte écrites par l’auteur d’À la recherche du temps perdu, ordre chronologique qui diffère de l’ordre spatial des zones de texte, et nécessite donc un traitement particulier au sein de la double page. Autant d’outils pour la génétique textuelle ou la philologie, difficiles voire impossibles à mettre en œuvre dans une édition papier.

Comment faire des éditions numériques ?

L’encodage est un balisage

Il y a plusieurs manières de faire l’édition numérique d’un texte. On peut vouloir en faire un rendu immobile et stable, l’équivalent numérique d’un livre papier : c’est ce à quoi sert le format pdf. On peut également vouloir avoir un rendu interactif, avec des options permettant de développer les abréviations, de passer d’un texte à sa traduction, de mettre les noms propres en gras, etc. Mais tous ces rendus nécessitent une opération préalable : encoder le texte.

Encoder un texte, c’est l’assortir de « marqueurs » (markup) ou « balises », qui permettent d’indiquer à l’ordinateur le sens à donner à telle ou telle chaîne de caractères. Ce système de balisage existait avant l’ère numérique : on le retrouve notamment dans le domaine de la correction-relecture avec les signes de correction ortho-typographiques, ou encore en paléographie avec les signes permettant de faire l’édition diplomatique d’un texte. Mais de manière plus fondamentale encore, le simple fait d’ajouter des espaces et des signes de ponctuation au sein d’une chaîne de caractères peut être considéré comme une sorte de balisage, qui a pour but de faciliter la lecture mais aussi d’identifier des unités appelées mots, phrases, etc., tout cela ne s’étant pas fait en un jour dans l’histoire de l’écriture.

Les langages informatiques de balisage du texte

Le balisage informatique n’a pas d’autre but que de faire comprendre à la machine que telle chaîne de caractères est un paragraphe, que telle autre est en italique, que telle autre est en corps de 24 points et non de 12, que telle autre est un nom propre, etc. Une partie de ces balisages est prise en charge de manière invisible par les traitements de texte usuels dits « Wysiwyg » (What you see is what you get), comme Microsoft Word ou ses équivalents en technologie libre Open Office ou Libre Office. Mais pas tous, dans la mesure où le but essentiel de ces logiciels est de donner un rendu imprimé, pas un rendu numérique. Par suite le balisage est essentiellement typographique, et non sémantique, et surtout il est tout à fait inaccessible à la personne qui édite le texte, ce qui veut dire qu’elle n’a pas la main pour le modifier autrement que par l’interface opaque du traitement de texte, ce qui limite les possibilités d’édition. D’autres systèmes d’édition de texte, dits « tags-on view », comme Tex, Latex ou bien HTML, permettent au contraire de coder « en direct » les balises nécessaires à l’édition du texte, et partant offrent une liberté que n’offrent pas les systèmes Wysiwyg. Mais les résultats en sont limités : le but de Tex et Latex est encore une fois de produire de l’imprimé, et le langage HTML, très pratique pour faire des hyperliens, ne sert a contrario que pour des rendus numériques.

Il existe des langages qui prennent en charge à la fois un rendu imprimé et un rendu web. C’est le cas notamment du langage SGML, développé au cours des années 1980, qui est d’utilisation très souple (possibilité de créer à demande des balises personnalisées…), et une séparation entre contenu et forme qui permet de réduire certaines ambiguïtés en ajoutant du contenu d’analyse et d’interprétation des chaînes de caractères (différencier entre « Paris » nom de lieu, « Paris » nom de personne et « paris » nom commun pluriel, par exemple). Le succès du SGML est dû en grande partie à son indépendance vis-à-vis du hardware comme du software, mais le fait est que ce langage s’est avéré en définitive trop souple, notamment dans sa structuration, et a posé ainsi des problèmes de standardisation qui ont freiné les possibilités de communication des fichiers, et partant de son utilisation.

C’est de là qu’est parti le projet du XML, qui simplifie le SGML et le standardise dans sa syntaxe, tout en restant suffisamment souple pour garantir une grande étendue d’utilisations (il est toujours possible de créer autant de balises que l’on veut, mais leur utilisation est soumise à des règles strictes : pas de chevauchement, etc.). Les applications du XML en aval, vers tous types de publications web ou print, se font via le langage de transformation XSLT.

L’un des risques est que chaque texte soit différent, avec une prolifération des types de balises qui ne facilite pas la communication des fichiers. L’autre risque est que la grande ouverture du langage de description puisse être interprétée comme une invitation à sur-renseigner, à sur-décrire les textes sur lesquels on travaille, et donc d’en tuer la lecture. Enfin, subsiste le problème de la hiérarchisation du langage XML qui interdit tout chevauchement des balises entre elles, selon une logique d’inclusion qui n’est pas toujours celle des textes, et qui oblige parfois à certaines acrobaties d’encodage.

La TEI résulte d’un effort de standardisation des balises permettant de décrire des textes, et répond ainsi à la première de ces difficultés rencontrées par le XML. Cet effort de standardisation est le seul moyen possible permettant à court terme la souplesse de communication des documents créés, mais aussi à long terme leur préservation. La TEI, avec ses 500 balises, n’est pourtant pas seulement un format de représentation de texte, mais aussi une modalité de recherche sur le texte : il n’est ni possible ni souhaitable d’utiliser ces 500 balises de description pour un même texte, et la nature des balises utilisées dépendra des objectifs d’analyse poursuivis, et donc d’une bonne définition des projets de recherche. La TEI oblige alors le chercheur à établir clairement les questions qu’il veut poser au texte : c’est un cadre formel, méthodologiquement contraignant (mais qui conserve néanmoins une certaine souplesse d’utilisation…), qui lui permet d’avancer intellectuellement dans ses problématiques de recherche.

Le problème subsiste néanmoins de l’aval, c’est-à-dire de l’application permettant de mettre en valeur l’encodage : autant le code XML-TEI est relativement simple à apprendre, autant il n’en est pas forcément de même du XSLT permettant de transformer le XML en HTML, en Epub, etc. Aussi le travail du chercheur doit-il toujours se faire en étroite collaboration avec celui de l’ingénieur.

Comment encoder un texte ? Le langage XML-TEI

Quelques éléments de structure

Le code XML définit des éléments et des attributs.

Un élément peut comprendre du texte, mais aussi d’autres éléments (par exemple dans un tableau où l’élément contient des éléments), ou encore un mélange de texte et d’éléments, ou bien enfin il peut être vide (ainsi de l’élément permettant d’insérer un saut de page, qui ne contient rien à proprement parler). Ces éléments sont organisés de manière hiérarchique et généalogique, selon un principe d’inclusion (sur le modèle des poupées russes) qui interdit toute possibilité de chevauchement d’un élément par un autre. Le modèle généalogique autorise à parler d’éléments « père » et « fils » pour des éléments ne se trouvant pas au même niveau – ainsi pour l’élément <p> définissant un paragraphe –, mais aussi d’éléments « frères » ou « sœurs » dans le cas d’éléments se trouvant au même niveau hiérarchique – ainsi de plusieurs éléments <p> sous une même <div>.

Un attribut spécifie un élément, et permet d’enrichir la compréhension du texte, de réduire les ambiguïtés, etc. Par exemple, on peut vouloir préciser non seulement que tel mot est un nom, mais encore qu’il est un nom de personne : <name =“person”>Napoléon</name>, ce qui permettra de le distinguer d’une autre occurrence du même terme (par exemple ici un nom de monnaie, ou bien le pont Napoléon, etc.). Cet enrichissement sémantique qui permet de créer des index intelligents, ou de manière générale de bien organiser les données de manière à autoriser leur traitement dans un autre contexte. Ce qu’autorise une gestion rigoureuse des éléments et des attributs, c’est donc une interopérabilité des textes entre eux, et partant la possibilité d’un web de données, chaque texte encodé se transformant en mini-base de données dont les informations sont extractibles et réutilisables.

Quelques exercices et outils
Des exercices permettent une première familiarisation avec quelques balises essentielles et les principales règles de fonctionnement de la structuration du langage XML. Ainsi est vue la distinction entre les balises et, la première permettant de spécifier les métadonnées, l’autre d’accueillir le texte à proprement parler. Ensuite sont vues les balises, filles de, que sont, et , qui permettent de mimer la structuration d’un livre imprimé, avec les pièces liminaires (page de titre, sommaire, préface, dédicace, etc.) en , le texte à proprement parler en, et les pièces de fin (annexes, index, postface…) en.

Quelques sites utiles pour s’initier à la TEI

Le site pédagogique TEI by example permet de se familiariser avec le code XML-TEI grâce à un certain nombre d’exercices à compléter en ligne.
Les guidelines de la TEI servent de document de référence sur le sens et l’usage des balises définies par le consortium.
Le logiciel Oxygen permet d’encoder avec davantage d’aisance.
Oxgarage permet une conversion d’un document Word ou autre en XML, et vice-versa.
Ce rapide panorama du langage XML-TEI a permis, d’une part de montrer concrètement à quoi pouvait ressembler le travail d’encodage, et d’autre part de mettre en valeur les problématiques théoriques liées à l’édition numérique. Apparaît dès lors la nécessité, aussi bien pour des raisons de communication du savoir que pour celles de sa préservation, d’un encodage standardisé, qui soit en perpétuelle remise en question dans son contenu et ses modalités d’utilisation, mais qui conserve un vocabulaire et une syntaxe garantissant interopérabilité et pérennité des données.