Séminaire MSH 2013-2014 : Pratiques numériques en SHS

Séminaire organisé par l’Atelier Numérique de la MSH Val de Loire de novembre 2013 à avril 2014.

Lieu : Tours et Orléans

L’Atelier Numérique de la MSH Val de Loire et les équipes membres ont poursuivi le séminaire « Pratiques numériques en SHS » pour l’année 2013-2014.

Ce séminaire est conçu comme un lieu de réflexion et de confrontation des pratiques et des analyses afin d’établir, en liaison avec les grands programmes internationaux, un espace de questionnement sur les normes et les usages, de la conservation patrimoniale aux outils de traitement automatique.

Les sessions du séminaire ont eu lieu le 2e jeudi de chaque mois de novembre 2013 à avril 2014, de 14h00 à 17h00, en simultané à Tours (MSH Val de Loire) et Orléans (salle de visioconférence).

Lorsque les intervenants ont donné leur accord, les séminaires sont enregistrés et mis à disposition en format audio et/ou vidéo sur le site de la MSH.
Sauf indication contraire, les enregistrements sont diffusés sous licence Creative Commons CC BY-NC-ND 3.0.

14/11/2013 – L’encodage du texte

Elena PIERAZZO (Kings College, Londres)
Lauranne BERTRAND (CESR, Tours)


Programme

> L’encodage des textes et la recherche en sciences humaines par Elena PIERAZZO (Maître de Conférences en Digital Humanities au Kings College de Londres).
> Exemple d’encodage d’un texte par Elena PIERAZZO et Lauranne BERTRAND (Ingénieur au sein de l’équipe des Bibliothèques Virtuelles Humanistes (BVH) au Centre d’Études Supérieures de la Renaissance – CESR).


Vidéos
 

 

 

 


Compte-rendu

Pourquoi encoder les textes ?

Pourquoi faire des éditions numériques ?

L’édition numérique permet de faire ce qu’on ne peut pas faire avec le papier, qui soit à la fois utile pour la recherche, et facilement accessible. L’édition numérique de manuscrits, par exemple permet l’édition de sources difficilement consultables du fait de leur unicité (un manuscrit est unique et ne peut être consulté que dans son lieu de conservation, parfois à l’étranger) et de leur fragilité.
Plusieurs exemples illustrent les possibilités offertes par le numérique :

  • dans un manuscrit du Moyen Âge numérisé apparaissent tour à tour, en survol d’un mouvement de souris ou par simple sélection d’une option, le texte en mode image, en translittération, avec les abréviations développées ou non, en français régularisé ou non, etc., selon le mode de lecture désiré ;
  • autre exemple : les manuscrits de Beckett, où la numérisation permet de comparer en vis-à-vis deux versions d’un même paragraphe de l’écrivain, et ainsi de faciliter l’analyse comparative ;
  • dernier exemple, les brouillons de Proust, où l’on peut suivre dans une même double page une reconstitution chronologique des différentes zones de texte écrites par l’auteur d’À la recherche du temps perdu, ordre chronologique qui diffère de l’ordre spatial des zones de texte, et nécessite donc un traitement particulier au sein de la double page. Autant d’outils pour la génétique textuelle ou la philologie, difficiles voire impossibles à mettre en œuvre dans une édition papier.

Comment faire des éditions numériques ?

L’encodage est un balisage

Il y a plusieurs manières de faire l’édition numérique d’un texte. On peut vouloir en faire un rendu immobile et stable, l’équivalent numérique d’un livre papier : c’est ce à quoi sert le format pdf. On peut également vouloir avoir un rendu interactif, avec des options permettant de développer les abréviations, de passer d’un texte à sa traduction, de mettre les noms propres en gras, etc. Mais tous ces rendus nécessitent une opération préalable : encoder le texte.

Encoder un texte, c’est l’assortir de « marqueurs » (markup) ou « balises », qui permettent d’indiquer à l’ordinateur le sens à donner à telle ou telle chaîne de caractères. Ce système de balisage existait avant l’ère numérique : on le retrouve notamment dans le domaine de la correction-relecture avec les signes de correction ortho-typographiques, ou encore en paléographie avec les signes permettant de faire l’édition diplomatique d’un texte. Mais de manière plus fondamentale encore, le simple fait d’ajouter des espaces et des signes de ponctuation au sein d’une chaîne de caractères peut être considéré comme une sorte de balisage, qui a pour but de faciliter la lecture mais aussi d’identifier des unités appelées mots, phrases, etc., tout cela ne s’étant pas fait en un jour dans l’histoire de l’écriture.

Les langages informatiques de balisage du texte

Le balisage informatique n’a pas d’autre but que de faire comprendre à la machine que telle chaîne de caractères est un paragraphe, que telle autre est en italique, que telle autre est en corps de 24 points et non de 12, que telle autre est un nom propre, etc. Une partie de ces balisages est prise en charge de manière invisible par les traitements de texte usuels dits « Wysiwyg » (What you see is what you get), comme Microsoft Word ou ses équivalents en technologie libre Open Office ou Libre Office. Mais pas tous, dans la mesure où le but essentiel de ces logiciels est de donner un rendu imprimé, pas un rendu numérique. Par suite le balisage est essentiellement typographique, et non sémantique, et surtout il est tout à fait inaccessible à la personne qui édite le texte, ce qui veut dire qu’elle n’a pas la main pour le modifier autrement que par l’interface opaque du traitement de texte, ce qui limite les possibilités d’édition. D’autres systèmes d’édition de texte, dits « tags-on view », comme Tex, Latex ou bien HTML, permettent au contraire de coder « en direct » les balises nécessaires à l’édition du texte, et partant offrent une liberté que n’offrent pas les systèmes Wysiwyg. Mais les résultats en sont limités : le but de Tex et Latex est encore une fois de produire de l’imprimé, et le langage HTML, très pratique pour faire des hyperliens, ne sert a contrario que pour des rendus numériques.

Il existe des langages qui prennent en charge à la fois un rendu imprimé et un rendu web. C’est le cas notamment du langage SGML, développé au cours des années 1980, qui est d’utilisation très souple (possibilité de créer à demande des balises personnalisées…), et une séparation entre contenu et forme qui permet de réduire certaines ambiguïtés en ajoutant du contenu d’analyse et d’interprétation des chaînes de caractères (différencier entre « Paris » nom de lieu, « Paris » nom de personne et « paris » nom commun pluriel, par exemple). Le succès du SGML est dû en grande partie à son indépendance vis-à-vis du hardware comme du software, mais le fait est que ce langage s’est avéré en définitive trop souple, notamment dans sa structuration, et a posé ainsi des problèmes de standardisation qui ont freiné les possibilités de communication des fichiers, et partant de son utilisation.

C’est de là qu’est parti le projet du XML, qui simplifie le SGML et le standardise dans sa syntaxe, tout en restant suffisamment souple pour garantir une grande étendue d’utilisations (il est toujours possible de créer autant de balises que l’on veut, mais leur utilisation est soumise à des règles strictes : pas de chevauchement, etc.). Les applications du XML en aval, vers tous types de publications web ou print, se font via le langage de transformation XSLT.

L’un des risques est que chaque texte soit différent, avec une prolifération des types de balises qui ne facilite pas la communication des fichiers. L’autre risque est que la grande ouverture du langage de description puisse être interprétée comme une invitation à sur-renseigner, à sur-décrire les textes sur lesquels on travaille, et donc d’en tuer la lecture. Enfin, subsiste le problème de la hiérarchisation du langage XML qui interdit tout chevauchement des balises entre elles, selon une logique d’inclusion qui n’est pas toujours celle des textes, et qui oblige parfois à certaines acrobaties d’encodage.

La TEI résulte d’un effort de standardisation des balises permettant de décrire des textes, et répond ainsi à la première de ces difficultés rencontrées par le XML. Cet effort de standardisation est le seul moyen possible permettant à court terme la souplesse de communication des documents créés, mais aussi à long terme leur préservation. La TEI, avec ses 500 balises, n’est pourtant pas seulement un format de représentation de texte, mais aussi une modalité de recherche sur le texte : il n’est ni possible ni souhaitable d’utiliser ces 500 balises de description pour un même texte, et la nature des balises utilisées dépendra des objectifs d’analyse poursuivis, et donc d’une bonne définition des projets de recherche. La TEI oblige alors le chercheur à établir clairement les questions qu’il veut poser au texte : c’est un cadre formel, méthodologiquement contraignant (mais qui conserve néanmoins une certaine souplesse d’utilisation…), qui lui permet d’avancer intellectuellement dans ses problématiques de recherche.

Le problème subsiste néanmoins de l’aval, c’est-à-dire de l’application permettant de mettre en valeur l’encodage : autant le code XML-TEI est relativement simple à apprendre, autant il n’en est pas forcément de même du XSLT permettant de transformer le XML en HTML, en Epub, etc. Aussi le travail du chercheur doit-il toujours se faire en étroite collaboration avec celui de l’ingénieur.

Comment encoder un texte ? Le langage XML-TEI

Quelques éléments de structure

Le code XML définit des éléments et des attributs.

Un élément peut comprendre du texte, mais aussi d’autres éléments (par exemple dans un tableau où l’élément contient des éléments), ou encore un mélange de texte et d’éléments, ou bien enfin il peut être vide (ainsi de l’élément permettant d’insérer un saut de page, qui ne contient rien à proprement parler). Ces éléments sont organisés de manière hiérarchique et généalogique, selon un principe d’inclusion (sur le modèle des poupées russes) qui interdit toute possibilité de chevauchement d’un élément par un autre. Le modèle généalogique autorise à parler d’éléments « père » et « fils » pour des éléments ne se trouvant pas au même niveau – ainsi pour l’élément <p> définissant un paragraphe –, mais aussi d’éléments « frères » ou « sœurs » dans le cas d’éléments se trouvant au même niveau hiérarchique – ainsi de plusieurs éléments <p> sous une même <div>.

Un attribut spécifie un élément, et permet d’enrichir la compréhension du texte, de réduire les ambiguïtés, etc. Par exemple, on peut vouloir préciser non seulement que tel mot est un nom, mais encore qu’il est un nom de personne : <name =“person”>Napoléon</name>, ce qui permettra de le distinguer d’une autre occurrence du même terme (par exemple ici un nom de monnaie, ou bien le pont Napoléon, etc.). Cet enrichissement sémantique qui permet de créer des index intelligents, ou de manière générale de bien organiser les données de manière à autoriser leur traitement dans un autre contexte. Ce qu’autorise une gestion rigoureuse des éléments et des attributs, c’est donc une interopérabilité des textes entre eux, et partant la possibilité d’un web de données, chaque texte encodé se transformant en mini-base de données dont les informations sont extractibles et réutilisables.

Quelques exercices et outils
Des exercices permettent une première familiarisation avec quelques balises essentielles et les principales règles de fonctionnement de la structuration du langage XML. Ainsi est vue la distinction entre les balises et, la première permettant de spécifier les métadonnées, l’autre d’accueillir le texte à proprement parler. Ensuite sont vues les balises, filles de, que sont, et , qui permettent de mimer la structuration d’un livre imprimé, avec les pièces liminaires (page de titre, sommaire, préface, dédicace, etc.) en , le texte à proprement parler en, et les pièces de fin (annexes, index, postface…) en.

Quelques sites utiles pour s’initier à la TEI

Le site pédagogique TEI by example permet de se familiariser avec le code XML-TEI grâce à un certain nombre d’exercices à compléter en ligne.
Les guidelines de la TEI servent de document de référence sur le sens et l’usage des balises définies par le consortium.
Le logiciel Oxygen permet d’encoder avec davantage d’aisance.
Oxgarage permet une conversion d’un document Word ou autre en XML, et vice-versa.
Ce rapide panorama du langage XML-TEI a permis, d’une part de montrer concrètement à quoi pouvait ressembler le travail d’encodage, et d’autre part de mettre en valeur les problématiques théoriques liées à l’édition numérique. Apparaît dès lors la nécessité, aussi bien pour des raisons de communication du savoir que pour celles de sa préservation, d’un encodage standardisé, qui soit en perpétuelle remise en question dans son contenu et ses modalités d’utilisation, mais qui conserve un vocabulaire et une syntaxe garantissant interopérabilité et pérennité des données.

12/12/2013 – Les CMS : systèmes de gestion de contenu web

Virginie MEYNIER (IRHT, Orléans)
Benoist LAWNICZAK (CESR, Tours)


Programme

> Présentation croisée des CMS WordPress et Drupal par Virginie MEYNIER (Webmestre à l’IRHT à Orléans) et Benoist LAWNICZAK (Responsable du Pôle informatique du projet RIHVAGE au CESR à Tours).


Vidéo

Compte-rendu

Qu’est-ce qu’un CMS ?

Un Content Management System (CMS), ou système de gestion de contenu, est un type de logiciels permettant de mettre en place et de faire fonctionner des sites web de manière interactive. Les CMS fournissent une infrastructure permettant une gestion collective de contenus (textuels, iconographiques, vidéos…). Plus d’une centaine de CMS sont disponibles sur le marché, Drupal et WordPress comptant parmi les cinq les plus utilisés. Ce sont tous deux des CMS généralistes, qui permettent de gérer tous types de contenus (contrairement à Omeka, par exemple, surtout utile pour gérer des collections d’objets, notamment iconographiques). Le choix d’un CMS pour créer un site web dépend du type de site web désiré, des contenus à héberger, de la structure du site, de ses fonctionnalités, etc.

Drupal est un logiciel opensource dont la première version date de 2000. Il est conçu dès l’origine comme modulaire : son noyau est très réduit et il est nécessaire d’installer des modules pour ajouter des fonctionnalités. Ce fonctionnement en fait un CMS hautement personnalisable, et de ce fait réputé difficile à prendre en main. Les sites du Louvre, de France télévisions ou de l’université de Pennsylvanie sont gérés par Drupal.
WordPress, créé en 2003, est de son côté un CMS très largement utilisé (19 % du web et 59 % des sites réalisés avec un CMS sont en WordPress). À l’origine simple moteur de blog, il a évolué vers des fonctionnalités plus variées, basées sur un fonctionnement modulaire. Les sites de l’université Des Moines, des blogs du monde.fr ou Typographica sont gérés grâce à un moteur WordPress.

Quelles possibilités offrent les CMS ?

Selon les CMS utilisés, il est possible de gérer des types de contenus particuliers de manière native : galeries d’images, vidéos, calendriers, etc. De nouvelles fonctionnalités peuvent être intégrées grâce au développement permanent de nouveaux modules et de nouvelles fonctionnalités par les communautés de développeurs respectives des deux CMS.
Concernant les questions d’accessibilité, les CMS ne fournissent aucun moyen technique « clef en main » pour faciliter l’accessibilité des contenus en fonction des handicaps, des outils numériques utilisés ou encore des disparités linguistiques. Mais une série de « bonnes pratiques » faciles à mettre en œuvre et recommandées par les communautés d’utilisateurs existe.
Pour faciliter la recherche d’informations des internautes, il est possible de mettre en place un moteur de recherche interne au site – visiblement plus performant nativement sur Drupal que sur WordPress –, ainsi qu’un système de classement des contenus par catégories hiérarchisées et/ou par tags (mots clés) transversaux, non hiérarchisés. Pour éviter une multiplication incontrôlée de ces catégories, il est recommandé de les intégrer au workflow, et d’en interdire la création aux simples contributeurs.
D’autres modules permettent la mise en place de fonctionnalités diverses : amélioration du référencement des pages grâce à des modules de réécriture d’url ; ajout de flux de syndication (par exemple à Calenda) ; outils de partage sur les médias sociaux, pour dynamiser les pages et les rendre plus interactives ; modules de statistiques de consultation.
La création d’un site multilingue relève d’un choix éditorial. Cette fonctionnalité est gérée par des modules complémentaires dans les deux logiciels. À savoir que cela influera sur la manière de gérer le site au quotidien ainsi que sur sa lourdeur de fonctionnement.

Comment utiliser WordPress et Drupal ?

L’interface d’administration de WordPress est réputée pour sa simplicité de fonctionnement et sa facilité de prise en main par l’utilisateur non technicien. Pour manipuler le contenu de manière collective, il est nécessaire, que ce soit dans Drupal ou WordPress, d’établir une taxonomie définissant plusieurs états des documents (« brouillon », « à valider », etc.), ou de mettre en place un workflow pour que les contenus puissent être vérifiés avant d’être publiés, comme dans toute chaîne éditoriale.
À la création d’un site, il faut choisir les modules à installer en plus du noyau. Ensuite vient le choix du thème (couleurs, disposition des colonnes, police de caractères, etc.) plus ou moins personnalisable. Enfin, l’agencement des pages, à paramétrer avec des choix de templates, permet de déterminer les menus de navigation du site. Drupal offre en sus la possibilité de paramétrer la structuration des types de contenu (date, lien, url, etc.), ce que n’offre pas WordPress, moins contraignant en cela pour l’utilisateur.
La gestion des fichiers et des images est similaire dans Drupal et WordPress.
Pour garantir la mobilité des contenus (un même contenu consultable sur écran d’ordinateur, mais aussi sur smartphone ou tablette…), il convient d’utiliser des thèmes prédéfinis en responsive design qui permettent d’adapter automatiquement la visualisation du site aux différentes formes et tailles d’écrans.

Conclusion

WordPress et Drupal sont deux CMS très complets, évolutifs et faciles d’utilisation. En revanche, leur évolution comme leur maintenance demandent un certain nombre de compétences techniques : développement front-end, langages Html, Css, Js, Php et Mysql, connaissances en webdesign. Dans tous les cas de création de site Internet, il est nécessaire d’élaborer un cahier des charges qui reprend précisément les types de contenus, la structure et les fonctionnalités attendus.
Voir également les sites web gérés par les intervenants : site de l’IRHT (Drupal) et site du projet RIHVAGE (WordPress).

Pour aller plus loin :

Cyprien Roudet – Drupal 7 : Créer un site internet avec un CMS pas comme les autres
Utiliser WordPress comme logiciel gestionnaire de collections numériques : mode d’emploi
Exemple de cahier des charges pour la réalisation d’un site Internet – Proposé par : www.petitefabriqueduweb.com

16/01/2014 – La géolocalisation en SHS

Xavier RODIER (LAT-CITERES, Tours)
Dominique ANDRIEU (MSH Val de Loire, Tours)


Programme

> La géolocalisation en SHS par Xavier RODIER (Ingénieur de recherche CNRS au Laboratoire Archéologie et Territoires, UMR 7324 CITERES).
> Présentation d’outils par Dominique ANDRIEU (géographe-cartographe à la MSH Val de Loire).
La géolocalisation est partout : téléphone, voiture, bus, avions, engins agricoles, électroménager… Tout objet qui contient de l’électronique embarqué comprend une puce RFID ou une carte SIM qui permet de le géolocalisé. Dans la recherche en SHS, la croissance exponentielle des base de données disponibles, amène tout les chercheurs à s’intéresser à la géolocalisation des masses d’informations qu’ils mettent en œuvre. La géolocalisation est une technologie permettant de déterminer la position d’un objet ou d’une personne sur la surface de la Terre. Grâce à elle et aux outils en ligne qui lui sont associés, les chercheurs peuvent facilement représenter sur une carte leurs objets d’études. Au-delà, ces localisations enrichiront la recherche si les relations spatiales qui existent avec les objets ou d’autres espaces, sont étudiés. Il s’agit alors de dépasser le seul positionnement des objets étudiés sur une carte en exploitant leur propriétés spatiales et il convient pour cela de faire appel aux méthodes d’analyse spatiale des géographes. En d’autres termes, la géolocalisation est la base de la spatialisation de l’information qui ouvre un champs potentiel de recherche dépassant la simple adresse des données.


Vidéos
 

 


Compte-rendu

Qu’est-ce que la « géolocalisation » ?

Xavier Rodier a débuté en précisant que le terme de « géolocalisation » relève presque du pléonasme : il n’est venu concurrencer que récemment, avec les nouvelles technologies liées aux GPS, à la téléphonie mobile, etc., le terme de « géopositionnement » employé précédemment par les géographes. Les connaissances techniques ayant permis l’émergence de cette notion de géolocalisation technologique s’appuient de même sur des savoirs et méthodologies géographiques antérieures, comme le géoréférencement (utilisation d’un système de coordonnées, du type longitude/latitude, pour affecter un emplacement spatial à des entités géographiques) ou le géocodage (même chose, pour des adresses).

Les big data liées aux nouvelles technologies utilisant la géolocalisation (comme la téléphonie mobile, ou les sites Googlemaps, Viamichelin, etc.) ont néanmoins modifié la manière d’appréhender les informations spatiales. On passe du système du « Vous êtes ici » affiché sur une carte en ville, qui permet au promeneur de se repérer dans l’espace urbain, au « On sait où vous êtes » proposé par les smartphones qui, où que l’on soit, indiquent non seulement où l’on se trouve, mais où trouver le prochain bureau de tabac, l’hôpital le plus proche, etc. Et de proposer, en lien avec les recherches internet les plus récentes de l’utilisateur, des liens publicitaires personnalisés rendus spatialement pertinents.

Comment fonctionne la géolocalisation ?

Pour construire une carte, les coordonnées géographiques (longitude et latitude) doivent être appliquées de manière à pouvoir projeter un espace ellipsoïde sur un espace plan, ce qui suppose un certain nombre de transformations géométriques, selon qu’on privilégie la conservation des angles ou des superficies. Après un rappel sur la manière dont fonctionne le relevé de coordonnées par satellite, avec notamment le fameux système GPS d’origine américaine, divers outils cartographiques en ligne sont ensuite présentés : Google Earth et Google Maps, mais aussi Open Street Map, qui à la différence du précédent est opensource et collaboratif (sur le modèle de Wikipedia), et Géoportail, site cartographique géographique national proposé par l’IGN, très riche en options de visualisation. Tous ces outils ont en commun de proposer une combinaison de deux vues : vectorielle (les cartes proprement dites) et matricielle (les vues aériennes, prises par satellite). L’une des possibilités offertes par Google Maps est de mettre en place des cartes personnalisées, où l’utilisateur vient ajouter ses propres informations sur les cartes. Ce qui aboutit au passage d’une seule carte universelle à laquelle tout le monde se réfère vers une multiplication de cartes singulières.

À quoi ça sert ?

Quatre fonctions de géolocalisation sont possibles :

l’inventaire, qui permet simplement de recenser spatialement un certain nombre d’éléments ;
la cartographie, qui permet de projeter ces éléments dans une carte ;
l’analyse spatiale, qui permet de mettre en valeur intellectuellement ces projections cartographiques ;
la modélisation, qui permet le passage vers un modèle dynamique ajoutant d’autres informations aux informations strictement géographiques, et autorise notamment à appliquer les résultats de l’analyse spatiale à une carte.

Des exemples de webmapping :

Cartographie des enfants juifs déportés de Paris entre juillet 1942 et août 1944
Cette carte a permis d’exploiter des données au départ non géographiques, simples fiches tirées d’un travail d’archives de l’historien Serge Klarsfeld, en le transformant par le biais des adresses répertoriées en système d’information géographique. Ce travail de cartographie a permis de mettre en valeur des informations sociospatiales auxquelles n’avait pas songé au départ Serge Klarsfeld, à savoir le fait que la grande majorité des arrestations ont eu lieu dans les arrondissements les plus pauvres de Paris.

Alpage
Projet de recherche ANR offrant au nombre de ses « livrables » une vue diachronique du cadastre parisien, avec une possibilité de visualisation par superposition de différentes données cartographiques (cartes anciennes, relevés cadastraux) ou non (crues, vestiges archéologiques, etc.). Projet d’une étonnante complexité, cette carte « tout en un » permet non seulement aux historiens de se constituer une carte de travail en fonction de ses objectifs propres de recherche, mais permet également de mettre en valeur des relations spatiales entre des données hétérogènes.

Orbis
Projet émanant de l’université de Stanford, porté notamment par Walter Scheidel. Il consiste en une cartographie du monde antique à l’époque de l’empire romain, qui insiste sur les réseaux de transport en offrant une visualisation des principaux axes de circulation sur l’ensemble de l’empire. La carte est surtout augmentée d’une application « ludique » permettant, sur le modèle des Viamichelin et autres Mappy, de calculer la durée et les frais d’un trajet entre deux villes, en choisissant le mode de transport (à pied, en chariot, par voie maritime, en relais de chevaux…), les priorités de voyage (veut-on l’itinéraire le plus rapide ou le moins cher ?) ou le mois durant lequel se déroule le voyage. On y apprend qu’avec peu d’argent et une mule, il faut presque dix jours pour rejoindre Lutetia (Paris) à partir de Caesarodunum (Tours) au mois de janvier, mais à peine une journée pour le même trajet par relais de chevaux.

Quelques outils :

Dominique Andrieu a présenté divers outils de webmapping qu’il utilise au quotidien ou qu’il préconise aux doctorants et aux chercheurs qui s’intéressent à l’information et l’analyse spatiales.

A titre d’exemple, le programme de recherche TermiCentre associe des données géographiques à des informations relevant des sciences « dures » dans le cadre d’une étude de la diffusion géographique des implantations de termites en région Centre. Le choix du fond de carte apparaît fondamental pour la lisibilité des données : les termites se propageant par le biais des chemins de fer plutôt que des réseaux routiers, il sera plus pertinent de n’afficher que les premiers si l’on veut rendre compte sur une carte de leur mode de propagation.

Parmi les outils infographiques disponibles, Geoclip offre un panel d’options cartographiques permettant d’interpréter les données à l’aide de nuanciers de couleurs. Il permet également de paramétrer graphiquement la manière dont ces données vont apparaître visuellement sur la carte – possibilité de maillage par communes, ou d’un maillage neutre par unités géométriques de manière à rendre compte de nuances infracommunales.

Un autre outil largement utilisé est ArcGIS, qui permet de créer des cartes interactives à façon, mais Dominique Andrieu préfère insister sur l’Atlas interactif des régions européennes (AIRE), développé par l’UMS Riate. Ce dernier permet de visualiser différentes données (démographiques, économiques, éducatives, etc.) à l’échelle européenne.
Chaque type de modélisation graphique comporte ses avantages et ses inconvénients, mais une étape de la représentation graphique de données géographiques est franchie avec la vue par anamorphose, qui permet de réaliser des cartogrammes mettant en valeur les données de manière à la fois intuitive et déroutante.

13/02/2014 – Les corpus oraux

Olivier BAUDE (LLL, Orléans)
Jean-Philippe CORBELLINI (MSH Val de Loire, Tours)


Programme

> Présentation du programme Corpus de la parole DGLF-MCC par Olivier BAUDE (Maître de conférences au Laboratoire Ligérien de Linguistique, UMR 7270)
> Exemple de traitement de corpus oraux par Jean-Philippe CORBELLINI (Technicien de l’image et du son à la MSH Val de Loire)

Au début du XXe siècle, la technologie d’enregistrement de la parole promettait de transformer la linguistique. Un siècle plus tard, les corpus oraux accompagnent le tournant numérique des sciences humaines et sociales et bouleversent les pratiques des chercheurs et leur relation au document sonore. Quelles sont ces pratiques ? Comment modifient-elle un objet scientifique ? Ces questions sont l’occasion de porter un regard croisé sur des exemples issus de l’expérience du programme Corpus de la parole et du projet des Enquêtes sociolinguistiques à Orléans du Laboratoire Ligérien de Linguistique : de la manipulation des données audios numériques à l’analyse outillée des données orales en passant par les problèmes juridiques liés à la diffusion sur le web de corpus linguistiques


Vidéos

Compte-rendu

Les corpus oraux, une approche linguistique

Pour réaliser une analyse linguistique du langage oral (qui permet par exemple de répondre à des questions du type « pourquoi fait-on cette liaison-là et pas une autre ? », etc.), il est nécessaire de constituer un corpus d’enregistrements qui soit archivable et exploitable. Le projet d’« archives de la parole » date du tout début des enregistrements sonores, au début du XXe siècle, avec la campagne menée par Ferdinand Brunot, mais rapidement s’est posée la question de la conservation des supports analogiques.

L’enregistrement de la langue parlée a aussi eu, dans l’histoire du XXe siècle, une fonction didactique : c’est le cas du corpus dit « Eslo 1 », collecté par une équipe anglaise pour servir de base à l’enseignement du français en Grande-Bretagne, qui a rassemblé un ensemble d’enregistrements de la langue « de tous les jours » dans l’Orléanais du début des années 1970. Après récupération du corpus d’origine, l’idée est venue au Laboratoire Ligérien de Linguistique, basé à Orléans, de mener une nouvelle campagne, trente ans après, afin d’exploiter les deux corpus – baptisés « Eslo 1 » et « Eslo 2 » – de manière diachronique et comparative. Les corpus sont mis à disposition aussi bien sous forme de document audio que de retranscriptions, ce qui autorise une recherche de vocables précis.

Une politique de numérisation

Malgré un manque de légitimité de la linguistique de la langue orale, celle-ci connaît un certain engouement ces dernières années. De nombreux corpus sont construits par différentes équipes de recherche françaises, que le ministère de la Culture et de la Communication veut rassembler dans son programme « Corpus de la parole » afin de garantir leur archivage et de permettre leur accessibilité. Ce programme se décline d’une part en un plan de numérisation des supports analogiques, difficiles à conserver, et d’autre part en un plan de valorisation des corpus dont la publication pose par ailleurs de nombreux problèmes juridiques : la propriété matérielle et intellectuelle des documents, le traitement des données personnelles, la responsabilité des hébergeurs.

Pour prendre le cas le plus litigieux, celui des données personnelles, la gestion des droits sera différente selon la manière dont ont été collectés les corpus. Cela nécessite une interrogation en amont sur la manière dont ont été constitués ces derniers : de manière « sauvage » comme cela se faisait au début des années 1970, ou à travers une observation participante, sous la forme d’entretiens formalisés ? L’anonymisation des données constitue un gros chantier, où il s’agit d’éliminer dans les corpus rendus publics tout ce qui peut permettre d’identifier directement ou indirectement la personne enregistrée, ou ce qui peut lui porter préjudice. D’où la nécessité de traitements spécifiques, aussi bien des fichiers sonores que de leur retranscription.

Les corpus sonores : quels traitements ?

Les documents sonores utilisés dans le cadre de ces corpus sont tous sous format numérique, c’est à dire que leur signal initial (analogique) a été converti en langage binaire afin de pouvoir les manipuler plus aisément grâce aux outils informatiques dont nous disposons aujourd’hui.

Cette conversion du signal est rendue possible grâce à deux paramètres fondamentaux, l’échantillonnage, qui est un relevé de valeurs à intervalles réguliers, et la quantification, qui correspond à la valeur du signal relevé de façon plus ou moins arrondie. Les valeurs choisies pour cet encodage vont déterminer en grande partie la qualité du résultat. Cette conversion du signal peut avoir lieu de façon instantanée, en captant la parole avec par exemple un enregistreur numérique (Eslo2), ou a posteriori en transformant un support dit analogique, comme une bande magnétique (Eslo1) vers un format numérique.

Audacity (logiciel libre et gratuit) est un éditeur audio qui permet d’opérer toutes sortes de manipulations sur ce genre de fichiers audio numériques. Cela va de la simple modification du volume à la découpe du fichier en passant par des traitements divers tels que l’égalisation ou la compression. Il permet également de modifier le type de format en sortie (*.wav, *.mp3, etc.) en fonction de l’usage désiré (diffusion sur le net, archivage, etc.)

Certaines opérations spécifiques à la linguistique nécessitent cependant des outils plus adaptés, comme par exemple le logiciel Praat qui permet un traitement plus efficace de l’anonymisation du contenu en respectant les éléments prosodiques (variations des intonations et du rythme de la voix), chose qui se révèle impossible avec Audacity.

13/03/2014 – Les archives ouvertes et HA L-SHS

Bruno BOISSAVIT et Anne SLOMOVICI (SCD – université de Tours)
Agnès JOURNET (CESR, Tours)


Programme

> Archives ouvertes : les enjeux dans les politiques d’établissement et les projets internationaux par Bruno BOISSAVIT et Anne SLOMOVICI (SCD de l’université de Tours)
– Archives ouvertes : l’importance de la politique d’établissement.
– Sa déclinaison locale avec le portail HAL de l’université François-Rabelais : mise en place et premiers retours d’expérience.
– Le GTAO (groupe de travail [national] sur les archives ouvertes) de Couperin : les missions, les objectifs.
– Les projets au niveau européen : projet OpenAIRE (Open Access Infrastructure for Research in Europe) et OpenAIREplus, projet FOSTER pour développer les compétences Open Access des communautés universitaires.
> Un exemple : le dépôt dans HAL-SHS par Agnès JOURNET (CESR, Tours)


Audio

Compte-rendu

Les archives ouvertes et l’open access

Les archives ouvertes s’inscrivent dans un mouvement général, l’open access, qui veut promouvoir la mise en ligne gratuite de documents et d’informations scientifiques, que ces contenus soient ou non soumis par ailleurs à des restrictions de droits d’utilisation mais dans le respect des contrats d’édition. L’expression « archives ouvertes » est directement traduite de l’anglais « open archive », ce qui explique qu’elle corresponde mal, en français, à la réalité qu’elle désigne. En effet, les archives ouvertes, telle que l’expression est utilisée aujourd’hui en France, désignent avant tout une sorte de bibliothèque numérique composée de deux éléments :

– les références bibliographiques de publications scientifiques ;
– les publications scientifiques elles-mêmes, quand les droits d’auteur le permettent.

Cette archive se doit d’être ouverte et donc accessible en elle-même mais aussi moissonnable et consultable via des moteurs de recherche ou reprise dans d’autres archives.

Il existe plusieurs types d’archives ouvertes : disciplinaires (Arxiv pour la physique), institutionnelles (OATAO à l’université de Toulouse), ou nationales (HAL pour la France). Les archives ouvertes sont nées dans un environnement (les sciences dites « dures ») marqué par des pratiques éditoriales spécifiques à certaines disciplines : co-autorat, importance de l’article plutôt que du livre, etc. Les archives ouvertes se sont peu à peu étendues aux SHS, ce que marque l’ouverture de HAL-SHS en 2005.

La plateforme nationale de dépôt HAL se décline en domaines scientifiques (SHS, chimie, informatique, etc.), mais peut aussi être l’objet d’une déclinaison par établissements scientifiques – ainsi de la plateforme HAL mise en place par le service commun de documentation de l’université François-Rabelais, à Tours –, dans laquelle on peut trouver un classement par laboratoires, etc.

Le consortium Couperin, qui a pour mission de négocier l’achat de ressources documentaires pour les universités et établissements publics scientifiques et techniques, a souhaité accompagner les établissements et lever les freins qui pèseraient sur les archives ouvertes. Pour cela, il a recréé, en septembre 2013, un « Groupe de travail open access » (GTAO) dont les priorités sont de collaborer à l’amélioration de Hal, de fournir de la documentation à ses membres, de travailler sur les relations avec les éditeurs, de faire des enquêtes sur les pratiques…
L’objectif final de Couperin est d’arriver à l’obligation de dépôt dans les archives ouvertes qui ne pourra se décider qu’au niveau de BSN (Bibliothèque Scientifique Numérique) qui a pour objectif de mettre en cohérence l’ensemble des actions engagées sur le territoire et qui souhaite travailler avec tous les acteurs de l’édition sur les différents modèles économiques de l’Open Access : voies verte, dorée, hybride et platinum. Au niveau européen, la Commission Européenne et du Conseil Européen de la Recherche (ERC) militent pour une obligation de dépôt dans une archive ouverte des publications dès qu’il y a un financement public. Pour favoriser ce dépôt, le projet FOSTER qui vient de commencer vise à favoriser toutes les actions de formation. Enfin, le projet OpenAir+ permet de déposer les sources qui sont liées aux publications.

Les avantages à déposer ses publications en Archives ouvertes

La publication de documents scientifiques dans des archives ouvertes revêt un certain nombre d’avantages pour le chercheur parmi lesquelles :

– l’augmentation de la visibilité des travaux ;
– la garantie qu’ils seront toujours disponibles grâce à un service d’archivage à long terme par le CINES ;
– la possibilité d’exporter des listes de publications sous forme de bibliographie imprimable ou sous forme de page web ;
– la possibilité d’avoir des statistiques de consultation de ses publications.

Des bonnes pratiques

Déposer des publications scientifiques sur HAL nécessite l’intégration d’un certain nombre de bonnes pratiques, dont la plus importante est sans doute l’examen et le respect des droits d’auteur : l’auteur d’un article scientifique ne peut déposer son travail en archives ouvertes sans consulter la politique de l’éditeur qui l’a primitivement publié. Les sites Roméo pour les publications anglo-saxonnes et Heloise mis en place par le Centre pour la communication scientifique directe (CCSD), permettent de consulter les possibilités de mise en ligne suivant le statut de la publication (article soumis, validé et version éditée) et les éventuelles durées d’embargos… Et de manière générale, rien n’empêche un auteur de déposer au moins les références de ses publications, qui favoriseront de fait leur prise de connaissance.

Ensuite, il importe de bien rassembler toutes les métadonnées d’une publication avant de commencer le dépôt sur la plateforme, la durée d’un temps de dépôt étant limitée, et aucune sauvegarde n’étant possible au cours de la procédure. Il importe également de se souvenir que la date de dépôt et l’identité du déposant permettent de marquer un acte juridiquement signifiant : ainsi la paternité d’une idée ou d’une découverte peut-elle être prouvée par la date de dépôt, et les publications collectives doivent-elles être faites avec l’accord des différents auteurs.

Après le dépôt, il est possible de modifier les métadonnées, d’exporter sous forme imprimable ou sous forme de page web une liste de publications, de consulter les statistiques de consultation des documents déposés, de créer des alertes email pour suivre les dépôts d’un déposant en particulier, etc. Un certain nombre de tutoriels ont été mis en place par le CCSD, disponibles en ligne.

Présentation – Les archives ouvertes
Présentation – Déposer dans HAL

10/04/2013 – Les corpus iconographiques

Aurélia BOLOT-DE MOUSSAC (CESCM, Poitiers)
Sébastien BUSSON (CESR, Tours)


Programme

> Romane : visite virtuelle d’une collection d’art roman par Aurélia BOLOT-DE MOUSSAC (Centre d’études supérieures de civilisation médiévale (CESCM), UMR 7302, à Poitiers)
La base de données ROMANE, accessible via internet depuis janvier 2013, a pour objectif de permettre la consultation du fonds iconographique d’art roman du CESCM. La collection, constituée de plus de 160 000 clichés, offre une documentation qui couvre la France et une partie des pays européens tant dans les domaines de l’architecture, de la sculpture, de la peinture murale que dans ceux des manuscrits, de l’orfèvrerie, des vitraux. Un vaste programme d’indexation, de numérisation et de campagnes photographiques assure l’accroissement constant des données mises à disposition du public académique ou non.
> Un exemple de traitement de corpus iconographique par Sébastien BUSSON (Centre d’Études Supérieures de la Renaissance (CESR), UMR 7323, à Tours)


Vidéos

Compte-rendu

La base Romane du CESCM

La base Romane, développée par le CESCM, est une partie d’une grande photothèque rassemblée au cours de nombreuses années de recherche, qui réunit aujourd’hui sur différents supports 160 000 documents iconographiques ayant trait à l’architecture et aux arts visuels de la période romane. Sont consultables en accès libre environ 16 000 documents depuis janvier 2013. La grande richesse de cette base consacrée à l’architecture et l’art médiéval est, outre son aspect spécialisé, son indexation selon un thésaurus hiérarchisé. Ce thésaurus a été établi sur la base du Thesaurus Exemplorum Medii Aevi (THEMA) élaboré par le Groupe d’Anthropologie Historique de l’Occident Médiéval (GAHOM) , mais enrichi pour les données architecturales, ce qui a donné lieu au Thésaurus des images médiévales en ligne (TIMEL). Romane est une base documentaire, mais aussi de recherche, dans la mesure où nombre d’informations inédites y sont publiées au fur et à mesure de l’établissement des notices. La possibilité, à partir d’une recherche iconographique sur la base, d’exporter les images sous forme de diaporama ou de planche contact facilite également son utilisation pédagogique. Les outils de géolocalisation (via Google Maps) permettent par ailleurs de considérer les monuments dans leur contexte urbain (via Google Street View).

Pour des raisons de droit de diffusion des images, certaines notices ne sont pas en libre accès, et ne sont consultables que sur place, au CESCM à Poitiers. C’est notamment le cas des notices réalisées à partir de bâtiments ou d’objets faisant partie de collections particulières. De manière générale, la base Romane se refuse désormais à accepter les dons de photos sans droits d’usage ou les documents de mauvaise qualité : trop de problèmes ont été rencontrés par le passé au cours de programmes de numérisation pour qu’ils ne soient pas prévenus désormais en amont, et les acquisitions comme les nouvelles campagnes de photographie sont aujourd’hui rigoureusement encadrées, tant juridiquement que scientifiquement.

La structure informatique de la base a été créée sur mesure pour répondre aux besoins spécifiques des chercheurs du CESCM, tant en termes de fonctionnabilités que de structuration de l’information scientifique (topographie, architecture, mobilier/objet, iconographie). Dans cette base, les images sont indexées au même titre que les objets (architecturaux, mobiliers…) auxquelles elles correspondent, ce qui permet de gérer les problèmes de droit ou simplement d’identité des documents iconographiques en même temps que les informations à proprement parler scientifiques auxquels ces documents sont attachés.

Les bibliothèques iconographiques du CESR

Les programmes de numérisation au CESR ont été mis en place, comme pour le CESCM, à partir de collections diverses rassemblées au sein d’un même laboratoire de recherche par des chercheurs venus de différents horizons. Tout programme de numérisation suppose un workflow bien défini en fonction des objectifs du programme, dont les étapes sont : 1/ la numérisation à proprement parler, 2/ l’archivage, 3/ le traitement, 4/ l’exploitation et la diffusion des documents, enfin l’indexation, qui peut prendre place à un moment ou un autre du workflow. Chaque étape pose ses problèmes de volumétrie, de protocole, de résolution, de délocalisation de sauvegarde, etc., chacune devant être contrôlée avant le passage à l’étape suivante.

Le CESR, après un tâtonnement dû à un marché et des solutions techniques encore en pleine gestation, a opté pour la création d’un certain nombre de bibliothèques numériques qui permettent de pérenniser les fonds iconographiques en les archivant. Ces différentes numérisations ont été rassemblées en différents portails thématiques (Architectura pour l’architecture, Bibliothèques virtuelles humanistes pour la littérature, Ricercar pour la musique) afin de rendre visibles et facilement interrogeables ces corpus.

La structuration du portail des BVH permet d’articuler les livres (avec informations bibliographiques), les pages (qui permet d’associer à tel livre un ensemble d’images) et le contenu de ces pages (textes ou images). Le programme des BVH a permis de développer, avec l’aide du Laboratoire d’Informatique (LI) de l’université de Tours, AGORA, un outil de reconnaissance des formes et analyse d’images (RFAI) dont le but initial a été de faciliter l’OCR des textes numérisés en débarrassant l’analyse informatique des pages des lettrines, bandeaux et autres éléments iconographiques. Paradoxalement, cela a permis d’identifier ces éléments dans les pages, et de les traiter dans des bases indépendantes, réunies dans la Base de typographie de la Renaissance (BATYR). Ces éléments sont indexés à l’aide du thésaurus international IconClass, dont les défauts – notamment son classement alphanumérique peu intuitif – sont en partie compensés par l’avantage du multilinguisme.

 

A télécharger :