Séminaire MSH : Les corpus oraux

Date : 13/02/2014
Lieu : MSH Val de Loire à Tours & Salle de visoconférence à Orléans


Organisé dans le cadre du séminaire de l’atelier numérique de la MSH “Pratiques numériques en SHS

Cette quatrième session du 13 février 2014 (de 14h00 à 17h00) sera consacrée aux corpus oraux.

Au début du XXe siècle, la technologie d’enregistrement de la parole promettait de transformer la linguistique. Un siècle plus tard, les corpus oraux accompagnent le tournant numérique des sciences humaines et sociales et bouleversent les pratiques des chercheurs et leur relation au document sonore. Quelles sont ces pratiques ? Comment modifient-elle un objet scientifique ? Ces questions sont l’occasion de porter un regard croisé sur des exemples issus de l’expérience du programme Corpus de la parole et du projet des Enquêtes sociolinguistiques à Orléans du Laboratoire Ligérien de Linguistique : de la manipulation des données audios numériques à l’analyse outillée des données orales en passant par les problèmes juridiques liés à la diffusion sur le web de corpus linguistiques.

> Présentation du programme Corpus de la parole DGLF-MCC par Olivier Baude (maître de conférences au Laboratoire Ligérien de Linguistique, UMR 7270)

> Exemple de traitement de corpus oraux par Jean-Philippe Corbellini (technicien de l’image et du son à la MSH Val de Loire).

A noter que cette séance est organisée en collaboration avec l’Ecole Doctorale de Tours.

A Tours : rendez-vous à la MSH Val de Loire – 33 rue Ferdinand de Lesseps – Salle 147
A Orléans : session en visioconférence : rendez-vous salle Prony sur le site de Polytech Galilée

Compte-rendu

Les corpus oraux, une approche linguistique

Pour réaliser une analyse linguistique du langage oral (qui permet par exemple de répondre à des questions du type « pourquoi fait-on cette liaison-là et pas une autre ? », etc.), il est nécessaire de constituer un corpus d’enregistrements qui soit archivable et exploitable. Le projet d’« archives de la parole » date du tout début des enregistrements sonores, au début du XXe siècle, avec la campagne menée par Ferdinand Brunot, mais rapidement s’est posée la question de la conservation des supports analogiques.

L’enregistrement de la langue parlée a aussi eu, dans l’histoire du XXe siècle, une fonction didactique : c’est le cas du corpus dit « Eslo 1 », collecté par une équipe anglaise pour servir de base à l’enseignement du français en Grande-Bretagne, qui a rassemblé un ensemble d’enregistrements de la langue « de tous les jours » dans l’Orléanais du début des années 1970. Après récupération du corpus d’origine, l’idée est venue au Laboratoire Ligérien de Linguistique, basé à Orléans, de mener une nouvelle campagne, trente ans après, afin d’exploiter les deux corpus – baptisés « Eslo 1 » et « Eslo 2 » – de manière diachronique et comparative. Les corpus sont mis à disposition aussi bien sous forme de document audio que de retranscriptions, ce qui autorise une recherche de vocables précis.

Une politique de numérisation

Malgré un manque de légitimité de la linguistique de la langue orale, celle-ci connaît un certain engouement ces dernières années. De nombreux corpus sont construits par différentes équipes de recherche françaises, que le ministère de la Culture et de la Communication veut rassembler dans son programme « Corpus de la parole » afin de garantir leur archivage et de permettre leur accessibilité. Ce programme se décline d’une part en un plan de numérisation des supports analogiques, difficiles à conserver, et d’autre part en un plan de valorisation des corpus dont la publication pose par ailleurs de nombreux problèmes juridiques : la propriété matérielle et intellectuelle des documents, le traitement des données personnelles, la responsabilité des hébergeurs.

Pour prendre le cas le plus litigieux, celui des données personnelles, la gestion des droits sera différente selon la manière dont ont été collectés les corpus. Cela nécessite une interrogation en amont sur la manière dont ont été constitués ces derniers : de manière « sauvage » comme cela se faisait au début des années 1970, ou à travers une observation participante, sous la forme d’entretiens formalisés ? L’anonymisation des données constitue un gros chantier, où il s’agit d’éliminer dans les corpus rendus publics tout ce qui peut permettre d’identifier directement ou indirectement la personne enregistrée, ou ce qui peut lui porter préjudice. D’où la nécessité de traitements spécifiques, aussi bien des fichiers sonores que de leur retranscription.

Les corpus sonores : quels traitements ?

Les documents sonores utilisés dans le cadre de ces corpus sont tous sous format numérique, c’est à dire que leur signal initial (analogique) a été converti en langage binaire afin de pouvoir les manipuler plus aisément grâce aux outils informatiques dont nous disposons aujourd’hui.

Cette conversion du signal est rendue possible grâce à deux paramètres fondamentaux, l’échantillonnage, qui est un relevé de valeurs à intervalles réguliers, et la quantification, qui correspond à la valeur du signal relevé de façon plus ou moins arrondie. Les valeurs choisies pour cet encodage vont déterminer en grande partie la qualité du résultat. Cette conversion du signal peut avoir lieu de façon instantanée, en captant la parole avec par exemple un enregistreur numérique (Eslo2), ou a posteriori en transformant un support dit analogique, comme une bande magnétique (Eslo1) vers un format numérique.

Audacity (logiciel libre et gratuit) est un éditeur audio qui permet d’opérer toutes sortes de manipulations sur ce genre de fichiers audio numériques. Cela va de la simple modification du volume à la découpe du fichier en passant par des traitements divers tels que l’égalisation ou la compression. Il permet également de modifier le type de format en sortie (*.wav, *.mp3, etc.) en fonction de l’usage désiré (diffusion sur le net, archivage, etc.)

Certaines opérations spécifiques à la linguistique nécessitent cependant des outils plus adaptés, comme par exemple le logiciel Praat qui permet un traitement plus efficace de l’anonymisation du contenu en respectant les éléments prosodiques (variations des intonations et du rythme de la voix), chose qui se révèle impossible avec Audacity.