[Journée d’études] Annoter l’oral

Date : 19/11/2021
Lieu : Maison de la Recherche, salle du Conseil, 4 rue des Irlandais, 75005 Paris


Organisée par Lotfi Abouda, Flora Badin (LLL UMR 7270), Florence Lefeuvre (CLESTHIA EA 7345)

Les annotations de corpus écrits axées sur des thématiques linguistiques sont nombreuses et performantes depuis des années (Pour une présentation et une évaluation de certains d’entre eux, cf. par exemple Neves et Seva 2021). En ce qui concerne l’oral spontané, le chemin a été plus long (cf. pour une vue d’ensemble, Bergounioux et al. 2017). Si les corpus oraux ont émergé depuis les années 60-70 (Enquêtes Sociolinguistiques à Orléans Eslo 1, Corpus de Montréal, Valibel), leur mise à disposition n’a été possible que depuis une quinzaine d’années (Eslo 2, CFPQ (Corpus de Français Parlé au Québec), CFPP / CFPB (Corpus de Français parlé parisien / Corpus de Français Parlé à Bruxelles), MPF (Multicultural Paris French), OFROM (Corpus Oral de Français de Suisse Romande), CLAPI (Corpus de LAngue Parlée en Interaction). A partir de ces bases de données orales, plusieurs corpus structurés ont vu le jour : corpus Rhapsodie (Lacheret et al.2014), corpus Orféo (Benzitoun et al.2016), corpus ESLO-MD (Abouda et Skrovec2018). Dépendantes de la constitution de corpus oraux, les annotations de ces corpus (manuelles et automatiques) sont plus récentes. Des annotations en lemmes, catégories grammaticales et fonctions syntaxiques sont nées à partir de différents projets de recherche (Rhapsodie, Orféo). La segmentation en unités est au cœur de ces problématiques (cf Rossi-Gensane et al. 2019 et le projet SegCor). On peut citer également le projet LOCAS-F : un Corpus Oral Multigenres Annoté (Degand et alii 2014), qui propose d’annoter des corpus en fonction de l’unité discursive de base résultant de la corrélation entre unités prosodiques et unités syntaxiques. L’annotateur multi-niveaux DisMo quant à lui permet d’annoter des corpus oraux, il propose un étiquetage morphosyntaxique, une lemmatisation, une détection des unités poly-lexicales, une détection et annotation des phénomènes de disfluence et des marqueurs de discours, ainsi qu’un découpage en unités syntaxiques minimales (cf. Christodoulides et Barreca 2017). Des phénomènes ciblés ont pu être annotés, comme par exemple les «reformulations paraphrastiques» à partir d’un sous-corpus d’Eslo (Eshkol 2015). Des outils se développent pour décrire linguistiquement des corpus oraux, c’est le cas du logiciel TXM (Badin et al.2021). Des logiciels sont déjà spécialisés dans le domaine de l’annotation comme le logiciel ELAN. Recenser ces outils et former les chercheurs à ceux-ci sont des missions du consortium CORLI. On peut citer également la plateforme Ortolang, réservoir de données et d’outils. La journée d’études qui est proposée permettra de faire le point sur des annotations récentes en conviant linguistes et talistes à intervenir afin de croiser les approches. Il s’agira de comparer les types d’annotation selon l’objet linguistique et l’angle privilégié (syntaxique, sémantique, pragmatique (cf. par exemple Degand 2014, Abouda et Skrovec 2017, Lefeuvre 2021),de comparer les outils permettant d’annoter (TXM, le Trameur, ELAN, PRAAT, CLAN, …), de partager les pratiques pour procéder à l’enrichissement de ces corpus.

Télécharger le programme provisoire