Projet SegCor (Segmentation de corpus oraux ) | ANR - Agence Nationale de la Recherche Projet ANR | ANR - Agence Nationale de la Recherche

L'Agence nationale de la recherche Des projets pour la science

Translate this page in english

Programme franco-allemand en Sciences humaines et sociales (FRAL) 2015
Projet SegCor

Segmentation de corpus oraux

Bien qu’une grande variété de systèmes de segmentation aient été élaborés et discutés depuis le début de la recherche sur la parole-en-interaction, tous les problèmes n’ont pas été résolus. Il manque encore un système opérationnel et utilisable, basé sur une analyse approfondie de la construction de l’interaction qui permette d’exploiter les corpus d’interaction existants. Pour cette raison notre projet a pour but de développer une méthode de segmentation, utilisable pour l ‘analyse de la parole-en-interaction sur différents niveaux et pour différentes communautés de chercheurs. Il se base sur de vastes collections d’enregistrements audio et vidéo de différents types d’interaction en Français et en Allemand (les banques de données CLAPI, ESLO et FOLK) ainsi que sur les différentes approches de segmentation décrites en analyse conversationnelle, linguistique interactionnelle, pragmatique et linguistique de corpus. Le projet est la première approche de la segmentation qui part d’une base empirique suffisamment large et diversifiée et qui, en même temps, prend en compte la dimension cross-linguistique. Les résultats du projet permettront non seulement une meilleure utilisation des trois banques de données, mais aussi une élaboration de bonnes pratiques pour corpus oraux dans un sens plus large. Les résultats contribuent à l’analyse des structures de la parole-en-interaction, à l’enseignement, à l’analyse contrastive allemand-français et au développement des technologies linguistiques pour des données d’interaction.
Le projet s’appuie sur deux méthodologies différentes : 1) une approche qualitative et multidimensionnelle qui prend en compte différents indices, problèmes et critères de segmentation qui seront testés et approuvés afin d’établir des guidelines de segmentation et 2) une approche quantitative et unidimensionnelle, basée sur certains critères, où des frontières possibles seront identifiées automatiquement et classées par des annotateurs en fonction de leur pertinence pour la segmentation. Les deux approches utilisent un corpus pilote de 10 extraits pour chaque langue de 10 minutes chacun qui est représentatif pour la diversité des types de situations des trois banques de données. Dans une seconde phase, le corpus sera étendu à cinq heures et prendra en compte les résultats de la phase initiale.
Dès le début, les aspects contrastifs seront pris en compte.
okokokokok

Partenaires

ENS Lyon, ICAR ENS de Lyon - laboratoire ICAR

Institut für Deutsche Sprache, Mannheim Institut für Deutsche Sprache, Mannheim

Université d'Orléans-CNRS, LLL Université d'Orléans-CNRS, Laboratoire Ligérien de Linguistique

Aide de l'ANR 246 330 euros
Début et durée du projet scientifique janvier 2016 - 36 mois

 

Programme ANR : Programme franco-allemand en Sciences humaines et sociales (FRAL) 2015

Référence projet : ANR-15-FRAL-0004

Coordinateur du projet :
Madame Véronique Traverso (ENS de Lyon - laboratoire ICAR)

 

Revenir à la page précédente

 

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.