Blanc SHS 2 - Blanc - SHS 2 - Développement humain et cognition, langage et communication

Constitution de Corpus Oraux pour des recherches Typologiques – CORTYPO

Résumé de soumission

Bien qu’il existe un certain nombre de projets impliquant des corpus, dans des langues diverses y compris des langues peu décrites, il n’y a eu que peu de tentatives consistant à rendre ces corpus exploitables pour des recherches typologiques (et en général comparatives). Des solutions informatiques permettant l’interopérabilité des formats et les conversions de fichiers existent, ce qui permet que techniquement ces corpus soient rassemblés dans un ensemble plus large, potentiellement moissonable. Mais ces solutions n’auront de conséquences que si l’interopérabilité se fait sur le plan linguistique également. Or les schémas linguistiques d’annotation sont diversifiés, peu explicites et manquent de transparence.
Le projet CORTYPO vise à lever ce verrou, en testant des schémas d’annotation innovants sur des langues variées appartenant à plusieurs familles linguistiques, et en créant les conditions d’une future convergence dans l’annotation des corpus oraux dans des langues peu décrites.

Afin d’atteindre cet objectif, un certain nombre de questions fondamentales d’ordre théorique, concernant les formes et les fonctions dans les langues, doivent être résolues. Par exemple, quel type d’appareil théorique est requis pour permettre la comparaison de langues déployant des moyens de codage formels différents, et des fonctions différentes.
En implémentant ces solutions théoriques dans la conception technique de corpus et de bases de données, CORTYPO pose les bases d’une démarche comparative fondée sur l’évaluation empirique et la falsification des hypothèses sous-tendant l’analyse des phénomènes considérés. Par les solutions qu’il propose au problème de l’interopérabilité linguistique, il ouvre la voie vers un travail à grande échelle de comparaison typologique, fondée sur des données de première main.

La dimension innovante du projet est double :
(1) elle réside dans l’annotation de textes indexés au son, fondée sur les moyens formels existant dans la langue considérée, y compris les moyens prosodiques, les ordres linéaires, et les changements phonologiques et morphologiques permettant la détermination d’unités syntaxiques et fonctionnelles dans la langue en question ;
(2) elle est également présente dans l’élaboration d’une base de données fonctionnelle reliée au corpus. La base de données contiendra des informations complexes concernant les fonctions grammaticalisées dans chaque langue, et les formes qui encodent ces fonctions. La base de données sera reliée au corpus à travers un moteur d’interrogation, de manière que les formes, et en dernière instance les exemples contextualisés, soient recouvrables.
L’ensemble constitué du corpus et de la table fonctionnelle de la base de données sera complété par une table des catégories linguistiques qui fournira les informations terminologiques et les définitions de toutes les entrées du corpus et de la base de données fonctionnelle. Cette table garantira la transparence et la réplicabilité des analyses, et constituera un réservoir d’entrées pour le registre ISOcat, à laquelle elle sera interfacée.

Les livrables du projet constituent une solution pilote pour l’élaboration d’une comparaison typologique fondée sur des données empiriques provenant de langues très diverses.

Coordination du projet

Amina METTOUCHI (Langage, Langues et Cultures d'Afrique Noire (LLACAN)) – mettouchi@vjf.cnrs.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LLACAN Langage, Langues et Cultures d'Afrique Noire (LLACAN)

Aide de l'ANR 229 992 euros
Début et durée du projet scientifique : février 2013 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter