Corpus - Corpus, données et outils de la recherche en sciences humaines et sociales

Corpus parallèles en langues himalayennes – HimalCo

Résumé de soumission

Ce projet porte sur la constitution de corpus parallèles pour trois sous-groupes de la famille sino-tibétaine. Il couvre en tout dix langues à tradition orale, jusqu’ici peu décrites. Les corpus seront composés de textes et de données lexicales. Le choix se portera sur des textes dont la trame narrative est similaire (parfois quasi-identique) d’une langue à l’autre, mettant à profit l’existence de récits mythologiques partagés au sein de vastes régions de l’Himalaya. Un ensemble de textes parallèles sera constitué pour chacun des trois sous-groupes de langues étudiés : le kiranti au Népal, le rgyalrong et le naish en Chine. L’alignement des textes entre eux sur la base de leur trame narrative permettra une mise en regard inter-langues des tournures morphosyntaxiques. Entre autres apports pour la recherche, cela mettra en lumière les caractéristiques typologiques de chacun des sous-groupes avec plus de précision qu’il n’est possible d’en obtenir par le biais des élicitations contrôlées couramment utilisées à cette fin, du type Pear Story.
Le projet HimalCo intègre les deux étapes essentielles que sont la collecte de données de première main sur le terrain (au Népal et en Chine) et l’annotation complète de ces données selon les règles de l’art (transcription, gloses, et mise en forme informatique). Les tâches classiques que sont la réalisation de gloses interlinéaires, la traduction multilingue et la synchronisation entre son et annotation seront réalisées selon les méthodes du programme Archivage du LACITO, auquel les participants sont des contributeurs réguliers. Les récits seront en outre organisés en corpus parallèles à l’intérieur de chacun des trois sous-groupes de langues ; les données lexicales formeront partie intégrante de dictionnaires parlants, qui comprendront des enregistrements de mots isolés et de phrases entières. L’équipe du projet, qui comporte une ingénieure spécialiste des nouvelles technologies, créera des interfaces simples pour la consultation des corpus parallèles et des dictionnaires parlants, outils pour la comparaison de données d’une même langue, et de langues d’un même sous-groupe, aussi bien que de langues de sous-groupes différents. Ce projet créera la base empirique solide qui faisait jusqu’ici défaut pour les recherches au sujet de ces langues. L’intégralité des données sera librement disponible en ligne via le programme Archivage du LACITO, dont l’interface sera enrichie pour l’interrogation des textes parallèles et dictionnaires parlants. Ces données objectivement vérifiables pourront être utilisées pour apporter des réponses aux questions aux questionnements les plus divers, à commencer par les problématiques de recherche actuelles en synchronie et diachronie (morphologie comparée, reconstruction d’états anciens de la morphologie en tibéto-birman ; et étude des chemins d’évolution des systèmes morphologiques) pour lesquelles ces langues ont un témoignage crucial à apporter.

Coordination du projet

Guillaume Jacques (Centre de recherches sur l'Asie Orientale) – rgyalrongskad@gmail.com

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

CRLAO-CNRS Centre de recherches sur l'Asie Orientale
LACITO-CNRS Langues et civilisations à tradition orale

Aide de l'ANR 198 000 euros
Début et durée du projet scientifique : décembre 2012 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter