L'Agence nationale de la recherche Des projets pour la science

Translate this page in english

Corpus, données et outils de la recherche en sciences humaines et sociales (Corpus) 2012
Projet ORFEO

Outils et Recherches sur le Français Écrit et Oral

Au cours des vingt dernières années, la linguistique de corpus s'est développée grâce à la constitution de corpus dits de référence (The Routledge Handbook of Corpus Linguistics 2010 en relève plus de 126) et a bouleversé le domaine des sciences du langage et du traitement automatique des langues. Ce développement recouvre des enjeux importants. En linguistique théorique, le cadre qui sous-tend les études sur corpus est celui de la grammaire “basée sur l'usage” qui refuse la conception d'une grammaire unique pour une langue pour y substituer celle de “grammaires multiples” rendant compte des usages observés dans des usages écrits et oraux diversifiés en fonction de situations de production. En traitement automatique, la traduction de l'orientation précédente est qu'il n'est pas raisonnable de penser qu'un outil générique transgenre puisse permettre une reconnaissance automatique performante d'usages différents par leurs conditions de production. Les outils de TAL, à l'instar des locuteurs, doivent s'adapter en termes de lexique et de grammaire à la diversité des usages. Dans ce panorama, la France occupe une place particulière. Elle s'est dotée récemment d'une infrastructure numérique, le TGE Adonis dont l'objectif est de mutualiser ressources, standards technologies et préservation des données dans les Sciences Humaines en collaboration avec le réseau des centres de gestion de ressources et de technologies linguistiques CLARIN, mais ne possède aucun corpus de référence aux standard internationaux. Il n'est pas réaliste, pour des raisons politiques et financières, de le construire dans le cadre d'une ANR. Le projet ORFEO propose une solution alternative : la constitution d'un Corpus d'Etude pour le Français Contemporain : CEFC.
Nous proposons donc de :
1. Moissonner les corpus existants en libre accès en accord avec les concepteurs initiaux.
2. Collecter les données pour les genres non représentés afin de rassembler un corpus échantillonné en genres, pour un total de 15 M. de mots (Une tranche d'oral et quatre tranches d'écrit) couvrant l'essentiel des usages de français contemporain oral et écrit : formel/informel, monologue/conversationnel.
3. Constituer une plate–forme d'accès des données et des méta-données rassemblées en accord avec la protection des ayants droits et les conditions juridiques d'exploitation souhaitées par les auteurs.
3. Garantir la conservation pérenne des documents, en déposant les corpus annotés dans des centres de ressources numériques (CNRTL, SLDR, ou le futur Equipex déposé par leurs laboratoires supports en lien avec Paris Ouest et l'université d'Orléans).
4. Annoter automatiquement l'ensemble du corpus en portant une attention particulière à l'adaptation des outils aux différents genres. Les différentes couches d’annotations s’appuieront sur les expériences pilotes des projets ANR Rhapsodie (annotation prosodique et macrosyntaxique) et Annodis (annotation discursive) et sur un processus d’apprentissage actif permettant un passage à l’échelle. L'oral fera l'objet d'une chaîne de traitement original avec prise en compte de la prosodie et schéma d'annotation syntaxique adapté. Les outils de requêtes et d'analyse open source seront mis à disposition sur la plate-forme de façon à permettre aux utilisateurs de développer les analyses de leur choix.
5. Proposer des études pilotes dans des domaines tels les effets de listes, les marqueurs d'attitudes, les faits de clause combining pour lesquels les analyses seront menées selon une approche constructionnelle prenant en compte les propriétés de formes et de signification des unités langagières. Cette démarche permettra aux différents spécialistes de syntaxe, de prosodie, d'analyse de discours, d'analyse de l'interaction et de la coréférence impliqués dans le projet de travailler en collaboration sur les mêmes objets d'étude et de produire les premiers chapitres d'une grammaire des usages du français contemporain.

Partenaires

ATILF Analyse et Traitement Informatique de la Langue Française

CLLE- ERSS COGNITION LANGUES LANGAGE ERGONOMIE Equipe de Recherche en syntaxe et en sémantique

ICAR Interactions, Corpus, Apprentissages, Représentations

LATTICE Langues, Textes, Traitements informatiques, Cognition

LIF Laboratoire d'Informatique Fondamentale

LORIA Laboratoire Lorrain de Recherche en Informatique et ses Applications

MoDyCo Modèle,s Dynamiques, Corpus

Aide de l'ANR 367 432 euros
Début et durée du projet scientifique février 2013 - 36 mois

 

Programme ANR : Corpus, données et outils de la recherche en sciences humaines et sociales (Corpus) 2012

Référence projet : ANR-12-CORP-0005

Coordinateur du projet :
Madame Jeanne-Marie DEBAISIEUX (Langues, Textes, Traitements informatiques, Cognition)
jeanne-marie.debaisieux@nulluniv-paris3.fr

 

Revenir à la page précédente

 

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.