DS0707 - Interactions des mondes physiques, de l'humain et du monde numérique

Analyse syntaxique et expressions polylexicales pour le fran?ais – PARSEME-FR

Résumé de soumission

Le projet PARSEME-FR a pour but d'améliorer la précision linguistique et l'efficacité computationnelle d'applications du traitement automatique des langues (TAL), et en particulier l'analyse syntaxique et ses lens avec l'analyse sémantique. Le projet se concentre sur un des verrous principaux de ces applications: les expressions polylexicales (MWE), i.e. des groupes de mots avec un certain degré d'idiomaticité comme “hot dog”, “to kick the bucket”, “San Francisco 49ers” ou "to take a haircut". Malgré des avancées significatives ces dernières années, l'état-de-l'art concernant les MWE est largement insatisfaisant. Les travaux actuels sur ces expressions se concentrent essentiellement sur la création de lexiques ou sur leur reconnaissance automatique dans des textes. Seules quelques approches ont cherché à créer un lien entre expressions polylexicales et analyse profonde automatique de textes. Ces approches confirment qu'un traitement approprié des MWEs améliore à la fois la précision linguistique et la robustesse. Cependant, elles sont principalement limitées à quelques classes de MWEs et à l'analyse syntaxique. Cet état insatisfaisant est principalement du au manque de ressources linguistiques incluant des informations profondes sur les MWEs qui alimenteraient les analyseurs linguistiques. En Français, de telles ressources existent mais elles sont incomplètes en termes de représentation syntaxique et sémantique, de couverture et/ou d'adéquation avec les outils du TAL.
Dans ce projet, nous proposons de combler ces lacunes en étudiant à la fois la représentation syntaxique et sémantique des expressions polylexicales dans les ressources linguistiques utilisables en TAL, ainsi que l'intégration de l'analyse des MWE dans des analyseurs syntaxiques et ses liens avec l'analyse sémantique et pragmatique. Les délivrables attendus incluent des ressources linguistiques améliorées (lexiques, grammaires, corpus annotés), des analyseurs syntaxiques (profonds) et des outils liant les MWEs reconnus à des connaissances linguistiques ou du monde. Cette proposition est une spin-off nationale de l'action européenne COST IC1207 PARSEME sur le même sujet.

Mathieu CONSTANT (CNRS DR CENTRE EST)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LLF Laboratoire de Linguistique Formelle
CNRS DR CENTRE EST
LIF Laboratoire d'Informatique Fondamentale de Marseille
LIFO Laboratoire d'Informatique Fondamentale d'Orléans
Inria Paris - Rocquencourt Centre Inria Paris - Rocquencourt
LI Laboratoire d’Informatique de l’Université de Tours
LIGM Laboratoire d'informatique Gaspard-Monge

Aide de l'ANR 732 025 euros
Début et durée du projet scientifique : décembre 2015 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.