L'Agence nationale de la recherche Des projets pour la science

Translate this page in english

Blanc - SIMI 2 - Science informatique et applications (Blanc SIMI 2)
Edition 2012


ContNomina


Exploitation du contexte pour la reconnaissance de noms propres dans les documents diachroniques audio

Exploitation du contexte pour la reconnaissance de noms propres dans les documents diachroniques audio
 Dans le cadre des données diachroniques (qui évoluent dans le temps) de nouveaux noms propres apparaissent continuellement ce qui nécessite de gérer dynamiquement les lexiques et modèles de langage utilisés par le système de reconnaissance de la parole.
 En conséquence, le projet ContNomina se concentre sur le problème des noms propres dans les systèmes de traitement automatique des contenus audio en exploitant au mieux le contexte des documents traités.

Exploitation du contexte pour la reconnaissance de noms propres dans les documents diachroniques audio
Le traitement automatique de données diachroniques est un sujet qui a suscité de très nombreuses études ces dernières années, dans des contextes scientifiques et applicatifs très variés. Une des raisons majeures de cet intérêt est lié au développement des médias « low cost » et des cycles de diffusion de l'information que l'internet et les TV numériques ont considérablement raccourcis [Lindmark, 09, Turlea, 11].
Cette multiplication des sources d'information et le développement des modes de diffusion rapide a fait émerger le besoin d'outils de structuration et de recherche d'information. En particulier, les activités de veille, de supervision ou d'analyse de l'ensemble de ces flux ne peuvent se faire que par l'utilisation de logiciels capables d'extraire les contenus et d'évaluer leur intérêt dans le contexte applicatif visé.
Les technologies impliquées dans ce type d'applications reposent le plus souvent sur l'analyse de grands corpus fermés et sur des techniques d'apprentissage automatique et de modélisation statistique du langage écrit ou oral. L'efficacité de ces approches est maintenant unanimement reconnue mais elles présentent néanmoins des défauts majeurs, en particulier pour la prise en charge des néologismes et des noms propres, deux types d'entrées qui sont cruciales pour l'interprétation des contenus mais qu'il est extrêmement difficile de modéliser par une analyse sur des corpus fermés.
ContNomina se concentre sur la problématique des noms propres dans les systèmes de traitement des contenus audio, notamment pour la constitution de grands lexiques de noms propres, la modélisation contextualisée et l'intégration de ces modèles dans les systèmes d'extraction et d'analyse des contenus.

Exploitation du contexte pour la reconnaissance de noms propres dans les documents diachroniques audio
La tâche 2 dédiée à la modélisation du contexte, et aux liens entre vocabulaire (en particulier noms propres) et contextes.

La tâche 3 dédiée à la contextualisation de la reconnaissance de la parole, c'est-à-dire à la prise en compte des estimations de contexte dans le décodage, et à l'augmentation associée des lexiques et des modèles de langage.

Résultats

en cours

Perspectives

en cours

Productions scientifiques et brevets

D. Fohr, O. Mella «Combination of Random Indexing based Language Model and N-gram Language Model for Speech recognition«, Interspeech 2013
A. Lorenzo, C. Cerisara « Weakly supervised joint SRL and Dependency Parsing » soumis à l'EMNLP 2013

Partenaires

LORIA LABORATOIRE LORRAIN DE RECHERCHE EN INFORMATIQUE ET SES APPLICATIONS

LIA LIA

Aide de l'ANR 317 117 euros
Début et durée février 2013 - 42 mois

Résumé de soumission

Les technologies impliquées dans la recherche d’informations dans de grandes bases de données audio/vidéo reposent le plus souvent sur l'analyse de grands corpus fermés et sur des techniques d'apprentissage automatique et de modélisation statistique du langage écrit ou oral. L'efficacité de ces approches est maintenant unanimement reconnue mais elles présentent néanmoins des défauts majeurs, en particulier pour la prise en charge des néologismes et des noms propres, deux types d'entrées qui sont cruciales pour l'interprétation des contenus mais qu'il est extrêmement difficile de modéliser par une analyse sur des corpus fermés.
Dans le cadre des données diachroniques (qui évoluent dans le temps) de nouveaux noms propres apparaissent continuellement ce qui nécessite de gérer dynamiquement les lexiques et modèles de langage utilisés par le système de reconnaissance de la parole.
En conséquence, le projet ContNomina se concentre sur le problème des noms propres dans les systèmes de traitement automatique des contenus audio en exploitant au mieux le contexte des documents traités. Pour ce faire, le projet s’intéressera
· à la modélisation statistique des contextes et des liens entre contextes et noms propres ;
· à la contextualisation de la reconnaissance à travers l’ajustement dynamique du lexique et du modèle de langage, de manière à les rendre plus précis, et surtout plus pertinents du point de vue de la couverture lexicale, en particulier en ce qui concerne les noms propres ;
· à la détection des noms propres, d’une part dans les documents textuels pour la constitution de liste de noms propres, d’autre part dans les sorties du système de reconnaissance pour identifier les noms propres prononcés dans les documents audio/vidéo.
Les ressources développées lors de ce projet seront accessibles à la communauté scientifique. Il s’agira d’un lexique de noms propres phonétisés (actuellement un tel lexique n’est pas disponible en Français) et d’annotations d’un corpus audio/vidéo.
Un démonstrateur WEB sera mis en œuvre pour valider les avancées développées dans le cadre du projet.

 

Programme ANR : Blanc - SIMI 2 - Science informatique et applications (Blanc SIMI 2) 2012

Référence projet : ANR-12-BS02-0009

Coordinateur du projet :
Madame Irina ILLINA (LABORATOIRE LORRAIN DE RECHERCHE EN INFORMATIQUE ET SES APPLICATIONS)
illina@nullloria.fr

Site internet du projet : https://wiki.inria.fr/contNomina/Accueil

 

Revenir à la page précédente

 

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.