L'Agence nationale de la recherche Des projets pour la science

Translate this page in english

Données, Connaissances, Big data, Contenus multimédias, Intelligence Artificielle (CE23) 2018
Projet ON-TRAC

Outils Neuronaux « End-to-End » pour la TRAduction des Communications

Le projet ON-TRAC propose de changer radicalement les architectures utilisées en traduction de parole actuellement. Il s'appuie sur les modèles neuronaux de type end-to-end pour la traduction automatique et vise plus particulièrement les applications légères et portatives de traduction de la parole qu'Airbus développe pour les opérations de sécurité sur les théâtres d'opération.

Au-delà de l'étude des approches end-to-end s'appuyant sur des couples de langue associés à des données d'apprentissage de taille conséquente, ON-TRAC étudiera le développement de modèles pour des langues orales ou dialectales peu dotées.
Une approche end-to-end de traduction de la parole telle que nous l'envisageons permettrait de revoir la méthodologie de collectes de données pour le développement d'un système de traduction de la parole.
En effet, avec cette approche, une transcription de la langue source devient inutile : le coût de production des données nécessaires à l'apprentissage d'un système de traduction de la parole est donc fortement réduit et le développement d'un tel système pour de nouvelles langues (y compris celles n'ayant pas de système d'écriture) serait facilité et accéléré.
Puisque le projet vise des applications portatives de traduction, ON-TRAC s'intéresse également à l'étude du temps de calcul et de l'empreinte mémoire nécessaires pour la traduction neuronale de la parole.
ON-TRAC permettra le traitement de trois paires de langues distinctes avec un intérêt opérationnel sécurité et défense et un niveau de difficulté croissants (anglais-français ; pashto-français ; tamacheq-français).

Le projet ON-TRAC s'inscrit dans l'axe 4 « Données, Connaissances, Big Data, Contenus multimédias, Intelligence Artificielle » du défi 7 « Société de l'information et de la communication » du plan d'action 2018 de l'ANR.
Par sa thématique scientifique principale dédiée à la traduction de la parole par des approches neuronales end-to-end, il se positionne clairement dans les thèmes ''Des données aux connaissances'' et ''Traitement des contenus multimedia''.

Les technologies développées dans le projet ON-TRAC seront expérimentées sur trois paires de langues, avec le français écrit comme langue cible systématique.
La première paire de langues étudiée sera l'anglais parlé vers le français écrit pour des raisons de simplicité et pour une meilleure perception des phénomènes se manifestant durant la traduction à travers l'analyse des sorties de nos systèmes, l'anglais étant suffisamment maîtrisé par l'ensemble des acteurs du projet.
La langue pashto sera la langue source de la seconde paire de langues. Ce choix est dicté par le fait que le traitement d'un dialecte oral entre dans les objectifs affichés du projet, et par le fait d'un coût de collecte minimisé puisque le consortium dispose déjà d'une centaine d'heures d'enregistrements audio en pashto, avec leurs traductions textuelles en français (ainsi que leur transcription en pashto).
Enfin, la troisième paire de langue aura pour langue source le tamacheq, dialecte oral parlé par les Touaregs dans différentes zones d'intérêt pour le renseignement et la sécurité (Sahel, Niger, Mali, Burkina Faso, Libye...). À ce titre, il revêt un intérêt fort et déjà exprimé par les services d'État concernés.

Partenaires

ADS AIRBUS DEFENCE AND SPACE SAS

LIA Laboratoire Informatique d’Avignon

LIUM LABORATOIRE D'INFORMATIQUE DE L'UNIVERSITE DU MANS (LIUM)

UGA Université Grenoble Alpes

Aide de l'ANR 599 999 euros
Début et durée du projet scientifique - 36 mois

 

Programme ANR : Données, Connaissances, Big data, Contenus multimédias, Intelligence Artificielle (CE23) 2018

Référence projet : ANR-18-CE23-0021

Coordinateur du projet :
Monsieur Yannick Estève (Laboratoire Informatique d’Avignon)

 

Revenir à la page précédente

 

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.