DS0704 -

Modèles Avancés pour le Traitement Sémantique Multilingue – MULTISEM

Résumé de soumission

Le projet MultiSem a pour objectif de développer des modèles innovants pour le traitement sémantique multilingue. Les modèles actuels emploient des techniques robustes issues de l'apprentissage automatique qui, tout en permettant de traiter de grands volumes de données, restent insensibles aux spécificités des langues. Les méthodes de sémantique computationnelle peinent, quant à elles, à être utilisées dans les systèmes de traitement automatique des langues, principalement parce qu'elles sont destinées à traiter de petits échantillons lexicaux et ne passent pas à l'échelle. Au final les interactions entre ces deux disciplines restent limitées. En ce moment où le traitement multilingue et la recherche en sémantique occupe à nouveau le devant de la scène, MultiSem vise à combler cette lacune en combinant l'efficacité des approches d'analyse sémantique état-de-l'art avec des représentations sémantiques fondées linguistiquement.

La principale nouveauté des modèles proposés dans MultiSem est qu'ils seront capables d'adapter le traitement à des unités lexicales et des textes de types variés, s'inspirant en cela de conclusions sur l'organisation des informations sémantiques dans le lexique mental et sur le rôle du contexte dans l'activation du sens. Il a en effet été démontré qu'au lieu de considérer toutes les interprétations possibles pour des mots en contexte, les bilingues et les traducteurs humains restreignent leur choix à des sens spécifiques basés sur le contexte de communication, le domaine et le sujet des textes traités, et ne procèdent à un filtrage plus fin que si nécessaire. Les modèles de traitement sémantique développés dans MultiSem vont alors adapter le traitement aux besoins de désambiguïsation d'unités lexicales et de contextes différents. Pour atteindre cet objectif ambitieux, nous allons combiner des représentations continues et des modèles thématiques, avec des modèles vectoriels traditionnels de résolution de l'ambiguïté. La sélection de la représentation optimale sera guidée par les résultats du mécanisme de détection du type d'ambiguïté, et des modèles thématiques et d'identification du genre textuel. Ces paramètres n'ont pas été exploités jusqu'ici, en faveur de modèles qui adoptent une approche uniforme (à base de thèmes ou effectuant des distinctions de granularité fine) pour traiter des mots et de textes différents. Cela est largement dû à la difficulté d'identifier les besoins de désambiguïsation des mots et des textes, un défi que MultiSem a l'intention de relever.

Nos modèles seront principalement dirigés par les données et enrichis par des connaissances provenant de ressources sémantiques à grande échelle. La combinaison de techniques de résolution d'ambiguïté à haut niveau (modèles thématiques et réseaux de neurones) avec des modèles de granularité fine (basés sur des vecteurs), et l'exploitation des connaissances disponibles dans ces ressources vont améliorer les capacités descriptives et de traitement des modèles développés. La recherche qui sera menée dans MultiSem renouvellera donc les perspectives scientifiques en TAL multilingue, mais aussi en linguistique et en sémantique grâce aux connaissances extraites de grands volumes de données. Les modèles de désambiguïsation à plusieurs niveaux seront également exploités pour améliorer la sélection lexicale dans des applications de traduction. Les erreurs lexicales
constituent la source principale d'erreurs dans les traductions produites automatiquement et pourraient être évitées si les systèmes de traduction étaient capables d'identifier le sens des mots dans les textes à traduire. En améliorant la qualité des traductions générées, MultiSem améliorera l'expérience de nombreux utilisateurs de systèmes de traduction automatique et aura par conséquent un impact social important étant donné la demande pressante pour le traitement de haute qualité de grandes volumes de données.

Marianna Apidianaki (Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LIMSI Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur

Aide de l'ANR 255 611 euros
Début et durée du projet scientifique : février 2017 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.