L'Agence nationale de la recherche Des projets pour la science

Translate this page in english

Appel à projets générique 2016 - DFG (ANR-DFG) 2016
Projet PLUMCOT

Identification non-supervisée des personnages de films et séries télévisées

L'identification automatique des personnages dans les documents multimédias est un problème très difficile. L'identité des personnes peut constituer les fondations pour de nombreuses tâches d'analyse vidéo de plus haut niveau, telles que l'indexation sémantique, la recherche d'information ou le résumé automatique de vidéo.

L'objectif du projet et d'exploiter l'information textuelle, acoustique et visuelle pour identifier automatiquement les personnages de films et séries télévisées sans avoir recours à des annotations manuelles pour entraîner des modèles biométriques préalables. Une approche complètement automatique et non supervisée est particulièrement intéressante étant donnée la gigantesque quantité de données multimédia disponible autour de ce type de contenu. Texte, audio et vidéo fournissent des indices complémentaires quant à l'identité d'une personne.

Nous traiterons trois principales questions : la classification non supervisée des tours de parole et des pistes de visage afin de les regrouper par personne sans utilisation d'étiquettes préalables ; l'identification non supervisée par propagation des étiquettes obtenues automatiquement à partir des différentes sources d'information (sous-titre ou transcription) ; et la fusion multimodale des indices acoustiques, visuels et textuels à différents niveaux de la chaîne de traitement.

Bien qu'il existe de nombreuses approches génériques pour la classification non supervisée, celles-ci ne sont pas adaptées aux données hétérogènes et ne sont pas aussi performantes quand il s'agit de traiter des données difficiles telles que les séries télévisées et les films. Notre approche consiste donc à sur-segmenter les groupes de façon à ce qu'ils restent purs, avant d'assigner les noms à chacun de ces groupes. Nous anticipons que le traitement conjoint des différentes modalités permettra d'améliorer la performance de chacune de ces modalités prises séparément.

L'identification non supervisée consiste à assigner des noms de personnages à ces groupes de façon automatique (c'est-à-dire en n'utilisant que les informations extraites des flux acoustiques et visuels). Dans les films et les séries télévisées, les noms des personnages sont généralement prononcés et répétés tout au long de la vidéo. Nous détecterons les relations locuteurs/destinataires à la fois dans les transcriptions de la parole (via des techniques de traitement automatique de la langue) et dans le flux visuels (mouvement des lèvres, direction du regards, etc.). Ceci permettra d'assigner des noms à certains groupes, d'entraîner des modèles discriminants et ainsi d'assigner ces noms aux groupes restants.

Pour l'évaluation, nous étendrons un corpus existant de quatre séries télévisées (57 épisodes) et une série de huit films, représentant un total de 50 heures de vidéos. Nous évaluerons les différentes étapes du projet sur ce corpus et rendrons publiques nos annotations.

Partenaires

KIT Karlsruhe Institute of Technology

LIMSI Laboratoire d'Information pour la Mécanique et les Sciences de l'Ingénieur

Aide de l'ANR 219 532 euros
Début et durée du projet scientifique mars 2017 - 36 mois

 

Programme ANR : Appel à projets générique 2016 - DFG (ANR-DFG) 2016

Référence projet : ANR-16-CE92-0025

Coordinateur du projet :
Monsieur Hervé BREDIN (Laboratoire d'Information pour la Mécanique et les Sciences de l'Ingénieur)

 

Revenir à la page précédente

 

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.