Blanc SIMI 2 - Sciences de l'information, de la matière et de l'ingénierie : Sciences de l’information, simulation

Classification Dans un Très Grand Nombre de Catégories – Class-Y

Résumé de soumission

L’apprentissage statistique s’est imposé en quelques années comme une technologie clé pour le traitement et l’analyse des grandes masses de données, qu’elles proviennent de bases d’entreprises ou de données diffusées sur le web. Parallèlement, la croissance des données, leur complexification, la multiplication des besoins génèrent quantité de nouveaux problèmes de traitement de données et font exploser le cadre classique de l’apprentissage qui se trouve actuellement devant un ensemble de défis fondamentaux.
Par exemple, de nombreuses applications requièrent de la classification avec des dizaines de milliers de classes et il n’existe aujourd’hui aucune réponse à ce saut qualitatif des besoins. La recherche dans ce domaine en est encore à un stade préliminaire. Une des raisons est que les principes fondamentaux utilisés sont principalement hérités de modèles développés pour des problèmes de reconnaissance des formes simples avec un faible nombre de catégories sans relations entre elles. Les modèles les plus sophistiqués considèrent des taxonomies de catégories qui sont loin de refléter la nature et la complexité des problèmes de classification rencontrés actuellement.
Nous proposons dans ce projet un travail fondamental sur la classification avec un très grand nombre de classes. Il s’agit de revisiter les bases et les algorithmes du domaine, d’étudier et de développer un ensemble de nouvelles méthodes permettant d’arriver à des algorithmes réellement opérationnels. La cible est le traitement de grands corpus de données à contenu sémantique. Ce travail sera couplé à un travail expérimental conduit dans le cadre d’un challenge international sur des données de très grande taille, organisé par les partenaires du projet.
Les challenges majeurs sont :
- la mise au point d’algorithmes capables de passer à l’échelle sur de très grandes quantités de catégories. Par exemple DMOZ un des gros repository du web, contient plus de 600 000 catégories.
- La prise en compte de relations complexes entre ces catégories. Par exemple, l’encyclopédie en ligne Wikipedia a plus de 20000 catégories reliées les unes aux autres par différents types de relations.

On retrouve ces challenges dans un grand nombre de domaines d’application comme :

• le filtrage et classification de données sémantiques
• l’annotation d’objets multimédia
• les moteurs de recherche
• la recommandation en linge
• le ciblage de publicité

Pour relever les défis de la classification dans un grand nombre de catégories, le projet propose d’explorer des solutions dans trois familles d’approches :
- Les modèles dits « Big Bang » qui traitent le problème sans exploiter l’information structurelle ou relationnelle inter-classes. Il s’agit ici de concevoir des méthodes parcimonieuses, efficaces en classigfication.
- Les méthodes dites « Top Down » qui exploitent une taxonomie de classes ou concepts pré-existante. Les buts sont d’une part de développer des méthodes capables de déterminer les cascades optimales de classifieurs à partir d’une hiérarchie donnée, et de proposer des classifieurs hiérarchiques performants et rapides d’autre part.
- Les modèles qui infèrent automatiquement les relations entre classes à partir des données sans utiliser de connaissance a priori. Cette problématique très prospective vise à apprendre la structure des classes à partir des données et permet de traiter des situations dans lesquelles les catégories ne sont pas structurées (e.g. tags d’annotation).

Enfin, le projet propose une tâche d’évaluation sur deux très grands corpus représentatifs de ces différentes situations. Elle fera l’objet d’une proposition de challenge international.

Thierry ARTIERES (UNIVERSITE PARIS VI [PIERRE ET MARIE CURIE]) – thierry.artieres@lip6.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LIP6-UPMC UNIVERSITE PARIS VI [PIERRE ET MARIE CURIE]
LIG UNIVERSITE GRENOBLE I [Joseph Fourier]

Aide de l'ANR 406 839 euros
Début et durée du projet scientifique : - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.