DS0708 - Données massives, connaissances, décision, calcul haute performance et simulation numérique

Recherche d’Information Agrégative et Contextuelle – CAIR

Résumé de soumission

Les objectifs du projet CAIR s’inscrivent dans le cadre de la gestion de données et portent sur la recherche et l’organisation intelligible des résultats retournés en réponse à des requêtes. Ils rentrent précisément dans cette lignée de technologies mises en exergue par Serge Abiteboul dans sa leçon inaugurale à l’Académie des Sciences, «il faut développer des technologies permettant d’évaluer, de valider, de hiérarchiser et d’organiser de façon intelligente et intelligible les informations». Le projet CAIR s’intéresse à des requêtes particulières, dites agrégatives, dont le résultat est obtenu en exécutant une chaîne complexe d’opérations pour assembler des fragments d’informations pertinents, chacun contribuant partiellement à la réponse mais l’ensemble constitue une réponse complète. L’agrégation vise donc à sélectionner et intégrer des fragments d’informations en un objet plus riche, porteur de connaissances nouvelles sur un sujet ou un évènement. Ces requêtes recherchent des objets qui n’existent pas en tant que tels dans les sources, mais sont construits par assemblage de fragments. Ce type de besoin est répandu, en particulier dans des tâches à visée analytique telles que l’analyse d’opinions, l’analyse de tendances, la comparaison de produits, l’analyse de risques, le résumé d’évènements. Il faut noter que certains systèmes spécialisés, comme les systèmes bibliométriques, offrent des réponses agrégatives proches de celles visées par ces requêtes, dans le sens où, en complément de la liste des publications d’un individu, ces systèmes produisent en plus une information analytique sur le taux de référencement de chaque publication, les indicateurs de type h-index, les co-auteurs. A titre indicatif mais non exhaustif, nous visons à produire des algorithmes, des modèles pour répondre aux types de besoins suivants:
? requête analytique : requête de type OLAP, produisant des valeurs numériques résultant d’une analyse de sources documentaires (ex: h-index, nombre de livres consultés, …),
?requête entité : requête explorant un ensemble de sources de données pour extraire les éléments saillants concernant un individu (ex. un homme politique, un scientifique), un phénomène (ex: réchauffement climatique) ou une entité concrète ou abstraite (caractéristiques d’un modèle de Smartphone),
?requête résumé: requête explorant un ensemble de sources pour extraire en substance “ce qui se dit” à propos d’un personnage, d’un objet ou d’un évènement (ex: extraire des blogs ce qui se dit sur le mariage mixte, analyser les tweets pour suivre une rumeur).
Nous nous focaliserons sur deux défis fondamentaux. Le premier est sémantique, il concerne à la fois l’interprétation de la requête, les problématiques sont relatives au “vocabulary mismatch” et la capture de l’intention de l’utilisateur, et aussi à la qualification des résultats produits par rapport à la requête de l’utilisateur. Le second défi est calculatoire, il est relatif au problème combinatoire dans le choix des fragments et dans les multiples façons de les agréger.

Les résultats escomptés dans le projet sont de trois ordres
?Méthodologiques: Il s’agit d’élaborer un workflow (les différentes tâches, leur agencement dans le temps et les contraintes sous-jacentes) de référence pour réaliser l’évaluation d’une requête agrégative depuis son entrée dans le système jusqu’à la restitution des réponses.
?Algorithmiques: Nous produirons des algorithmes d’analyse et d’enrichissement de requêtes en tenant compte du contexte et des préférences de l’utilisateur, des algorithmes de décomposition de requête, des opérateurs d’agrégation selon le type de données visées. Nous travaillerons à la définition d’un modèle formel pour la mesure de pertinence de l’agrégat et des métriques pour l’évaluation de la qualité du résultat.
?Expérimentaux: nous produirons des bancs d’essais (des données et des requêtes types.) pour tester l’efficacité de nos algorithmes. Nous mettrons tous ces outils en open source.

Mohand Boughanem (Université Toulouse III [Paul Sabatier]-IRIT)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

TSP-SAMOVAR Télécom SudParis laboratoire SAMOVAR
LAMSADE Laboratoire d'Analyse et Modélisation de Systèmes pour l'Aide à la DEcision
PRiSM Laboratoire d'informatique
LIRIS Laboratoire d'InfoRmatique en Image et Systèmes d'information
UT3-IRIT (UMR5505) Université Toulouse III [Paul Sabatier]-IRIT

Aide de l'ANR 490 192 euros
Début et durée du projet scientifique : septembre 2014 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.