L'Agence nationale de la recherche Des projets pour la science

Translate this page in english

Interactions humain-machine, objets connectés, contenus numériques, données massives et connaissance (DS0707) 2015
Projet ASRAEL

Acquisition de Schémas pour la Reconnaissance et l’Annotation d’Événements Liés (ASRAEL)

La Société de l’information et de la communication a conduit à la production et la mise à disposition d’un très large ensemble de contenus. Néanmoins, ces contenus sont pour l’essentiel non structurés (textes, images, vidéos) et la promesse d’un Web des connaissances et des données ne s’est ainsi pas vraiment concrétisée jusqu’à récemment. Si la mise à disposition des données structurées progresse (par exemple, les statistiques économiques ou démographiques, ou des ressources telles que DBpédia, ou les infoboxes de Wikipédia), ce n'est pas le cas des connaissances exprimées sous une forme textuelle. Parmi les connaissances touchées par ce manque, celles relatives aux événements offrent un intérêt particulier du fait du développement du journalisme de données. Celui-ci s’est jusqu’à présent beaucoup nourri de données statistiques publiques mais n’a paradoxalement qu’assez peu exploité la matière éminemment journalistique que constituent les événements. Le projet ASRAEL vise à combler ce manque.
Pour ce faire, notre proposition s’inscrit dans le cadre scientifique général de l’extraction d’information (EI). Notre but est plus précisément d’extraire l’ensemble des événements apparaissant dans un large ensemble de textes, sans a priori sur leur type et sans connaître à l'avance les schémas et les rôles associés, afin de peupler une base de connaissances événementielles servant de support à un moteur de recherche spécifiquement dédié à la recherche des événements et des informations les caractérisant.

La représentation générique d’un événement se fonde sur la règle des “cinq W” - What, Who, Where, When and Why - prévalant dans l’écriture des articles journalistiques “à l’anglo-saxonne” et stipulant qu’une bonne description d’un événement doit obligatoirement expliciter chacune de ces cinq informations.
Dans le domaine de l’extraction automatique d’information, les informations "qui", "où" et "quand" sont collectées grâce à un étiquetage traditionnel en entités nommées, d’usage relativement générique (c’est-à-dire utilisable en domaine général) ; le "quoi" est en revanche une information très dépendante du domaine traité. Ceci explique que les systèmes d’EI traditionnels s’appuient sur des schémas définis a priori par des experts pour identifier les instances d’événements dans les textes, que ce soit à l'aide de règles ou de modèles statistiques. En revanche, dans le domaine général, où le très grand nombre d’événements possibles interdit la définition manuelle de ces schémas, des méthodes de recherche d'information de type “sac de mots” prennent le relais mais ne fournissent pas, du fait de leur manque de finesse, une réponse sous une forme structurée.

Afin de prendre en compte ce problème, les partenaires proposent dans ce projet :
- de découvrir automatiquement, de façon totalement non supervisée et donc sans aucune connaissance a priori sur les thèmes traités, des schémas d'événements et leurs caractéristiques spécifiques dans un large corpus de textes. Le niveau de généricité du problème ainsi traité rend nécessaire cette absence de supervision ;
- de nommer, toujours sans supervision, les schémas et les rôles ainsi découvert, dans le but de construire, structurer et remplir une base de connaissance dédiée aux événements. Le nommage est indispensable dans le but de permettre des requêtes ultérieures ;
- d'utiliser cette base de connaissances pour construire un moteur de recherche et d'agrégation d'événements, permettant de rechercher à la fois dans la structure ainsi découverte et dans le texte associé (association d’approches de recherche d’information et de web sémantique).

Partenaires

 AGENCE FRANCE PRESSE

CEA LIST Commissariat à l'énergie atomique et aux énergies alternatives

CNRS-LIMSI Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

EURECOM EURECOM

Aide de l'ANR 653 250 euros
Début et durée du projet scientifique janvier 2016 - 42 mois

 

Programme ANR : Interactions humain-machine, objets connectés, contenus numériques, données massives et connaissance (DS0707) 2015

Référence projet : ANR-15-CE23-0018

Coordinateur du projet :
Monsieur Xavier Tannier (Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur)

 

Revenir à la page précédente

 

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.