L'Agence nationale de la recherche Des projets pour la science

Translate this page in english

Contenus et Interactions (CONTINT)
Edition 2012


Qualinca


Qualité et interopérabilité de grands catalogues documentaires

Qualité de l'intégration de catalogues dans de grandes bases documentaires
L’enjeu est de fournir un accès de qualité aux immenses bases documentaires telles que les archives de l’audiovisuel, les bases bibliographiques universitaires ou les licences nationales de corpus d’éditeur, via la mise en œuvre de méthodes semi-automatique de contrôle de la qualité des métadonnées indexant ces bases et d’aide à l’indexation de nouveau document.

Qualité des autorités et des liens aux autorités
Les acteurs de la gestion des grands catalogues documentaires sont en train de passer de l’ère de la gestion de bases de métadonnées dans des formats spécifiques issus de la communauté des Sciences de l’Information et des Bibliothèques (SIB) à celle du Web Sémantique. Cette évolution pose des problèmes similaires à ceux du « linked data » dans un contexte spécifique. En effet, la communauté des SIB a depuis longtemps intégré, à côté de ses catalogues documentaires, des catalogues d’autorités, qui recensent les entités nommées utiles au catalogage des documents (personnes, collectivités, lieux, matières, …) : une notice documentaire contient donc des liens typés (auteur, éditeur, sujet…) vers les notices d’autorités décrivant l’entité cible.
L’objectif du projet Qualinca est de proposer des méthodes d’évaluation, de contrôle et d’amélioration de la qualité de ces liens qui s’appuient sur des techniques de représentation de connaissances et raisonnements. Ce projet comporte donc un volet recherche fondamentale visant à définir un cadre théorique de formalisation des problèmes de qualité et un volet expérimental d’évaluation des méthodes proposées sur des données réelles (celles des l’ABES et l’INA).
Les retombées de ce projet concernent donc aussi bien les Sciences de l’Information et des Bibliothèques (évaluation de la qualité de catalogues documentaire, méthodes semi-automatique d’alerte/contrôle/amélioration de qualité) que l’Informatique (définition d’un cadre formel de diagnostic/d’amélioration de qualité des références aux entités nommées dans des bases de connaissances qui devrait contribuer à la problématique du Web des données).

Problématique du liage et représentation de la qualité
Le premier enjeu est de disposer d’un formalisme permettant de diagnostiquer les problèmes de qualité des liens. Les formalismes logiques classiques (DL, Datalog+/-…) de représentation de connaissances issues du web seront adaptés pour prendre en compte les spécificités de ces problèmes en particulier la notion « d’autorité », certaines constantes du langage formel ne devant avoir qu'une interprétation, ainsi que l’incertitude et l’incomplétude intrinsèques des liens.
Au cœur des problèmes de qualité on trouve la problématique du liage. Cette problématique proche de la réconciliation de références en base de données, s’en distingue par le fait : qu’elle s’applique sur des bases de connaissances contrôlées par une ontologie (et non des données structurées satisfaisant l’hypothèse du monde clos »). Cela nécessite d’adapter les techniques de réconciliation de références. De plus, dans le contexte des catalogues documentaires, les références à réconcilier ont des statuts bien spécifiques (une entité nommée dont on ne connait que le rôle au sein d’un document d’un document avec une entité nommée décrite par une autorité) qui nécessitent une étape préalable d’inférence de « connaissances contextuelles » dans les autorités.
A cause de l’incomplétude et/ou de l’incertitude des données, de nombreux liens, tout en étant probables, ne sont pas certains. Nous envisageons de combiner la logique et les probabilités pour calculer et inférer des indices de confiance en les liens en intégrant, dans un cadre uniforme et fondé mathématiquement, des informations sur la provenance, des avis d’experts, des calculs de similarités sur des valeurs d’attributs, des contraintes sur le domaine et des règles de réconciliation et d’enrichissement.

Résultats

-

Perspectives

-

Productions scientifiques et brevets

-

Partenaires

ABES Agence Bibliographique de l'Enseignement Supérieur

INA Institut National de l'Audiovisuel

LIG Laboratoire d'Informatique de Grenoble

LIRMM Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier

UPS-LRI Université Paris Sud

Aide de l'ANR 793 423 euros
Début et durée du projet scientifique avril 2012 - 42 mois

Résumé de soumission

Les grands catalogues documentaires sont en train de passer de l’ère de la gestion de bases de métadonnées dans des formats spécifiques issus de la communauté des Sciences de l’Information et des Bibliothèques (SIB) à l’ère du Web dans les langages standards du web sémantique (RDF/S, OWL). Cette évolution, qui présente de nombreux avantages (meilleure exposition des fonds documentaire, augmentation des possibilités d’échange de données, création de nouveaux services de recherche/d’exploitation des fonds), pose des problèmes importants concernant la qualité des bases documentaires.
Ce projet se propose d’élaborer des mécanismes permettant de :
• qualifier le niveau de qualité d’une base documentaire existante ;
• maintenir un niveau de qualité donné en contrôlant les opérations de mises à jour de ces bases ;
• améliorer le niveau de qualité d’une base ;
• disposer de méthodes génériques d’exploitation de ces bases dépendants de leur niveau de qualité (par exemple pour la recherche de documents ou l’interconnexion de bases).
Grâce à la représentation des données dans les langages du web sémantique une approche « représentation des connaissances » de ces problèmes est possible. Cette approche permettra, d’une part, de donner une sémantique logique à la notion de qualité et, d’autre part, d’utiliser des mécanismes de raisonnement pour traiter les divers problèmes. Cette approche repose sur la formalisation des connaissances présentes dans les catalogues documentaires, l’élaboration d’un modèle de qualité pour la problématique de l’identification des entités individuelles (ou entités nommées) dans une base de connaissances, la définition d’un modèle original de confiance adapté à la réconciliation et à la fusion d’informations provenant de différentes sources, et la découverte de caractéristiques d’identification d’entités et leur exploitation selon différentes approches (logique, numérique, probabiliste, …).
Une large part du projet est dévolue à l’évaluation de l’approche proposée par des expérimentations menées sur des corpus de tests et par le développement de démonstrateurs adaptés au contexte métier de deux gestionnaires de bases documentaires.
Le consortium regroupe cinq partenaires complémentaires : deux acteurs nationaux majeurs des systèmes documentaires et trois équipes de chercheurs en informatique. L’Agence Bibliographique de l’Enseignement Supérieur (ABES) et l’Institut National de l’Audiovisuel (INA) sont détenteurs et gèrent de très grandes bases documentaires, ils sont très fortement investis, au plan national et au plan international, dans l’exposition, la standardisation, l’interconnexion et la valorisation de leurs métadonnées. Les équipes du LIG, du LIRMM et du LRI impliquées dans ce projet, possèdent de leur côté une expertise reconnue en bases de données, représentation des connaissances et web sémantique. De plus, de multiples et anciens liens existent entre les partenaires de ce projet. Les compétences des partenaires et les liens scientifiques tissés entre eux dans le cadre de projets communs sont très importants pour le succès de ce projet pluridisciplinaire qui concerne aussi bien les Sciences de l’Information et des Bibliothèques que l’Informatique, et qui devrait avoir des retombées, non seulement dans le domaine des bases documentaires mais aussi dans le Web des données (« Linked Data »).

 

Programme ANR : Contenus et Interactions (CONTINT) 2012

Référence projet : ANR-12-CORD-0012

Coordinateur du projet :
Monsieur LECLÈRE Michel (Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier)
leclere@nulllirmm.fr

Site internet du projet : http://www.lirmm.fr/qualinca

 

Revenir à la page précédente

 

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.