L'Agence nationale de la recherche Des projets pour la science

Translate this page in english

JCJC - SIMI 2 - Science informatique et applications (JCJC SIMI 2)
Edition 2012


SIFR


Indexation sémantique de ressources biomédicales francophones

Indexation Sémantique de Ressources biomédicales Francophones (www.lirmm.fr/sifr)
Le volume de données en biomédecine ne cesse de croître. En dépit d'une large adoption de l'anglais en sciences, une quantité significative de ces données est en français. L'intégration de données biomédicales et l'interopérabilité sémantique sont indispensables pour permettre de nouvelles découvertes scientifiques qui pourraient émerger du rapprochement des différentes données disponibles. Les terminologies et les ontologies jouent ainsi un rôle central dans la résolution de ces questions.

Défis scientifiques et techniques pour exploiter les ontologies dans la construction de services d'indexation, de fouille, et de recherche de données pour les ressources biomédicales françaises.
La communauté s’est tournée vers les ontologies pour créer des index sémantiques, destinés à améliorer la recherche et la fouille de données grâce aux connaissances médicales que ces ontologies formalisent. Cependant, outre l'existence de nombreuses ressources en anglais, il y a beaucoup moins d'ontologies en français et il manque crucialement d'outils et de services pour les exploiter. Cette lacune contraste avec le montant considérable de données biomédicales produites en français, particulièrement dans le monde clinique (e.g., dossiers médicaux électroniques).

Le projet ‘Semantic Indexing of French Biomedical Data Resources’ (SIFR) a pour objectif de résoudre les défis scientifiques et techniques soulevés pour exploiter les ontologies dans la construction de services d'indexation, de fouille, et de recherche de données pour les ressources biomédicales françaises. Notre objectif principal est de permettre à cette communauté de se libérer des questions d’ingénierie des connaissances et les laisser se concentrer sur les défis biologiques et médicaux.

Le projet SIFR rassemble plusieurs jeunes chercheurs du LIRMM pour réaliser cet objectif. Clement Jonquet, maitre de conférences à l’Université de Montpellier depuis Sept. 2010, coordonnera le projet et capitalisera sur l’expérience dans le domaine acquise durant son postdoc de 3 ans à Stanford. Il est accompagné de 2 jeunes chercheurs (HDR) : Sandra Bringay et Mathieu Roche qui sont experts en fouille de texte/données biomédicales. Des partenaires de grande qualité sont également associés au projet : (i)°Stanford BMIR, un leader mondial en outils et services –anglais– basés sur les ontologies pour aider la construction de systèmes à base de connaissances biomédicales ; (ii)°l’UMR TETIS (AgroParisTech, Irstea, Cirad) spécialisée dans la gestion de l’information spatiale, environnementale et agronomique ; (iii)°l’Institut de Biologie Computationnelle de Montpellier (IBC).

Construire un workflow d'indexation basé sur les ontologies (i.e., French Annotator) similaire à celui qui existe pour les ressources en anglais, mais spécialisé pour le Français.
En général, le contenu textuel des ressources biomédicales est indexé par mots-clefs pour permettre une recherche efficace mais avec des limites évidentes : synonymes, polysémie, utilisation des connaissances du domaine. Les ontologies peuvent être utilisées pour créer des annotations sémantiques. Lors de l’indexation sémantique, ces annotations sont utilisées pour regrouper les éléments des ressources de données biomédicales.

Jusqu’à présent les ontologies ont été utilisées principalement de façon manuelle pour annoter ou curer des données. Cependant, la communauté exprime son besoin pour des méthodes automatiques et capables de mettre en valeur le traitement automatique du langage naturel. Bien qu’il existe des solutions pour l’anglais, il n’y a pas de technologie facilement disponible en Français pour l’utilisation uniforme d’ontologies pour annoter ou curer des données variées.

Dans le projet SIFR, nous construisons un workflow d'indexation basé sur les ontologies (i.e., French Annotator) similaire à celui qui existe pour les ressources en anglais, mais spécialisé pour le Français. Ce service est désormais disponible au sein d’un portail de ~10 ontologies/terminologies biomédicales qui réutilisent la technologie BioPortal, développée à l’Université de Stanford. Les ontologies nous sont livrées par le groupe CISMeF du CHU de Rouen, ou extraites de l’UMLS ou directement téléchargées par les utilisateurs. Le SIFR BioPortal a été mis en production en juin 2015 : http://bioportal.lirmm.fr

De plus, le projet SIFR contribue de façon significative à de nouveaux résultats de recherche dans des domaines tels que l’indexation sémantique, la fouille de texte, l’extraction de termes, l’enrichissement d’ontologie et la désambiguïsation, et le multilinguisme dans les ontologies et l’annotation sémantique de données de façon à offrir à la communauté

Résultats

• Nous avons fait une comparaison exhaustive des 2 portails HMTP (CISMeF) et BioPortal (NCBO) et de leur workflow d’annotation et rendu les terminologies de CISMeF exportables.
• Nous développons un portail d’ontologies/terminologies francophones qui inclue le SIFR/French Annotator (http://bioportal.lirmm.fr/annotator). Un web service qui pour un morceau de texte donné retourne les concepts d’ontologies mentionnés directement dans ce texte ou expansés sémantiquement.
• Nous avons développé la méthodologie et l’outil BioTex (http://tubo.lirmm.fr/biotex) pour l’extraction automatique de termes biomédicaux à partir de texte à l’aide des méthodes existantes d’extraction (e.g., C-Value) ainsi que des méthodes d’indexation par mot clés (e.g., Okapi, Tf-Idf) généralement utilisées en recherche d’information.
• Nous avons développé un service proxy pour le NCBO Annotator (http://bioportal.lirmm.fr/ncbo_annotatorplus) qui donne accès aux nouvelles fonctionnalités que nous avons recherché et implémentées dans SIFR.
• Nous travaillons sur la réconciliation et la création d’alignement multilingues pour les ontologies/terminologies biomédicales en Français et en Anglais.
• Nous travaillons sur la détection d’émotions dans les forums de santé. L’objectif a été de mettre en place une chaine de traitements basée sur des techniques de fouille de textes permettant de détecter les émotions (joie, colère, tristesse…) dans les forums de santé. Nous sommes également en train de construire un vocabulaire patient à partir de ces ressources.
• Nous travaillons sur l’indexation sémantique et la représentation des connaissances dans l’approche Viewpoints avec comme objectif de capturer des données formelles et des contributions informelles and un graphe de connaissances.
• Nous avons lancé le projet et la plateforme AgroPortal (http://agroportal.lirmm.fr) dont l’objectif est d’offrir un portail d’ontologie de référence pour la communauté agronomie/plante.

Perspectives

Nous capitaliserons sur le travail accompli depuis 16 ans en France, cependant, ce projet ouvre un nouveau sujet de recherche et d’application au LIRMM et matérialise une importante collaboration avec Stanford BMIR. SIFR offrira à la communauté biomédicale (e.g., cliniciens, professionnels de santé, chercheurs) des services d'indexation hautement performants leur permettant d’améliorer leur processus de production et de consommation de données. En outre, les résultats du projet ne sont pas limités au français (mais inclus aussi l’anglais, l’espagnol) et nous sommes en train de les transférer dans le domaine de l’agronomie dans le cadre du nouveau projet AgroPortal (http://agroportal.lirmm.fr). Ce projet placera la France dans une position clé pour mener de futurs projets Européens sur des questions de données multilingues en biomédecine et d’autres domaines.

Productions scientifiques et brevets

• Page web générale: www.lirmm.fr/sifr
• Publications : http://bit.ly/194ImnR
• Code repository: https://github.com/sifrproject

Partenaires

UM2-LIRMM Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier, Université Montpellier 2

Aide de l'ANR 276 640 euros
Début et durée mars 2013 - 48 mois

Résumé de soumission

Le volume de données en biomédecine ne cesse de croître. En dépit d'une large adoption de l'anglais en sciences, une quantité significative de ces données est en français. En général, le contenu textuel de ces ressources est indexé par mots-clefs pour permettre une recherche efficace mais avec des limites évidentes : synonymes, polysémie, utilisation des connaissances du domaine. L'intégration de données biomédicales et l'interopérabilité sémantique sont indispensables pour permettre de nouvelles découvertes scientifiques qui pourraient émerger du rapprochement des différentes données disponibles (i.e., « translational research »). Les terminologies et les ontologies jouent un rôle central en sciences de la vie pour structurer les données médicales et les rendre interopérables. En particulier, la communauté les utilise pour créer des index sémantiques, destinés à améliorer la recherche et la fouille de données grâce aux connaissances médicales que ces ontologies formalisent. Cependant, outre l'existence de nombreuses ressources en anglais, il y a beaucoup moins d'ontologies en français et il manque crucialement d'outils et de services pour les exploiter. Cette lacune contraste avec le montant considérable de données biomédicales produites en français, particulièrement dans le monde clinique (e.g., dossiers médicaux électroniques).

Le projet ‘Semantic Indexing of French Biomedical Data Resources’ (SIFR) a pour objectif de résoudre les défis scientifiques et techniques soulevés pour exploiter les ontologies dans la construction de services d'indexation, de fouille, et de recherche de données pour les ressources biomédicales françaises. Nous construirons un workflow d'indexation basé sur les ontologies (i.e., French Annotator) similaire à celui qui existe pour les ressources en anglais, mais spécialisé pour le Français. Ce sera le premier jalon de la création (dans de futurs projets) d’un index de données qui permettra la recherche et la fouille sémantique et multilingue. Nous suivrons les visions scientifiques de la bio-informatique translationnelle et du Web sémantique qui encouragent la découverte de nouvelles connaissances en regroupant et recombinant les connaissances déjà existantes.

Le projet SIFR rassemble plusieurs jeunes chercheurs/chercheuses du LIRMM pour réaliser cet objectif. Clement Jonquet, 31 ans, maitre de conférences à l’Université Montpellier 2 depuis Sept. 2010, coordonnera le projet et capitalisera sur l’expérience dans le domaine acquise durant son postdoc de 3 ans à Stanford. Il sera accompagné de 3 jeunes chercheurs : Francois Scharffe (Web sémantique), Sandra Bringay (fouille de donnée) and Dr. Mathieu Roche (TALN, fouille de texte). Des partenaires de très grande qualité sont également associés au projet : (i)°Stanford BMIR, un leader mondial en outils et services –anglais– basés sur les ontologies pour aider la construction de systèmes à base de connaissances biomédicales ; (ii)°le groupe CISMeF, leader national en services de terminologies pour la santé en France. En outre, d’autres partenaires académiques et industriels ont également été identifiés et collaboreront à la valorisation concrète des résultats du projet en termes d'impact scientifique et économique (e.g., Ontologos Corp, CNRS-INIST).

Bien sûr, nous capitaliserons sur le travail accompli depuis 16 ans en France, en particulier par le groupe CISMeF. Cependant, SIFR sera le premier projet impliquant techniquement et financièrement un leader international comme BMIR et SIFR permettra l’implantation d’une nouvelle thématique de recherche au LIRMM. SIFR offrira à la communauté biomédicale (e.g., cliniciens, professionnels de santé, chercheurs) des services d'indexation hautement performants basés sur les ontologies leur permettant d’améliorer leur processus de production et de consommation de données. Ce projet placera la France dans une position clé pour mener de futurs projets Européens sur des questions de données multilingues en biomédecine.

 

Programme ANR : JCJC - SIMI 2 - Science informatique et applications (JCJC SIMI 2) 2012

Référence projet : ANR-12-JS02-0010

Coordinateur du projet :
Monsieur Clément JONQUET (Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier, Université Montpellier 2)
jonquet@nulllirmm.fr

Site internet du projet : http://www.lirmm.fr/sifr

 

Revenir à la page précédente

 

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.