Blanc SIMI 2 - Blanc - SIMI 2 - Science informatique et applications

Méthodes d’extraction d’information biologique dans les données HTS non assemblées – Colib'read

Résumé de soumission

Depuis quelques années, la génomique connait un changement sans précédent en raison de l'arrivée des nouvelles générations de séquençage (NGS ou HTS en anglais). Ces technologies génèrent de grands flots de données d'un nouveau type. Des méthodes informatiques innovantes doivent être développées pour exploiter au mieux cette ressource. Habituellement les données NGS sont assemblées lors d'une première phase et, dans une seconde phase totalement indépendante, l'information d'intérêt est recherchée dans les données assemblées. Notre motivation principale est d'éviter ce protocole en deux phases indépendantes. En effet, cette approche conduit à perdre de l'information voire à générer de fausses informations, ce qui est dû à l'utilisation d'heuristiques ou de méthodes probabilistes lors de la phase d'assemblage. Ce projet propose le développement de méthodes nouvelles pour extraire l'information biologique des données NGS, tout en évitant la phase d'assemblage. Ainsi, nous éviterons les limitations de l'assemblage, sans nécessiter de génome de référence. Du point de vue informatique, notre proposition s'appuie sur la formalisation de modèles basés sur le graphe de de-Bruijn, et sur des algorithmes optimisés, capables de traiter les masses de données générées par les NGS. Les livrables sont d'une part des conclusions d'études portant les modèles associés aux éléments biologiques recherchés (SNP, réarrangements, transcrits alternatifs), les indexes adaptés aux données NGS et, d'autre part, des logiciels utilisables par la communauté des bio-informaticiens et des biologistes. Ce projet poursuit le travail préliminaire de l'Action de Recherche Collaborative "Alcovna". Il est à l'interface entre des (i) questions algorithmiques fondamentales, (ii) des développements d'algorithmiques optimisés et parallélisables incluant la création d'indexes adaptés aux masses et aux types de données à traiter, et (iii) des application biologiquement validées. De plus (iv), le projet inclus également un volet médiation scientifique traduit par des actions de vulgarisation et des enseignements.

Coordination du projet

Pierre Peterlongo (INRIA, centre de recherche de Rennes - Bretagne Atlantique) – pierre.peterlongo@inria.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

INRIA Rennes - Bretagne Atlantique INRIA, centre de recherche de Rennes - Bretagne Atlantique
CR INRIA Grenoble - Rhône Alpes INRIA, Centre de recherche de Grenoble - Rhône-Alpes, EPI Bamboo
CNRS-LIRMM Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier

Aide de l'ANR 362 391 euros
Début et durée du projet scientifique : février 2013 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter