COSINUS - Conception et Simulation

Nouvelles approches algorithmiques et bioinformatiques pour l'analyse des grandes masses de données issues des séquenceurs de nouvelle génération. – MAPPI

Résumé de soumission

Une grande percée dans le domaine du séquençage est en cours depuis quelques années. Elle est due au développement de nouveaux séquenceurs basés sur de nouvelles méthodes. Ces séquenceurs produisent d'énormes quantités de petites séquences. La masse de données à mapper et assembler est si important qu'il représente maintenant le goulot d'étranglement de ces nouvelles technologies, les plus rapides des logiciels actuels n'étant pas capable de passer à l'échelle en terme de temps de calcul intensif. En outre, ces séquenceurs sont aussi cacapbles de séquencer d'un coup tout l'ADN contenu dans une population entière d'organismes vivants, ce qui ouvre la voie à des analyses dites "meta" pour classifier des espèces, estimer la biodiversité et les changements de biodiversité entre deux échantillons, etc.

Notre projet de 36 mois a pour but de proposer des nouvelles approches et des nouveaux logiciels pour relever le défi du passage à l'échelle et du calcul intensif que nécessite maintenant les algorithmes de mapping, d'assemblage et de méta-assemblage sur de tels volumes de données.

Notre projet regroupe quatre partenaires. Le LIAFA (Université Paris-Diderot), le LIFL (Lile) et l'IRISA (Rennes) sont des groupes de recherche en informatique dont l'expertise est complémentaire pour les données à traiter et les techniques a développer, chacun étant spécialiste dans au moins un des thèmes du projet: structures d'indexation, algorithmes sur les séquences, algorithmes distribués et parallèles, analyse de séquences biologiques, etc. Ces groupes vont proposer de nouveaux algorithmes et développer des logiciels open source. Un point crucial pour que ces algorithmes et ces logiciels ne restent pas théoriques et que notre projet ait une application directe est que MAPPI est lié à l'ambitieux projet de biologie Tara Oceans dont fait partie le Genoscope (CEA), qui est aussi le quatrième partenaire de ce projet. Le Genoscope est spécialisé dans la production de séquences et dispose des dernières technologies.

Tara Oceans est un projet multidisciplinaire unique qui regroupe des océanographes, des écologistes, des biologistes et des phtysiciens experts dans la vie marine et dont le but est d'étudier le phytoplankton de plusieurs océans. Le rôle du Genoscope est de séquencer des échantillons d'ADN et ARN de protists (petits organismes eucariotes) récoltés dans différents lieux à la surface du globe. Tara va fournir des données de métagenomique (ADN des cellules d'un échantillon complet) et de métatranscriptomique (ARN). Le nombre total d'échantillon est prévu entre 2000 et 4000, ce qui devrait générer plus de 100TB de données. Les logices que nous proposerons seront intégrés dans une chaine bioinformatique au Genoscope.

Coordination du projet

Mathieu RAFFINOT (UNIVERSITE DE PARIS 7) – raffinot@liafa.jussieu.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Génoscope COMMISSARIAT A L'ENERGIE ATOMIQUE ET AUX ENERGIES ALTERNATIVES ET AUX ENERGIES ALTERNATIVES
LIAFA UNIVERSITE DE PARIS 7
LIFL UNIVERSITE DE LILLE I [SCIENCES ET TECHNOLOGIES]
INRIA Rennes - Bretagne Atlantique INSTITUT NATIONAL DE RECHERCHE EN INFORMATIQUE ET EN AUTOMATIQUE - INRIA

Aide de l'ANR 456 830 euros
Début et durée du projet scientifique : - 39 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter