DS0708 - Données massives, connaissances, décision, calcul haute performance et simulation numérique

Metagenomique comparative comme instrument de mesure pour la biodiversité. Application à l'étude de la vie dans les océans – HydroGen

Metagénomique comparative comme instrument de mesure pour la biodiversité. Application à l'étude de la vie dans les océans.

Le projet HydroGen a pour objectif de concevoir de nouveaux outils algorithmiques et statistiques pour mesurer et analyser la biodiversité à l’aide de la métagénomique comparative. L’application proposée est l’étude de la biodiversité océanique à travers l’analyse métagénomique d’échantillons d’eau de mer prélevés lors de l’expédition Tara Océans.

Comparer des milliers d’échantillons métagénomiques

Les grands projets de métagénomiques, comme l’étude du microbiote intestinal humain (projet HMP) ou l’étude de la biodiversité marine (projet Tara Oceans) prélèvent des milliers d’échantillons environnementaux. Ces échantillons contiennent une flore microbienne impressionnante qui peut être révélée via l’analyse de l’ADN des organismes présents dans le milieu. L’ensemble est séquencé sans séparation préalable des ADNs entre individus. Ainsi, chaque échantillon porte une signature métagénomique globale représentant la population du prélèvement. L’enjeu est de comparer l’ensemble de ces signatures pour établir des cartographies permettant de distinguer ou regrouper des populations. La difficulté vient des volumes de données à traiter : le séquençage d’un seul échantillon génère plusieurs centaines de millions (10^8) de petites séquences d’ADN, ce qui représente, pour un projet métagénomique, plusieurs Tera octets de données à analyser.

Compter des mots

Une méthode simple pour comparer deux ensembles de séquences d’ADN (2 échantillons métagénomiques) est de compter le nombre de séquences communes, ou proches. L’intersection donne une idée de la ressemblance entre deux échantillons. Malheureusement, cette méthode ne passe pas à l’échelle : le nombre de comparaison deux à deux à effectuer entre échantillons est gigantesque (10^8 x 10^8 = 10^16). L’approche du projet HydroGen est de réduire les séquences d’ADN à un ensemble de mots (~30 caractères) et d’opérer les traitements dans ce nouvel espace. Des algorithmes parallèles de comptage de mots très efficaces ont ainsi été conçus pour résoudre le problème en un temps raisonnable.

Résultats

La méthodologie est concrètement mise en œuvre dans un logiciel appelé Simka. Ce logiciel prend en entrée un nombre quelconque d’échantillons métagénomiques et produit une matrice de distances entre tous les échantillons. Plusieurs types de distance, basés sur les standards écologiques usuels, sont proposés.
Simka a été testé sur le Human Microbiome Project (projet HMP) pour lequel 690 échantillons métagénomiques sont disponibles (32 milliards de séquences d’ADN). Le calcul sur une machine de 200 CPUs a pris un peu moins de 24 heures. Les résultats obtenus sont en tout point comparables à ceux présentés dans la publication de référence.

Perspectives

L’objectif suivant est d’étudier la diversité planctonique des océans. Grâce au projet Tara Oceans, nous possédons l’information génétique des planctons en différents lieux. Les mesures de similarités génomiques délivrées par le logiciel Simka seront traduites en cartes géographiques répertoriant les similarités entre organismes. Cette carte sera analysée sous l’angle des connaissances actuelles des courants marins pour caractériser la distribution des communautés planctoniques et leurs interactions avec l’environnement.

Productions scientifiques et brevets

Simka: fast kmer-based method for estimating the similarity between numerous metagenomic datasets, Gaëtan Benoit, RCAM, Oct 2015, Paris, France

Résumé de soumission

L’objectif du projet HydroGen est le design de nouveaux outils algorithmiques et statistiques pour mesurer et analyser la biodiversité à l’aide de la métagénomique comparative. L’application proposée est l’étude de la biodiversité océanique à travers l’analyse métagénomique d’échantillons d’eau de mer prélevés lors de l’expédition Tara Océans.

La génomique comparative est une approche qui fournie une information environnementale globale à partir des molécules d’ADN des milieux étudiés. Le problème n’est pas de réaliser une identification taxonomique des organismes du milieu, mais de déterminer une distance globale caractérisant une proximité au niveau génomique.

Pour estimer cette proximité, une stratégie est de « compter » le nombre de fragments similaires entre les métagénomes. Un run de séquençage typique délivre entre 108 et 109 courts fragments d’ADN compris entre 100 et 150 bp (appelés reads). D’un point de vue calculatoire, le problème est alors de calculer une intersection entre plusieurs jeux de reads. Pour évaluer cette similarité, la méthode traditionnelle consiste à produire un score issu d’un alignement entre reads.

Le principal inconvénient de cette méthode est que le nombre d’alignements à calculer est excessif (1016 à 1018 entre 2 échantillons). De plus, si on considère l’analyse de plusieurs centaines d’échantillons métagénomiques, cette approche brutale devient complètement irréalisable. Le défi majeur du projet HydroGen est de proposer une méthodologie alternative pour comparer efficacement – et de manière réaliste – de tels volumes d’échantillons métagénomiques.

La validation de notre méthodologie, et du passage à l’échelle des outils algorithmiques et statistiques développés au cours du projet, sera faite à partir d’une problématique environnementale liée à l’étude de la biodiversité des océans. L’expédition Tara Oceans a collectée des centaines d’échantillons d’eau de mer actuellement en cours de séquençage. Des centaines de jeux de données métagénomiques sont donc disponibles. Cette masse de données servira de matière première dans le cadre du projet HydroGen.

Le projet HydroGen réunit 4 équipes de recherche aux compétences complémentaires en algorithmique, statistique et génomique : INRIA-GenScale, INRA-MIG, INRA-AgroParisTech et CEA-CNS-LABIS.

Pierre Peterlongo (Centre de recherche Inria Rennes - Bretagne Atlantique)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

INRA-AgroParisTech Institut National de Recherche en Agronomie
CEA / DSV / IG / CNS Commissariat à l'énergie atomique et aux énergies alternatives / Direction des Sciences du Vivant / Institut de Génomique / GENOSCOPE
Inria Rennes - Bretagne Atlantique Centre de recherche Inria Rennes - Bretagne Atlantique

Aide de l'ANR 399 245 euros
Début et durée du projet scientifique : septembre 2014 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.