JCJC SVSE 6 - JCJC : Sciences de la vie, de la santé et des écosystèmes : Génomique, génomique fonctionnelle, bioinformatique, biologie systémique

DATation GENétique à l’ère post-génomique – DATGEN

Comment s’est formée la structure génétique des populations humaines ?

L’enjeu du projet est de proposer des méthodes statistiques et des logiciels de pointe pour caractériser la structure génétique des populations et les processus d’adaptation biologique. Les applications concerneront principalement les populations humaines pour lesquelles on dispose de données génétiques massives qui sont en accès public.

Développer des logiciels de pointe qui passent à l’échelle des données génétiques massives.

L'avènement des techniques de génotypage et de séquençage à haut débit a révolutionné la biologie évolutive et la génétique. Ces disciplines sont aujourd'hui inondées par des quantités massives de données. Dans les années à venir, les projets de séquençage de génomes entiers à l’échelle des populations vont se multiplier. Ces données génomiques sont produites pour répondre à différents objectifs tels que la cartographie génétique des maladies, l’analyse des traits quantitatifs, ainsi que l’inférence de l'histoire évolutive de populations d’organismes vivants. <br /><br />Des logiciels ont été développés par des équipes de pointe, principalement anglaises et américaines, pour analyser ces données génétiques massives. Pour mieux comprendre l’histoire des populations d’organismes vivants, ces logiciels permettent principalement 1. de mettre en évidence les différences entre les populations et les individus et de 2. détecter les portions du génome qui ont joué un rôle majeur dans l’adaptation des populations à leur environnement. Notre projet vise principalement à développer des logiciels qui répondent à ces questions centrales de la biologie de l’évolution.<br />

Méthodes statistiques bayésiennes pour appréhender la complexité des questions biologiques

Le traitement de données génétiques massives en biologie soulève plusieurs problèmes de taille auxquelles les méthodes statistiques développées dans le cadre du projet devront répondre.
1. La dimension des données est de plus en plus importante ; une propriété cruciale de nos méthodes concerne leur abilité à réduire la dimension des données pour rendre les résultats interprétables.
2. Il existe une grande incertitude concernant les paramètres biologiques et la méthodologie bayésienne que nous adoptons permet de la prendre en compte explicitement.
3. Nous faisons un effort de communication et de distribution auprès des biologistes qui ne sont pas forcément des experts des parties méthodologiques. Les logiciels/méthodes doivent être distribués avec des clés suffisamment claires qui permettent à la fois d’interpréter les résultats mais aussi de connaître les limitations inhérentes aux méthodes employées.
4. La visualisation des résultats joue un rôle fondamental dans la science moderne et nous faisons un effort dans ce sens pour valoriser le plus impossible les résultats obtenus avec les logiciels que nous développons.

Résultats

Nos analyses statistiques ont déjà permis de répondre à des questions centrales concernant l’histoire des populations humaines

1. Pour chaque continent, nous avons caractérisé les orientations où les différences génétiques augmentent le plus rapidement : Nord-Sud en Europe et en Afrique, Est-Ouest en Asie et pas d’orientation préférentielle pour les indiens d’Amérique.
2. Nous avons démontré que l’origine des hommes dits modernes ne provenait pas d’un goulot d’étranglement démographique qui se serait produit il y a 150,000 ans pendant l’avant dernier âge glaciaire.

L’aspect développement logiciel n’est pas encore finalisé et nous n’avons bien sur pas encore de retour de la part de la communauté des biologistes. En revanche, ces développements méthodologiques ont permis de nous rapprocher du laboratoire de génétique cellulaire à l’INRA Toulouse, du laboratoire de statistique de l’université de New South Wales à Sydney (Australie) et de renforcer une collaboration existante avec le département de biologie évolutive de l’université d’Uppsala (Suède). Concernant les axes prioritaires du projet, nous avons mis de coté l’aspect datation biologique à partir de séquences d’ADN en raison des problèmes de l’horloge moléculaire pour nous concentrer sur les analyses spatiales à partir de données moléculaires.

Perspectives

Une nouvelle difficulté que nous avons rencontrée concerne la dimension des données lorsque le nombre de marqueurs moléculaires (SNPs) excède le demi million. Nous envisageons de distribuer de nouvelles versions de nos logiciels qui puissent prendre en compte des données de cette taille.

Productions scientifiques et brevets

1. Blum M.G.B., M.A. Nunes, D. Prangle, S.A. Sisson. A comparative review of dimension reduction methods in approximate Bayesian computation. Statistical Science, 28: 189-208 (2012)
Etude statistique visant à comparer différentes variantes de la méthode « Approximate Bayesian computation », méthode très utilisée pour retracer l’histoire démographique des populations

2. Sjödin P., A.E. Sjöstrand, M. Jakobsson, M.G.B Blum. Resequencing data provide no evidence for a human bottleneck in Africa during the penultimate glacial period. Molecular Biology and Evolution 29:1851-1860 (2012)
A partir d’analyses statistiques de pointe, nous avons démontré que l’origine des hommes dits modernes ne provenait pas d’un goulot d’étranglement démographique qui se serait produit il y a 150,000 ans pendant l’avant dernier âge glaciaire. Ce papier réfute une théorie très répandue parmi les anthropologues.

3. Jay F, P Sjödin, M Jakobsson, MGB Blum. Anisotropic isolation by distance: the main orientations of human genetic differentiation. Molecular Biology and Evolution 30: 513-525 (2013)

4. Gattepaille LM, M Jakobsson, MGB Blum. Inferring population size changes with sequence and SNP data: lessons from human bottlenecks. Heredity 110: 409-419 (2013)

5. Logiciel localDiff (http://membres-timc.imag.fr/Michael.Blum/LocalDiff.html) pour estimer des cartes de friction génétique à partir de données moléculaires. Ce logiciel permet de caractériser la différentiation génétique entre populations dans un contexte spatial.

6. Logiciel PCAdapt pour détecter les gènes impliqués dans l'adaptation Darwinienne (http://membres-timc.imag.fr/Nicolas.Duforet-Frebourg/PCAdapt.html)

Résumé de soumission

L'avènement des techniques de génotypage à haut débit a révolutionné la biologie évolutive et la génétique. Ces disciplines sont aujourd'hui inondées par des quantités massives de données. Dans les années à venir, les projets de séquençage de génome entiers à l’échelle des populations vont se multiplier. Chez l'homme, un consortium international est actuellement en train de séquencer les génomes de 1000 individus (1000 genomes projet, www.1000genomes.org) Ces données génomiques sont produites pour répondre à différents objectifs tels que la cartographie génétique des maladies, l’analyse des traits quantitatifs, ainsi que l’inférence de l'histoire évolutive de populations d’organismes vivants. L’utilisation, qui nous intéresse ici, des données génomiques, concerne la datation des événements démographiques passés. Cette datation génétique est une technique récente et a déjà été appliquée, par exemple, pour dater l'émergence du virus responsable de la grippe H1/N1, ou pour fournir une chronologie du voyage paléolithique qui a mené les hommes de l’Afrique aux Amériques.
Notre projet propose de développer des méthodes statistiques de datation génétique et de les implémenter dans un logiciel convivial. Ce logiciel fournira les âges des différents ancêtres communs dont sont issues les séquences d’ADN étudiées. Afin d’affiner notre compréhension des origines de l’homme dit moderne, nous allons appliquer cette méthode de datation aux 1000 génomes humains qui seront prochainement disponibles. Les paléoanthropologues débattent de la véracité de différents scénarios concernant l’émergence des hommes modernes, et notre analyse des 1000 génomes sera une occasion unique de répondre à des questions centrales dans ce débat. Une de ces questions concerne en particulier l’occurrence de flux de gènes entre espèces humaines archaïques telles que Cro-Magnon et Néanderthal. L'analyse des données du projet « 1000 genomes » sera consolidée par une analyse conjointe des données de microsatellites du « Human Genome Diversity Panel ». En dehors du champ de la génétique humaine, notre logiciel de datation génétique a un fort potentiel puisque, à l’échelle de populations, de grandes données de séquences, sinon des génomes entiers, seront bientôt disponibles pour un grand nombre d'espèces.
En plus de la datation des marqueurs neutres, nous considérons que les données du projet « 1000 génomes » constituent une occasion unique de dater des événements d'adaptation biologique. Pour dater les mutations impliquées dans des événements d'adaptation, nous proposons une méthode originale qui tienne compte des processus de colonisation spatiale. Les processus d’adaptation, auxquels nous nous intéressons, concernent aussi bien le développement de résistance à des maladies infectieuses, la capacité de digestion de certains aliments ou l’adaptation au climat. Une controverse actuelle concerne l’ampleur, chez l’homme, de ces processus d’adaptation depuis l'apparition de l’agriculture. Notre projet de datation de ces événements d'adaptation biologique permettra de jeter un nouvel éclairage sur cette controverse.

Michael Blum (CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE - DELEGATION REGIONALE RHONE-ALPES SECTEUR ALPES) – michael.blum@imag.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

UMR UJF/CNRS 5525 CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE - DELEGATION REGIONALE RHONE-ALPES SECTEUR ALPES

Aide de l'ANR 165 000 euros
Début et durée du projet scientifique : - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.