CE45 - Mathématique, informatique, automatique, traitement du signal pour répondre aux défis de la biologie et de la santé

Méthodes pour la découverte de combinaisons de SNPs associées avec un phénotype à partir de données génome entier – SCAPHE

Méthodes pour la découverte de combinaisons de SNPs associées avec un phénotype à partir de données génome entier

Les différences génomiques expliquent en grande partie pourquoi différentes personnes vivent la même maladie différemment. Les méthodes de recherche d'associations entre phénotype et polymorphismes d'un seul nucléotide (SNPs) n'expliquent cependant souvent qu'une faible proportion de ces différences. SCAPHE suppose cela est dû aux interactions non additives entre SNPs, ainsi qu'à une instabilité liée au faible nombre d'échantillons, qui peut être réduite par l'intégration de réseaux biologiques.

Enjeux et objectifs

Le but de SCAPHE est de développer des méthodes qui facilitent, à partir de données générées par des technologies de séquençage génomique à haut débit, la découverte de combinaisons de SNPs associées à un phénotype donné. L'objectif de ce projet est de permettre la génération de nouvelles hypothèses biologiques basées sur de solides analyses statistiques.<br /><br />Les difficultés statistiques dans ce genre d'étude proviennent de ce que le nombre de variables (SNPs) est plus grand que celui d'échantillons de plusieurs ordres de magnitude. Structurer les variables en réseaux d'interactions, relations de régulation, ou cartes de contact définissant la structure 3D de la chromatine permet d'alléger ces difficultés.<br /><br />Des développements récents en apprentissage statistique permettent d'incorporer élégamment la structure des variables directement dans la procédure d'apprentissage et donnent des résultats prometteurs. Cependant, ces méthodes considèrent uniquement des effets additifs entre variables, bien que de nombreux phénomènes biologiques soient non linéaires ; et, parce que leur objectif est la qualité des prédictions plutôt que l'interprétabilité des modèles, leurs résultats sont peu robustes, c'est-à-dire que différents SNPs peuvent être sélectionnés sur des sous-échantillons des mêmes données.<br /><br />SCAPHE est construit sur l'hypothèse qu'une partie de l'héritabilité manquante de nombreux phénotypes peut être découverte en combinant des données GWAS avec des connaissances biologiques préalablement établies.<br /><br />Dans ce but, SCAPHE est organisé autour de 3 axes orthogonaux :<br />- le développement de méthodes pour des GWAS non-additives, multi-locus et guidées par des réseaux ;<br />- le développement d'algorithmes de recherche de biomarqueurs conçus explicitement pour être robustes ;<br />- l'analyse conjointe de phénotypes proches.

Nous formulons les études GWAS comme un problème de sélection de variable, et utilisons le cadre de la relevance régularisée pour atteindre les objectifs de SCAPHE. Ce cadre permet de s'appuyer sur une vaste littérature en génétique statistique tout en maintenant une grande efficacité calculatoire en grande dimension.

Dans le premier axe de SCAPHE, nous intégrons les interactions entre SNPs à des modèles guidés par des réseaux. Cela inclut le développement de méthodes permettant d'affecter non-linéairement un score à un ensemble de SNPs, et d'heuristiques permettant d'alléger les difficultés computationnelles et statistiques inhérentes aux modèles non additifs multi-locus.

Dans le deuxième axe de SCAPHE, nous nous pencherons sur la question de la robustesse, en particulier grâce à la stabilité de sélection, qui permet de combiner les résultats de nombreuses expériences conduites sur des échantillons bootstrap des données. Nous intégrerons la structure de réseau à la création de ces échantillons, et nous incorporerons la stabilité de sélection directement dans les formulations de relevance régularisée.

Dans le troisième axe de SCAPHE, nous appuierons sur les approches multi-tâche, construites sur l'idée que l'on a tout à gagner à conduire conjointement l'apprentissage sur plusieurs tâches distinctes mais proches, pour proposer des outils pour les GWAS multi-phénotypes basées sur des réseaux, et intégrant une mesure de similarité entre les phénotypes. Nous développerons des formulations additives puis non-additives. Enfin, nous étudierons plus particulièrement le cas dans lequel les phénotypes sont des abondances de transcrits.

Ces trois axes orthogonaux seront soutenu par trois tâches transverses :
- la quantification de la puissance statistique, à travers des évaluations empiriques comme théoriques ;
- le calcul haute performance, nécessaire vue la dimension des données ;
- les applications biologiques, qui guideront nos développements méthodologiques.

Dans le cadre du WP1, nous avons comparé différentes approches permettant d'intégrer des réseaux biologiques aux études GWAS sur un jeu de données de cancer du sein familial (non BRCA1/BRCA2) et proposé de combiner différentes approches pour construire un réseau consensus.

En collaboration avec un consortium international constitué pour l'étude des maladies inflammatoires de l'intestin (International Inflammatory Bowel Disease Genetics Consortium), nous évaluons une extension de la méthode sus-citée permettant de détecter des interactions purement épistatiques.

Dans une étude spécifique à la sclérose en plaques, nous avons montré comment combiner des données de voies métaboliques avec une méthode de détection d'épistasie pour analyser des données GWAS.

Enfin, nous avons adapté kernelPSI, une méthodologie générique permettant de faire de l'inférence post-sélection pour des méthodes de sélection non-linéaires, au contexte particulier des GWAS, ce qui a notamment requis des développements poussés en calcul haute performance.

Nous travaillons en ce moment sur l'utilisation d'un group lasso multitâche pour l'analyse de données GWAS structurées en plusieurs populations. Ce travail s'inscrit à la fois dans le WP2 (la robustesse étant explicitement recherchée) et dans le WP3 (les différentes populations pouvant être considérées comme présentant des phénotypes distincts mais proches).

N/A

- Asma Nouira, Chloé-Agathe Azencott, Multitask group lasso for genome-wide association studies, poster at SMPGD 2020.
- Lotfi Slim, Hélène de Foucauld, Clément Chatelain, Chloé-Agathe Azencott. A systematic analysis of gene-gene interaction in multiple sclerosis. BioRxiv (2020).
- Héctor Climente-González, Christine Lonjou, Fabienne Lesueur, GENESIS Study collaborators, Dominique Stoppa-Lyonnet, Nadine Andrieu, Chloé-Agathe Azencott. Combining network-guided GWAS to discover susceptibility mechanisms for breast cancer BioRXiv (2020)
- gwas-tools (2020): github.com/hclimente/gwas-tools
- epiGWAS (2019): cran.r-project.org/web/packages/epiGWAS/index.html
- kernelPSI CUDA (2020): github.com/EpiSlim/kernelPSI

Les différences génomiques entre patients expliquent en grande partie pourquoi ceux-ci vivent la même maladie différemment. La médecine de précision, qui vise à adapter les traitements aux caractéristiques personnelles des patients, nécessite donc d'identifier les régions du génome associées avec une prédisposition, un pronostic ou une réponse thérapeutique.
Les études d'association génome entier (GWAS), qui détectent des associations entre phénotype et polymorphismes d'un seul nucléotide (SNPs), permettent d'atteindre ce but. Cependant, elles n'expliquent souvent qu'une faible proportion de la variabilité phénotypique que l'on sait héréditaire.

Une des principales explications de cette héritabilité manquante est que la plupart des méthodes adoptées ne considèrent pas d'interactions entre les SNPs, bien qu'il soit tout à fait possible que plusieurs SNPs agissent ensemble pour influencer un phénotype.

De plus, GWAS souffrent d'une faible puissance statistique, les données utilisées contenant largement plus de SNPs que d'individus. Ainsi, seuls les SNPs ayant des effets de grande taille sont susceptibles d'être détectés. Cela conduit aussi à des problèmes de robustesse : les SNPs détectés diffèrent grandement entre plusieurs jeux de données semblables. Cela suggère que les approches utilisées actuellement capturent des associations spécieuses plutôt que des SNPs véritablement pertinents.

SCAPHE est construit sur l'hypothèse qu'une partie de l'héritabilité manquante peut être découverte en combinant les données GWAS avec des connaissances biologiques déjà établies. Pour ce faire, il est impératif de développer de nouvelles procédures d'apprentissage statistique, qui permettent de modéliser des interactions non-linéaires entre loci et compensent le manque de puissance statistique par l'intégration, d'une part, de réseaux biologiques, et d'autre part, de données concernant des phénotypes multiples.

Dans SCAPHE, nous proposons donc de développer de nouveaux algorithmes pour les GWAS, formalisées comme des problèmes de sélection de variable, à travers trois direction de recherche orthogonales : (1) le développement de méthodes non-additives, multi-locus et guidées par des réseaux; (2) le développement d'algorithmes explicitement conçus pour être robustes, et (3) l'analyse conjointe de plusieurs phénotypes proches.

Ces directions de recherche seront complémentée par trois tâches transverses, qui nous permettrons de nous concentrer pendant toute la durée du projet sur le contrôle du taux de faux positifs, le calcul haute-performance, et les aspects applicatifs.

Pour atteindre les objectifs de SCAPHE, nous utiliserons des approches d'apprentissage statistiques en nous plaçant dans le cadre de la pertinance régularisée. Il permet de formellement encourager les SNPs sélectionnés à être connectés sur un réseau pré-défini, d'intégrer des jeux de données multiples, et de modéliser des interactions non-linéaires entre les SNPs.

SCAPHE vise à proposer de nouveaux outils pour le bénéfice des généticiens et cliniciens, et à suggérer de nouvelles pistes pour la médecine de précision, qui pourront potentiellement conduire à de nouveaux outils de diagnostic ou à de nouvelles cibles thérapeutiques. De plus, les applications de méthodes de sélection de variables pour des données en grande dimension ne sont pas limitées aux études génomiques, mais peuvent avoir des applications dans un grand nombre de domaines, depuis l'imagerie médicale à la finance quantitative et à la climatologie.

Pour faciliter la dissémination de nos travaux, les résultats de SCAPHE seront publiés en Open Access dans des revues avec comité de lecture, et nous accorderons une importance particulière à ce que nos logiciels soient accessibles en Open Source et à construire des interfaces qui facilitent leur utilisation.

Coordination du projet

Chloé-Agathe Azencott (ARMINES)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

ARMINES - CBIO ARMINES

Aide de l'ANR 251 639 euros
Début et durée du projet scientifique : décembre 2018 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter