CE45 - Mathématique, informatique, automatique, traitement du signal pour répondre aux défis de la biologie et de la santé

Signatures transcriptionnelles pour une analyse RNA-seq globale – Transipedia

Analyser le transcriptome sans référence à grande échelle

L'expression des gènes produit une diversité infinie de transcrits. Rechercher et quantifier ces transcrits dans les immenses entrepots de séquences qui s'accumulent dans le monde est actuellement une tache impossible. Nous proposons ici pour la première fois une solution à ce problème, via une nouvelle structure d'indexation des séquences massives. Cet outil ouvre des perspectives uniques en biologie et santé.

Retrouver des transcrits dans des peta-octets de données brutes

Le séquençage à haut débit bouleverse notre vision de l’expression génique par sa capacité à capturer la grande diversité de transcrits produits par chaque cellule. Toutefois, l’analyse bioinformatique de ces données, qui utilise le plus souvent une comparaison à des séquences de référence, échoue à identifier un très grand nombre d’ARN porteurs de variations essentielles biologiquement. Nous proposons ici un nouveau concept d’analyse transcriptomique utilisant des k-mers sélectionnés pour représenter chaque variation dans un transcrit, et un système d’indexation permettant de rechercher efficacement un nombre sans précédent de variants transcriptomiques. Ce système permettra de réanalyser de très grands jeux de données publiques, ouvrant la voie à une vaste gamme d’applications tels que le diagnostic par RNA-seq ou l'analyse des réseaux de régulation par les ARN.

Une approche unique fondée sur un index de k-mers

Nous proposons ici un système d'analyse des variants de transcription par RNA-seq fondé sur un concept de signature de k-mers. Ce concept utilise une information de séquence minimale pour capturer chaque événement, qu’il soit transcriptionnel, post-transcriptionnel ou génétique, indépendamment d'un transcriptome de référence. Nous développerons une nouvelle structure de données pour stocker des signatures dans une «encyclopédie» efficace qui associera les signatures à une variété d'événements biologiques tels que variants d'épissage, SNV, indels, ARN circulaires, transcrits de fusion, etc. Pour permettre l'interrogation de grands jeux de données RNA-seq avec des signatures k-mer, nous développerons une nouvelle structure d'index pouvant lier efficacement un k-mer à toutes ses occurrences dans les reads d’une banque RNA-seq.

Résultats

Le partenaire 1 est parvenu à extraire les signatures de tous les transcrits de Gencode (livrable 1.B). Avec les outils des livrables 3.x, ceci nous permet de quantifier efficacement tout transcrit humain de référence dans un dataset de RNA-seq. La reflexion sur les aspects de la structure de la base (1A) et de l’ontologie (1C) sont en cours mais non encore finalisées. Ce point n’étant pas bloquant pour l’avancée des autres livrables, nous préférons poursuivre cette réflexion et repousser les dates de livraison.
Pour le livrable 2B les partenaires 1 et 2 ont analysé plusieurs centaines de banques RNA-seq de leucémies, cancers du poumon et cancers de la prostate afin d’extraire des signatures des transcrits spécifiques de ces différentes pathologies. Pour le livrable 2.A, de nouvelles statistiques ont été intégrées à DEkupl permettant de traiter des centaines de banques, et un nouvel outil (KamRat) a été développé en C++ pour rechercher très rapidement des k-mers « signature » avec d’autres statistiques que celles de DEkupl, notamment la régression logistique, la classification naïve bayesienne et l’Anova pour les problème avec des conditions multiples. Ces travaux font aussi l’objet de publications en cours de rédaction. Enfin le partenaire 1 a publié un article d’opinion au sujet des approches sans référence telles que celles que nous défendons dans cette ANR.
Le partenaire 3 a atteint un milestone majeur du projet avec le développement et la publication du logiciel REINDEER en collaboration avec le partenaire 1. Ce logiciel permet d’indexer plusieurs milliers de banques RNA-seq et de rechercher efficacement des signatures de k-mers dans ces banques (Livrable 4B). En s’appuyant sur REINDEER le partenaire 3 a produit le site covid19seqsearch (voir faits marquants) qui est une première version du livrable 4A, c’est à dire un workflow complet comprenant input d’une séquence d’intérêt, extraction des k-mers et quantification dans plus de 1850 fichiers fastq.

Perspectives

Les principales retombées du projet comprennent (1) la capacité de réanalyser les projets RNA-seq dans tout type d'organisme, permettant l'identification d'une diversité d’évènements transcriptionnels sans précédent; (2) la découverte de biomarqueurs ARN de valeur diagnostique et pronostique; (3) une nouvelle façon pour les groupes gérant de grands jeux de données publics d'offrir l'accès à leurs données; (4) à plus long terme, l'émergence d'un écosystème pour la curation d'un index d'événements transcriptomiques à base de signatures k-mer avec des applications dans le domaine de la santé et de la recherche; et (5) une plate-forme puissante pour les services commerciaux que les partenaires industriels peuvent associer à la curation manuelle et à l'apprentissage automatique pour développer des applications biologiques ou médicales ciblées.

Productions scientifiques et brevets

Publications
- Marchet C, Iqbal Z, Gautheret D, Salson M, Chikhi R. (2020) REINDEER: efficient indexing of k-mer presence and abundance in sequencing datasets. Bioinformatics. In press.
- Morillon A, Gautheret D. (2019). Bridging the gap between reference and real transcriptomes. Genome Biol. 20:112.
Actes publiés
- Marchet C, Iqbal Z, Gautheret D, Salson M, Chikhi R. (2020) REINDEER: efficient indexing of k-mer presence and abundance in sequencing datasets. ISMB (actes publiés)
Conférences
- Marchet C. et al. 2019 Indexing De Bruijn graphs with minimizers, BiATA, St Petersburg (Russia)
- Marchet C. et al. 2019 Survey of k-mer set of sets data structures for querying large collections of sequencing datasets, DSB, Dortmund (Germany)
- Marchet C. et al. 2019 Survey of k-mer set of sets data structures for querying large collections of sequencing datasets, Helsinki Bioinformatics Day (Finland)
Preprints
- Marchet C, Iqbal Z, Gautheret D, Salson M, Chikhi R. REINDEER: efficient indexing of k-mer presence and abundance in sequencing datasets bioRxiv 2020.03.29.014159; doi: doi.org/10.1101/2020.03.29.014159
- Riquier S, Mathieu M, Boureux A, Ruffle F, Lemaitre JM, Djouad F, Gilbert N, Commes T. Detailed analysis of public RNAseq data and long non-coding RNA: a proposed enhancement to mesenchymal stem cell characterisation. BioRXiv. doi: doi.org/10.1101/2020.03.09.976001
- Marchet C, Kerbiriou M, Limasset A. BLight: Efficient exact associative structure for k-mers, bioRxiv 2020.04.28.546309; doi: doi.org/10.1101/546309
- Marchet C, Boucher C, Puglisi S, Medvedev P, Salson M, Chikhi R. Data structures based on k-mers for querying large collections of sequencing datasets, bioRxiv 2019.12.06.866756 doi: doi.org/10.1101/546309

Résumé de soumission

La diversité des transcrits est le produit de variations génétiques, transcriptionnelles et post-transcriptionnelles. La combinaison de ces trois effets produit pour chaque espèce un catalogue de transcrit virtuellement illimité. La technologie de séquençage profond RNA-seq fournit un aperçu fascinant de cette diversité par sa capacité à mesurer les niveaux d'expression des transcrits ainsi qu'à en découvrir de nouveaux. Cependant, les logiciels actuels d'analyse de données RNA-seq ne permettent pas d’exploiter pleinement ce potentiel. Les outils les plus courants impliquent des procédures de mapping et/ou d'assemblage qui sont sujettes à erreurs et passent difficilement à l’échelle des jeux de données RNA-seq disponibles publiquement (environ 235.000 pour l'humain seul). De récentes approches à base de k-mers ont considérablement amélioré le temps de calcul et l'évolutivité de l'analyse RNA-seq. Toutefois ces méthodes sont limitées car elles reposent sur un transcriptome de référence et ne peuvent pas prédire de nouveaux événements transcriptionnels.

Nous proposons ici un système d'analyse des variants de transcription par RNA-seq fondé sur un concept de signature de k-mers. Ce concept utilise une information de séquence minimale pour capturer chaque événement, qu’il soit transcriptionnel, post-transcriptionnel ou génétique, indépendamment d'un transcriptome de référence. Nous développerons une nouvelle structure de données pour stocker des signatures dans une «encyclopédie» efficace qui associera les signatures à une variété d'événements biologiques tels que variants d'épissage, SNV, indels, ARN circulaires, transcrits de fusion, etc. Pour permettre l'interrogation de grands jeux de données RNA-seq avec des signatures k-mer, nous développerons une nouvelle structure d'index pouvant lier efficacement un k-mer à toutes ses occurrences dans les reads d’une banque RNA-seq.

En parallèle, des outils d'inférence de signature seront développés pour permettre la découverte de nouvelles signatures k-mer d'intérêt biologique à partir de données d'expériences RNA-seq. Nous rechercherons spécifiquement des signatures prédictives liées aux maladie humaines, en exploitant les grandes collections publiques de données RNA-seq médicales. Notre approche sans hypothèse a le potentiel de révéler d'importants biomarqueurs diagnostiques ou pronostiques ayant échappé aux criblages précédents, tels que des ARN non codants, variants d'épissage, fusions de gènes et même ARN étrangers provenant de pathogènes. Toutes les signatures inférées seront intégrées dans l'encyclopédie.

L'encyclopédie et les outils de requête associés seront fournis à la fois sous forme d’outils open source autonomes et via des interfaces Web. Pour l’utilisateur final, TranSiPedia permettra (1) de récupérer le profil d'expression de toute signature k-mer de l’encyclopedie ou fournie par lui, dans un très grand jeu de banques RNA-seq (>10,000) et (2) d’analyser ses propres banques RNA-seq pour y rechercher les signatures de l'encyclopédie. Des prototypes fonctionnels sont déjà disponibles pour chaque élément du système.

Les principales retombées du projet comprennent (1) la capacité de réanalyser les projets RNA-seq dans tout type d'organisme, permettant l'identification d'une diversité d’évènements transcriptionnels sans précédent; (2) la découverte de biomarqueurs ARN de valeur diagnostique et pronostique; (3) une nouvelle façon pour les groupes gérant de grands jeux de données publics d'offrir l'accès à leurs données; (4) à plus long terme, l'émergence d'un écosystème pour la curation d'un index d'événements transcriptomiques à base de signatures k-mer avec des applications dans le domaine de la santé et de la recherche; et (5) une plate-forme puissante pour les services commerciaux que les partenaires industriels peuvent associer à la curation manuelle et à l'apprentissage automatique pour développer des applications biologiques ou médicales ciblées.

Daniel GAUTHERET (Institut de Biologie Intégrative de la Cellule)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

IRMB Cellules souches, plasticité cellulaire, régénération tissulaire et immunothérapie des maladies inflammatoires
CRIStAL Centre de Recherche en Informatique, Signal et Automatique de Lille
I2BC Institut de Biologie Intégrative de la Cellule

Aide de l'ANR 519 949 euros
Début et durée du projet scientifique : novembre 2018 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.