DS0705 -

Algorithmes et outils logiciels pour le séquençage d'ARN de troisième génération – ASTER

Résumé de soumission

Nous proposons de développer des algorithmes et des outils logiciels pour l’analyse de données de séquençage de troisième génération. Le séquençage de troisième génération est une technologie émergente qui ouvrent de nouvelles perspectives pour l’étude des génomes, des transcriptomes, des métagénomes et des métatranscriptomes, et promet d’avoir un impact important en biologie, avec de nombreuses applications en santé, environnement et agro-alimentaire.

Par rapport au séquençage de deuxième génération, le séquençage de troisième génération produit des fragments qui couvrent une plus large portion de la molécule, jusqu’à plusieurs milliers de bases. Cette propriété permet de surmonter les limitations actuelles du séquençage de deuxième génération et peut être qualifiée de révolution. De manière remarquable, cette transition n’impacte pas ni le coût de séquençage, ni la facilité de production des données. Elle permet même d’envisager une démocratisation plus avancée du séquençage, avec l’avènement d’instruments miniatures à bas coût, tels que le MinION commercialisé par Oxford Nanopore Technologies.

Le projet ASTER s’intéresse plus particulièrement à l’analyse de données nanopore pour le transcriptome. Le transcriptome est l’ensemble des ARN exprimés dans une population de cellules. Son étude permet de comprendre quelles sont les fractions du génome exprimées et de les caractériser. C’est une étape importante pour la prédiction de gènes, l’identification de variants, l’identification d’espèces dans une communauté… D’un point de vue bioinformatique, analyser ces nouvelles données est un problème difficile en raison du fort taux d’erreurs de séquençage, de la masse des données et de la complexité intrinsèque des données de transcriptome. Dans cette perspective, nous voulons développer des algorithmes et des modèles pour le transcriptome (ARN d’un seul organisme), le séquençage ARN ribosomiques 16S d’une communauté, et le métatranscriptome (ARN total échantillonné d’une communauté d’organismes). Pour cela, nous considérerons plusieurs cas de figure suivant la disponibilité de données de deuxième génération ou d’un génome de référence. Nous proposerons une batterie de solutions spécialisées complémentaires : alignement, correction d’erreurs, structure des gènes, variants, assignation taxonomique. Ces recherches reposeront sur le meilleur de l’état de l’art en algorithmique du texte, et nous amèneront à faire de nouvelles contributions dans ce domaine : nouveaux modèles de graines, compression, structures de graphes, structures d’index.

Le projet réunit deux équipes expertes en algorithmique pour la bioinformatique (Bonsai, CRIStAL à Lille et Erable, LBBE à Lyon), et deux plateformes de séquençage et d’analyse qui ont participé activement au MAP, le programme pilote international de test du MinION (Genoscope et Institut Pasteur de Lille). Bonsai et Erable partagent une longue expérience de développement d’algorithmes et de logiciels pour l’analyse de données de séquençage à haut débit (Kissplice, CRAC, sortmeRNA). Le Genoscope et l’Institut Pasteur de Lille vont permettre à l’ensemble de partenaires du projet de suivre la technologie et d’accéder aux dernières versions du MinION et du Promethion. Ils apportent également leur vision experte de ces données. Par exemple, le Génoscope a récemment publié le pipeline NAS pour la correction d’erreurs.

Tous les algorithmes seront valorisés par le développement de logiciels libres, dont la publicité sera faite par des publications de haut niveau et par une diffusion au sein du réseau national France Génomique. Ils seront également intégrés à la bibliothèque GATB, ce qui accroîtra encore l’audience de ce travail. Les données de séquençage générées spécifiquement pour le projet feront l’objet de dépôts dans des archives publiques, afin de servir de benchmarks à l’ensemble de la communauté.

Coordination du projet

Hélène Touzet (Centre de Recherche en Informatique, Signal et Automatique de Lille)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Bonsai - CRIStAL Centre de Recherche en Informatique, Signal et Automatique de Lille
Erable - LBBE Laboratoire de Biométrie et Biologie Evolutive - U LYON1
INSTITUT PASTEUR DE LILLE
CEA - GENOSCOPE Commissariat à l'energie atomique et aux energies alternatives

Aide de l'ANR 562 841 euros
Début et durée du projet scientifique : novembre 2016 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter