DS0503 -

Méthodes Statistiques pour Inférer les Transmissions de Maladies Infectieuses à partir de Données de Séquençage Haut-Débit – SMITID

Résumé de soumission

Les virus sont la cause d'épidémies à fort impact dans les pays développés et en voie de développement. Pour de tels pathogènes, inférer les liens de transmission au sein d'une population hôte ou entre populations hôtes (par ex. pour les zoonoses) est crucial pour disposer de prédictions épidémiologiques et concevoir des stratégies de lutte. Dans cette optique, pour les pathogènes à évolution rapide, l'analyse statistique de données de séquençage du pathogène permet d'identifier les hôtes qui contiennent des variants du pathogène proches les uns des autres. Cependant, jusqu'à présent les modèles existants ont principalement exploité une quantité limitée de données de séquençage, telles que les séquences consensus obtenues par Sanger, alors que les méthodes de séquençage deep Sanger (basées sur le clonage d'amplicons) et de séquençage haut-débit peuvent révéler la nature polymorphe des populations de pathogènes intra-hôtes. Dans ce projet, nous proposons une approche de modélisation et de statistique avant-gardiste qui exploitera ces données de séquençage deep Sanger et haut-débit pour inférer les liens de transmission de maladies infectieuses causées par des pathogènes à évolution rapide, tels que les virus, et pour inférer les relations entre transmissions et environnement.

Notre approche sera basée sur un modèle de pseudo-évolution original (et une méthode d'estimation associée) qui décrira de manière concise les transitions entre ensembles de séquences échantillonnées à différentes dates sur une unique unité hôte ou sur une unité hôte et sa source d'infection supposée. Nous avons développé une preuve de concept dans laquelle une version préliminaire du modèle de pseudo-évolution est utilisée pour identifier la source d'une infection et nous avons obtenu des résultats encourageants. Au cours du projet, nous développerons cette approche dans le but d'obtenir une méthode précise, robuste et rapide pour estimer les liens de transmission en utilisant des données de séquençage deep Sanger et haut-débit. Cette approche sera appliquée à des données simulées dans le but d'évaluer son efficacité pour des efforts d'échantillonnages variés, pour des techniques de séquençage diverses (correspondant à diverses profondeurs, longueurs de lecture et précisions) et pour divers modèle d'évolution & transmission du virus. Puis, notre approche sera appliquée à deux jeux de données sur le virus de la grippe A échantillonné dans des populations animales, à deux jeux de données sur des virus échantillonnés dans des populations de plantes sauvages et cultivées, et à un jeu de données généré au cours de l'épidémie 2014 d'Ebola. Un package du logiciel R sera construit pour permettre la dissémination de l'approche proposée.

Ce projet permettra des avancées majeures en épidémiologie moléculaire quantitative et en biologie computationnelle, à la fois par son approche statistique novatrice et par la possibilité d'inférer automatiquement un grand nombre de liens de transmission à partir de données de séquençage deep Sanger et haut-débit. Il sera ainsi possible d'obtenir des inférences plus précises des liens de transmissions, une meilleure connaissance de la propagation des pathogènes à l'intérieur d'une population hôte ou entre populations hôtes, une meilleure compréhension des liens entre transmission et environnement et, par voie de conséquence, des prédictions d'épidémies plus robustes et des stratégies de lutte plus efficaces.

Le projet méthodologique qui est proposé nécessite des compétences en statistique, probabilité, modélisation, développement de logiciels, épidémiologie, virologie et biologie évolutive. Nos expertises complémentaires sur ces disciplines et notre habitude de travailler ensemble nous permettront d'atteindre les objectifs du projet.

Samuel Soubeyrand (INSTITUT NATIONAL DE LA RECHERCHE AGRONOMIQUE - Biostatistique et processus spatiaux)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

INRA PACA - BioSP INSTITUT NATIONAL DE LA RECHERCHE AGRONOMIQUE - Biostatistique et processus spatiaux

Aide de l'ANR 251 228 euros
Début et durée du projet scientifique : octobre 2016 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.