Blanc SIMI 3 - Sciences de l'information, de la matière et de l'ingénierie : Matériels et logiciels pour les systèmes, les calculateurs, les communications

Inversion hiérarchique bayésienne dédiée à la spectrométrie de masse. Application à la découverte et la validation de nouveaux marqueurs protéiques. – BHI-PRO

BHI-PRO

Inversion hiérarchique bayésienne dédiée à la spectrométrie de masse. Application à la découverte et la validation de nouveaux biomarqueurs protéiques.

Objectifs scientifiques et économiques

Les enjeux scientifiques et économiques sont d’améliorer l’efficacité des phases de découverte et de validation de biomarqueurs protéiques. Les études reposant sur la spectrométrie de masse (MS) réduisent significativement le délai par rapport à des approches standards par immunocapture. Elles donnent accès directement à des profils multidimensionnels de biomarqueurs. Cependant, seulement un faible nombre d’études cliniques protéomiques utilisant la spectrométrie de masse ont conduit avec succès à l’identification robuste de nouveaux marqueurs, remettant en question la reproductibilité des analyses protéomiques par spectrométrie de masse. Deux paramètres cruciaux n’ont pas été pris en compte dans les études actuelles : le rapport entre la variabilité technologique et la variabilité biologique et le concept de puissance statistique. Pour un nombre donné de patients, la variabilité technologique doit être réduite pour augmenter la puissance statistique des études. Nous proposons de contrôler la variabilité technologique grâce à un algorithme d’inversion Bayésien adaptatif innovant pour retrouver la concentration des protéines et le statut clinique de l’échantillon.

Des efforts de recherche importants sont consacrés au niveau mondial pour développer des chaînes d’analyse reposant sur la spectrométrie de masse pour la découverte, la validation et la quantification de biomarqueurs protéiques dans des matrices complexes comme l’urine ou le sang. Cependant, maîtriser la variabilité technologique sur ces chaînes d’analyse est un point critique. Ceci nécessite de développer des techniques de traitement de l’information adaptées pour prendre en compte la complexité du mélange analysé, pour améliorer la fiabilité des mesures et pour faciliter l’usage de ces technologies.
Une chaîne d’analyse protéomique est un enchaînement de traitements moléculaires qui peuvent être décrits par une structure de graphe, chaque nœud représentant un niveau d’analyse dans la chaîne. Chaque branche correspond à une décomposition moléculaire définissant un modèle de mélange hiérarchique. Dans ce projet BHI-PRO, nous proposons d’introduire des modèles hiérarchiques dédiés pour décrire les chaînes d’analyse MALDI et SRM/MRM3. Les nouveaux algorithmes d’inversion hiérarchique bayésiens reposeront sur deux innovations : l’association protéomique - problèmes inverses d'une part et problèmes inverses - échantillonnage stochastique d'autre part. La stratégie proposée repose sur des approches statistiques bayésiennes et des algorithmes d’échantillonnage stochastique.
D’un point de vue biostatistique, la possibilité de tester plusieurs biomarqueurs simultanément fait partie des avantages de la protéomique. Cependant, quand le nombre de variables augmente, la probabilité de trouver des résultats par chance devient statistiquement significative. Nous proposons d’évaluer la puissance statistique des tests de discrimination dans le contexte bayésien étudié.
Les principaux livrables seront deux logiciels d’inversion hiérarchique bayésien dédiés respectivement aux acquisitions MALDI et SRM/MRM3, et un rapport de recommandations biostatistiques.

Une première version du logiciel d’inversion hiérarchique bayésien en mode SRM (Selective Reaction Monitoring) a été développée et testée sur données expérimentales. Sur les échantillons synthétiques avec connaissance relative des concentrations des protéines, le coefficient de variation sur la concentration estimée est inférieur à 5% pour certaines protéines. Sur les échantillons sanguins prélevés sur une cohorte de 203 patients pour une étude du cancer colorectal, l’évaluation des performances quantitatives a été réalisée par comparaison avec un test ELISA. Un coefficient de corrélation de 0.83 a été observé sur la protéine LFABP témoignant d’une bonne corrélation. Ces premiers résultats ont été présentés à la conférence Research in Computational Molecular Biology Satellite Conference on Computational Proteomics (RECOMB CP) à San Diego (USA) le 7 Avril 2012.

D’un point de vue données expérimentales, pour la chaîne d’acquisition MALDI, les analyses sont en cours pour la mise en place du plan expérimental. Les deux jeux de données seront acquis pour fin 2012. En parallèle, un certain nombre de tests ont été réalisés pour initier la validation du modèle permettant de générer le jeu de données.
Pour la chaîne d’acquisition SRM et MRM3, une nouvelle campagne expérimentale a été engagée sur la chaîne d’acquisition SRM pour évaluer les performances du logiciel SRM/MRM3 développé sur BHI-PRO et les comparer à celles des méthodes existantes. Le plan d’expérience a été construit. La première partie de ces expériences consacrée au mode SRM a débuté en juin 2012. La deuxième partie consacrée au mode MRM3 est prévue à l’automne 2012.
Concernant le développement du logiciel MRM, une version en mode classification comportant l’apprentissage à partir d’une cohorte de M classes et le classement d’un nouvel échantillon dans une de ces classes est en cours de test. Pour le mode MRM3, le logiciel d’inversion devrait être finalisé d’ici le mois de septembre 2012. Les performances du logiciel seront évaluées sur la nouvelle campagne expérimentale.
Concernant le logiciel MALDI, une première modélisation, une stratégie pour extraire les pics du spectre et une méthodologie de type choix de modèle pour la sélection de variables ont été proposées. Le développement du logiciel en mode MALDI devrait être réalisé d’ici décembre 2012.
Concernant les études biostatistiques, les développements des logiciels d’analyse statistique pour le mode MALDI et pour le mode MRM interviendront majoritairement sur la deuxième partie du projet. Les études en cours concernent la définition du plan d’expérience pour l’expérimentation MRM et l’analyse statistique des résultats en utilisant notamment des modèles de régression avec référence imparfaite pour comparer les performances des mesures MRM et celles des mesures ELISA.

1.Gerfault L., Szacherski P., Giovannelli J.-F., Charrier J.-P., Mahe P., Grangeat P. (2012), «A hierarchical SRM acquisition chain model for improved protein quantification in serum samples«, Research in Computational Molecular Biology (RECOMB) Satellite Conference on Computational Proteomics 2012 (RECOMB CP), San Diego, USA, 6-8 avril 2012.
hal.archives-ouvertes.fr/hal-00676587
2.Szacherski P., Giovannelli J. F., Grangeat P. (2011), «Apprentissage supervisé robuste de caractéristiques de classes. Application en protéomique«, XXIIIème Colloque GRETSI, 5-8 septembre 2011, Bordeaux, France.
hal.archives-ouvertes.fr/hal-00585531
3.Poster présenté à la 5ème édition des Journées Collaboratives Lyonbiopôle du 7 octobre 2011 : BHI-PRO : Bayesian hierarchical inversion for mass spectrometry. Application to discovery and validation of new protein biomarkers.

Des efforts de recherche importants sont consacrés au niveau mondial pour développer des chaînes d’analyse reposant sur la spectrométrie de masse pour la découverte, la validation et la quantification de biomarqueurs protéiques dans des matrices complexes comme l’urine ou le sang. Le défi est d’associer une haute sensibilité pour détecter de très petites quantités de protéines, et des capacités de séparation efficaces pour s’affranchir du riche contenu protéique et identifier la signature de la ou des protéines ciblées. Cependant, maîtriser la variabilité technologique sur ces chaînes d’analyse est un point critique pour obtenir des résultats significatifs avec un coût, un temps d’analyse et un nombre d’échantillons acceptables. Ceci nécessite de développer des techniques de traitement de l’information adaptées pour prendre en compte la complexité du mélange analysé, pour améliorer la fiabilité des mesures et pour faciliter l’usage de ces technologies.
Une chaîne d’analyse protéomique est un enchaînement de traitements moléculaires qui peuvent être décrits par une structure de graphe, chaque nœud représentant un niveau d’analyse dans la chaîne. Chaque branche correspond à une décomposition moléculaire définissant un modèle de mélange hiérarchique. Dans ce projet BHI-PRO, nous proposons d’introduire des modèles hiérarchiques dédiés pour décrire les chaînes d’analyse MALDI et MRM3. Les nouveaux algorithmes d’inversion hiérarchique bayésiens reposeront sur deux innovations : la première concerne l’association protéomique et problèmes inverses. Le défi est d’établir des modèles d’instrument incluant les principaux phénomènes physiques impliqués dans le processus de mesure. Ceci nous fournira un modèle direct incluant les paramètres physiques pertinents, organisés dans une structure hiérarchique. Le deuxième défi concerne l’association problèmes inverses et échantillonnage stochastique. Il impliquera le développement d’une méthode de détection-estimation pour les données MALDI et d’une méthode d’estimation pour les données MRM3. La stratégie proposée repose sur des approches statistiques bayésiennes et l’exploration de la loi a posteriori sera réalisée grâce à des algorithmes d’échantillonnage de Monte Carlo par Chaînes de Markov.
D’un point de vue biostatistique, la possibilité de tester plusieurs biomarqueurs simultanément fait partie des avantages de la protéomique. Cependant, quand le nombre de variables augmente, la probabilité de trouver des résultats par chance devient statistiquement significative. Au sein de ce projet, nous proposons d’évaluer la puissance statistique des tests de discrimination dans le contexte bayésien étudié.
Ce projet BHI-PRO rassemble 3 équipes de recherche en traitement du signal (CEA-LETI, CEA-LIST, IMS), 2 équipes de recherche en biostatistique (LBS, CLIPP) et 2 plateformes protéomiques (CLIPP pour le MALDI et la recherche de marqueurs et bioMérieux pour la MRM3 et la validation de 8 protéines candidates pour le cancer colorectal). C’est la première opportunité d’associer dans un même projet de recherche l’inversion bayésienne, les biostatistiques, et les plateformes de protéomique.
Les principaux livrables seront 2 versions d’un logiciel d’inversion hiérarchique bayésien, et un rapport de recommandations d’un point de vue biostatistique.
La dissémination envisagée propose 4 publications pertinentes et la participation à des conférences internationales. La valorisation comprend notamment la diffusion d’un package logiciel d’inversion hiérarchique bayésien dédié aux acquisitions MALDI disponible en accès libre, le transfert à bioMérieux d’un package logiciel d’inversion hiérarchique bayésien dédié aux acquisitions MRM3, et la publication de recommandations biostatistiques pour l’usage de protocoles optimisés et pour définir des règles de Bonnes Pratiques.

Coordination du projet

Pierre GRANGEAT (CEA - CENTRE DE GRENOBLE) – pierre.grangeat@cea.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

CEA CEA - CENTRE DE GRENOBLE
bMx BIOMERIEUX SA
IMS CNRS - DELEGATION AQUITAINE LIMOUSIN
LBS CNRS - DELEGATION REGIONALE RHONE-AUVERGNE
CLIPP CHU DIJON

Aide de l'ANR 820 000 euros
Début et durée du projet scientifique : - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter