MN - Modèles Numériques

Algorithmes efficients pour modèles réalistes à grand échelle : développements fondamentaux et applications – ProbAlg

Résumé de soumission

Aujourd’hui les problèmes de biologie conduisent à des défis méthodologiques et algorithmiques parmi les plus ardus. Notamment, les projets de génomique à grandes échelles rendent nécessaire le développement de nouveaux concepts et algorithmes numériques, ne pouvant plus se contenter ‘d’importer’ des idées et concepts provenant d’autres domaines. Le projet se positionne précisément dans cette perspective, en se basant sur des méthodes algorithmiques originales, précédemment développées par les membres du consortium pour des problèmes biologiques dans le cadre probabiliste. Le but du projet est alors de généraliser ces développements, notamment avec l’élaboration de nouveaux outils issus de la convergence des méthodes déjà développées. Des extensions pour les idées algorithmiques, au-delà même des domaines biologiques d’origine seront explorées.
De façon plus précise, le projet est fondé sur les deux développements suivants:

1. Méthodes SIMEX (SIMulations with EXponentials) et Padé-Laplace: La méthode SIMEX concerne les modèles de ‘programmation dynamique’dans le contexte probabiliste, permettant de tenir compte de contraintes à longues portées réalistes avec des temps calcul réduits de façon drastique (jusque six ordres de grandeur). Cette méthode, formulée au départ en biophysique structurale, ne fait pas intervenir les simplifications usuelles dans les modèles pour rendre les calculs pratiquables. Du point de vue des calculs, ‘l’astuce’ fondamentale dans la méthode concerne le recours à une représentation numérique des effets à longue portée en sommes de fonctions exponentielles. Des exprssions de ce type sont alors obtenues grâce à la méthode Padé-Laplace, qui résout un problème central en Analyse du Signal. Récemment, les idées à la base de SIMEX ont été étendues de la biophyisque à la bioinformatique (alignements de séquences), comme une première illustration de la généralité potentielle de l’approche.

2. Méthode ISD (Inferential Structure determination): L’approche ISD a été développée au départ en biologie structurale, en vue de convertir de façon fiable, et sans biais, les données expérimentales sur la structure repliée de protéines (obtenues par RMN) en distributions de structures 3D, significatives statistiquement. Pour ce faire, ISD s’appuie sur la théorie probabiliste Bayesienne. L’algorithme fondamental sous-jacent concerne une généralisation multi-paramètre des schémas de Monte-Carlo du type ‘replica-exchange’, utilisant un algorithme de Monte-carlo hybride pour générer de nouvelles données-tests. De façon plus générale, ISD est une méthode d’échantillonnage permettant l’exploration de densités de probabilités dans différents systèmes d’analyses bayesiennes.

Les développements ci-dessus constituent un tremplin idéal pour une série de nouvelles généralisations.

1. Généralisations conceptuelles pour les composantes méthodologiques: Ces généralisations seront formulées à l’occasion de problèmes-modèles en complexités croissantes. Par exemple pour SIMEX on traitera les modèles d’ARN; pour ISD on abordera le traitement de données issues de sources hétérogènes. 
2. Elaboration de nouvelles interfaces entre composantes: Une interface SIMEX-ISD sera développée, conduisant à de nouveaux outils intégralement probabilistes. Un de ces développements concertés concernera les modélisations par homologie avec ISD, avec comme ‘entrée’ des alignements probabilistes générés par SIMEX.
3. Extensions et adaptations pour de nouveaux champs d’applications: Notamment la méthode ISD sera étendue pour le traitement de données basse-résolution, visant à reconstruire l’organisation et la dynamique des chromosomes dans le noyau, se basant sur des sources de données hétérogènes.
4. Paradigmes concernant les modélisations: On s’attachera à évaluer les mérites respectifs des approches d’optimisation et probabilistes pour l’implémentation de modèles réalistes avec des contraintes non-linéaires.

Coordination du projet

Michael Nilges (INSTITUT PASTEUR) – nilges@pasteur.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

IP INSTITUT PASTEUR
Imod INSTITUT PASTEUR

Aide de l'ANR 232 000 euros
Début et durée du projet scientifique : février 2012 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter