DS0708 - Données massives et calcul intensif : enjeux et synergies pour la simulation numérique

Workflow Data Management as a Service pour des Applications Multi-Site – OverFlow

Résumé de soumission

Alors que nous entrons dans le monde de Big Data, le traitement mono-site devient insuffisant: les applications scientifiques à grande échelle ne peuvent plus être logés dans un seul centre de données. Les workflows sont la parfaite illustration de ces applications orientées données. Ils décrivent la relation entre les tâches individuelles de calcul (des binaires) et leurs données d'entrée et de sortie d'une manière déclaratives et ils échangent des données à l’aide des fichiers temporaires. Les volumes de données à croissance rapide, manipulés à des échelles de plus en plus grandes, imposent les workflows répartis géographiquement comme un paradigme naturelle de traitement de données. Cela peut avoir plusieurs avantages: résistance aux pannes, la distribution entre les partitions (par exemple, le déplacement des calculs proche de données ou vice-versa), passage à l'échelle élastique pour soutenir les rafales d'utilisation, la proximité des utilisateurs, etc. Dans ce contexte, le partage, la diffusion et l'analyse des ensembles de données génèrent des mouvements fréquents à grande échelle des données à travers les sites largement distribués. Des études montrent que le trafic inter-centre de données devrait tripler dans les années suivantes.

Aujourd'hui, les solutions de l'état de l'art du cloud ne fournissent pas de mécanismes adéquats pour la gestion efficace des données réparties géographiquement qui sont stockées et traitées dans plusieurs sites à travers le monde. Les solutions existantes sont limitées au stockage cloud partagé, qui offre une faible performance basée sur des schémas de coûts rigides. À leurs tour, les moteurs des workflows doivent improviser des substituts, et atteindre des performances au coût de configurations et entretien systèmes complexes,
fiabilité et réutilisabilité réduites. Le haut débit, les faibles latences et les coûts ne sont que quelques préoccupations pour les fournisseurs de cloud et les utilisateurs lorsqu'il se agit de traiter des données dans les centres de données.

Dans ce projet, nous étudions des approches à la gestion des données permettant une exécution efficace des workflows répartis géographiquement sur les clouds multi-sites. Nous nous concentrons sur un scénario commun où les workflows génèrent et traitent un grand nombre de petits fichiers, sujet particulièrement difficile en ce qui concerne la gestion des données. Comme ces charges de travail génèrent un déluge de petites opérations d’entrée / sortie indépendantes, la manipulation efficace des données et des métadonnées est critique. Nous allons étudier les techniques de minimiser l’impact de la latence sur l'accès aux données et métadonnées et optimiser les transferts comme un moyen d'améliorer la performance globale. La solution envisagée s’appuie sur la sémantique des workflows (par exemple les modèles d'accès aux données) et les outils pratiques disponibles sur les clouds d'aujourd'hui (par exemple les services de cache dans les clouds PaaS) afin de proposer plusieurs stratégies de gestion décentralisée des données. Le système sera exploité par les applications de la vie réelle (bio-informatique, villes intelligentes et physique nucléaire).

OverFlow propose un nouveau paradigme: la gestion des données de workflow « -as-a-Service » - un service général et facile à utiliser, proposé par le fournisseur cloud, qui comble pour la première fois le fossé entre la gestion des données mono- et multi-site. Il vise à tirer des avantages économiques de la géo-diversité tout en accélérant la découverte scientifique à l’aide d’une «démocratisation» de l'accès aux données distribuées à l'échelle mondiale.

Alexandru Costan (INSA Rennes / Institut de recherche en informatique et systèmes aléatoires)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

INSA Rennes / IRISA INSA Rennes / Institut de recherche en informatique et systèmes aléatoires

Aide de l'ANR 247 216 euros
Début et durée du projet scientifique : septembre 2015 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.