L'Agence nationale de la recherche Une structure de financement sur projets au service de la recherche
Programmes de recherche > Sciences et Technologies de l'Information et de la Communication > Modèles Numériques > Thèmes et sujets de recherche > Masses de données
Cet axe thématique concerne la gestion de volumineux ensembles d’informations (textes, sons, images, signaux, événements, mesures, résumés, pattern etc.) généralement estampillées dans les cycles de conception, simulation et optimisation des applications des domaines de l’environnement, l’énergie, la santé, des télécommunications, de la vidéo-surveillance, de la finance, des réseaux physiques et sociaux, des contenus numériques … Il se caractérise par une recherche sur les problèmes de stockage, accès, modélisation, analyse, interprétation où la complexité et le volume des données manipulées constituent des verrous majeurs.
La complexité des données est définie de par leur nature (temporelle, spatiale, approximative, incertaine, fugace …), leur forme (signaux, texte, structurées, semi-structurées, multidimensionnelles) et leur aspect dynamique (flot de données / signaux en continu). Il s’agit de (i) poursuivre les efforts faits pour la définition d’algorithmes d’extraction de connaissances (résumés, règles d’associations, exceptions, motifs séquentiels) tenant compte de cette complexité et de (ii) proposer des approches pour optimiser les algorithmes de fouille ou pour extraire des informations/connaissances à la volée.
Le volume des données est corrélé à deux facteurs : la multiplicité et distribution de sources de production et la production en continue de ces sources. Ce volume a un impact sur les modèles de représentation des données des méthodes d’accès associés. De nouvelles stratégies d’archivage à long terme doivent être définies afin de limiter l’expansion des données à archiver (structures de données, mesures de qualité, métadonnées, entrepôt dédié, standardisation).
Du point de vue du traitement du volume des données sur une durée déterminée l’enjeu est le passage à l’échelle des algorithmes de fouille de données complexes. Il s’agit aussi d’aller vers un traitement intelligent et performant (fusion/agrégation) en temps réel des données pour limiter le volume des données. Notons qu’une troisième dimension non négligeable concerne la distribution grande échelle des données qui a un fort impact sur le modèle stockage et de traitement des données.