DS07 - Société de l'information et de la communication

Intégration et nettoyage de données pour l'analyse statistique – DirtyData

Résumé de soumission

L'apprentissage machine a inspiré de nouveaux marchés et de nouvelles applications en extrayant de nouvelles information de données compliquées et bruitées. Cependant, pour faire de telles analyses, l'étape la plus coûteux est souvent de préparer les données. Cela implique de corriger des erreurs et des incohérences dans les données ainsi que de transformer les données en un unique tableau, en forme de matrice, qui comporte tous les descripteurs intéressants pour toutes les observations à étudier. En effet, les données résultent souvent de la fusion de sources d'information multiples avec différentes conventions. Les différentes tables peuvent ne pas avoir d'entête pour leur colonnes, avoir des données manquantes, ou présenter des erreurs de saisie telles que des fautes de frappe. Il en résulte que les données ne peuvent être automatiquement remaniées pour en faire une matrice pour l'analyse statistique.

Cette proposition vise à diminuer considérablement le coût de la préparation des données en l'intégrant dans l'analyse statistique. L'idée centrale de notre vision est que l'apprentissage statistique est en lui même assez robuste au bruit et aux erreurs. C'est pourquoi nous voulons développer la méthodologie pour faire de l'apprentissage statistique sur les données d'origines. Pour cela, les opérations actuellement faites pour nettoyer les données avant l'analyse doivent être reformulée dans un cadre statistique qui capture les erreurs et les incohérences des données. Notre programme de recherche est inspiré de l'état de l'art en intégration de données en recherche en base de données, que nous combinons avec les progrès en modélisation statistique et en régularisation effectués en apprentissage statistique.

L'intégration de données et leur nettoyage est traditionnellement réalisé par les bases de données grâce à de la logique flou et des jointures. Pour l'incorporer dans l'analyse statistique, et ainsi propager les incertitudes, nous voulons revisiter ces opérations de logique et d'ensembles avec des outils d'apprentissage statistique. Un défi important est de transformer les entités présentes dans les données en des représentations adaptées à l'apprentissage statistique: robustes aux erreurs de saisie mais ne perdant pas les incertitudes associées.

L'état de l'art développé dans les bases de données est principalement basé sur de la logique de premier ordre et de la théorie des ensembles. Notre projet veut capturer les erreurs dans la saisie des éléments. C'est pourquoi nous formulons les opérations en terme de similarité. Nous abordons le typage des entrées, leur déduplication (trouver différentes formes de la même entité), les jointures entre des tableaux de données salles, et la correction d'erreurs et de données manquantes.

Notre but est de rendre ces étapes suffisamment génériques pour directement traiter des données sales sans construire manuellement des règles de nettoyage ou de reformatage. En effet, ces étapes ne tentent à aucun moment de construisent une vue "propres" des données, sans erreur. Elles cherchent plutôt à inclure dans l'analyse statistique les erreurs et les ambigüités des données.

Les méthodes développées seront évaluée sur une grande variété de jeux de données, comprenant entre autre le dépôt de données publique Français, data.gouv.fr. Notre consortium comprend une compagnie spécialisée dans l'intégration de données publique, Data Publica, qui conseille les entreprises en stratégie économique grâce à des analyses jointes entre des données publiques et des données spécifique à un marché.

Gael Varoquaux (Institut National de Recherche en Informatique et en Automatique)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Laboratoire de l'accélérateur linéaire
Data Publica DATA PUBLICA
LTCI-Télécom ParisTech Institut Mines-Télécom
Inria Saclay - Ile-de-France - équipe PARIETAL Institut National de Recherche en Informatique et en Automatique

Aide de l'ANR 498 562 euros
Début et durée du projet scientifique : novembre 2017 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.