Blanc SIMI 2 - Sciences de l'information, de la matière et de l'ingénierie : Sciences de l’information, simulation

Modèle pour l'Apprentissage du Comportement Sensorimoteur d'iCub – MACSi

Modèle pour l'Apprentissage du Comportement Sensorimoteur d'iCub

On prévoit une très forte expansion du marché des robots personnels dans un futur proche. Ces robots devront être flexibles et adaptatifs pour faire face à une grande variété de tâches dans des environnements imprédictibles. Dans ce contexte, programmer à l'avance toute réaction à toute situation n'est plus envisageable. Une approche alternative est l'approche développementale suivie dans ce projet, où l'apprentissage du robot se construit depuis le niveau sensori-moteur le plus élémentaire.

Quatre objectifs complémentaires

Le projet est fondé sur quatre défis complémentaires : Comment un robot peut-il apprendre des représentations perceptives efficaces de son corps et des objets externes sur la seule base de capacités perceptives de bas niveau ? Comment un robot peut-il apprendre des représentations motrices et les utiliser pour construire des capacités élémentaires d'atteinte et de manipulation des objets ? Quelles heuristiques de guidage utiliser pour explorer un vaste espace sensori-moteur dans un environnement changeant ? Comment intégrer dans une même architecture robotique expérimentale des mécanismes efficaces de représentation, d'abstraction et de guidage pour apprendre des compétences élémentaires de manipulation ?

Une approche développementale

Le projet suit la démarche de la robotique développementale, qui consiste à doter le robot de capacités d'apprentissage comparables à celles dont sont dotés les enfants et à laisser le robot s'appuyer par lui-même sur ces capacités d'apprentissage pour construire des compétences de plus en plus complexes d'interaction avec son environnement.

En pratique, les travaux techniques réalisés dans le cadre du projet MACSi se sont concentrées sur trois domaines :

- l'apprentissage pour la vision, qui consiste à doter le robot de capacités perceptives très élémentaires et lui donner les moyens d'apprendre à structurer les informations élémentaires ainsi extraites en représentations de plus en plus complexes. Le robot devient ainsi capable de reconnaître les différents objets, les utilisateurs ou le corps du robot.

- l'apprentissage par imitation et par renforcement pour l'amélioration progressive des capacités motrices. Avec ces processus de base de l'apprentissage automatique, le robot peut se constituer peu à peu un répertoire de capacités motrices de plus en plus étoffé et de plus en plus efficace.

- les mécanismes de guidage du choix de l'action basé sur des modèles de la curiosité intrinsèque du robot, des modèles de l'interaction avec des utilisateurs attentifs à l'apprentissage du robot et des modèles de l'interaction entre ces deux modalités de choix de l'action.

Résultats

Le développement progressif du projet a donné lieu à de nombreuses publications intermédiaires au fur et à mesure que les quatre objectifs individuels étaient atteints. Certaines de ces publications ont un impact significatif sur la communauté internationale dans leurs domaines respectifs.

Au bout du compte, tous les développements individuels ont été regroupés au sein d'une architecture informatique globale qui intègre les capacités développées par chacune des équipes impliquées.

En pratique, le robot humanoïde iCub est confronté à un certain nombre d'objets dans son environnement, il cherche à les reconnaître. Pour ce faire, il est important qu'il voie les objets sous différentes faces. Pour voir ces faces, il est confronté à un choix entre manipuler lui-même ces objets en mettant en oeuvre les capacités motrices qu'il acquière, ou bien faire appel à un utilisateur extérieur qui est susceptible de lui montrer l'objet sous une autre face. Nous avons montré que le processus de guidage permet au robot de faire ce choix en fonction de la difficulté qu'il rencontre à orienter l'objet par lui-même comme il le souhaite. De plus, nous avons montré que la capacité du robot à apprendre à reconnaître les objets est améliorée grâce à ce processus de guidage.

Ces résultats ont été publiés dans un article de IEEE Transactions on Autonomous Mental Development qui constitue la synthèse du travail d'intégration effectué dans la phase finale du projet.

Par ailleurs, deux thèses ont été soutenues dans le cadre du projet (Natalia Luybova, ENSTA-Paristech et Sao Mai N'guyen, INRIA Bordeaux)

Perspectives

Le projet a permis de développer un ensemble de mécanismes d'apprentissage robustes qui constituent une base solide pour le développement de compétences cognitives de plus haut niveau.
Ce travail ouvre donc des perspectives accessibles à l'ensemble de la communauté internationale pour faire avancer le projet d'ensemble de la robotique développementale.

Plus localement, le projet a permis de lancer des travaux de recherche complémentaires autour de la plate-forme humanoïde iCub, à savoir :

- le projet européen FP7 CODYCO, qui s'intéresse à la commande corps complet du robot dans un cadre de contacts avec l'environnement et qui met en oeuvre des méthodes d'apprentissage pour la commande dans ce contexte ;
- le projet EDDHI, financé par le labex SMART, qui s'intéresse à l'interaction homme-robot, mené en collaboration avec des psychologues.

Productions scientifiques et brevets

Ce champ ne contient que les publications dans des journaux et conférences majeures, voir le site web pour une vue complète des publications.

Ivaldi, S.; Nguyen, S.M.; Lyubova, N.; Droniou, A.; Padois, V.; Filliat, D.; Oudeyer, P.-Y.; Sigaud, O. (2013) Object learning through active exploration. IEEE Transactions on Autonomous Mental Development.

Droniou, A., Sigaud, O. (2013) Gated autoencoders with tied input weights. Proc. 30th International Conference on Machine learning, Atlanta, Georgia, USA.

Nguyen, M., Oudeyer, P-Y. (2013) Active Choice of Teachers, Learning Strategies and Goals for a Socially Guided Intrinsic Motivation Learner, Paladyn Journal of Behavioural Robotics.

Stulp, F. & Sigaud, O. (2013). Adaptation de la matrice de covariance pour l’apprentissage par renforcement direct. Revue d'intelligence artificielle - n. 2/2013, p. 243-263.

Ivaldi, S.; Sigaud, O.; Berret, B.; Nori F. (2012). From Humans to Humanoids: the Optimal Control framework. Paladyn. Journal of Behavioral Robotics. DOI: 10.2478/s13230-012-0022-3 Pages 1-17.

Stulp, F. & Sigaud, O. (2012). Path Integral Policy Improvement with Covariance Matrix Adaptation. Proceedings of the 29 th International Conference on Machine Learning, Edinburgh, UK.

T.Degris, M. White, R. S. Sutton (2012) Linear Off-Policy Actor-Critic. In Proceedings of the International Conference on Machine Learning.

Oudeyer, P-Y. (2012) GX-29 n'est pas un objet comme les autres, Sciences et Avenir Hors-Série, dec/jan 2011, «Qu'est-ce-que l'homme?«.

O. Sigaud, C. Salaün and V. Padois. On-line regression algorithms for learning mechanical models of robots: A survey. Robotics and Autonomous Systems 59 (2011) 1115–1129.

Filliat, D. (2010) Manuel d'éducation des jeunes robots à l'usage de leurs maitres. La Jaune et la Rouge.

Résumé de soumission

La majorité des robots du siècle passé réalisaient inlassablement la même tâche industrielle dans un environnement extrêmement structuré, parfaitement modélisé, tel qu'une chaîne de montage. La réaction à tout événement pouvait être planifiée et le comportement global pouvait être entièrement programmé lors de la conception du robot. Avec la robotique personnelle, ludique ou de compagnie qui représente un marché émergent considérable, les choses changent radicalement : les robots vont devoir évoluer dans des environnements imparfaitement connus tels que des habitations ou des rues, ils vont devoir accomplir une très large diversité de tâches en s'adaptant aux besoins d'utilisateurs très variés au contact desquels ils évolueront. Dans ce nouveau contexte, programmer à l'avance la réaction du robot à toute situation en fonction de toute tâche n'est plus viable.

Une alternative évidente à la programmation a priori lors de la conception consiste à doter le robot de capacités d'apprentissage qui vont lui permettre d'adapter son comportement à l'évolution des circonstances. Dans cette optique, la recherche en intelligence artificielle et reconnaissance des formes a produit un grand nombre de paradigmes d'apprentissage – supervisé, non-supervisé, par renforcement, associatif, symbolique, neuronal, situé, hybride, distribué, etc. - destinés à doter les robots de capacités spécifiques en reconnaissance des objets, du langage ou bien en locomotion, manipulation ou navigation, par exemple. Pourtant, nous sommes encore très loin de savoir construire des robots dotés des capacités adaptatives d'un enfant de un an.

La robotique développementale (ou épigénétique) est une approche de la robotique qui s'inpire des travaux de la psychologie du développement sur l'enfant pour doter les robots de capacités d'apprentissage dont la flexibilité et la robustesse soient comparables à celle des enfants.

Dans ce cadre, notre approche vise à importer des principes du développement sensorimoteur de l'enfant dans des algorithmes pour permettre à un robot de construire des nouvelles compétences orientées à la fois par ses propres motivations et par l'incitation d'un utilisateur humain. Le défi est de doter un robot de capacités à découvrir, adapter et développer continuellement des nouvelles compétences et connaissances dans un environnement inconnu et changeant, comme le font les enfants. Plus précisément, dans le cadre limité de ce projet, l'objectif est d'identifier et mettre au point un nombre minimal de mécanismes fondamentaux dont il faut doter le robot pour qu'il puisse amorcer ce processus de construction progressive de compétences.

En pratique, nous allons réaliser un scénario dans lequel iCub est assis à une table avec quelques objets à sa portée devant lui. Le robot va explorer ce qu'il peut faire avec ses bras et mains et avec les objets environnants en bougeant ses membres supérieurs. Un utilisateur bienveillant sera parfois devant le robot et l'encouragera ou au contraire le découragera de réaliser telle ou telle action, ou encore attirera l'attention du robot sur tel ou tel objet, en l'agitant par exemple. Au fil de ces interactions, on attend que le robot construise des représentations de plus en plus complexes de son environnement et de ses propres membres, mais aussi qu'il apprenne des comportements d'interaction de plus en plus sophistiqués avec cet environnement.

Olivier Sigaud (UNIVERSITE PARIS VI [PIERRE ET MARIE CURIE]) – olivier.sigaud@upmc.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

UPMC UNIVERSITE PARIS VI [PIERRE ET MARIE CURIE]
INRIA INRIA Centre Bordeaux Sud-Ouest
ENSTA ParisTech ECOLE NATIONALE SUPERIEURE DES TECHNIQUES AVANCEES
GOSTAI GOSTAI SAS
SOFTBANK ROBOTICS EUROPE

Aide de l'ANR 408 718 euros
Début et durée du projet scientifique : - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.