Comment apprendre aux robots

il y a 3 ans

La robotique a fait des progrès spectaculaires, mais les machines sont encore très loin de pouvoir apprendre comme les humains. Les chercheurs en IA développementale explorent diverses pistes pour y parvenir.

On peut être centenaire et avoir encore beaucoup à apprendre. Un siècle après l'invention du mot « robot » dans une pièce du dramaturge tchèque Karel Capek (lire ci-contre), les robots sont désormais parmi nous. Ils ont déjà conquis les usines du monde entier : près de 3 millions de robots industriels sont actuellement en activité, selon la Fédération internationale de la robotique. Depuis une quinzaine d'années, les robots dits « de service » ont aussi fait leur apparition dans les entrepôts, les hôpitaux ou les exploitations agricoles. A présent, les robots s'apprêtent à envahir nos rues (robots de livraison), nos routes (voitures autonomes) et même notre ciel (drones).

De plus en plus autonomes et connectés, bardés de capteurs pour analyser leur environnement, de microprocesseurs et de logiciels pour agir en conséquence, les descendants des robots de Capek ont cependant encore beaucoup de progrès à faire. Une grande partie des recherches, aux frontières de la robotique et de l'intelligence artificielle, se concentrent sur la façon dont les robots peuvent « apprendre » à effectuer une tâche - qu'il s'agisse de se déplacer, de trier des objets ou d'utiliser un outil.

Robotique développementale

Les actions des robots ont longtemps été programmées comme les logiciels classiques. Les mouvements d'un bras robotisé, par exemple, correspondent à une suite d'instructions écrites pour chaque situation. Les robots ont ensuite bénéficié des progrès de l'apprentissage automatique (« machine learning »), avec lequel le logiciel n'est plus programmé, mais « entraîné » à effectuer une tâche précise, par exemple reconnaître un objet précis dans une image.

Mais comment permettre aux robots de s'adapter à des situations nouvelles et inconnues de leur concepteur ? C'est le domaine exploré depuis une vingtaine d'années par une branche de l'intelligence artificielle, la robotique développementale - également appelée IA développementale. L'idée est de développer des machines qui s'inspirent de la façon dont les humains apprennent à explorer le monde.

« Les enfants sont capables d'un apprentissage autonome, ils n'ont pas besoin qu'un ingénieur intervienne pour leur apprendre de nouvelles tâches, explique Pierre-Yves Oudeyer, directeur du laboratoire Flowers, une équipe-projet d'Inria spécialisée dans l'IA développementale. Le cerveau d'un enfant génère ses propres objectifs, ses propres motivations. »

Comment « motiver » une machine ? L'une des pistes explorée par Flowers, ainsi que par plusieurs équipes de recherche à travers le monde, repose sur l'apprentissage par renforcement profond (« deep reinforcement learning »). Cette méthode, utilisée par DeepMind pour le programme AlphaGo, consiste à laisser la machine apprendre par elle-même par un système d'essais et d'erreurs, en la « récompensant » (par une modification de ses paramètres) à chaque fois qu'elle réussit à accomplir une tâche.

L'étape d'après consiste à développer « des mécanismes qui vont permettre aux machines de générer leurs propres objectifs, et d'autoévaluer la manière dont ils vont atteindre ces buts, explique Pierre-Yves Oudeyer. C'est ce que l'on appelle la motivation intrinsèque ».

Curiosité artificielle

L'équipe Flowers travaille par exemple sur des algorithmes de « curiosité artificielle », avec lesquels le système va essayer d'apprendre à prédire ce qui se passe autour de lui. Une manière simple de le faire consiste à explorer les parties de l'environnement où il fait beaucoup d'erreurs en prédiction… Mais cela ne fonctionne pas toujours correctement : Pierre-Yves Oudeyer donne l'exemple d'un système qui essayait de prédire la couleur des voitures passant devant lui, ce qui est rigoureusement impossible, car le phénomène est totalement aléatoire. « Pour éviter cela, on va essayer de faire comprendre à la machine que ce qui est intéressant n'est pas de faire des erreurs : c'est de faire des progrès en prédiction. Il ne s'agit pas de récompenser la réalisation d'une tâche, mais les progrès dans l'apprentissage. »

Une autre piste repose sur l'utilisation du langage pour que le robot se fixe ses propres objectifs. « Dans ce cas, l'agent que nous avons développé parcourt le monde, observe son environnement en le décrivant avec du langage, et va ensuite s'imaginer de nouveaux buts en recombinant les mots du langage - 'j'aimerais essayer de faire ça', un peu comme un enfant utilise le langage pour jouer », explique Pierre-Yves Oudeyer.

Aujourd'hui, la plupart des travaux du laboratoire Flowers sont menés dans des environnements virtuels, semblables à des jeux vidéo - les « robots » qui les explorent sont des agents logiciels. Mais cela n'empêche pas d'avoir des applications concrètes. Les algorithmes de curiosité artificielle, par exemple, sont utilisés dans la recherche scientifique, pour essayer de comprendre un phénomène chimique ou biologique - la start-up française Poietis, spécialisée dans la bio-impression 3D, explore cette voie dans le but d'automatiser une partie de ses expérimentations.

A terme, les recherches permettront aux robots de réellement apprendre par eux-mêmes, y compris de leurs erreurs.

D'autres laboratoires appliquent les recherches en robotique comportementale ou l'apprentissage par renforcement à de véritables machines. A l'Université de Californie Berkeley, le Robot Learning Lab s'en sert pour apprendre à des bras robotisés à manipuler des objets, ou à des robots munis de jambes à courir. « En faisant différentes courses, le robot va essayer différentes combinaisons de force à appliquer aux moteurs de ses jambes et de ses hanches, jusqu'à trouver la combinaison optimale », expliquait l'an dernier Pieter Abbeel, directeur du Robot Learning Lab, au magazine « Berkeley Engineer ».

A terme, les recherches de Flowers ou du laboratoire de Berkeley permettront aux robots de réellement apprendre par eux-mêmes, y compris de leurs erreurs, et d'utiliser leurs apprentissages dans de multiples domaines, comme le font les humains. Les chercheurs californiens imaginent par exemple que si une machine programmée pour servir le café le renverse, elle utilisera cette expérience pour apprendre à nettoyer. Mais cela demandera sans doute des décennies de recherche. Cent ans après avoir été imaginés, les robots capables d'apprendre autant de choses qu'un humain restent encore de la science-fiction.

Quatre pattes et huit algorithmes

Le chien-robot Jueying, mis au point par des chercheurs des universités du Zhejiang (Chine) et d'Edimbourg (Ecosse), est en passe de devenir une célébrité sur les réseaux sociaux. Une vidéo publiée début janvier, et devenue virale, montre qu'il est capable de se relever presque instantanément après avoir été renversé. Dans un article publié par la revue « Science Robotics », les concepteurs du chien-robot expliquent comment ils ont utilisé l'apprentissage par renforcement (lire ci-dessus), en entraînant huit algorithmes correspondant à des compétences différentes (marche, équilibre…). Les algorithmes ont d'abord été entraînés séparément, puis ensemble, jusqu'à ce que Jueying sache se tirer de différentes situations inédites pour lui, comme se redresser après une chute ou marcher sur du gravier ou des surfaces glissantes.

Une brève histoire des robots

1921. Première à Prague de la pièce de science-fiction « Rossum's Universal Robot », de Karel Capek. C'est la toute première apparition du mot robot.
1950. Dans un article intitulé « Computing Machinery and Intelligence », le mathématicien anglais Alan Turing pose la question : « les machines peuvent-elles penser ? »
1959. Premier prototype d'un robot industriel, Unimate. Il entrera en service dans une usine automobile du New Jersey en 1961.
1986. Honda présente Asimo, pionnier des robots humanoïdes.
1999. Sony lance son robot chien Aibo.
2002. Robots aspirateurs Roomba d'iRobot.
2003. Kiva Systems invente l'entrepôt robotisé. La start-up est rachetée par Amazon en 2012.
2016. AlphaGo, un programme de go développé par Google DeepMind basé sur l'apprentissage par renforcement, bat le champion coréen Lee Sedol.

Author : BENOIT GEORGES

Les Echos : 2021-02-22