À l’aide d’une forme d’apprentissage automatique appelée apprentissage par renforcement profond, le robot a notamment appris à passer du trot au stotting, un comportement dans lequel des animaux comme les gazelles ou les moutons bondissent en ayant le dos arqué pour se déplacer sur un terrain difficile.
Cette étude, publiée dans la revue Nature Communications, permet de mieux comprendre pourquoi et comment interviennent de tels changements de démarche chez les animaux, a indiqué mardi l'Ecole polytechnique fédérale de Lausanne (EPFL) dans un communiqué.
Milad Shafiee et ses co-auteurs Guillaume Bellegarda et Auke Ijspeert, responsable du Laboratoire de biorobotique de la haute école lausannoise, se sont intéressés à un nouveau paramètre qui pourrait expliquer ces changements d’allures: la viabilité, ou la prévention des chutes.
Pour tester cette hypothèse, ils ont entraîné le robot quadrupède à traverser divers terrains au moyen de l’apprentissage par renforcement profond. Sur terrain plat, ils ont constaté que le robot passait du pas au trot pour maintenir sa viabilité, comme le font les animaux quadrupèdes lorsqu’ils accélèrent.
Du trot au stotting
Et lorsqu’il a été confronté à des trous successifs de 14 à 30 cm dans la surface expérimentale, le robot est passé spontanément du trot au stotting pour éviter les chutes. Selon les auteurs, la viabilité est le seul facteur qui a été amélioré par ces changements d’allures.
«Nous avons montré que sur un terrain plat et sur un terrain difficile, la viabilité entraîne des changements d’allures, mais que l’économie d’énergie n’est pas nécessairement meilleure», explique Milad Shafiee, cité dans le communiqué.
Il semble donc que l’économie d’énergie, qui était auparavant considérée comme un facteur expliquant ces changements, pourrait en être davantage la conséquence. Lorsqu’un animal se déplace sur un terrain difficile, il est probable que sa priorité soit de ne pas tomber. Économiser son énergie arriverait ensuite, estiment les scientifiques.
L’équipe a attribué différentes pondérations à trois objectifs d’apprentissage possibles: l’économie d’énergie, la diminution de la force et la viabilité. Une série de simulations informatiques a révélé que, parmi ces trois objectifs, la viabilité était le seul qui amenait le robot à modifier automatiquement son allure, sans instruction de la part des scientifiques.