Dans le dessin animé classique « The Jetsons », Rosie, la servante robotique, passe facilement de l’aspirateur dans la maison à la préparation du dîner et à la sortie des poubelles. Mais dans la vraie vie, former un robot polyvalent reste un défi majeur.
En règle générale, les ingénieurs collectent des données spécifiques à un robot et à une tâche spécifiques, qu’ils utilisent pour entraîner le robot dans un environnement contrôlé. Cependant, la collecte de ces données est coûteuse et prend du temps, et le robot aura probablement du mal à s’adapter à des environnements ou à des tâches qu’il n’a jamais vus auparavant.
Pour former de meilleurs robots polyvalents, les chercheurs du MIT ont développé une technique polyvalente qui combine une énorme quantité de données hétérogènes provenant de nombreuses sources en un seul système capable d’enseigner à n’importe quel robot un large éventail de tâches.
Leur méthode consiste à aligner des données provenant de domaines variés, comme des simulations et des robots réels, et de multiples modalités, notamment des capteurs de vision et des encodeurs de position de bras robotisés, dans un « langage » partagé qu’un modèle d’IA génératif peut traiter.
En combinant une telle quantité de données, cette approche peut être utilisée pour entraîner un robot à effectuer diverses tâches sans qu’il soit nécessaire de recommencer l’entraînement à partir de zéro à chaque fois.
Cette méthode pourrait être plus rapide et moins coûteuse que les techniques traditionnelles, car elle nécessite beaucoup moins de données spécifiques à une tâche. En outre, il a surpassé de plus de 20 % la formation à partir de zéro en termes de simulation et d’expériences réelles.
« En robotique, les gens prétendent souvent que nous ne disposons pas de suffisamment de données d’entraînement. Mais à mon avis, un autre problème majeur est que les données proviennent de nombreux domaines, modalités et matériels robotiques différents. Notre travail montre comment vous pourriez entraîner un robot avec tous ces éléments réunis », explique Lirui Wang, étudiant diplômé en génie électrique et informatique (EECS) et auteur principal d’un article sur cette technique.
Les co-auteurs de Wang incluent Jialiang Zhao, étudiant diplômé de l’EECS; Xinlei Chen, chercheur scientifique chez Meta ; et l’auteur principal Kaiming He, professeur agrégé à l’EECS et membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL). La recherche sera présentée à la Conférence sur les systèmes de traitement de l’information neuronale.
Inspiré des LLM
Une « politique » robotique prend en compte les observations des capteurs, comme les images de caméra ou les mesures proprioceptives qui suivent la vitesse et la position d’un bras robotique, puis indiquent au robot comment et où se déplacer.
Les politiques sont généralement formées à l’aide d’un apprentissage par imitation, ce qui signifie qu’un humain démontre des actions ou téléopère un robot pour générer des données, qui sont introduites dans un modèle d’IA qui apprend la politique. Étant donné que cette méthode utilise une petite quantité de données spécifiques à une tâche, les robots échouent souvent lorsque leur environnement ou leur tâche change.
Pour développer une meilleure approche, Wang et ses collaborateurs se sont inspirés de grands modèles de langage comme GPT-4.
Ces modèles sont pré-entraînés à l’aide d’une énorme quantité de données linguistiques diverses, puis affinés en leur fournissant une petite quantité de données spécifiques à une tâche. La pré-formation sur autant de données aide les modèles à s’adapter pour bien fonctionner sur une variété de tâches.
« Dans le domaine linguistique, les données ne sont que des phrases. En robotique, compte tenu de toute l’hétérogénéité des données, si l’on souhaite effectuer un pré-entraînement de la même manière, nous avons besoin d’une architecture différente », explique-t-il.
Les données robotiques prennent de nombreuses formes, des images de caméra aux instructions linguistiques en passant par les cartes de profondeur. Dans le même temps, chaque robot est mécaniquement unique, avec un nombre et une orientation différents de bras, de pinces et de capteurs. De plus, les environnements dans lesquels les données sont collectées varient considérablement.
Les chercheurs du MIT ont développé une nouvelle architecture appelée Heterogeneous Pretrained Transformers (HPT) qui unifie les données de ces diverses modalités et domaines.
Ils placent un modèle d’apprentissage automatique appelé transformateur au milieu de leur architecture, qui traite les entrées de vision et de proprioception. Un transformateur est le même type de modèle qui constitue l’épine dorsale des grands modèles de langage.
Les chercheurs alignent les données de vision et de proprioception dans le même type d’entrée, appelé jeton, que le transformateur peut traiter. Chaque entrée est représentée avec le même nombre fixe de jetons.
Ensuite, le transformateur mappe toutes les entrées dans un espace partagé, se transformant en un énorme modèle pré-entraîné au fur et à mesure qu’il traite et apprend à partir de davantage de données. Plus le transformateur est grand, meilleures sont ses performances.
Un utilisateur n’a besoin de fournir à HPT qu’une petite quantité de données sur la conception, la configuration et la tâche de son robot. Ensuite, HPT transfère les connaissances acquises par le transformateur lors de la pré-formation pour apprendre la nouvelle tâche.
Permettre des mouvements adroits
L’un des plus grands défis du développement de HPT a été de créer un ensemble de données massif pour pré-entraîner le transformateur, qui comprenait 52 ensembles de données avec plus de 200 000 trajectoires de robots réparties en quatre catégories, y compris des vidéos de démonstration humaine et des simulations.
Les chercheurs devaient également développer un moyen efficace de transformer les signaux bruts de proprioception provenant d’un ensemble de capteurs en données que le transformateur pourrait gérer.
« La proprioception est essentielle pour permettre de nombreux mouvements adroits. Parce que le nombre de jetons dans notre architecture est toujours le même, nous accordons la même importance à la proprioception et à la vision », explique Wang.
Lorsqu’ils ont testé HPT, les performances du robot ont été améliorées de plus de 20 % sur les tâches de simulation et du monde réel, par rapport à une formation à partir de zéro à chaque fois. Même lorsque la tâche était très différente des données de pré-entraînement, HPT a quand même amélioré les performances.
« Cet article propose une nouvelle approche pour former une politique unique sur plusieurs modes de réalisation de robots. Cela permet la formation sur divers ensembles de données, permettant ainsi aux méthodes d’apprentissage des robots d’augmenter considérablement la taille des ensembles de données sur lesquels ils peuvent s’entraîner. Cela permet également au modèle de s’adapter rapidement aux nouveaux modes de réalisation du robot, ce qui est important car de nouvelles conceptions de robots sont continuellement produites », explique David Held, professeur agrégé à l’Institut de robotique de l’Université Carnegie Mellon, qui n’a pas participé à ce travail.
À l’avenir, les chercheurs souhaitent étudier comment la diversité des données pourrait améliorer les performances du HPT. Ils souhaitent également améliorer HPT afin qu’il puisse traiter des données non étiquetées telles que GPT-4 et d’autres modèles de langage volumineux.
« Notre rêve est d’avoir un cerveau de robot universel que vous pourriez télécharger et utiliser pour votre robot sans aucune formation. Même si nous n’en sommes qu’aux premiers stades, nous allons continuer à travailler dur et espérer que la mise à l’échelle conduira à une percée dans les politiques robotiques, comme cela a été le cas avec les grands modèles de langage », dit-il.
Ce travail a été financé, en partie, par l’Amazon Greater Boston Tech Initiative et le Toyota Research Institute.