Quanta Magazine
1 février 2023
Jeffrey Fisher pour le magazine Quanta
Auteur collaborateur
1 février 2023
Imaginez que votre voisin appelle pour demander une faveur : pourriez-vous donner à son lapin de compagnie des tranches de carotte ? Assez facile, pensez-vous. Vous pouvez imaginer leur cuisine, même si vous n'y êtes jamais allé : des carottes dans un frigo, un tiroir contenant divers couteaux. C'est une connaissance abstraite : vous ne savez pas à quoi ressemblent exactement les carottes et les couteaux de votre voisin, mais vous ne prendrez pas une cuillère pour un concombre.
Les programmes d'intelligence artificielle ne peuvent pas rivaliser. Ce qui vous semble être une tâche facile est une entreprise énorme pour les algorithmes actuels.
Un robot formé à l'IA peut trouver un couteau et une carotte spécifiés cachés dans une cuisine familière, mais dans une cuisine différente, il lui manquera les compétences abstraites pour réussir. "Ils ne généralisent pas à de nouveaux environnements", a déclaré Victor Zhong, étudiant diplômé en informatique à l'Université de Washington. La machine échoue parce qu'il y a tout simplement trop de choses à apprendre et un espace trop vaste à explorer.
Le problème est que ces robots - et les agents d'IA en général - n'ont pas de base de concepts sur lesquels s'appuyer. Ils ne savent pas ce qu'est vraiment un couteau ou une carotte, encore moins comment ouvrir un tiroir, en choisir un et en couper des tranches. Cette limitation est due en partie au fait que de nombreux systèmes d'IA avancés sont formés avec une méthode appelée apprentissage par renforcement qui est essentiellement une auto-éducation par essais et erreurs. Les agents d'IA formés à l'apprentissage par renforcement peuvent très bien exécuter le travail pour lequel ils ont été formés, dans l'environnement dans lequel ils ont été formés. Mais changez le travail ou l'environnement, et ces systèmes échoueront souvent.
Pour contourner cette limitation, les informaticiens ont commencé à enseigner aux machines des concepts importants avant de les lâcher. C'est comme lire un manuel avant d'utiliser un nouveau logiciel : vous pouvez essayer d'explorer sans lui, mais vous apprendrez beaucoup plus vite avec. "Les humains apprennent en combinant à la fois l'action et la lecture", a déclaré Karthik Narasimhan, informaticien à l'Université de Princeton. "Nous voulons que les machines fassent de même."
De nouveaux travaux de Zhong et d'autres montrent que l'amorçage d'un modèle d'apprentissage de cette manière peut booster l'apprentissage dans des environnements simulés, à la fois en ligne et dans le monde réel avec des robots. Et cela ne se contente pas d'accélérer l'apprentissage des algorithmes, cela les guide vers des compétences qu'ils n'auraient jamais apprises autrement. Les chercheurs veulent que ces agents deviennent des généralistes, capables d'apprendre n'importe quoi, des échecs aux achats en passant par le nettoyage. Et à mesure que les démonstrations deviennent plus pratiques, les scientifiques pensent que cette approche pourrait même changer la façon dont les humains peuvent interagir avec les robots.
"Cela a été une assez grande percée", a déclaré Brian Ichter, chercheur en robotique chez Google. "C'est assez inimaginable le chemin parcouru en un an et demi."
À première vue, l'apprentissage automatique a déjà connu un succès remarquable. La plupart des modèles utilisent généralement l'apprentissage par renforcement, où les algorithmes apprennent en obtenant des récompenses. Ils commencent totalement ignorants, mais les essais et les erreurs finissent par devenir des essais et des triomphes. Les agents d'apprentissage par renforcement peuvent facilement maîtriser des jeux simples.
Considérez le jeu vidéo Snake, où les joueurs contrôlent un serpent qui s'allonge en mangeant des pommes numériques. Vous voulez que votre serpent mange le plus de pommes, reste dans les limites et évite de se heurter à son corps de plus en plus volumineux. Ces bons et mauvais résultats clairs donnent un retour positif à un agent machine bien récompensé, de sorte que suffisamment de tentatives peuvent le faire passer de "noob" à High Score.
Mais supposons que les règles changent. Peut-être que le même agent doit jouer sur une grille plus large et en trois dimensions. Alors qu'un joueur humain pourrait s'adapter rapidement, la machine ne le peut pas, à cause de deux faiblesses critiques. Premièrement, l'espace plus grand signifie qu'il faut plus de temps au serpent pour trébucher sur les pommes, et l'apprentissage ralentit de façon exponentielle lorsque les récompenses deviennent rares. Deuxièmement, la nouvelle dimension offre une expérience totalement nouvelle et l'apprentissage par renforcement a du mal à se généraliser à de nouveaux défis.
Zhong dit que nous n'avons pas besoin d'accepter ces obstacles. "Pourquoi est-ce que lorsque nous voulons jouer aux échecs" - un autre jeu maîtrisé par l'apprentissage par renforcement - "nous formons un agent d'apprentissage par renforcement à partir de zéro ?" De telles approches sont inefficaces. L'agent erre sans but jusqu'à ce qu'il tombe sur une bonne situation, comme un échec et mat, et Zhong dit qu'il faut une conception humaine minutieuse pour que l'agent sache ce que cela signifie pour qu'une situation soit bonne. « Pourquoi devons-nous faire cela alors que nous avons déjà tant de livres sur la façon de jouer aux échecs ? »
C'est en partie parce que les machines ont eu du mal à comprendre le langage humain et à déchiffrer les images en premier lieu. Pour qu'un robot accomplisse des tâches basées sur la vision comme trouver et trancher des carottes, par exemple, il doit savoir ce qu'est une carotte - l'image d'une chose doit être "fondée" sur une compréhension plus fondamentale de ce qu'est cette chose. Jusqu'à récemment, il n'y avait pas de bon moyen de le faire, mais une explosion de la vitesse et de l'échelle du traitement du langage et de l'image a rendu ces nouveaux succès possibles.
De nouveaux modèles de traitement du langage naturel permettent aux machines d'apprendre essentiellement le sens des mots et des phrases - pour les ancrer dans les choses du monde - plutôt que de simplement stocker un sens simple (et limité) comme un dictionnaire numérique.
La vision par ordinateur a connu une explosion numérique similaire. Vers 2009, ImageNet a fait ses débuts en tant que base de données d'images annotées pour la recherche en vision par ordinateur. Aujourd'hui, il héberge plus de 14 millions d'images d'objets et de lieux. Et des programmes comme DALL·E d'OpenAI génèrent de nouvelles images sur commande qui semblent créées par l'homme, même s'il n'y a pas de comparaison exacte sur laquelle s'appuyer.
Selon Anima Anandkumar, informaticienne au California Institute of Technology et Nvidia, cela montre comment les machines n'ont accès qu'à suffisamment de données en ligne pour vraiment en savoir plus sur le monde. Et c'est un signe qu'ils peuvent apprendre des concepts comme nous le faisons et les utiliser pour la génération. "Nous sommes dans un si grand moment maintenant", a-t-elle déclaré. "Parce qu'une fois que nous pouvons obtenir une génération, nous pouvons faire tellement plus."
Des chercheurs comme Zhong ont décidé que les machines n'avaient plus besoin de se lancer dans leurs explorations sans être informées. Armés de modèles de langage sophistiqués, les chercheurs ont pu ajouter une étape de pré-formation où un programme a appris à partir d'informations en ligne avant ses essais et erreurs.
Pour tester l'idée, lui et ses collègues ont comparé la pré-formation à l'apprentissage par renforcement traditionnel dans cinq contextes de jeu différents où des agents machine interprétaient des commandes linguistiques pour résoudre des problèmes. Chaque environnement simulé défiait l'agent machine de manière unique. L'un a demandé à l'agent de manipuler des éléments dans une cuisine 3D ; un autre nécessitait la lecture d'un texte pour apprendre une séquence précise d'actions pour combattre des monstres. Mais le décor le plus compliqué était un vrai jeu, le NetHack de 35 ans, où le but est de naviguer dans un donjon sophistiqué pour récupérer une amulette.
Pour les paramètres simples, la pré-formation automatisée signifiait simplement ancrer les concepts importants : c'est une carotte, c'est un monstre. Pour NetHack, l'agent s'est entraîné en regardant des humains jouer, en utilisant des playthroughs téléchargés sur Internet par des joueurs humains. Ces parties n'avaient même pas besoin d'être aussi bonnes - l'agent n'avait qu'à créer une intuition sur la façon dont les humains se comportent. L'agent n'était pas destiné à devenir un expert, juste un joueur régulier. Cela renforcerait l'intuition en observant - que ferait un humain dans un scénario donné ? L'agent déciderait quels mouvements étaient réussis, en formulant sa propre carotte et son bâton.
"Grâce à la pré-formation, nous formons de bons a priori sur la manière d'associer les descriptions linguistiques aux choses qui se passent dans le monde", a déclaré Zhong. L'agent jouerait mieux dès le début et apprendrait plus rapidement lors de l'apprentissage par renforcement ultérieur.
En conséquence, l'agent préformé a surpassé celui formé traditionnellement. "Nous obtenons des gains à tous les niveaux dans ces cinq environnements", a déclaré Zhong. Des paramètres plus simples n'ont montré qu'un léger avantage, mais dans les donjons compliqués de NetHack, l'agent a appris beaucoup plus vite et a atteint un niveau de compétence que l'approche classique ne pouvait pas. "Vous pourriez obtenir une performance 10x parce que si vous ne le faites pas, vous n'apprenez tout simplement pas une bonne politique", a-t-il déclaré.
"Ces agents généralistes sont un grand pas en avant par rapport à ce que fait l'apprentissage par renforcement standard", a déclaré Anandkumar.
Son équipe pré-forme également les agents pour les amener à apprendre plus rapidement, réalisant des progrès significatifs sur le jeu vidéo le plus vendu au monde, Minecraft. Il est connu comme un jeu "bac à sable", ce qui signifie qu'il offre aux joueurs un espace pratiquement infini dans lequel interagir et créer de nouveaux mondes. Il est futile de programmer une fonction de récompense pour des milliers de tâches individuellement, donc à la place, le modèle de l'équipe ("MineDojo") a construit sa compréhension du jeu en regardant des vidéos de lecture sous-titrées. Inutile de codifier les bons comportements.
"Nous obtenons des fonctions de récompense automatisées", a déclaré Anandkumar. "Il s'agit de la première référence avec des milliers de tâches et la possibilité de faire un apprentissage par renforcement avec des tâches ouvertes spécifiées par des invites textuelles."
Les jeux étaient un excellent moyen de montrer que les modèles de pré-formation pouvaient fonctionner, mais ce sont toujours des mondes simplifiés. Former des robots pour gérer le monde réel, où les possibilités sont pratiquement infinies, est beaucoup plus difficile. « Nous avons posé la question : y a-t-il quelque chose entre les deux ? dit Narasimhan. Il a donc décidé de faire quelques achats en ligne.
Son équipe a créé WebShop. "C'est essentiellement comme un majordome de shopping", a déclaré Narasimhan. Les utilisateurs peuvent dire quelque chose comme "Donnez-moi une chaussure Nike blanche et à moins de 100 $, et je veux que les critiques indiquent qu'elles sont très confortables pour les tout-petits", et le programme trouve et achète la chaussure.
Comme pour les jeux de Zhong et Anandkumar, WebShop a développé une intuition en s'entraînant avec des images et du texte, cette fois à partir de pages Amazon. "Au fil du temps, il apprend à comprendre le langage et à le mettre en correspondance avec les actions qu'il doit entreprendre sur le site Web."
À première vue, un majordome de shopping peut ne pas sembler si futuriste. Mais alors qu'un chatbot de pointe peut vous lier à une sneaker souhaitée, les interactions telles que passer la commande nécessitent un ensemble de compétences totalement différent. Et même si vos enceintes Alexa ou Google Home de chevet peuvent passer des commandes, elles s'appuient sur un logiciel propriétaire qui exécute des tâches prédéfinies. WebShop navigue sur le Web comme les gens le font : en lisant, en tapant et en cliquant.
"C'est un pas de plus vers l'intelligence générale", a déclaré Narasimhan.
Recevez Quanta Magazine dans votre boîte de réception
"Les humains apprennent en combinant à la fois l'action et la lecture. Nous voulons que les machines fassent de même", a déclaré Karthik Narasimhan.
David Kelly Crow/Université de Princeton
Bien sûr, faire interagir des robots avec le monde réel a ses propres défis. Considérez une bouteille, par exemple. Vous pouvez en reconnaître un à son apparence, vous savez qu'il est destiné à stocker des liquides et vous savez comment le manipuler avec vos mains. Les vraies machines peuvent-elles un jour transformer les mots et les images en une intelligence complexe du mouvement ?
Narasimhan a collaboré avec Anirudha Majumdar, un roboticien à Princeton, pour le découvrir. Ils ont appris à un bras robotique à manipuler des outils qu'il n'avait jamais vus auparavant et l'ont pré-formé à l'aide d'un langage descriptif tiré de modèles de langage réussis. Le programme a appris plus rapidement et a mieux fonctionné avec presque tous les outils et actions, par rapport aux programmes d'apprentissage par exploration traditionnelle, selon les résultats publiés sur le serveur de préimpression arxiv.org en juin dernier.
Les ingénieurs ont construit une bibliothèque de commandes encore plus complexes dans les laboratoires de robotique de Google, également enracinée dans une pré-formation de création de contexte. "Le monde des possibilités que vous devez considérer est énorme", a déclaré Karol Hausman, chercheur au sein de l'équipe de robotique de Google. "Nous demandons donc au modèle linguistique de le décomposer pour nous."
L'équipe a travaillé avec un robot assistant mobile, doté d'un bras à sept articulations, qu'elle a entraîné à l'aide de compétences linguistiques. Pour toute commande donnée - comme "aidez-moi à nettoyer ma boisson renversée" - le programme utilise un modèle de langage pour suggérer des actions à partir d'une bibliothèque de 700 mouvements formés, comme "attraper" une serviette en papier, "ramasser" la canette ou "jeter" la canette. Et Hausman dit qu'il reconnaît ses limites avec des phrases telles que "Je ne suis en fait pas capable de l'essuyer. Mais je peux vous apporter une éponge." L'équipe a récemment rendu compte des résultats de ce projet, appelé SayCan.
Un autre avantage de l'autonomisation des robots avec des modèles de langage est que la traduction de synonymes et de mots dans d'autres langues devient triviale. Une personne peut dire « tordre », tandis qu'une autre dit « tourner », et le robot comprend les deux. "La chose la plus folle que nous ayons essayée est qu'il comprend également les emojis", a déclaré Fei Xia, chercheur chez Google.
SayCan est peut-être la démonstration la plus avancée d'apprentissage linguistique en robotique à ce jour. Et les modèles de langage et d'image s'améliorent constamment, créant des techniques de pré-formation meilleures et plus complexes.
Mais Xia prend soin de tempérer l'excitation. "Quelqu'un a dit en plaisantant à moitié que nous avions atteint le moment" robot GPT "", a-t-il déclaré, faisant référence aux modèles de langage révolutionnaires qui comprennent un large éventail de commandes humaines. "Nous n'en sommes pas encore là, et il reste encore beaucoup à explorer."
Par exemple, ces modèles peuvent fournir des réponses incorrectes ou prendre des mesures erronées, ce que les chercheurs tentent de comprendre. Les robots n'ont pas encore maîtrisé "l'incarnation": alors que les humains ont une intuition physique construite sur des enfances passées à jouer avec des jouets, les robots ont encore besoin d'interactions dans le monde réel pour développer ce type d'intuition. "Pour certains paramètres, il existe de nombreuses démonstrations non étiquetées", a déclaré Zhong - pensez aux bases de données d'interactions de jeux vidéo comme Minecraft et NetHack. Aucune base de données ne peut enseigner rapidement aux robots des mouvements intelligents.
Pourtant, les progrès sont rapides. Et de plus en plus de chercheurs pensent que le résultat final sera une robotique plus intelligente. Narasimhan retrace cette évolution homme-robot des cartes perforées à la prochaine technologie. "Nous avions des claviers et des souris, puis des écrans tactiles", a-t-il déclaré. Le langage ancré est le suivant. Vous parlerez à votre ordinateur pour obtenir des réponses et des courses. "Tout ce rêve d'assistants vraiment capables ne s'est pas encore réalisé", a-t-il déclaré. "Mais je pense que cela arrivera très bientôt."
Auteur collaborateur
1 février 2023
Recevez Quanta Magazine dans votre boîte de réception
Recevez les faits saillants des nouvelles les plus importantes dans votre boîte de réception
Quanta Magazine modère les commentaires pour faciliter une conversation informée, substantielle et civile. Les commentaires abusifs, grossiers, autopromotionnels, trompeurs, incohérents ou hors sujet seront rejetés. Les modérateurs travaillent pendant les heures normales de bureau (heure de New York) et ne peuvent accepter que les commentaires rédigés en anglais.
Récompenses parcimonieuses Jouer au système Au-delà des jeux Les bots apprennent