Brainy Sunday #9 - L'IA autonome

Découverte des agents, Amazon et Musk entrent dans l'arène et un paquet de bons liens.

avr. 16, 2023

Hello 👋
Après un samedi ensoleillé, je profite de la grisaille de ce dimanche pour faire le tour des dernières actualités de l’IA et t’écrire quelques explications à propos de ces nouveaux “agents” dont on parle beaucoup ces derniers temps.
Bonne lecture !

Image de la publication — A cat eating ice cream par That_5_Something avec midjourney

😎 Les agents révolutionnent l'IA

Les agents, c’est LE sujet dont parlent tous les fans et amateurs d’IA sur Twitter et ailleurs depuis la semaine dernière.

Mais de quoi s’agit-il ? Qu’est-ce qu’un agent et pourquoi sont-ils si populaires tout à coup ?

Je trouve l'expérience de Smallville réalisée par des chercheurs de Stanford particulièrement intéressante et éclairante sur ce sujet.

Bienvenue à Smallville

Smallville est un petit village virtuel créé par des chercheurs. Ce monde miniature se présente comme une carte en 2 dimensions qui représente un village (avec ses routes et ses places, l’intérieur des maisons, etc.) et sur laquelle évoluent des habitants à la manière de personnages dans un jeu vidéo.

Il y a en tout 25 habitants à SmallVille. Ils ont été générés par l’IA de ChatGPT et c’est cette même IA qui gère tous leurs comportements.

Au départ, chaque personnage est initialisé avec quelques informations décrivant leur personnalité et leurs objectifs pour la journée.

Par exemple :

Ayesha est une étudiante universitaire curieuse et déterminée qui aime explorer la littérature. Elle effectue des recherches pour sa thèse de fin d'études sur l'utilisation de la langue dans les pièces de Shakespeare. Elle suit également des cours pour en apprendre d’avantage sur l'écriture.

Sur base des informations d’initialisation, l’IA va ensuite établir un planning de journée pour le personnage puis lui faire exécuter les différentes actions correspondantes et interagir avec les autres personnages qu’il rencontre.

Comme lorsque tu discutes avec ChatGPT, les conversations entre personnages ont un aspect crédible et ressemblent à une discussion entre humains.

Les personnages disposent également d'une mémoire et d'une capacité de planification, ce qui leur permet de tenir leur "rôle" de manière cohérente : ils se souviennent des résultats de leurs actions et du contenu de leurs discussions.

Ils peuvent même réévaluer les tâches qu’ils se sont assignées et prendre de nouvelles décisions en fonction de leurs objectifs initiaux et des nouvelles informations issues de leurs actions et conversations.

Le résultat est assez bluffant - les personnages interagissent entre eux et vivent vraiment leur petite vie virtuelle comme par exemple :

John et Eddy commencent leur journée par se dire bonjour et discutent de ce qu'ils vont faire.
Sam annonce sa candidature de Maire à ses voisins qui en discutent entre eux par après.
Maria apprend que Tamara organise une fête de Saint-Valentin et en profite pour inviter son crush.

Tous ces personnages sont ce qu'on appelle des agents càd des IA autonomes qui peuvent percevoir et interagir avec leur environnement et qui vont se fixer, effectuer et évaluer des tâches dans le but d'atteindre un objectif donné.

Dans le cas de Smalville les comportements des agents ressemblent à des comportements humains car c’est ce pour quoi ils sont conçus. L’IA qui pilote Maria n’est pas amoureuse et celle de Sam n’a aucune ambition derrière sa candidature à la mairie. Elles prédisent juste ces comportements d’après leurs données d’entraînement qui comprennent certainement un bon paquet d’histoires romantiques et autres scénarios de sitcom.

MineDojo est un autre exemple plus ancien de l’utilisation du concept d’agent dans un jeu vidéo : des chercheurs ont entraîné l’IA de GPT-3 à partir de milliers de vidéos et tutoriels Minecraft disponibles sur Youtube pour lui apprendre à la fois à “lire” ce qui se passe à l’écran (percevoir son environnement) et comment effectuer des actions dans le jeu (agir sur cet environnement).

A partir de là, ils ont pu créer un agent capable de planifier et effectuer les tâches nécessaires pour atteindre des objectifs à long terme dans le jeu comme construire un portail vers le Nether.

Dépasser les limites de ChatGPT

En donnant une mémoire à l’IA et en lui permettant d’effectuer des actions par elle même (faire une recherche sur internet, exécuter un programme, etc.), il est donc possible de créer des programmes autonomes - les agents - qui vont pouvoir dépasser les limites des chatbots actuels.

Le modèle de langage peut en effet être utilisé pour analyser la demande ou l’objectif de départ (par exemple : Faire une étude de marché pour préparer le lancement d’une maque de chaussure) et définir une première liste de tâches nécessaires à atteindre cet objectif (1. Identifier les principales marques concurrentes. 2. Evaluer le positionnement de chacune. 3. Evaluer les opinions et évaluation des clients).

En connectant ensuite le modèle à d’autres outils, le programme va pouvoir effectuer ces tâches et recevoir en retour leurs résultats. Il pourra utiliser les informations reçues pour effectuer les prochaines tâches ou même réévaluer celles-ci.

La différence avec une solution comme les plugins de ChatGPT c’est qu’une fois lancé, un agent est a priori complètement autonome : le programme va fonctionner en boucle - définir les tâches, exécuter la première, obtenir le résultat, réévaluer les tâches, exécuter la suivante et ainsi de suite jusqu’à atteindre ses objectifs.

Un grand pouvoir implique…

Tu l’auras compris, l’utilisation de ChatGPT ou GPT-4 pour programmer des agents permet de créer des IA encore plus efficaces et impressionnantes.

On en voit de nouveaux exemples tous les jours sur Twitter et l’imagination semble parfois être la seule limite à ce qui sera bientôt possible de faire grâce à l’IA et ses agents.

Et ces nouveaux pouvoirs de l’IA ne viennent évidemment pas sans question ni crainte.

Si je ne pense pas, contrairement à d’autres, que ces agents vont faire passer GPT-4 ou un autre LLM au stade de l’AGI (voir ma newsletter de la semaine dernière), je pense qu’on peut effectivement s’interroger sur le bien-fondé du principe de laisser un programme prendre toutes sortes de décisions seul et agir “à sa guise” y compris en interaction avec le monde réel.

Quand on y pense, cette question n’a pas attendu l’avènement des IA génératives. Elle se pose déjà depuis un moment à propos des voitures autonomes - qui sont en fait une sorte d’agent.

L’humain n’a jamais été très à l’aise à l’idée de laisser des programmes décider et organiser le monde pour lui - même si c’est exactement le sens d’origine du mot Ordinateur en français.

Derrière ce malaise se cache probablement la question de la responsabilité (qui sera responsable des éventuelles erreurs ou dommages causé par un agent) et la peur de la perte de contrôle sur le monde.

En pratique, cependant, il me semble qu’il devrait être possible d’envisager une utilisation raisonnable des agents, en prévoyant les garde-fous nécessaires pour éviter les éventuels dérapages - exactement comme nous sommes en train de le faire pour les véhicules autonomes.

Mais cela passera probablement aussi par une réévaluation de la manière dont nous avons déjà laissé l’informatique diriger et contrôler des pans entiers de nos vies et de nos organisations. D’autant qu’en réalité, il n’y a rien que pourrait faire une IA malveillante qu’un hacker ne puisse pas déjà faire…

Au fait, après avoir lu tout ca, penses tu que l’Agent Smith dans The Matrix s'appelle “agent” uniquement parce qu’il ressemble à un agent du FBI ?

*L’Agent Smith prépare mon étude de marché sur les chaussures* (voir plus haut)

🛠️ App, outils et autres bons liens

Intéressé par le concept d’agent ? → Cognosys te permet de créer et exécuter tes propres agents connectés à Internet depuis un navigateur.
llamachat permet d’utiliser un chatbot localement sur ton Mac avec les différentes variantes du modèle LLaMa comme Alpaca ou GPT4All.
LeiaPix n’est pas nouveau mais on est quelques-uns a l’avoir ressorti pour animer des images Midjourney avec un effet 3D et je me dis que ca pourrait t’intéresser (🎁 petit tuto youtube).
Loopin est un compagnon IA qui prend note et synthétise les réunion Google Meet.
Kitt te permet de discuter vocalement avec ChatGPT en français ou en anglais à l’aide des outils de visioconférence de livekit.
Regex.ai permet de créer des expressions régulières en sélectionnant dans un texte les éléments qui doivent matcher (si tu n’as pas compris cette phrase, c’est que tu n’as probablement pas d’utilité pour cet outil qui intéressera surtout les développeurs).
Aperture 3 est le nom du nouveau modèle de génération d’image lancé par Lexica.art, basé sur Stable Diffusion et disponible gratuitement sur leur site.
Envie de te lancer un petit défi pour en apprendre plus sur l’IA ? Tente donc le #100DaysOfAI.

r/midjourney - Cthulhu cheeseburger — Cthulhu cheeseburger par kat_j avec Midjouney

📰 L’actu en (très) bref

Elon Musk rentre dans la danse de l’IA avec X.AI
- Bien qu'il ait signé l’appel à faire une pause dans ce domaine, Elon Musk se lance officiellement dans la recherche et la création de modèle d’IA et fonde une nouvelle startup.
- On s’attendait à quelque chose du genre depuis qu’il avait embauché des anciens ingénieurs de chez DeepMind et acquis un gros paquet de GPU.
- X est une référence au nom de la société qu’il a créé pour reprendre les activités de Twitter : X-Corp (c’est moi ou on dirait le nom de la société d’un supe méchant dans un film de science-fiction?)
- On peut supposer qu’il compte s’appuyer sur Twitter et l’IA pour mettre au point sa vision d’une app universelle à l’image du chinois WeChat.
Amazon aussi se lance dans l’IA
- Amazon annonce le projet Bedrock, une suite d'outils d'IA pour diverses tâches, comme la création de chatbots et la génération d'images.
- 4 premiers modèles sont disponibles : Jurassic-2 (LLM multilingue), Claude (Chatbot), Stable Diffusion (Text-to-Image) et Titan (LLM).
- L'infrastructure technique est gérée par Amazon via AWS, permettant aux utilisateurs de se concentrer sur les applications.
- Bedrock cible les PME, les entreprises de taille intermédiaire et les startups.
Un photographe refuse le prix remporté par sa ‘photo’ générée par IA
- Boris Eldagsen remporte le premier prix de la catégorie ‘Creative’ du Sony World Photography Awards avec une image générée par IA.
- Eldagsen considère la création d'images avec l'IA comme autre chose que de la photographie.
- L'artiste souhaite que des compétitions séparées soient créées pour les images générées par IA
- 🧐 Si la question de l’IA et de la photographie t’intéresse, je t’invite aussi à lire cet article : L’intelligence artificielle va-t-elle tuer la photographie ?
Stability.ai lance Stable Diffusion XL (SDXL)
- Cette nouvelle version est une amélioration significative de la série Stable Diffusion pour la génération d’image.
- La version bêta est disponible via l'interface web DreamStudio et via l'API (payante) ainsi qu’en démo gratuite sur ClipDrop.
- SDXL améliore le photo-réalisme et génère pour la première fois du texte sur des images.
- Une fois achevé, ce modèle sera partagé sur Github comme les précédents.
OpenAI dément les rumeurs à propos de GPT-5
- Sam Altman, le PDG d’OpenAI a affirmé qu’ils ne travaillent pas actuellement sur GPT-5.
- A la place, OpenAI travaille surtout à améliorer les capacités de l’actuel GPT-4.
- A ce sujet, on attend toujours une version publique avec accès à internet ou la possibilité de lire des images comme annoncé à la sortie de GPT-4.
- Sam Altman affirme également vouloir augmenter les exigences d’OpenAI en matière de sécurité, notamment via des audits et des tests indépendants.
ChatGPT a encore des ennuis à cause du RGPD
- Après l’Italie, les autorités de contrôle française, allemande et espagnole ouvrent des enquêtes suites à différentes plaintes.
- Les dirigeants français et allemands s’opposent néanmoins à l’interdiction pure et simple du chatbot.
- Une action commune et coordonnée des différents membres de l’UE est envisagée.
- Pendant ce temps, l’Italie a donné sa liste d’actions et d’améliorations pour mettre ChatGPT en conformité.
La Chine aussi entend réglementer les IA
- La Chine possède au moins trois IA impressionnantes : Ernie (Baidu), Tongyi Qianwen (Alibaba) et SenseNova (SenseTime).
- La Chine a annoncé des règles strictes pour encadrer ces IA génératives.
- Les chatbots devront respecter les valeurs fondamentales du socialisme et ne pas subvertir le pouvoir de l'État. (Probablement tout l’inverse du RGPD..)

Meta partage un outil IA d’animation
- Animated Drawing était déjà disponible sous la forme d’un site web permettant d’animer des dessins d’enfants depuis 2021.
- Meta a open-sourcé le code source et les données d’entraînement du projet pour encourager l'innovation et la collaboration.
- Des développeurs vont maintenant pouvoir intégrer Animated Drawing avec d’autres fonctionnalités comme que des effets sonores et des superpositions de texte.

Batman as a kid par @robmoraisjr avec Midjourney

Voilà qui clôture cette édition de Brainy Sunday.
Je suis toujours aussi content de voir chaque semaine arriver de nouveaux abonnés et de te compter parmi eux. Je te donne rendez-vous dimanche prochain pour une nouvelle dose de réflexion et d'inspiration IA.
Et bien sûr, si tu as trouvé ce mail intéressant, aide-moi à faire connaître Brainy Sunday en le partageant 👇
Share
- Thomas
PS: Si tu as encore de la place pour un peu plus d’IA, tu peux aussi regarder le replay d’une petite intervention que j’ai faite dans le cadre du Bootcamp Operator de Contournement où je distille quelques conseils et réponds à des questions sur le No-Code et l’IA.