Meta développe un nouveau système d’intelligence artificielle capable de créer des interprétations visuelles de textes et de croquis.

L’une des applications de développement d’IA les plus intéressantes de ces derniers temps est Dall-E, un outil alimenté par l’IA qui vous permet de saisir n’importe quelle entrée de texte – comme “un cheval qui utilise les médias sociaux” – et il pompera des images en fonction de sa compréhension pour cela données.

Il a donné l'exemple

Vous avez probablement vu nombre de ces expériences visuelles flotter sur le Web (‘Générations bizarres de Dall-E Mini‘ est un bon endroit pour trouver des exemples plus inhabituels), dont certains sont très utiles et applicables dans de nouveaux contextes. Et d’autres ne sont que des interprétations étranges et hallucinantes qui montrent comment un système d’IA voit le monde.

Eh bien, bientôt, vous aurez peut-être une autre façon d’expérimenter l’interprétation de l’IA de ce type, via le nouveau MetaUn système Make-A-Scene qui utilise également des invites de texte ainsi que des dessins d’entrée pour créer des interprétations visuelles entièrement nouvelles.

Meta make-a-scene

Comme l’explique Meta :

“Make-A-Scene permet aux utilisateurs de créer des images à l’aide d’invites de texte et de croquis de forme libre. Les systèmes d’IA précédents pour la génération d’images utilisaient généralement des descriptions textuelles comme entrée, mais les résultats peuvent être difficiles à prévoir. Par exemple, la saisie du texte “image d’un zèbre faisant du vélo” peut ne pas refléter exactement ce que vous vouliez ; le vélo peut être sur le côté, ou le zèbre peut être trop grand ou trop petit.”

Make a Scene essaie de résoudre ce problème, en fournissant plus de commandes pour vous aider à diriger votre sortie – c’est donc comme Dall-E, mais, selon Meta, au moins un peu mieux, avec la capacité d’utiliser plus d’instructions pour piloter le système.

Meta make-a-scene

“Make-A-Scene capture la disposition de la scène pour permettre des croquis nuancés en entrée. Il peut également générer une mise en page personnalisée avec des invites de texte uniquement si le créateur le souhaite. Le modèle se concentre sur l’apprentissage des aspects clés des images qui sont plus susceptibles d’être importants pour le créateur, comme les objets ou les animaux.

De telles expériences mettent en évidence le chemin parcouru par les systèmes informatiques dans l’interprétation de diverses entrées, et à quel point les réseaux d’IA peuvent désormais comprendre ce que nous communiquons et pensons, en termes visuels.

En fin de compte, cela aidera les processus d’apprentissage automatique à apprendre et à mieux comprendre la façon dont les gens voient le monde. Ce qui peut sembler un peu effrayant, mais cela aidera finalement à alimenter une gamme d’applications fonctionnelles, telles que des voitures automatisées, des outils d’accessibilité, des expériences AR et VR améliorées, et plus encore.

Bien que, comme vous pouvez le voir à partir de ces exemples, nous sommes encore loin de l’IA pensant comme une personne ou devenant sensible avec ses propres pensées.

Mais peut-être pas aussi loin que vous le pensez. En effet, ces exemples offrent une fenêtre intéressante sur le développement actuel de l’intelligence artificielle, qui est juste pour le plaisir en ce moment, mais pourrait avoir des implications importantes pour l’avenir.

Lors de ses premiers tests, Meta a donné à divers artistes l’accès à son Make-A-Scene pour voir ce qu’ils pouvaient en faire.

C’est une expérience intéressante – l’application Make-A-Scene n’est pas encore disponible au public, mais vous pouvez accéder à des informations plus techniques sur le projet ici.