La vision et le langage combinés sont la clé d'une IA plus efficace

Selon la théorie de l'intelligence à laquelle vous souscrivez, la réalisation d'une IA « humaine » nécessitera un système capable de tirer parti de plusieurs modalités, par exemple : le son, la vision et le texte, pour raisonner sur le monde. Lorsqu'une image d'un camion renversé et d'une voiture de police sur une autoroute enneigée est affichée, une IA au niveau humain pourrait en déduire que des conditions routières dangereuses ont provoqué un accident. Ou, en courant sur un robot, lorsqu'on leur demande de saisir une canette de soda dans le réfrigérateur, ils naviguent entre les personnes, les meubles et les animaux domestiques pour récupérer la canette et la placer à la portée du demandeur.

L'IA actuelle est insuffisante. Mais de nouvelles recherches montrent des signes de progrès encourageants, des robots qui peuvent comprendre les étapes pour suivre les commandes de base (par exemple, "prendre une bouteille d'eau") aux systèmes de production de texte qui apprennent des explications.

Laboratoire de recherche OpenAI Enhanced DALL-E AI, DALL-E2, est facilement le projet le plus impressionnant émergeant des profondeurs d'un laboratoire de recherche en IA. Alors que le DALL-E original a démontré des prouesses remarquables dans la création d'images correspondant à pratiquement n'importe quel message (par exemple, "un chien dans un béret"), DALL-E2 Ça va plus loin. Les images qu'il produit sont beaucoup plus détaillées et DALL-E2 peut remplacer intelligemment une certaine zone d'une image, par exemple, en insérant un tableau dans une photo d'un sol en marbre rempli des reflets appropriés.

Chercheurs de Google ont également détaillé un système de compréhension visuelle tout aussi impressionnant appelé prosodie Piloté visuellement pour la synthèse vocale : VDTTS – dans un post publié sur le blog AI de Google. Le VDTTS peut générer un discours réaliste et synchronisé sur les lèvres, rien de plus que des cadres de texte et une vidéo de la personne qui parle.

Le discours généré par VDTTSBien qu'il ne soit pas un substitut parfait au dialogue enregistré, il est toujours assez bon, avec une expressivité et un rythme convaincants et humains. Google voit qu'un jour il sera utilisé dans un studio pour remplacer l'audio original qui aurait pu être enregistré dans des conditions bruyantes.

Bien sûr, la compréhension visuelle n'est qu'une étape sur la voie d'une IA plus performante. Un autre composant est le compréhension de la langue, qui est à la traîne à bien des égards, même en mettant de côté les problèmes bien documentés de toxicité et de biais de l'IA. Dans un exemple clair, un système de pointe de Google, Modèle de langage Pathways (Palmier), a mémorisé 40 % des données qui ont servi à le « former », selon un document, entraînant le plagiat du texte par PaLM jusqu'aux avis de droit d'auteur sur les extraits de code.

Heureusement, DeepMind, le laboratoire d'intelligence artificielle soutenu par Alphabet, fait partie de ceux qui explorent des techniques pour résoudre ce problème. Dans une nouvelle étude, des chercheurs de DeepMind étudier si les systèmes de langage d'IA, qui apprennent à générer du texte à partir de nombreux exemples de textes existants (livres de réflexion et médias sociaux), pourrait bénéficier de recevoir explications de ces textes. Après avoir noté des dizaines de tâches linguistiques (par exemple, "répondez à ces questions en identifiant si la deuxième phrase est une paraphrase appropriée de la première phrase métaphorique") avec des explications (par exemple, "les yeux de David n'étaient pas littéralement des poignards, est une métaphore utilisée pour impliquer que David regardait Paul.") et évaluant les performances de différents systèmes sur eux, l'équipe de DeepMind constaté que les exemples améliorent réellement les performances du système.

L'accent de DeepMind, si vous réussissez l'examen au sein de la communauté académique, pourrait un jour être appliqué en robotique, formant les éléments constitutifs d'un robot capable de comprendre des demandes vagues (par exemple, "jeter la poubelle") sans instructions détaillées.

article précédent

Avec une valorisation de 13 milliards de dollars, Celonis défie l'économie actuelle des startups

suivant >>

Les nouveaux vélos de Rad Power Bikes

S'INSCRIT

Laisser une réponse Annuler la réponse

S'il vous plaît entrez votre commentaire!

Veuillez entrer votre nom ici

Vous avez entré une adresse e-mail incorrecte !

Veuillez entrer votre adresse e-mail ici

La modération des commentaires est activée. Votre commentaire peut mettre un certain temps à apparaître.

Ce site utilise Akismet pour réduire les spams. Découvrez comment vos données de commentaire sont traitées.

La vision et le langage combinés sont la clé d'une IA plus efficace

Laisser une réponse Annuler la réponse

ABONNEZ-VOUS SUR TRPLANE.COM

Publier sur TRPlane.com

PLUS DE PUBLICATIONS