Intelligence artificielle
Google a présenté ses excuses (ou presque) cette semaine pour une nouvelle bourde embarrassante de son IA : un modèle de génération d’images qui a introduit de la diversité dans des images sans tenir compte du contexte historique. Bien que le problème sous-jacent soit parfaitement compréhensible, Google reproche au modèle d’être « trop sensible ». Ce modèle ne s’est pas créé tout seul, Google !
Le système d'IA en question est Gemini, la plate-forme phare d'IA conversationnelle de l'entreprise, qui, lorsqu'elle y est invitée, appelle une version du modèle. Image 2 pour créer des images à la demande.
Cependant, récemment, les utilisateurs ont découvert que lui demander de générer des images de certaines circonstances historiques ou de certaines personnes produisait des résultats ridicules. Par exemple, les pères fondateurs, que l’on sait propriétaires d’esclaves blancs, étaient présentés comme un groupe multiculturel comprenant des personnes de couleur.
Ce problème embarrassant et facilement reproductible a été rapidement ridiculisé par les éditeurs en ligne. Sans surprise, cela a également alimenté le débat en cours sur la diversité, l’équité et l’inclusion (actuellement au plus bas dans la réputation locale) et a été saisi par les experts comme une preuve que le virus de l’esprit éveillé pénètre davantage dans le secteur technologique déjà libéral.

Une image générée par l'utilisateur de Twitter Patrick Ganley.
C'est DEI devenu fou, ont crié des citoyens clairement inquiets. C’est l’Amérique de Biden ! Google est une « chambre d’écho idéologique », un cheval de bataille de la gauche ! (Il convient de noter que la gauche a également été perturbée par cet étrange phénomène.)
Mais comme toute personne familiarisée avec la technologie pourrait vous le dire, et comme Google l'explique dans son petit article plutôt abject adjacent aux excuses, ce problème était le résultat d'une solution de contournement assez raisonnable pour les biais systémiques dans les données de formation.
Imaginons que vous souhaitiez utiliser Gemini pour créer une campagne marketing et que le logiciel vous demande de générer 10 images d'« une personne promenant un chien dans un parc ». Comme le type de personne, de chien ou de parc n'est pas précisé, le choix est laissé à l'appréciation du logiciel : le modèle génératif affichera ce qui lui semble le plus familier. Or, bien souvent, il ne s'agit pas d'un reflet de la réalité, mais plutôt de données d'entraînement susceptibles de contenir toutes sortes de biais.
Quels types de personnes, et même de chiens et de parcs, sont les plus courants dans les milliers d’images pertinentes ingérées par le modèle ? Le fait est que les Blancs sont surreprésentés dans bon nombre de ces collections d’images (images de stock, photos libres de droits, etc.) et par conséquent, le modèle utilisera par défaut les Blancs dans de nombreux cas si vous ne le faites pas. spécifier.
C'est juste un artefact des données formation, mais comme le souligne Google, « comme nos utilisateurs viennent du monde entier, nous voulons que cela fonctionne bien pour tout le monde. Si vous demandez une photo de joueurs de football ou de quelqu'un promenant un chien, vous souhaiterez peut-être recevoir une variété de personnes. Vous ne souhaitez probablement pas recevoir uniquement des images de personnes appartenant à un seul type d’origine ethnique (ou à toute autre caractéristique).

Imaginez demander une image comme celle-ci : et s’il s’agissait d’un seul type de personne ? Mauvais résultat !
Il n'y a rien de mal à prendre une photo d'un homme blanc promenant un golden retriever dans un parc de banlieue. Mais si vous en commandez 10 et qu'ils le sont todoDes hommes blancs marchent en or dans les parcs de banlieue ? Et vous vivez au Maroc, où les gens, les chiens et les parcs sont différents ? Ce n’est tout simplement pas un résultat souhaitable. Si quelqu'un ne spécifie pas de fonctionnalité, le modèle doit opter pour la variété et non pour l'homogénéité, même si ses données d'entraînement peuvent le biaiser.
Il s'agit d'un problème courant dans tous les types de médias génératifs. Et il n’existe pas de solution simple. Mais dans des cas particulièrement courants, sensibles ou les deux, des entreprises comme Google, OpenAI, Anthropic, etc. ils incluent de manière invisible des instructions supplémentaires pour le modèle.
Je ne saurais trop insister sur la fréquence de ce type d'instruction implicite. Tout l'écosystème LLM repose sur des instructions implicites – des signaux système, comme on les appelle parfois – où le modèle reçoit des consignes telles que « soyez concis », « pas de gros mots », et autres directives avant chaque conversation. Si vous demandez une blague, vous n'en recevrez pas une raciste, car même si le modèle en a assimilé des milliers, il a aussi été entraîné, comme la plupart d'entre nous, à ne pas les raconter. Il ne s'agit pas d'un agenda caché (même si une plus grande transparence serait souhaitable) ; c'est une infrastructure.
L'erreur du modèle de Google était qu'il ne contenait aucune instruction implicite pour les situations où le contexte historique était important. Ainsi, même si un message comme « une personne promenant un chien dans un parc » est amélioré par l’ajout silencieux de « la personne est d’un sexe et d’une origine ethnique aléatoires » ou peu importe ce qu’ils disent, « les pères fondateurs des États-Unis qui ont « signé le Constitution » n’est certainement pas améliorée par les mêmes instructions.
Comme l'a dit le vice-président principal de Google, Prabhakar Raghavan :
Premièrement, notre ajustement pour garantir que les Gémeaux montrent une variété de personnes ne tenait pas compte des cas qui ne devraient clairement pas montrer de variété. Et deuxièmement, au fil du temps, le modèle est devenu beaucoup plus prudent que prévu et a refusé complètement de répondre à certaines invites, interprétant à tort certaines invites très fades comme sensibles.
Ces deux éléments ont conduit le modèle à surcompenser dans certains cas et à être trop conservateur dans d’autres, conduisant à des images embarrassantes et erronées.
Je sais combien il est parfois difficile de dire « Je suis désolé », alors je pardonne à Prabhakar de ne pas l’avoir fait. Plus important encore est le choix des mots : « Le modèle est devenu beaucoup plus prudent que prévu. »
Or, comment un modèle pourrait-il « devenir » quelque chose ? C'est un logiciel. Quelqu'un (des milliers d'ingénieurs Google) l'a construit, testé et itéré. Quelqu’un a écrit des instructions implicites qui ont amélioré certaines réponses et ont fait échouer d’autres de manière hilarante. Lorsque cela a échoué, si quelqu'un avait pu inspecter l'intégralité du message, il aurait probablement découvert ce que l'équipe de Google avait fait de mal.
Google reproche au modèle d'être devenu ce qu'il n'était pas censé être. Pourtant, c'est bien eux qui l'ont créé ! C'est comme casser un verre et, au lieu de dire « on l'a laissé tomber », ils disent « il est tombé ».
Les erreurs de ces modèles sont certes inévitables. Ils hallucinent, reflètent des préjugés, se comportent de manière inattendue. Mais la responsabilité de ces erreurs n’incombe pas aux modèles, mais aux personnes qui les ont réalisées. Aujourd'hui, c'est Google. Demain ce sera OpenAI. Le lendemain, et probablement pendant quelques mois d’affilée, ce sera X.AI.
Ces entreprises ont tout intérêt à vous convaincre que l’IA commet ses propres erreurs. Nous ne devons pas laisser cette histoire perdurer.
