AccueilGrandes technologiesGoogleCe que vous devez savoir sur Google Gemini

Google IA Intelligence artificielle Startups

Ce que vous devez savoir sur Google Gemini

Google tente de faire sensation avec Gemini, une nouvelle plateforme d'IA générative qui a récemment fait ses débuts. Mais si les Gémeaux semblent prometteurs à certains égards, ils ne le sont pas à d’autres. Alors, qu’est-ce que les Gémeaux ? Comment peut-il être utilisé? Et comment cela se compare-t-il à la concurrence ?

Ce guide, mis à jour au fur et à mesure de la sortie de nouveaux modèles et fonctionnalités Gemini, cherche à répondre à ces questions.

Qu'est-ce que les Gémeaux

GEMINI La promesse de longue date de Google concernant une famille de modèles d'IA génératifs de nouvelle génération, développés par les laboratoires de recherche en IA de Google, DeepMind et Google Research. Existe en trois saveurs :

Gémeaux Ultra Le modèle phare de Gemini
Gémeaux professionnels un modèle Gemini « allégé »
Gémeaux Nano un modèle « distillé » plus petit qui fonctionne sur des appareils mobiles comme le Pixel 8 Pro

Tous les modèles Gemini ont été formés pour être « nativement multimodaux » ; en d’autres termes, capable de travailler et d’utiliser plus que du simple texte. Ils ont été pré-formés et mis au point sur une variété d’audio, d’images et de vidéos, un large ensemble de bases de codes et de textes dans différentes langues.

Cela distingue Gemini des modèles comme le grand modèle de langage LaMDA de Google, qui n'a été formé que sur des données textuelles. LaMDA ne peut pas comprendre ou générer autre chose que du texte (par exemple des essais, des brouillons d'e-mails, etc.), mais ce n'est pas le cas des modèles Gemini. Sa capacité à comprendre les images, l'audio et d'autres modalités est encore limitée, mais c'est mieux que rien.

Quelle est la différence entre Barde et Gémeaux

Le barde de Google

Google, prouvant une fois de plus son manque de compétences en matière de branding, n'a pas précisé dès le début que Gemini était indépendant et distinct de Bard. Bard est simplement une interface à travers laquelle certains modèles Gemini sont accessibles ; Considérez-le comme une application ou un client pour Gemini et d'autres modèles d'IA générative. Gemini, en revanche, est une famille de modèles, pas une application ou une interface. Il n’existe pas d’expérience Gémeaux autonome, et il n’y en aura probablement jamais. Si on le compare aux produits OpenAI, Bard correspond à ChatGPT, l'application d'IA conversationnelle populaire d'OpenAI, et Gemini correspond au modèle de langage qui l'alimente, qui dans le cas de ChatGPT est GPT-3.5 ou 4.

Soit dit en passant, Gemini est également totalement indépendant d'Image-2, un modèle de conversion texte en image qui peut ou non s'intégrer dans la stratégie globale d'IA de l'entreprise. Ne vous inquiétez pas, vous n'êtes pas le seul à être confus par cela !

Ce que les Gémeaux peuvent faire

Les modèles Gemini étant multimodaux, ils peuvent théoriquement effectuer diverses tâches, de la transcription de discours au sous-titrage d’images et de vidéos en passant par la génération d’œuvres d’art. Peu de ces fonctionnalités ont encore atteint le stade du produit, mais Google les promet toutes, et bien plus encore, dans un avenir pas trop lointain.

Bien sûr, il est un peu difficile de croire l’entreprise au moment du lancement initial.

Google a plus que livré la version originale de Bard. Et plus récemment, cela a fait sensation avec une vidéo prétendant montrer les capacités de Gemini qui s'est avérée fortement manipulée et plus ou moins ambitieuse. Gémeaux es Grâce au géant de la technologie, il est disponible aujourd’hui sous une forme ou une autre, mais assez limité.

Néanmoins, en supposant que Google soit plus ou moins véridique dans ses affirmations, voici ce que les différents niveaux de modèles Gemini pourront faire une fois lancés :

Gémeaux Ultra

Jusqu'à présent, peu de gens ont obtenu Gemini Ultra, le modèle « de base » sur lequel les autres sont construits : juste un « ensemble sélectionné » de clients dans une poignée d'applications et de services Google. Cela ne changera que plus tard cette année, lorsque le modèle plus grand de Google sera lancé plus largement. La plupart des informations sur Ultra proviennent de démonstrations de produits gérées par Google, il est donc préférable de les prendre avec des pincettes.

Google affirme que Gemini Ultra peut être utilisé pour faciliter des tâches telles que les devoirs de physique, résoudre des problèmes étape par étape sur une feuille de calcul et signaler des erreurs potentielles dans des réponses déjà complétées. Gemini Ultra peut également être appliqué à des tâches telles que l'identification d'articles scientifiques pertinents pour un problème particulier, explique Google, l'extraction d'informations de ces articles et la « mise à jour » d'un graphique en générant les formules nécessaires pour recréer le graphique avec des données plus récentes.

Gemini Ultra prend techniquement en charge l'imagerie, comme mentionné ci-dessus. Mais cette capacité ne sera pas disponible dans la version de production du modèle au lancement, selon Google, peut-être parce que le mécanisme est plus complexe que la façon dont des applications comme ChatGPT génèrent des images. Au lieu d'envoyer des signaux à un générateur d'images (comme DALL-E 3, dans le cas de ChatGPT), Gemini génère des images « nativement » sans étape intermédiaire.

Gémeaux professionnels

Contrairement à Gemini Ultra, Gemini Pro est aujourd'hui accessible au public. Mais ce qui prête à confusion, c’est que ses capacités dépendent de l’endroit où il est utilisé.

Google affirme qu'à Bard, où Gemini Pro a été lancé pour la première fois au format texte uniquement, le Le modèle est une amélioration par rapport à LaMDA dans son capacités de raisonnement, de planification et de compréhension. En un étude indépendante Les chercheurs de Carnegie Mellon et BerriAI ont découvert que Gemini Pro est en fait meilleur que GPT-3.5 d'OpenAI pour gérer des chaînes de raisonnement plus longues et plus complexes.

Mais l'étude a également révélé que, comme tous les grands modèles de langage, Gemini Pro a des difficultés particulières avec les problèmes mathématiques impliquant plusieurs chiffres, et les utilisateurs ont rencontré de nombreux exemples de mauvais raisonnement et d'erreurs. Il a commis de nombreuses erreurs factuelles dans des requêtes simples comme celle de savoir qui a remporté les derniers Oscars. Google a promis des améliorations, mais on ne sait pas quand elles arriveront.

Gemini Pro est également disponible via API sur Vertex AI, la plate-forme de développement d'IA entièrement gérée de Google, qui accepte du texte en entrée et génère du texte en sortie. Un point de terminaison supplémentaire, Gemini Pro Vision, peut traiter du texte et des images, y compris des photos et des vidéos, et générer du texte sur le modèle du modèle GPT-4 avec Vision d'OpenAI.

Gémeaux

Utiliser Gemini Pro sur Vertex AI.

Dans Vertex AI, les développeurs peuvent personnaliser Gemini Pro pour des contextes et des cas d'utilisation spécifiques via un processus de réglage ou de « mise à la terre ». Gemini Pro peut également se connecter à des API tierces externes pour effectuer des actions particulières.

Au début de 2024, les clients de Vertex pourront tirer parti de Gemini Pro pour alimenter des agents vocaux et de chat conversationnels personnalisés (c'est-à-dire des chatbots). Gemini Pro deviendra également une option pour alimenter les fonctions de résumé de recherche, de recommandation et de génération de réponses dans Vertex AI, basées sur des documents dans toutes les modalités (par exemple PDF, images) provenant de différentes sources (par exemple OneDrive, Salesforce) pour répondre aux requêtes.

Gémeaux

Dans AI Studio, l'outil Web de Google pour les développeurs d'applications et de plates-formes, il existe des flux de travail pour créer des messages de discussion structurés et de forme libre à l'aide de Gemini Pro. Les développeurs ont accès aux points de terminaison Gemini Pro et Gemini Pro Vision et peuvent ajuster le «température» du modèle pour contrôler la gamme créative de sortie et fournir des exemples pour donner des instructions de ton et de style, et également ajuster les paramètres de sécurité.

Gémeaux Nano

Gemini Nano est une version beaucoup plus petite des modèles Gemini Pro et Ultra, et est suffisamment efficace pour fonctionner directement sur (certains) téléphones au lieu d'envoyer la tâche à un serveur. Jusqu'à présent, il inclut deux fonctionnalités sur le Pixel 8 Pro : résumer sur l'enregistreur et réponse intelligente sur Gboard.

L'application Recorder, qui permet aux utilisateurs d'appuyer sur un bouton pour enregistrer et transcrire de l'audio, comprend un résumé alimenté par Gemini de vos conversations, interviews, présentations et autres extraits enregistrés. Les utilisateurs reçoivent ces résumés même s'ils ne disposent pas de signal ou de connexion Wi-Fi et, dans un souci de confidentialité, aucune donnée ne quitte leur téléphone au cours du processus.

Gemini Nano est également présent sur Gboard, l'application clavier de Google, dans un aperçu du développeur. Là, activez une fonctionnalité appelée Smart Reply, qui permet de suggérer ce que vous souhaitez dire ensuite lorsque vous avez une conversation dans une application de messagerie. Initialement, la fonctionnalité ne fonctionne qu'avec WhatsApp, mais elle sera disponible dans davantage d'applications en 2024, indique Google.

Gemini est-il meilleur que le GPT-4 d'OpenAI

Il n'y a aucun moyen de savoir comment fonctionne la famille Gémeaux. En réalité Cela ne sera pas connu avant que Google ne publie Ultra plus tard cette année, mais la société a revendiqué des améliorations dans la version actuelle, la rapprochant du GPT-4 d'OpenAI.

Google a vanté à plusieurs reprises la supériorité de Gemini dans les benchmarks, déclarant que Gemini Ultra surpasse les résultats actuels dans « 30 des 32 benchmarks académiques largement utilisés dans la recherche et le développement de grands modèles de langage ». Pendant ce temps, la société affirme que le Gemini Pro est plus capable d'effectuer des tâches telles que résumer du contenu, générer des idées et écrire que GPT-3.5.

Mais en laissant de côté la question de savoir si les benchmarks indiquent réellement un meilleur modèle, les scores indiqués par Google ne semblent être que légèrement meilleurs que les modèles OpenAI correspondants. Et, comme mentionné ci-dessus, certaines des premières impressions n'ont pas été très bonnes, car les utilisateurs et académique Ils soulignent que Gemini Pro a tendance à se tromper sur les données de base, à avoir des difficultés avec les traductions et à proposer de mauvaises suggestions de codage.

Combien coûtera le Gémeaux ?

Gemini Pro est gratuit sur Bard et, pour l'instant, sur AI Studio et Vertex AI.

Cependant, une fois que le Gemini Pro sortira en avant-première sur Vertex, le modèle coûtera 0,0025 $ par personnage, tandis que la version coûtera 0,00005 $ par personnage. Les clients Vertex paient pour 1.000 140 caractères (entre 250 et 0,0025 mots) et, dans le cas de modèles comme le Gemini Pro Vision, par image (XNUMX $).

Supposons qu'un article de 500 mots contienne 2000 5 caractères. Résumer cet article avec Gemini Pro coûterait XNUMX $. D'un autre côté, Generar un article de longueur similaire coûterait 0,1 $.

Où essayer les Gémeaux

Professionnel Gémeaux

L'endroit le plus simple pour découvrir Gemini Pro est Bard. Une version améliorée de Pro répond actuellement aux requêtes textuelles de Bard en anglais aux États-Unis, avec d'autres langues et pays pris en charge à l'avenir.

Gemini Pro est également accessible en avant-première sur Vertex AI via une API. L'API est actuellement gratuite à utiliser « dans certaines limites » et prend en charge 38 langues et régions, dont l'Europe, ainsi que des fonctionnalités telles que le chat et le filtrage.

Ailleurs, Gemini Pro peut être trouvé dans AI Studio. En utilisant le service, Les développeurs peuvent itérer les invites et les chatbots en fonction de Gemini, puis obtenez des clés API à utiliser dans vos applications, ou exportez le code vers un IDE plus riche en fonctionnalités.

Duet AI pour les développeurs, est l'ensemble d'outils de support basés sur l'IA de Google pour la complétion et la génération de code, commencera à utiliser un modèle Gemini dans les semaines à venir. Google prévoit d'intégrer les modèles Gemini aux outils de développement pour Chrome et sa plate-forme de développement mobile Firebase à peu près au même moment, début 2024.

Gémeaux Nano

Gemini Nano est sur le Pixel 8 Pro et sera disponible sur d'autres appareils à l'avenir. Les développeurs souhaitant intégrer le modèle dans leurs applications Android peuvent inscribirse pour un premier aperçu.

article précédent

La nouvelle initiative d'Amazon pour aider les personnes en matière de santé numérique

suivant >>

Parallel obtient un financement pour la téléthérapie pour les enfants ayant des besoins spéciaux

S'INSCRIT

Ce que vous devez savoir sur Google Gemini

Qu'est-ce que les Gémeaux

Quelle est la différence entre Barde et Gémeaux

Ce que les Gémeaux peuvent faire

Gémeaux Ultra

Gémeaux professionnels

Gémeaux Nano

Gemini est-il meilleur que le GPT-4 d'OpenAI

Combien coûtera le Gémeaux ?

Où essayer les Gémeaux

Professionnel Gémeaux

Gémeaux Nano

ABONNEZ-VOUS SUR TRPLANE.COM

Publier sur TRPlane.com

PLUS DE PUBLICATIONS