CasaBigTechGoogleCosa devi sapere su Google Gemini

Google IA Intelligenza artificiale Startup

Cosa devi sapere su Google Gemini

Google sta cercando di fare colpo con Gemini, una nuova piattaforma di intelligenza artificiale generativa che ha recentemente fatto il suo grande debutto. Ma mentre i Gemelli sembrano promettenti in alcuni sensi, in altri non sono all’altezza. Allora cos'è i Gemelli? come si puó usare? E come si colloca rispetto alla concorrenza?

Questa guida, aggiornata man mano che vengono rilasciati nuovi modelli e funzionalità Gemini, cerca di rispondere a queste domande

Cos'è i Gemelli

Gemini La promessa di lunga data di Google riguardante una famiglia di modelli di intelligenza artificiale generativa di prossima generazione, sviluppati dai laboratori di ricerca sull'intelligenza artificiale di Google, DeepMind e Google Research. Disponibile in tre gusti:

Gemelli Ultra Il modello di punta di Gemini
Gemelli professionisti un modello Gemini “lite”.
Gemelli Nano un modello “distillato” più piccolo che funziona su dispositivi mobili come Pixel 8 Pro

Tutti i modelli Gemini sono stati addestrati per essere “nativamente multimodali”; in altre parole, in grado di lavorare e utilizzare più del semplice testo. Sono stati pre-addestrati e sintonizzati su una varietà di audio, immagini e video, un ampio set di basi di codice e testo in diverse lingue.

Ciò distingue Gemini da modelli come il modello linguistico LaMDA di Google, che è stato addestrato solo su dati di testo. LaMDA non può comprendere o generare altro che testo (ad esempio saggi, bozze di email, ecc.), ma questo non è il caso dei modelli Gemini. La sua capacità di comprendere immagini, audio e altre modalità è ancora limitata, ma è meglio di niente.

Qual è la differenza tra Bardo e Gemelli

Il bardo di Google

Google, dimostrando ancora una volta di mancare di capacità di branding, non ha chiarito fin dall’inizio che Gemini è indipendente e distinto da Bard. Bard è semplicemente un'interfaccia attraverso la quale è possibile accedere ad alcuni modelli Gemini; Consideralo come un'applicazione o un client per Gemini e altri modelli di intelligenza artificiale generativa. Gemini, invece, è una famiglia di modelli, non un'applicazione o un'interfaccia. Non esiste un’esperienza Gemelli autonoma, né probabilmente ci sarà mai. Se paragonato ai prodotti OpenAI, Bard corrisponde a ChatGPT, la popolare applicazione di intelligenza artificiale conversazionale di OpenAI, e Gemini corrisponde al modello linguistico che la alimenta, che nel caso di ChatGPT è GPT-3.5 o 4.

A proposito, Gemini è anche completamente indipendente da Image-2, un modello di conversione da testo a immagine che può o meno adattarsi alla strategia generale di intelligenza artificiale dell'azienda. Non preoccuparti, non sei l'unico confuso da questo!

Cosa possono fare i Gemelli

Poiché i modelli Gemini sono multimodali, possono teoricamente eseguire una varietà di compiti, dalla trascrizione del parlato alla didascalia di immagini e video alla generazione di opere d'arte. Poche di queste funzionalità hanno ancora raggiunto la fase di prodotto, ma Google le promette tutte, e anche di più, in un futuro non troppo lontano.

Ovviamente è un po' difficile credere all'azienda al momento del lancio iniziale.

Google ha più che fornito risultati con la versione originale di Bard. E più recentemente ha suscitato scalpore con un video che pretendeva di mostrare le capacità dei Gemelli che si sono rivelate pesantemente manipolate e più o meno ambiziose. Gemelli es merito al gigante della tecnologia, oggi è disponibile in qualche forma, ma piuttosto limitata.

Tuttavia, supponendo che Google sia più o meno veritiera con le sue affermazioni, ecco cosa saranno in grado di fare i diversi livelli di modelli Gemini una volta lanciati:

Gemelli Ultra

Poche persone hanno finora ottenuto Gemini Ultra, il modello “base” su cui sono costruiti gli altri: solo un “insieme selezionato” di clienti in una manciata di app e servizi Google. Ciò non cambierà fino alla fine di quest’anno, quando il modello più grande di Google verrà lanciato su più ampia scala. La maggior parte delle informazioni su Ultra provengono da demo di prodotti gestite da Google, quindi è meglio prenderle con le pinze.

Google afferma che Gemini Ultra può essere utilizzato per aiutare con cose come i compiti di fisica, risolvere problemi passo passo su un foglio di lavoro e evidenziare potenziali errori nelle risposte già completate. Gemini Ultra può essere applicato anche a compiti come identificare articoli scientifici rilevanti per un particolare problema, dice Google, estraendo informazioni da quegli articoli e “aggiornando” un grafico di uno generando le formule necessarie per ricreare il grafico con dati più recenti.

Gemini Ultra supporta tecnicamente l'imaging, come menzionato sopra. Ma questa capacità non arriverà alla versione di produzione del modello al momento del lancio, secondo Google, forse perché il meccanismo è più complesso del modo in cui app come ChatGPT generano immagini. Invece di inviare segnali a un generatore di immagini (come DALL-E 3, nel caso di ChatGPT), Gemini genera immagini “nativamente” senza passaggi intermedi.

Gemelli professionisti

A differenza di Gemini Ultra, Gemini Pro è oggi disponibile al pubblico. Ma, in modo confuso, le sue capacità dipendono da dove viene utilizzato.

Google afferma che a Bard, dove Gemini Pro è stato lanciato per la prima volta in formato solo testo, il file il modello è un miglioramento rispetto a LaMDA nella sua capacità di ragionamento, pianificazione e comprensione. In un studio indipendente I ricercatori della Carnegie Mellon e BerriAI hanno scoperto che Gemini Pro è in realtà migliore del GPT-3.5 di OpenAI nel gestire catene di ragionamento più lunghe e complesse.

Ma lo studio ha anche scoperto che, come tutti i modelli linguistici di grandi dimensioni, Gemini Pro ha particolari difficoltà con i problemi di matematica che coinvolgono più cifre, e gli utenti hanno riscontrato molti esempi di ragionamenti inadeguati ed errori. Ha commesso molti errori fattuali in domande semplici come chi ha vinto gli ultimi Oscar. Google ha promesso miglioramenti, ma non è chiaro quando arriveranno.

Gemini Pro è disponibile anche tramite API su Vertex AI, la piattaforma di sviluppo AI completamente gestita di Google, che accetta testo come input e genera testo come output. Un endpoint aggiuntivo, Gemini Pro Vision, può elaborare testo e immagini, inclusi foto e video, e produrre testo sulla falsariga del modello GPT-4 con Vision di OpenAI.

Gemelli

Utilizzo di Gemini Pro su Vertex AI.

All'interno di Vertex AI, gli sviluppatori possono personalizzare Gemini Pro per contesti e casi d'uso specifici attraverso un processo di messa a punto o "messa a terra". Gemini Pro può anche connettersi ad API esterne di terze parti per eseguire azioni particolari.

All'inizio del 2024, i clienti Vertex potranno sfruttare Gemini Pro per potenziare agenti vocali e di chat conversazionali personalizzati (ad esempio chatbot). Gemini Pro diventerà anche un'opzione per potenziare le funzioni di riepilogo della ricerca, raccomandazione e generazione di risposte in Vertex AI, basate su documenti in tutte le modalità (ad esempio PDF, immagini) provenienti da diverse fonti (ad esempio OneDrive, Salesforce) per soddisfare le query.

Gemelli

In AI Studio, lo strumento web di Google per sviluppatori di app e piattaforme, sono disponibili flussi di lavoro per la creazione di messaggi di chat strutturati in formato libero utilizzando Gemini Pro. Gli sviluppatori hanno accesso agli endpoint Gemini Pro e Gemini Pro Vision e possono regolare il «temperatura» del modello per controllare la gamma creativa dell'output e fornire esempi per dare istruzioni su tono e stile e anche regolare le impostazioni di sicurezza.

Gemelli Nano

Gemini Nano è una versione molto più piccola dei modelli Gemini Pro e Ultra ed è abbastanza efficiente da poter essere eseguito direttamente su (alcuni) telefoni invece di inviare l'attività a un server. Finora include due funzionalità su Pixel 8 Pro: riepilogo sul registratore e risposta intelligente su Gboard.

L'app Registratore, che consente agli utenti di premere un pulsante per registrare e trascrivere l'audio, include un riepilogo basato su Gemini delle conversazioni, interviste, presentazioni e altri frammenti registrati. Gli utenti ricevono questi riepiloghi anche se non hanno un segnale o una connessione Wi-Fi disponibile e, in un cenno alla privacy, nessun dato lascia il telefono durante il processo.

Gemini Nano è anche su Gboard, l'app per tastiera di Google, in a anteprima per sviluppatori. Lì, attiva una funzione chiamata Risposta intelligente, che ti aiuta a suggerire cosa vuoi dire dopo quando hai una conversazione in un'app di messaggistica. Inizialmente, la funzione funziona solo con WhatsApp, ma arriverà su più app nel 2024, afferma Google.

Gemini è migliore del GPT-4 di OpenAI

Non c'è modo di sapere come funziona la famiglia Gemini. effettivamente Non lo sapremo fino a quando Google non rilascerà Ultra entro la fine dell'anno, ma la società ha affermato miglioramenti nella versione attuale, avvicinandola al GPT-4 di OpenAI.

Google ha più volte pubblicizzato la superiorità di Gemini nei benchmark, affermando che Gemini Ultra supera i risultati attuali in "30 dei 32 benchmark accademici ampiamente utilizzati nella ricerca e nello sviluppo di grandi modelli linguistici". Nel frattempo, la società afferma che Gemini Pro è più capace di eseguire attività come riassumere contenuti, generare idee e scrivere rispetto a GPT-3.5.

Ma lasciando da parte la questione se i benchmark indichino effettivamente un modello migliore, i punteggi indicati da Google sembrano essere solo marginalmente migliori rispetto ai corrispondenti modelli OpenAI. E, come accennato in precedenza, alcune delle prime impressioni non sono state molto buone, come utenti e accademici Sottolineano che Gemini Pro tende a sbagliare i dati di base, ha difficoltà con le traduzioni e offre scarsi suggerimenti di codifica.

Quanto costerà i Gemelli?

Gemini Pro può essere utilizzato gratuitamente su Bard e, per ora, su AI Studio e Vertex AI.

Tuttavia, una volta che Gemini Pro uscirà dall'anteprima su Vertex, il modello costerà $ 0,0025 per personaggio, mentre il rilascio costerà $ 0,00005 per personaggio. I clienti Vertex pagano per 1.000 caratteri (tra 140 e 250 parole) e, nel caso di modelli come Gemini Pro Vision, per immagine ($ 0,0025).

Supponiamo che un articolo di 500 parole contenga 2000 caratteri. Riassumere quell'articolo con Gemini Pro costerebbe $ 5. D'altra parte, generare un articolo di lunghezza simile costerebbe $ 0,1.

Dove puoi provare Gemelli

Professionista dei Gemelli

Il posto più semplice per sperimentare Gemini Pro è Bard. Una versione migliorata di Pro sta rispondendo alle domande di Bard basate su testo in inglese proprio ora negli Stati Uniti, con ulteriori lingue e paesi supportati in futuro.

È inoltre possibile accedere a Gemini Pro in anteprima su Vertex AI tramite un'API. L'utilizzo dell'API è gratuito "entro alcuni limiti" al momento e supporta 38 lingue e regioni, inclusa l'Europa, oltre a funzionalità come chat e filtri.

Altrove, Gemini Pro può essere trovato in AI Studio. Utilizzando il servizio, Gli sviluppatori possono ripetere istruzioni e chatbot basati su Gemini e quindi ottieni le chiavi API da utilizzare nelle tue applicazioni o esporta il codice in un IDE più ricco di funzionalità.

Duetto AI per sviluppatori, è l'insieme di strumenti di supporto basati sull'intelligenza artificiale di Google per il completamento e la generazione di codice, inizierà a utilizzare un modello Gemini nelle prossime settimane. Google prevede di portare i modelli Gemini negli strumenti di sviluppo per Chrome e nella sua piattaforma di sviluppo mobile Firebase nello stesso periodo, all'inizio del 2024.

Gemelli Nano

Gemini Nano è presente su Pixel 8 Pro e arriverà su altri dispositivi in futuro. Gli sviluppatori interessati a incorporare il modello nelle proprie app Android possono farlo iscriviti per una prima visione.

articolo precedente

La nuova iniziativa di Amazon per aiutare le persone con la salute digitale

avanti >>

Parallel assicura finanziamenti per la teleterapia per bambini con bisogni speciali

IMPARENTATO

Cosa devi sapere su Google Gemini

Cos'è i Gemelli

Qual è la differenza tra Bardo e Gemelli

Cosa possono fare i Gemelli

Gemelli Ultra

Gemelli professionisti

Gemelli Nano

Gemini è migliore del GPT-4 di OpenAI

Quanto costerà i Gemelli?

Dove puoi provare Gemelli

Professionista dei Gemelli

Gemelli Nano

ISCRIVITI A TRPLANE.COM

Pubblica su TRPlane.com

ALTRE PUBBLICAZIONI