Spanish English French German Italian Portuguese
Social marketing
CasatrasformazioneInnovazioneVisione e linguaggio combinati sono la chiave per un'intelligenza artificiale più efficace

Visione e linguaggio combinati sono la chiave per un'intelligenza artificiale più efficace

A seconda della teoria dell'intelligenza a cui ti iscrivi, il raggiungimento di un'intelligenza artificiale "a livello umano" richiederà un sistema in grado di trarre vantaggio da molteplici modalità, ad esempio: suono, visione e testo, per ragionare sul mondo. Quando viene mostrata l'immagine di un camion ribaltato e di un'auto della polizia su un'autostrada innevata, un'intelligenza artificiale a livello umano potrebbe dedurre che le condizioni stradali pericolose hanno causato un incidente. Oppure, correndo su un robot, quando gli viene chiesto di prendere una lattina di soda dal frigorifero, navigano tra persone, mobili e animali domestici per recuperare la lattina e metterla alla portata del richiedente.

L'attuale intelligenza artificiale non è all'altezza. Ma una nuova ricerca mostra segni di progressi incoraggianti, dai robot in grado di capire i passaggi per seguire i comandi di base (ad esempio, "prendi una bottiglia d'acqua") ai sistemi di produzione di testo che imparano dalle spiegazioni.

OpenAI Enhanced DALL-E AI Research Lab, DALL-MI2, è facilmente il progetto più impressionante emergendo dalle profondità di un laboratorio di ricerca sull'intelligenza artificiale. Mentre l'originale DALL-E ha dimostrato una notevole abilità nel creare immagini che corrispondessero praticamente a qualsiasi messaggio (ad esempio, "un cane con un berretto"), DALL-MI2 Va oltre. Le immagini che produce sono molto più dettagliate e DALL-MI2 può sostituire in modo intelligente una determinata area in un'immagine, ad esempio, inserendo una tabella in una foto di un pavimento di marmo riempita con i riflessi appropriati.

Ricercatori di Google hanno anche dettagliato un altrettanto impressionante sistema di comprensione visiva chiamato Prosodia Guidato visivamente per la sintesi vocale: VDTTS – in un post pubblicato sul blog AI di Google. VDTTS può generare un discorso dal suono realistico e sincronizzato con le labbra dato nient'altro che cornici di testo e video della persona che parla.

Il discorso generato da VDTTSSebbene non sia un perfetto sostituto dei dialoghi registrati, è comunque piuttosto buono, con un'espressività e un ritmo convincenti simili a quelli umani. Google vede che un giorno verrà utilizzato in uno studio per sostituire l'audio originale che potrebbe essere stato registrato in condizioni rumorose.

Ovviamente, la comprensione visiva è solo un passo verso un'intelligenza artificiale più capace. Un altro componente è il comprensione della lingua, che è in ritardo sotto molti aspetti, anche mettendo da parte i ben documentati problemi di tossicità e bias dell'IA. In un chiaro esempio, un sistema all'avanguardia di Google, Modello linguistico dei percorsi (Palma), ha memorizzato il 40% dei dati che sono stati utilizzati per “addestrarlo”., secondo un documento, con conseguente plagio del testo da parte di PaLM fino agli avvisi di copyright sui frammenti di codice.

Fortunatamente, DeepMind, il laboratorio di intelligenza artificiale supportato da Alphabet, è tra coloro che esplorano le tecniche per affrontare questo problema. In un nuovo studio, i ricercatori di DeepMind indagare se i sistemi linguistici AI, che imparano a generare testo da molti esempi di testo esistente (pensa ai libri e ai social media), potrebbero trarre vantaggio dalla ricezione spiegazioni di quei testi. Dopo aver segnato dozzine di compiti linguistici (ad esempio, "Rispondi a queste domande identificando se la seconda frase è una parafrasi appropriata della prima frase metaforica") con spiegazioni (ad esempio, "Gli occhi di David non erano letteralmente pugnali, è una metafora usata per implicare che David stava fissando Paul.") e valutando le prestazioni di diversi sistemi su di essi, La squadra di DeepMind ha scoperto che gli esempi effettivamente migliorano le prestazioni del sistema.

Il focus di DeepMind, se superi l'esame all'interno della comunità accademica, potrebbe un giorno essere applicato alla robotica, formando gli elementi costitutivi di un robot in grado di comprendere richieste vaghe (ad esempio, "buttare via la spazzatura") senza istruzioni dettagliate.

IMPARENTATO

Lascia un commento

Inserisci il tuo commento!
Per favore inserisci il tuo nome qui

La moderazione dei commenti è abilitata. Il tuo commento potrebbe richiedere del tempo per apparire.

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati dei tuoi commenti.

ISCRIVITI A TRPLANE.COM

Pubblica su TRPlane.com

Se hai una storia interessante su trasformazione, IT, digitale, ecc. che puoi trovare su TRPlane.com, inviacela e la condivideremo con l'intera Community.

ALTRE PUBBLICAZIONI

Attivare le notifiche OK No grazie