Spanish English French German Italian Portuguese
Social marketing
CasatrasformazionestrategiaTwelve Labs riceve 12 milioni di dollari per l'intelligenza artificiale che comprende il contesto...

Twelve Labs ottiene 12 milioni di dollari per l'intelligenza artificiale che comprende il contesto dai video

Per Jae Lee, data scientist di formazione, non ha mai avuto senso che il video – che è diventata una parte enorme delle nostre vite, con l'ascesa di piattaforme come TikTok, Vimeo e YouTube -, difficile da cercare a causa di ostacoli tecnici alla comprensione del contesto. Trovare titoli, descrizioni e tag dei video è sempre stato piuttosto semplice e non richiedeva altro che un algoritmo di base, ma ricerca all'interno momenti e scene specifici dei video andavano ben oltre le capacità della tecnologia, in particolare se quei momenti e quelle scene non fossero etichettati in modo ovvio.

Per risolvere questo problema, Lee, insieme ad amici del settore tecnologico, ha creato un servizio cloud per la ricerca e la comprensione dei video. Ha girato Dodici laboratori, che in seguito ha raccolto 17 milioni di dollari in capitale di rischio. Radical Ventures ha guidato l'estensione con la partecipazione di Index Ventures, WndrCo, Spring Ventures, CEO di Weights & Biases Lukas Biewald e altri, ha detto Lee a TechCrunch in una e-mail.

"La visione di Twelve Labs è quella di aiutare gli sviluppatori a creare programmi in grado di vedere, ascoltare e comprendere il mondo come facciamo noi, offrendo loro la più potente infrastruttura di comprensione video"Lee ha detto.

Una dimostrazione delle capacità della piattaforma Twelve Labs. Crediti immagine: Dodici laboratori

Twelve Labs, attualmente in closed beta, utilizza l'intelligenza artificiale per cercare di estrarre "informazioni ricche" dai video come movimenti e azioni, oggetti e persone, suoni, testo sullo schermo e voce per identificare le relazioni tra di loro. La piattaforma converte questi vari elementi in rappresentazioni matematiche chiamate "vettori" e forma "connessioni temporali" tra i fotogrammi, consentendo applicazioni come la ricerca di scene video.

"Come parte del raggiungimento della visione dell'azienda di aiutare gli sviluppatori a creare applicazioni video intelligenti, il team di Twelve Labs sta costruendo 'modelli di base' per la comprensione dei video multimodali"Lee ha detto. "Gli sviluppatori saranno in grado di accedere a questi modelli attraverso una serie di API, eseguendo non solo ricerche semantiche, ma anche altre attività come l'acquisizione di video di lunga durata, la generazione di riepiloghi e domande e risposte video".

Google adotta un approccio simile alla comprensione dei video con il suo sistema MUM AI, che l'azienda utilizza per migliorare i video consigliati su Ricerca Google e YouTube curando temi nei video (ad esempio, "materiali di pittura acrilica") basati su audio, testo e immagine. Ma mentre la tecnologia può essere paragonabile, Twelve Labs è uno dei primi fornitori a commercializzarlo; Google ha scelto di mantenere MUM interno e si rifiuta di renderlo disponibile tramite un'API pubblica.

Detto questo, Google, così come Microsoft e Amazon, offrono servizi (ovvero Google Cloud Video AI, Azure Video Indexer e AWS Rekognition) che riconoscono oggetti, luoghi e azioni nei video ed estraggono ricchi metadati a livello di frame. È anche Ricorda, una startup francese di visione artificiale che afferma di essere in grado di indicizzare qualsiasi tipo di video e aggiungere tag sia ai contenuti registrati che a quelli trasmessi in live streaming. Ma Lee afferma che Twelve Labs è sufficientemente diverso, in parte perché la sua piattaforma consente ai clienti di adattare l'intelligenza artificiale a specifiche categorie di contenuti video.

"Quello che abbiamo scoperto è che i prodotti AI costruiti per rilevare problemi specifici mostrano un'elevata precisione nei loro scenari ideali in un ambiente controllato, ma non si adattano altrettanto bene ai dati disordinati del mondo reale".Lee ha detto. “Agiscono più come un sistema basato su regole e quindi non hanno la capacità di generalizzare quando si verificano variazioni. Vediamo anche questo come un limite radicato in una mancanza di comprensione del contesto. La comprensione del contesto è ciò che offre agli esseri umani la capacità unica di fare generalizzazioni in situazioni apparentemente diverse nel mondo reale, ed è qui che Twelve Labs eccelle.

Oltre la ricerca Lee afferma che la tecnologia di Twelve Labs può potenziare cose come l'inserimento di annunci e la moderazione dei contenuti, determinando in modo intelligente, ad esempio, quali video che mostrano i coltelli sono violenti o istruttivi. Può anche essere utilizzato per commenti in tempo reale e analisi dei media, afferma, e per generare automaticamente bobine di momenti salienti dai video.

A poco più di un anno dalla sua fondazione (marzo 2021), Twelve Labs ha clienti paganti e un contratto pluriennale con Oracle per addestrare modelli AI utilizzando l'infrastruttura cloud di Oracle.. Guardando avanti, la startup prevede di investire nello sviluppo della propria tecnologia e nell'ampliamento del proprio team.

“Per la maggior parte delle aziende, nonostante l'enorme valore che può essere ottenuto attraverso modelli di grandi dimensioni, non ha davvero senso addestrare, gestire e mantenere questi modelli da sole. Sfruttando una piattaforma di Twelve Labs, qualsiasi organizzazione può sfruttare potenti funzionalità di compressione video con poche chiamate API intuitive.Lee ha detto. "La direzione futura dell'innovazione dell'IA si sta dirigendo direttamente verso la comprensione dei video multimodali e Twelve Labs è ben posizionata per spingere ulteriormente i confini nel 2023".

IMPARENTATO

Lascia un commento

Inserisci il tuo commento!
Per favore inserisci il tuo nome qui

La moderazione dei commenti è abilitata. Il tuo commento potrebbe richiedere del tempo per apparire.

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati dei tuoi commenti.

ISCRIVITI A TRPLANE.COM

Pubblica su TRPlane.com

Se hai una storia interessante su trasformazione, IT, digitale, ecc. che puoi trovare su TRPlane.com, inviacela e la condivideremo con l'intera Community.

ALTRE PUBBLICAZIONI

Attivare le notifiche OK No grazie

Benvenuto su TRPlane.com

Installazione
×