Twelve Labs consegue US$ 12 milhões para IA que entende o contexto de vídeos

Para Jae Lee, cientista de dados por formação, nunca fez sentido que o vídeo – que se tornou uma grande parte de nossas vidas, com o surgimento de plataformas como TikTok, Vimeo e YouTube -, difícil de pesquisar devido a barreiras técnicas para entender o contexto. Encontrar títulos, descrições e tags de vídeo sempre foi muito fácil e exigia apenas um algoritmo básico, mas pesquisa Dentro de momentos e cenas específicos de vídeos estava muito além das capacidades da tecnologia, especialmente se esses momentos e cenas não foram rotulados de forma óbvia.

Para resolver esse problema, Lee, junto com amigos da indústria de tecnologia, criou um serviço de nuvem para pesquisar e entender vídeos. Se converteu Doze laboratórios, que posteriormente levantou US$ 17 milhões em capital de risco. A Radical Ventures liderou a extensão com a participação da Index Ventures, WndrCo, Spring Ventures, CEO da Weights & Biases, Lukas Biewald, e outros, disse Lee ao TechCrunch por e-mail.

“A visão da Twelve Labs é ajudar os desenvolvedores a criar programas que possam ver, ouvir e entender o mundo como nós, oferecendo a eles a mais poderosa infraestrutura de compreensão de vídeo”Lee disse.

Uma demonstração dos recursos da plataforma Twelve Labs. Créditos da imagem: Doze laboratórios

Twelve Labs, que está atualmente em versão beta fechada, usa IA para tentar extrair "informações ricas" de vídeos como movimento e ações, objetos e pessoas, som, texto na tela e voz para identificar as relações entre eles. A plataforma converte esses diversos elementos em representações matemáticas chamadas de "vetores" e forma "conexões de tempo" entre quadros, possibilitando aplicações como a busca por cenas de vídeo.

“Como parte da realização da visão da empresa de ajudar os desenvolvedores a criar aplicativos de vídeo inteligentes, a equipe do Twelve Labs está construindo 'modelos básicos' para compreensão de vídeo multimodal”Lee disse. "Os desenvolvedores poderão acessar esses modelos por meio de um conjunto de APIs, realizando não apenas pesquisas semânticas, mas também outras tarefas, como 'capturar' vídeos de formato longo, gerar resumos e perguntas e respostas sobre vídeos".

O Google adota uma abordagem semelhante ao entendimento de vídeo com seu sistema MUM AI, que a empresa usa para aumentar as recomendações de vídeo na Pesquisa Google e no YouTube, selecionando temas em vídeos (por exemplo, “materiais de tinta acrílica”) com base em áudio, texto e imagem. Mas, embora a tecnologia possa ser comparável, Twelve Labs é um dos primeiros fornecedores a comercializá-lo; O Google optou por manter o MUM interno e se recusa a disponibilizá-lo por meio de uma API pública.

Dito isto, O Google, assim como a Microsoft e a Amazon, oferecem serviços (ou seja, Google Cloud Video AI, Azure Video Indexer e AWS Rekognition) que reconhecem objetos, lugares e ações em vídeos e extraem metadados avançados no nível do quadro. Também Reminiscência, uma startup francesa de visão computacional que afirma ser capaz de indexar qualquer tipo de vídeo e adicionar tags ao conteúdo gravado e transmitido ao vivo. Mas Lee diz que o Twelve Labs é suficientemente diferente, em parte porque sua plataforma permite que os clientes adaptem a IA a categorias específicas de conteúdo de vídeo.

“O que descobrimos é que os produtos de IA criados para detectar problemas específicos mostram alta precisão em seus cenários ideais em um ambiente controlado, mas não se adaptam tão bem a dados confusos do mundo real”.Lee disse. “Eles agem mais como um sistema baseado em regras e, portanto, carecem da capacidade de generalizar quando ocorrem variações. Também vemos isso como uma limitação enraizada na falta de compreensão do contexto. Compreender o contexto é o que dá aos humanos a capacidade única de fazer generalizações em situações aparentemente diferentes no mundo real, e é aí que o Twelve Labs se destaca.”

Além da busca Lee diz que a tecnologia da Twelve Labs pode potencializar coisas como inserção de anúncios e moderação de conteúdo, determinando de forma inteligente, por exemplo, quais vídeos mostrando facas são violentos ou instrutivos. Ele também pode ser usado para comentários em tempo real e análise de mídia, diz ele, e para gerar automaticamente rolos de destaque de vídeos.

Pouco mais de um ano após a sua fundação (março de 2021), A Twelve Labs tem clientes pagantes e um contrato plurianual com a Oracle para treinar modelos de IA usando a infraestrutura de nuvem da Oracle.. Olhando para frente, a startup planeja investir no desenvolvimento de sua tecnologia e ampliar sua equipe.

“Para a maioria das empresas, apesar do enorme valor que pode ser alcançado por meio de grandes modelos, realmente não faz sentido treinar, operar e manter esses modelos por conta própria. Ao alavancar uma plataforma da Twelve Labs, qualquer organização pode aproveitar os poderosos recursos de compactação de vídeo com apenas algumas chamadas de API intuitivas.”Lee disse. “A direção futura da inovação da IA está indo diretamente para a compreensão do vídeo multimodal, e a Twelve Labs está bem posicionada para expandir ainda mais os limites em 2023.”

artigo anterior

Diante da incerteza, as equipes de vendas B2B devem colocar valor na frente e no centro

próximo >>

O mercado de criptomoedas está saudável? (II)

RELACIONADO

Deixe uma resposta cancelar resposta

Por favor, digite seu comentário!

Por favor insira seu nome aqui

Você digitou um endereço de e-mail incorreto!

Por favor insira seu endereço de e-mail aqui

A moderação de comentários está ativada. Seu comentário pode demorar algum tempo para aparecer.

Este site usa o Akismet para reduzir o spam. Saiba como seus dados de comentário são processados.

Twelve Labs consegue US$ 12 milhões para IA que entende o contexto de vídeos

Deixe uma resposta cancelar resposta

INSCREVA-SE NO TRPLANE.COM

Publicar no TRPlane.com

MAIS PUBLICAÇÕES