Spanish English French German Italian Portuguese
Marketing social
AccueilTransformationStratégieTwelve Labs obtient 12 millions de dollars pour une IA qui comprend le contexte...

Twelve Labs décroche 12 millions de dollars pour une IA qui comprend le contexte des vidéos

Pour Jae Lee, data scientist de formation, ça n'a jamais eu de sens que la vidéo – qui est devenu une énorme partie de nos vies, avec la montée en puissance de plateformes comme TikTok, Vimeo et YouTube -, difficile à rechercher en raison d'obstacles techniques à la compréhension du contexte. Trouver des titres, des descriptions et des balises vidéo a toujours été assez facile et ne nécessitait qu'un algorithme de base, mais rechercher dans vidéos de moments et de scènes spécifiques dépassaient largement les capacités de la technologie, en particulier si ces moments et scènes n'étaient pas étiquetés de manière évidente.

Pour résoudre ce problème, Lee, avec des amis de l'industrie technologique, a créé un service cloud pour rechercher et comprendre des vidéos. Il a tourné Douze laboratoires, qui a ensuite levé 17 millions de dollars en capital-risque. Radical Ventures a dirigé l'extension avec la participation d'Index Ventures, de WndrCo, de Spring Ventures, du PDG de Weights & Biases, Lukas Biewald, et d'autres, a déclaré Lee à TechCrunch dans un e-mail.

"La vision de Twelve Labs est d'aider les développeurs à créer des programmes qui peuvent voir, entendre et comprendre le monde comme nous le faisons, en leur donnant l'infrastructure de compréhension vidéo la plus puissante"dit Lee.

Une démonstration des capacités de la plateforme Twelve Labs. Crédits images : Douze laboratoires

Twelve Labs, qui est actuellement en version bêta fermée, utilise l'IA pour essayer d'extraire des "informations riches" de vidéos telles que le mouvement et les actions, les objets et les personnes, le son, le texte à l'écran et la voix pour identifier les relations entre eux. La plate-forme convertit ces différents éléments en représentations mathématiques appelées "vecteurs" et forme des "connexions temporelles" entre les images, permettant des applications telles que la recherche de scènes vidéo.

"Dans le cadre de la réalisation de la vision de l'entreprise d'aider les développeurs à créer des applications vidéo intelligentes, l'équipe de Twelve Labs construit des "modèles de base" pour la compréhension de la vidéo multimodale"dit Lee. "Les développeurs pourront accéder à ces modèles via un ensemble d'API, effectuant non seulement des recherches sémantiques, mais également d'autres tâches telles que la "capture" de vidéos longues, la génération de résumés et des questions-réponses vidéo."

Google adopte une approche similaire à la compréhension vidéo avec son système MUM AI, que l'entreprise utilise pour stimuler les recommandations vidéo sur la recherche Google et YouTube en organisant des thèmes dans les vidéos (par exemple, "matériaux de peinture acrylique") en fonction de l'audio, du texte et de l'image. Mais bien que la technologie puisse être comparable, Twelve Labs est l'un des premiers fournisseurs à le commercialiser; Google a choisi de garder MUM en interne et refuse de le rendre disponible via une API publique.

Cela dit, Google, ainsi que Microsoft et Amazon, proposent des services (c.-à-d. Google Cloud Video AI, Azure Video Indexer et AWS Rekognition) qui reconnaissent les objets, les lieux et les actions dans les vidéos et extraient des métadonnées riches au niveau de l'image. Il est aussi réminiscence, une startup française de vision par ordinateur qui prétend être capable d'indexer tout type de vidéo et d'ajouter des balises au contenu enregistré et diffusé en direct. Mais Lee dit que Twelve Labs est suffisamment différent, en partie parce que sa plate-forme permet aux clients d'adapter l'IA à des catégories spécifiques de contenu vidéo.

"Ce que nous avons découvert, c'est que les produits d'IA conçus pour détecter des problèmes spécifiques présentent une grande précision dans leurs scénarios idéaux dans un environnement contrôlé, mais ne s'adaptent pas aussi bien aux données désordonnées du monde réel."dit Lee. "Ils agissent plus comme un système basé sur des règles et n'ont donc pas la capacité de généraliser lorsque des variations se produisent. Nous voyons également cela comme une limitation enracinée dans un manque de compréhension du contexte. Comprendre le contexte est ce qui donne aux humains la capacité unique de faire des généralisations à travers des situations apparemment différentes dans le monde réel, et c'est là que Twelve Labs excelle.

Au-delà de la recherche Lee dit que la technologie de Twelve Labs peut alimenter des choses comme l'insertion d'annonces et la modération de contenu, déterminant intelligemment, par exemple, quelles vidéos montrant des couteaux sont violentes ou instructives. Il peut également être utilisé pour les commentaires en temps réel et l'analyse des médias, dit-il, et pour générer automatiquement des bobines de surbrillance à partir de vidéos.

Un peu plus d'un an après sa création (mars 2021), Twelve Labs a des clients payants et un contrat pluriannuel avec Oracle pour former des modèles d'IA à l'aide de l'infrastructure cloud d'Oracle.. Regarder vers l'avant, la startup envisage d'investir dans le développement de sa technologie et d'agrandir son équipe.

« Pour la plupart des entreprises, malgré l'énorme valeur qui peut être obtenue grâce aux grands modèles, cela n'a vraiment aucun sens pour eux de former, d'exploiter et de maintenir ces modèles eux-mêmes. En tirant parti d'une plate-forme de Twelve Labs, toute organisation peut tirer parti de puissantes capacités de compression vidéo avec seulement quelques appels d'API intuitifs.dit Lee. "La direction future de l'innovation en matière d'IA se dirige carrément vers la compréhension de la vidéo multimodale, et Twelve Labs est bien placé pour repousser encore plus loin les limites en 2023."

S'INSCRIT

Laisser une réponse

S'il vous plaît entrez votre commentaire!
Veuillez entrer votre nom ici

La modération des commentaires est activée. Votre commentaire peut mettre un certain temps à apparaître.

Ce site utilise Akismet pour réduire les spams. Découvrez comment vos données de commentaire sont traitées.

ABONNEZ-VOUS SUR TRPLANE.COM

Publier sur TRPlane.com

Si vous avez une histoire intéressante sur la transformation, l'informatique, le numérique, etc. qui peut être trouvée sur TRPlane.com, veuillez nous l'envoyer et nous la partagerons avec toute la communauté.

PLUS DE PUBLICATIONS

Activer les notifications OK Non merci