Twelve Labs landet 12 Millionen Dollar für KI, die den Kontext von Videos versteht

Für Jae Lee, ausgebildeter Data Scientist, es hat nie Sinn gemacht, dass das Video – das mit dem Aufstieg von Plattformen wie TikTok, Vimeo und YouTube zu einem großen Teil unseres Lebens geworden ist -, aufgrund technischer Barrieren für das Verständnis des Kontexts schwer zu durchsuchen. Das Auffinden von Videotiteln, Beschreibungen und Tags war immer ziemlich einfach und erforderte nicht mehr als einen einfachen Algorithmus, aber suchen innerhalb Videos bestimmter Momente und Szenen überstiegen die Möglichkeiten der Technologie bei weitem, insbesondere wenn diese Momente und Szenen nicht auf offensichtliche Weise gekennzeichnet waren.

Um dieses Problem zu lösen, hat Lee zusammen mit Freunden aus der Technologiebranche erstellte einen Cloud-Dienst zum Suchen und Verstehen von Videos. Er hat sich gedreht Zwölf Labore, die später 17 Millionen Dollar an Risikokapital aufbrachte. Radical Ventures leitete die Verlängerung mit Beteiligung von Index Ventures, WndrCo, Spring Ventures, Weights & Biases CEO Lukas Biewald und anderen, sagte Lee TechCrunch in einer E-Mail.

„Die Vision von Twelve Labs ist es, Entwicklern dabei zu helfen, Programme zu entwickeln, die die Welt so sehen, hören und verstehen können wie wir, indem wir ihnen die leistungsfähigste Infrastruktur zum Verstehen von Videos zur Verfügung stellen.“sagte Lee.

Eine Demonstration der Fähigkeiten der Twelve Labs-Plattform. Bildnachweis: Zwölf Labore

Twelve Labs, das sich derzeit in der geschlossenen Beta befindet, verwendet KI, um zu versuchen, „reiche Informationen“ aus Videos wie Bewegungen und Aktionen, Objekte und Personen, Ton, Text auf dem Bildschirm und Stimme zu extrahieren, um die Beziehungen zwischen ihnen zu identifizieren. Die Plattform wandelt diese verschiedenen Elemente in mathematische Darstellungen um, die als „Vektoren“ bezeichnet werden, und bildet „Zeitverbindungen“ zwischen Frames, wodurch Anwendungen wie die Suche nach Videoszenen ermöglicht werden.

„Als Teil der Vision des Unternehmens, Entwickler bei der Erstellung intelligenter Videoanwendungen zu unterstützen, erstellt das Team von Twelve Labs ‚Kernmodelle‘ für multimodales Videoverständnis.“sagte Lee. „Entwickler können über eine Reihe von APIs auf diese Modelle zugreifen und nicht nur semantische Suchen durchführen, sondern auch andere Aufgaben wie das ‚Erfassen‘ von Langformvideos, das Generieren von Zusammenfassungen und Fragen und Antworten zu Videos.“

Google verfolgt mit seinem KI-System MUM einen ähnlichen Ansatz für das Videoverständnis. die das Unternehmen verwendet, um Videoempfehlungen in der Google-Suche und auf YouTube zu steigern, indem Themen in Videos (z. B. „Acrylfarbenmaterialien“) basierend auf Audio, Text und Bild kuratiert werden. Aber obwohl die Technologie vergleichbar sein mag, Twelve Labs ist einer der ersten Anbieter, der es kommerzialisiert; Google hat sich dafür entschieden, MUM intern zu belassen und weigert sich, es über eine öffentliche API verfügbar zu machen.

Das sagte, Google sowie Microsoft und Amazon bieten Dienste an (z. B. Google Cloud Video AI, Azure Video Indexer und AWS Rekognition) die Objekte, Orte und Aktionen in Videos erkennen und umfangreiche Metadaten auf Frame-Ebene extrahieren. Auch Erinnern, ein französisches Computer-Vision-Startup, das behauptet, in der Lage zu sein, jede Art von Video zu indizieren und sowohl aufgezeichneten als auch live gestreamten Inhalten Tags hinzuzufügen. Laut Lee ist Twelve Labs jedoch ausreichend anders, zum Teil, weil seine Plattform es Kunden ermöglicht, KI auf bestimmte Kategorien von Videoinhalten zuzuschneiden.

„Was wir festgestellt haben, ist, dass KI-Produkte, die zur Erkennung spezifischer Probleme entwickelt wurden, in ihren idealen Szenarien in einer kontrollierten Umgebung eine hohe Genauigkeit aufweisen, sich aber nicht so gut an chaotische Daten aus der realen Welt anpassen.“sagte Lee. „Sie verhalten sich eher wie ein regelbasiertes System und können daher bei Abweichungen nicht verallgemeinern. Wir sehen dies auch als Einschränkung, die in einem mangelnden Verständnis des Kontexts begründet ist. Das Verständnis des Kontexts verleiht Menschen die einzigartige Fähigkeit, Verallgemeinerungen über scheinbar unterschiedliche Situationen in der realen Welt hinweg zu treffen, und hier zeichnet sich Twelve Labs aus.“

Jenseits der Suche Laut Lee kann die Technologie von Twelve Labs Dinge wie das Einfügen von Anzeigen und die Moderation von Inhalten unterstützen, indem sie beispielsweise intelligent bestimmen, welche Videos mit Messern gewalttätig oder aufschlussreich sind. Es kann auch für Echtzeitkommentare und Medienanalysen verwendet werden, sagt er, und um automatisch Highlight-Rollen aus Videos zu generieren.

Etwas mehr als ein Jahr nach seiner Gründung (März 2021) Twelve Labs hat zahlende Kunden und einen mehrjährigen Vertrag mit Oracle, um KI-Modelle mithilfe der Cloud-Infrastruktur von Oracle zu trainieren.. Vorausschauen, Das Startup plant, in die Entwicklung seiner Technologie und den Ausbau seines Teams zu investieren.

„Für die meisten Unternehmen macht es trotz des enormen Mehrwerts, der durch große Modelle erzielt werden kann, keinen Sinn, diese Modelle selbst zu trainieren, zu betreiben und zu warten. Durch die Nutzung einer Plattform von Twelve Labs kann jedes Unternehmen mit nur wenigen intuitiven API-Aufrufen leistungsstarke Videokomprimierungsfunktionen nutzen.“sagte Lee. „Die zukünftige Richtung der KI-Innovation geht direkt in Richtung des Verständnisses multimodaler Videos, und Twelve Labs ist gut positioniert, um die Grenzen im Jahr 2023 noch weiter zu verschieben.“

Vorherige Artikel

Angesichts der Unsicherheit müssen B2B-Vertriebsteams den Wert in den Mittelpunkt stellen

weiter >>

Ist der Kryptowährungsmarkt gesund? (II)

VERBUNDEN

Lassen Sie eine Antwort Abbrechen Antwort

Bitte geben Sie Ihren Kommentar ein!

Bitte geben Sie hier Ihren Namen ein

Sie haben eine falsche E-Mail-Adresse eingegeben!

Bitte geben Sie hier Ihre E-Mail-Adresse ein

Die Kommentarmoderation ist aktiviert. Es kann einige Zeit dauern, bis Ihr Kommentar erscheint.

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahren Sie, wie Ihre Kommentardaten verarbeitet werden.

Twelve Labs landet 12 Millionen Dollar für KI, die den Kontext von Videos versteht

Lassen Sie eine Antwort Abbrechen Antwort

ABONNIEREN SIE TRPLANE.COM

Veröffentlichen Sie auf TRPlane.com

WEITERE PUBLIKATIONEN