HomeIASora, das neue OpenAI-Modell, kann Videos generieren

Sora, das neue OpenAI-Modell, kann Videos generieren

OpenAI tritt in die Fußstapfen von Startups wie Runway und Technologiegiganten wie Google und Meta und beschäftigt sich mit der Videogenerierung.

OpenAI hat vorgestellt Sora, ein GenAI-Modell, das Videos aus Text erstellt. Mit einer kurzen (oder detaillierten) Beschreibung oder einem Standbild kann Sora laut OpenAI filmähnliche 1080p-Szenen mit mehreren Charakteren, verschiedenen Bewegungsarten und Hintergrunddetails erzeugen.

Sora kann auch vorhandene Videoclips „vergrößern“ und sein Bestes tun, um fehlende Details zu ergänzen.

„Sora verfügt über ein tiefes Sprachverständnis, das es ihm ermöglicht, Hinweise genau zu interpretieren und überzeugende Charaktere zu erschaffen, die lebendige Emotionen ausdrücken“, schreibt OpenAI in einem Blogbeitrag. „Das Modell versteht nicht nur, was der Benutzer in der Nachricht angefordert hat, sondern auch, wie diese Dinge in der physischen Welt existieren.“

Nun gibt es auf der Demoseite von OpenAI viel Lob über Sora; Die obige Aussage ist ein Beispiel. Aber sorgfältig ausgewählte Proben von was macht das Modell Sie sehen ziemlich beeindruckend aus, zumindest im Vergleich zu den anderen Text-zu-Video-Technologien, die es gibt.

Zunächst einmal kann Sora Videos in verschiedenen Stilen (z. B. fotorealistisch, animiert, Schwarzweiß usw.) mit einer Länge von bis zu einer Minute erstellen, viel länger als die meisten anderen. Textkonvertierungsmodelle zum Video. Und diese Videos bleiben einigermaßen konsistent in dem Sinne, dass sie nicht immer den sogenannten „KI-Skurrilitäten“ unterliegen, wie zum Beispiel der Bewegung von Objekten in physikalisch unmögliche Richtungen.

Zum Beispiel dieser Rundgang durch eine Kunstgalerie, alles von Sora generiert (ignorieren Sie die Körnigkeit und Komprimierung des Video-GIF-Konvertierungstools):

_{Bildnachweis: OpenAI}

Oder diese Animation einer Blume:

_{Bildnachweis: OpenAI}

Einige von Soras Videos mit einem humanoiden Subjekt (zum Beispiel einem Roboter, der vor einer Stadtlandschaft steht, oder einer Person, die einen verschneiten Weg entlanggeht) haben Videospielqualität, vielleicht weil um ihn herum nicht viel los ist. Darüber hinaus schleicht sich die Verrücktheit der KI in viele Clips ein, wie Autos, die in eine Richtung fahren und dann plötzlich rückwärts fahren, oder Arme, die in einem Bettbezug verschmelzen.

_{Bildnachweis: OpenAI}

Bei den gezeigten Beispielen handelt es sich um animierte GIF-Ausschnitte aus längeren Videos. Ein komplettes Video könnte diese Westernstadt sein

_{Video-Credits: OpenAI}

OpenAI räumt trotz aller Superlative ein, dass das Modell nicht perfekt ist. Schreibt:

„Sora hat möglicherweise Schwierigkeiten, die Physik einer komplexen Szene genau zu simulieren, und versteht möglicherweise bestimmte Fälle von Ursache und Wirkung nicht. Beispielsweise kann es sein, dass eine Person in einen Keks beißt, der Keks danach aber möglicherweise nicht mehr die Bissspur aufweist. Das Modell kann auch die räumlichen Details einer Nachricht verwechseln, indem es beispielsweise links und rechts vermischt, und Schwierigkeiten mit der genauen Beschreibung von Ereignissen haben, die im Laufe der Zeit stattfinden, beispielsweise beim Verfolgen eines bestimmten Kamerapfads.“

OpenAI ist Sora als Forschungsvorschau positionieren, wenig darüber verraten, welche Daten zum Trainieren des Modells verwendet wurden (weniger als etwa 10,000 Stunden „hochwertiges“ Video) und Sora nicht allgemein verfügbar machen. Ihre Grundlage ist das Missbrauchspotenzial; OpenAI weist zu Recht darauf hin, dass schlechte Akteure ein Modell wie Sora auf unzählige Arten missbrauchen könnten.

OpenAI sagt, es arbeite mit Experten zusammen, um das Modell auf Missbrauch zu testen und Tools zu entwickeln, um festzustellen, ob das Video von Sora erstellt wurde. Das Unternehmen sagt außerdem, dass es, wenn es beschließt, das Modell zu einem öffentlichen Produkt zu machen, sicherstellen wird, dass Herkunftsmetadaten in die generierten Ergebnisse einbezogen werden.

„Wir werden politische Entscheidungsträger, Pädagogen und Künstler aus der ganzen Welt einbeziehen, um ihre Anliegen zu verstehen und positive Anwendungsfälle für diese neue Technologie zu identifizieren“, schreibt OpenAI. „Trotz umfangreicher Forschung und Tests können wir nicht alles vorhersagen nützliche Möglichkeiten, die Menschen nutzen werden unsere Technologie, noch alle Arten, wie sie missbraucht wird. „Deshalb glauben wir, dass das Lernen aus der realen Nutzung eine entscheidende Komponente für den Aufbau und die Einführung immer sichererer KI-Systeme im Laufe der Zeit ist.“

Vorherige Artikel

Generative KI: Bildung in ein personalisiertes und süchtig machendes Lernerlebnis verwandeln

weiter >>

Das EU-KI-Gesetz erhält die Unterstützung des Ausschusses vor der vollständigen Abstimmung im Parlament

VERBUNDEN

Zu viele Modelle

Vektordatenbanken haben im KI-Hype-Zyklus ihren Höhepunkt erreicht

Adobe behauptet, sein neues Bildgebungsmodell sei das bisher beste

Neue KI-Funktionen von Roblox erleichtern die Erstellung von Avataren und 3D-Modellen

Der Aufbau einer starken Startup-Entwicklungskultur erfordert ständige Anpassung

Goody-2, KI ist zu ethisch, um irgendetwas zu diskutieren

DEI: aktuelle rechtliche und unternehmerische Herausforderungen

Wichtige KI-Richtlinien: Schöpfen Sie Ihr Potenzial aus und schützen Sie sich vor Risiken am Arbeitsplatz

Es ist nie zu spät, damit anzufangen

Poe führt ein Preis-pro-Nachricht-Umsatzmodell für KI-Bot-Ersteller ein

Mit TikTok können YouTuber jetzt in mehr Ländern Geld mit ihren Effekten verdienen

Die Kreativwirtschaft ist bereit für eine Arbeiterbewegung

Achten Sie auf die versteckten Kosten von KI, um Innovationen nicht zu ruinieren

Cambio setzt Roboter mit künstlicher Intelligenz am Telefon ein, um Schulden zu verhandeln und mit Bankkunden zu sprechen

Die neue „grüne Bank“ der USA will mehr als 160.000 Milliarden US-Dollar für die Klimatechnologie bereitstellen

Ohne ein bezahlbares Elektrofahrzeug riskiert Tesla, seinen Vorsprung zu verlieren

Das lernende Einhorn Multiverse erwirbt das KI-fokussierte Searchlight

Robinhood-Kreditkarte will mit Apple Card konkurrieren

KI ist ein Datenproblem und Cyera bringt bis zu 300 Millionen ein

Rabbit arbeitet mit ElevenLabs zusammen, um Sprachbefehle auf Ihrem Gerät zu ermöglichen

Das lernende Einhorn Multiverse erwirbt das KI-fokussierte Searchlight

Die Buffet-App bekämpft die Einsamkeitsepidemie, indem sie Menschen in der realen Welt miteinander verbindet

AirMyne nutzt Geothermie, um Kohlenstoff direkt aus der Luft zu binden

Die Chronologie, die Sie über den KI-Chatbot wissen müssen

KI: Zusammenfassung der Hauptkonzepte

Wie man ein Startup Investoren präsentiert

OKR-Modell

Erstellung eines strategischen Plans

Sora, das neue OpenAI-Modell, kann Videos generieren

Zu viele Modelle

Vektordatenbanken haben im KI-Hype-Zyklus ihren Höhepunkt erreicht

Adobe behauptet, sein neues Bildgebungsmodell sei das bisher beste

ABONNIEREN SIE TRPLANE.COM

Veröffentlichen Sie auf TRPlane.com

WEITERE PUBLIKATIONEN

Google DeepMind präsentiert Barkour, einen Benchmark für vierbeinige Roboter

Welches SaaS-Unternehmen wird nach Anaplan das nächste sein?

Die Web3 Fleek-Entwicklungsplattform sammelt 25 Millionen US-Dollar, angeführt von Polychain Capital

Coinbase gewinnt im vierten Quartal, aber die Aktien sinken

Bigblue wächst in seinem D2C-Bestellservice