HomeGroße TechsAmazonDas größte Text-to-Speech-KI-Modell ...

Amazon Audio und Video IA Künstliche Intelligenz

Das bisher größte Text-to-Speech-KI-Modell zeigt „neue Fähigkeiten“

Amazon-Forscher haben das größte jemals erstellte Text-to-Speech-Modell trainiert und sagen, dass es „emergente“ Eigenschaften aufweist, die seine Fähigkeit verbessern, selbst komplexe Sätze auf natürliche Weise zu sprechen. Der Durchbruch könnte das sein, was die Technologie braucht, um diesem komplexen Tal zu entkommen.

Diese Modelle würden immer wachsen und sich verbessern, aber die Forscher erwarteten ausdrücklich einen Kapazitätssprung in der Art, wie wir ihn sahen, sobald die Sprachmodelle eine bestimmte Größe überschritten. Aus uns unbekannten Gründen beginnen LLMs, sobald sie einen bestimmten Punkt erreichen, viel robuster und vielseitiger zu werden und sind in der Lage, Aufgaben auszuführen, für die sie nicht ausgebildet wurden.

Das bedeutet nicht, dass sie sensibler werden oder so etwas, es ist nur so, dass ab einem bestimmten Punkt ihre Leistung bei bestimmten Konversations-KI-Aufgaben wie eine Asymptote (Hockeyschläger =) zunimmt. Das Amazon AGI-Team (es ist kein Geheimnis, worauf sie zielen ) dachten, dass dasselbe passieren könnte, wenn Text-to-Speech-Modelle wachsen, und ihre Forschung legt nahe, dass dies tatsächlich der Fall ist.

Das neue Modell heißt Großartiges adaptives und übertragbares TTS mit neuen Fähigkeiten (Big Adaptive Streamable TTS with Emergent abilities), das sie in die Abkürzung BASE TTS umgewandelt haben. Die größte Version des Modells nutzt 100.000 Stunden öffentlich zugängliche Sprache, 90 % davon auf Englisch und der Rest auf Deutsch, Niederländisch und Spanisch.

Mit 980 Millionen Parametern scheint BASE-large das größte Modell in dieser Kategorie zu sein. Zum Vergleich trainierten sie außerdem 400-Millionen- und 150-Millionen-Parametermodelle basierend auf 10,000 bzw. 1,000 Stunden Audio; Die Idee ist, dass es einen Bereich gibt, in dem diese Verhaltensweisen auftreten, wenn eines dieser Modelle aufkommende Verhaltensweisen zeigt, ein anderes jedoch nicht.

Es stellte sich heraus, dass das mittelgroße Modell den Sprung in den Fähigkeiten zeigte, nach dem das Team suchte, nicht unbedingt in Bezug auf die normale Sprachqualität (es wird besser bewertet, aber nur um ein paar Punkte), sondern in den beobachteten neuen Fähigkeiten sie haben gemessen. Hier sind Textbeispiele, ursprünglich auf Englisch, kompliziert in seinen Notizen erwähnt:

Zusammengesetzte Namen: Die Beckhams beschlossen, ein charmantes Ferienhaus aus Stein auf dem Land zu mieten.
Emotionen: "Ach du lieber Gott! Gehen wir wirklich auf die Malediven? Das ist unglaublich!" Jennie kreischte und hüpfte vor unkontrollierbarer Freude auf ihren Fußballen.
Fremdwörter: „Herr. Henry, berühmt für seine Mise en Place, arrangierte ein Sieben-Gänge-Menü, von denen jedes ein Glanzstück war.
Paralinguistik (d. h. nicht lesbare Wörter): „Shh, Lucy, shhh, wir dürfen deinen kleinen Bruder nicht wecken“, flüsterte Tom, als sie auf Zehenspitzen durch das Kinderzimmer gingen.
Scores: Erhielt eine seltsame SMS von seinem Bruder: „Notfall zu Hause; Rufen Sie so schnell wie möglich an! Mama und Papa machen sich Sorgen ... #Familienprobleme.'
Häufig gestellte Fragen: Aber die Frage zum Brexit bleibt: Werden die Minister nach all den Irrungen und Wirrungen rechtzeitig die Antworten finden?
Syntaktische Komplexitäten: Der Film mit De Moya in der Hauptrolle, der kürzlich mit dem Preis für sein Lebenswerk ausgezeichnet wurde, war 2022 trotz gemischter Kritiken ein Kassenerfolg.

„Diese Sätze sind für herausfordernde Aufgaben konzipiert: Analyse schwer verständlicher Sätze, Betonung langer zusammengesetzter Substantive, gefühlsbetonte oder geflüsterte Sprache oder korrekte Phoneme für Fremdwörter.
Wörter wie „qi“ oder Satzzeichen wie „@“, für deren Ausführung BASE TTS nicht ausdrücklich trainiert ist“, schreiben die Autoren.

Diese Funktionen bringen normalerweise Text-to-Speech-Engines zum Stolpern, die falsch aussprechen, Wörter überspringen, seltsame Betonungen verwenden oder andere Fehler machen. BASE TTS hatte immer noch Probleme, aber es schnitt viel besser ab als seine Zeitgenossen: Modelle wie Tortoise und VALL-E.

Es gibt viele Beispiele für diese schwierigen Texte, die vom neuen Modell ganz natürlich gesprochen werden auf der Website, die zur Anzeige erstellt wurde. Natürlich wurden diese von den Forschern ausgewählt, sie sind also zwangsläufig handverlesen, aber es ist trotzdem beeindruckend.

Da alle drei BASE-TTS-Modelle eine gemeinsame Architektur haben, scheint klar zu sein, dass die Größe des Modells und der Umfang seiner Trainingsdaten der Grund dafür zu sein scheinen, dass das Modell einige der oben genannten Komplexitäten bewältigen kann. Bedenken Sie, dass es sich hierbei immer noch um ein experimentelles Modell und Verfahren und nicht um ein kommerzielles Modell handelt. Weitere Untersuchungen müssen den Wendepunkt für die entstehende Fähigkeit ermitteln und klären, wie das resultierende Modell effizient trainiert und eingesetzt werden kann.

Insbesondere ist dieses Modell, wie der Name schon sagt, „streambar“, was bedeutet, dass es nicht ganze Sätze auf einmal ausgeben muss, sondern stattdessen von Moment zu Moment mit einer relativ niedrigen Bitrate vorgeht. Das Team versuchte außerdem, Sprachmetadaten wie Emotionalität, Prosodie usw. in einen separaten Stream mit geringer Bandbreite zu packen, der das Basisaudio begleiten konnte.

Es sieht so aus, als ob Text-to-Speech-Modelle im Jahr 2024, pünktlich zur Wahl, einen Durchbruch erleben könnten! Der Nutzen dieser Technologie lässt sich jedoch nicht leugnen, insbesondere im Hinblick auf die Zugänglichkeit. Das Team weist darauf hin, dass es sich geweigert hat, die Quelle des Modells und andere Daten zu veröffentlichen, da die Gefahr besteht, dass böswillige Akteure sie ausnutzen. Das ganze Geheimnis wird jedoch irgendwann bald gelüftet.

Vorherige Artikel

Wie man generalistische Risikokapitalgeber für eine verrückte Idee mobilisiert

weiter >>

Wichtige KI-Richtlinien: Schöpfen Sie Ihr Potenzial aus und schützen Sie sich vor Risiken am Arbeitsplatz

VERBUNDEN

Adobe behauptet, sein neues Bildgebungsmodell sei das bisher beste

Neue KI-Funktionen von Roblox erleichtern die Erstellung von Avataren und 3D-Modellen

KI ist ein Datenproblem und Cyera bringt bis zu 300 Millionen ein

Der Markt zwingt Cloud-Anbieter, die Gebühren für den Datenausgang zu lockern

Der Aufbau einer starken Startup-Entwicklungskultur erfordert ständige Anpassung

Goody-2, KI ist zu ethisch, um irgendetwas zu diskutieren

DEI: aktuelle rechtliche und unternehmerische Herausforderungen

Wichtige KI-Richtlinien: Schöpfen Sie Ihr Potenzial aus und schützen Sie sich vor Risiken am Arbeitsplatz

Es ist nie zu spät, damit anzufangen

Poe führt ein Preis-pro-Nachricht-Umsatzmodell für KI-Bot-Ersteller ein

Mit TikTok können YouTuber jetzt in mehr Ländern Geld mit ihren Effekten verdienen

Die Kreativwirtschaft ist bereit für eine Arbeiterbewegung

Achten Sie auf die versteckten Kosten von KI, um Innovationen nicht zu ruinieren

Cambio setzt Roboter mit künstlicher Intelligenz am Telefon ein, um Schulden zu verhandeln und mit Bankkunden zu sprechen

Die neue „grüne Bank“ der USA will mehr als 160.000 Milliarden US-Dollar für die Klimatechnologie bereitstellen

Ohne ein bezahlbares Elektrofahrzeug riskiert Tesla, seinen Vorsprung zu verlieren

Das lernende Einhorn Multiverse erwirbt das KI-fokussierte Searchlight

Robinhood-Kreditkarte will mit Apple Card konkurrieren

KI ist ein Datenproblem und Cyera bringt bis zu 300 Millionen ein

Rabbit arbeitet mit ElevenLabs zusammen, um Sprachbefehle auf Ihrem Gerät zu ermöglichen

Das lernende Einhorn Multiverse erwirbt das KI-fokussierte Searchlight

Die Buffet-App bekämpft die Einsamkeitsepidemie, indem sie Menschen in der realen Welt miteinander verbindet

AirMyne nutzt Geothermie, um Kohlenstoff direkt aus der Luft zu binden

Die Chronologie, die Sie über den KI-Chatbot wissen müssen

KI: Zusammenfassung der Hauptkonzepte

Wie man ein Startup Investoren präsentiert

OKR-Modell

Erstellung eines strategischen Plans

Das bisher größte Text-to-Speech-KI-Modell zeigt „neue Fähigkeiten“

Adobe behauptet, sein neues Bildgebungsmodell sei das bisher beste

Neue KI-Funktionen von Roblox erleichtern die Erstellung von Avataren und 3D-Modellen

KI ist ein Datenproblem und Cyera bringt bis zu 300 Millionen ein

ABONNIEREN SIE TRPLANE.COM

Veröffentlichen Sie auf TRPlane.com

WEITERE PUBLIKATIONEN

In der neuen Normalität von VC werden die Schöpfer gewinnen

Vier Risikokapital-Charaktere (und wie man sie bekommt)

Wie man ein Startup Investoren präsentiert

Der Rückgang der Investitionen in Lateinamerika ist nicht unbedingt eine schlechte Nachricht

Was Investoren von Ihrer Problemlösungsfolie brauchen