Spanish English French German Italian Portuguese
Soziales Marketing
HomeGroße TechsAmazonDas größte Text-to-Speech-KI-Modell ...

Das bisher größte Text-to-Speech-KI-Modell zeigt „neue Fähigkeiten“

Amazon-Forscher haben das größte jemals erstellte Text-to-Speech-Modell trainiert und sagen, dass es „emergente“ Eigenschaften aufweist, die seine Fähigkeit verbessern, selbst komplexe Sätze auf natürliche Weise zu sprechen. Der Durchbruch könnte das sein, was die Technologie braucht, um diesem komplexen Tal zu entkommen.

Diese Modelle würden immer wachsen und sich verbessern, aber die Forscher erwarteten ausdrücklich einen Kapazitätssprung in der Art, wie wir ihn sahen, sobald die Sprachmodelle eine bestimmte Größe überschritten. Aus uns unbekannten Gründen beginnen LLMs, sobald sie einen bestimmten Punkt erreichen, viel robuster und vielseitiger zu werden und sind in der Lage, Aufgaben auszuführen, für die sie nicht ausgebildet wurden.

Das bedeutet nicht, dass sie sensibler werden oder so etwas, es ist nur so, dass ab einem bestimmten Punkt ihre Leistung bei bestimmten Konversations-KI-Aufgaben wie eine Asymptote (Hockeyschläger =) zunimmt. Das Amazon AGI-Team (es ist kein Geheimnis, worauf sie zielen ) dachten, dass dasselbe passieren könnte, wenn Text-to-Speech-Modelle wachsen, und ihre Forschung legt nahe, dass dies tatsächlich der Fall ist.

Das neue Modell heißt Großartiges adaptives und übertragbares TTS mit neuen Fähigkeiten (Big Adaptive Streamable TTS with Emergent abilities), das sie in die Abkürzung BASE TTS umgewandelt haben. Die größte Version des Modells nutzt 100.000 Stunden öffentlich zugängliche Sprache, 90 % davon auf Englisch und der Rest auf Deutsch, Niederländisch und Spanisch.

Mit 980 Millionen Parametern scheint BASE-large das größte Modell in dieser Kategorie zu sein. Zum Vergleich trainierten sie außerdem 400-Millionen- und 150-Millionen-Parametermodelle basierend auf 10,000 bzw. 1,000 Stunden Audio; Die Idee ist, dass es einen Bereich gibt, in dem diese Verhaltensweisen auftreten, wenn eines dieser Modelle aufkommende Verhaltensweisen zeigt, ein anderes jedoch nicht.

Es stellte sich heraus, dass das mittelgroße Modell den Sprung in den Fähigkeiten zeigte, nach dem das Team suchte, nicht unbedingt in Bezug auf die normale Sprachqualität (es wird besser bewertet, aber nur um ein paar Punkte), sondern in den beobachteten neuen Fähigkeiten sie haben gemessen. Hier sind Textbeispiele, ursprünglich auf Englisch, kompliziert in seinen Notizen erwähnt:

  • Zusammengesetzte Namen: Die Beckhams beschlossen, ein charmantes Ferienhaus aus Stein auf dem Land zu mieten.
  • Emotionen: "Ach du lieber Gott! Gehen wir wirklich auf die Malediven? Das ist unglaublich!" Jennie kreischte und hüpfte vor unkontrollierbarer Freude auf ihren Fußballen.
  • Fremdwörter: „Herr. Henry, berühmt für seine Mise en Place, arrangierte ein Sieben-Gänge-Menü, von denen jedes ein Glanzstück war.
  • Paralinguistik (d. h. nicht lesbare Wörter): „Shh, Lucy, shhh, wir dürfen deinen kleinen Bruder nicht wecken“, flüsterte Tom, als sie auf Zehenspitzen durch das Kinderzimmer gingen.
  • Scores: Erhielt eine seltsame SMS von seinem Bruder: „Notfall zu Hause; Rufen Sie so schnell wie möglich an! Mama und Papa machen sich Sorgen ... #Familienprobleme.'
  • Häufig gestellte Fragen: Aber die Frage zum Brexit bleibt: Werden die Minister nach all den Irrungen und Wirrungen rechtzeitig die Antworten finden?
  • Syntaktische Komplexitäten: Der Film mit De Moya in der Hauptrolle, der kürzlich mit dem Preis für sein Lebenswerk ausgezeichnet wurde, war 2022 trotz gemischter Kritiken ein Kassenerfolg.

„Diese Sätze sind für herausfordernde Aufgaben konzipiert: Analyse schwer verständlicher Sätze, Betonung langer zusammengesetzter Substantive, gefühlsbetonte oder geflüsterte Sprache oder korrekte Phoneme für Fremdwörter.
Wörter wie „qi“ oder Satzzeichen wie „@“, für deren Ausführung BASE TTS nicht ausdrücklich trainiert ist“, schreiben die Autoren.

Diese Funktionen bringen normalerweise Text-to-Speech-Engines zum Stolpern, die falsch aussprechen, Wörter überspringen, seltsame Betonungen verwenden oder andere Fehler machen. BASE TTS hatte immer noch Probleme, aber es schnitt viel besser ab als seine Zeitgenossen: Modelle wie Tortoise und VALL-E.

Es gibt viele Beispiele für diese schwierigen Texte, die vom neuen Modell ganz natürlich gesprochen werden auf der Website, die zur Anzeige erstellt wurde. Natürlich wurden diese von den Forschern ausgewählt, sie sind also zwangsläufig handverlesen, aber es ist trotzdem beeindruckend.

Da alle drei BASE-TTS-Modelle eine gemeinsame Architektur haben, scheint klar zu sein, dass die Größe des Modells und der Umfang seiner Trainingsdaten der Grund dafür zu sein scheinen, dass das Modell einige der oben genannten Komplexitäten bewältigen kann. Bedenken Sie, dass es sich hierbei immer noch um ein experimentelles Modell und Verfahren und nicht um ein kommerzielles Modell handelt. Weitere Untersuchungen müssen den Wendepunkt für die entstehende Fähigkeit ermitteln und klären, wie das resultierende Modell effizient trainiert und eingesetzt werden kann.

Insbesondere ist dieses Modell, wie der Name schon sagt, „streambar“, was bedeutet, dass es nicht ganze Sätze auf einmal ausgeben muss, sondern stattdessen von Moment zu Moment mit einer relativ niedrigen Bitrate vorgeht. Das Team versuchte außerdem, Sprachmetadaten wie Emotionalität, Prosodie usw. in einen separaten Stream mit geringer Bandbreite zu packen, der das Basisaudio begleiten konnte.

Es sieht so aus, als ob Text-to-Speech-Modelle im Jahr 2024, pünktlich zur Wahl, einen Durchbruch erleben könnten! Der Nutzen dieser Technologie lässt sich jedoch nicht leugnen, insbesondere im Hinblick auf die Zugänglichkeit. Das Team weist darauf hin, dass es sich geweigert hat, die Quelle des Modells und andere Daten zu veröffentlichen, da die Gefahr besteht, dass böswillige Akteure sie ausnutzen. Das ganze Geheimnis wird jedoch irgendwann bald gelüftet.

VERBUNDEN

ABONNIEREN SIE TRPLANE.COM

Veröffentlichen Sie auf TRPlane.com

Wenn Sie eine interessante Geschichte über Transformation, IT, Digital usw. mit einem Platz in TRPlane.com haben, senden Sie sie uns bitte und wir werden sie mit der gesamten Community teilen.

WEITERE PUBLIKATIONEN

Benachrichtigungen aktivieren OK Nein danke