Spanish English French German Italian Portuguese
Soziales Marketing
HomeIADie Aura von Deepgram gibt KI-Agenten eine Stimme

Die Aura von Deepgram gibt KI-Agenten eine Stimme

Deepgram hat sich als eines der führenden Startups für Spracherkennung einen Namen gemacht. Heute gab das kapitalkräftige Unternehmen den Start von bekannt Aura, Ihre neue Echtzeit-Text-zu-Sprache-API. Aura kombiniert äußerst realistische Sprachmodelle mit einer API mit geringer Latenz, um Entwicklern die Erstellung konversationsfähiger KI-Agenten in Echtzeit zu ermöglichen. Unterstützt durch große Sprachmodelle (LLM) können diese Agenten dann Kundendienstmitarbeiter in Callcentern und anderen Situationen mit Kundenkontakt ersetzen.

Wie Scott Stephenson, Mitbegründer und CEO von Deepgram, sagte, sei es schon lange möglich, auf hervorragende Sprachmodelle zuzugreifen, diese seien jedoch teuer und erforderten viel Rechen- und Verarbeitungszeit. Unterdessen neigen Modelle mit geringer Latenz dazu, roboterhaft auszusehen. Deepgrams Aura kombiniert menschenähnliche Stimmmodelle, die sich extrem schnell (typischerweise in weniger als einer halben Sekunde) reproduzieren, und das zu einem günstigen Preis, wie Stephenson immer wieder betonte.

„Jetzt sagen alle: ‚Hey, wir brauchen Sprach-KI-Roboter in Echtzeit, die wahrnehmen können, was gesagt wird, die es verstehen, eine Antwort generieren und es per Stimme kommunizieren können‘“, sagte er. Seiner Ansicht nach ist eine Kombination aus Genauigkeit (die seiner Meinung nach bei einem Dienst wie diesem auf dem Spiel steht), geringer Latenz und akzeptablen Kosten erforderlich, um ein solches Produkt für Unternehmen lohnenswert zu machen, insbesondere in Kombination mit dem relativ hohen Zugriff auf LLMs .

Deepgram behauptet, dass der Preis von Aura derzeit mit 0,015 US-Dollar pro 1.000 Zeichen praktisch alle Konkurrenten übertrifft. Das ist nicht weit von dem Preis entfernt, den Google dafür anbietet WaveNet-Stimmen bei 0,016 pro 1.000 Zeichen und Amazons Polly, die Stimmen von Neural Stimmen zum gleichen Preis von 0,016 $ pro 1.000 Zeichen, aber natürlich ist es günstiger. Die höchste Stufe von Amazon ist deutlich teurer.

„Man muss in allen Segmenten einen wirklich guten Preis erzielen, aber man muss auch erstaunliche Latenzen und Geschwindigkeiten sowie eine erstaunliche Genauigkeit haben. Es ist also eine wirklich schwierige Sache“, sagte Stephenson über den Gesamtansatz von Deepgram bei der Entwicklung seines Produkts. „Aber darauf haben wir uns von Anfang an konzentriert, und deshalb haben wir vier Jahre lang gebaut, bevor wir etwas auf den Markt gebracht haben, weil wir die zugrunde liegende Infrastruktur aufgebaut haben, um dies zu ermöglichen.“

Aura bietet herum ein Dutzend Sprachmodelle, die alle anhand eines Datensatzes trainiert wurden, den Deepgram zusammen mit Synchronsprechern erstellt hat. Das Aura-Modell wurde wie alle anderen Modelle des Unternehmens intern geschult. So klingt es:

Obwohl es nach dem Testen des Modells manchmal seltsame Aussprachen gibt, ist vor allem die Geschwindigkeit hervorzuheben, zusätzlich zu Deepgrams bestehendem, qualitativ hochwertigen Speech-to-Text-Modell. Um die Geschwindigkeit hervorzuheben, mit der Antworten generiert werden, untersucht Deepgram, wie lange es dauerte, bis das Modell mit dem Sprechen begann (normalerweise weniger als 0,3 Sekunden) und wie lange das LLM brauchte, um die Antwort zu generieren (normalerweise knapp eine Sekunde). .

VERBUNDEN

ABONNIEREN SIE TRPLANE.COM

Veröffentlichen Sie auf TRPlane.com

Wenn Sie eine interessante Geschichte über Transformation, IT, Digital usw. mit einem Platz in TRPlane.com haben, senden Sie sie uns bitte und wir werden sie mit der gesamten Community teilen.

WEITERE PUBLIKATIONEN

Benachrichtigungen aktivieren OK Nein danke