Technologies:

Soovin uudiskirja

ElevenLabs käivitab oma kõne tekstiks mudeli

ElevenLabsAI idufirma, mis kogus äsja 180 miljoni dollari suuruse rahastamisvooru, on tuntud oma heli genereerimise võimaluste poolest. Ettevõte astus sammu teises tehnoloogilises suunas, käivitades oma esimese eraldiseisva kõne tekstiks muutmise mudeli nimega Scribe.

Startup, mille väärtus on 3.3 miljardit dollarit, on aidanud paljudel teistel ettevõtetel pakkuda kõnest tekstiks muutmise teenuseid oma suure häältekogu kaudu. Kuid ettevõte soovib nüüd siseneda kõnetuvastusse ja konkureerida teistega selles valdkonnas, nagu Gladia, Speechmatics, AssembyAI, OpenAI Deepgram ja Whisper mudelid.

ElevenLabsi Scribe'i mudel toetab käivitamisel enam kui 99 keelt. Ettevõte klassifitseerib enam kui 25 keelt suurepärase täpsusega mudeli jaoks, mille veamäär sõna kohta on alla 5%. See loend sisaldab inglise (97% täpsus), prantsuse, saksa, hindi, indoneesia, jaapani, kannada, malajalami, poola, portugali, hispaania ja vietnami keelt. Teised keeled liigitavad need sisemiselt erinevatesse täpsus- või veakategooriatesse alates kõrgest (5-10% veamäär), heast (10-20% veamäär) ja mõõdukast veamäärast (25-50%).

Ettevõte ütles, et mudel ületas mitmes keeles Google Gemini 2.0 Flashi ja Whisper Large V3 LILLED y Ühine hääl.

ElevenLabs töötas välja kõne tekstiks komponendi oma tehisintellekti vestlusagentide platvormi jaoks, mille ta käivitas eelmisel aastal. See on aga esimene kord mis käivitab sõltumatu hääletuvastusmudeli

"Tahame paremini mõista, mida vestluses räägitakse. Töötame selle nimel, kuidas eemalduda pelgalt sisu loomisest ning kõne mõistmisest ja transkribeerimisest," ütles Staniszewski toona. "Paljud inimesed ütlevad, et kõne tekstiks muutmine on lahendatud probleem. Kuid paljude keelte puhul on see üsna kehv. Usume, et saame luua paremaid kõnetuvastusmudeleid, kuna meil on sisemised meeskonnad andmete märkimiseks ja meile kiire tagasiside andmiseks."

Mudel sisaldab ka diariseerimist (helisalvestuses või videovoos erinevate kõlarite häälte tuvastamise ja eraldamise protsess), et tuvastada, kes räägib, sõnataseme ajatemplid täpseks pealkirjaks ja automaatsed helisündmused, näiteks publiku naer. Käivitamine pakub klientidele võimalust subtiitrite lisamiseks videosisu otse transkribeerida.

Scribe töötab praegu ainult eelsalvestatud helivormingutega. Ettevõte teatas, et annab peagi välja mudeli madala latentsusajaga reaalajas versiooni. See tähendab, et see ei ole veel piisavalt tõhus transkriptsioonide käsitlemiseks ega häälmärkmete tegemiseks.

ElevenLabs on määranud Scribe'i hinnaks 0.40 dollarit ühe tunni transkribeeritud heli eest. Kuigi hind on konkurentsivõimeline, mõned tema rivaalid pakkuda madalamat hinda heli transkriptsioonide jaoks, mille funktsioonid on mõnevõrra erinevad.

[Ad_1]

 

[Ad_2]

Allikaside link

spot_img

Tere tulemast saidile TRPlane.com

paigaldama
×
Luba märguanded OK Ei aitäh