Asutajad ja investorid
ChatGPT API käivitamisega samaaegselt käivitas OpenAI täna Whisper API, mis on hostitud versioon avatud lähtekoodiga Whisperi kõnest tekstiks muutvast mudelist, mille ettevõte käivitas septembris.
Whisper on automaatne kõnetuvastussüsteem, mille hind on 0.006 dollarit minutis, mis OpenAI sõnul võimaldab "tugevat" transkriptsiooni mitmes keeles ja tõlkimist nendest keeltest inglise keelde. Salvestab faile erinevates vormingutes, sealhulgas M4A, MP3, MP4, MPEG, MPGA, WAV ja WEBM.
Arvukad organisatsioonid on välja töötanud suure võimekusega hääletuvastussüsteemid, mis on selliste tehnoloogiahiiglaste nagu Google, Amazon ja Meta tarkvara ja teenuste keskmes. Kuid Whisperi teeb erinevaks see, et OpenAI presidendi ja presidendi Greg Brockmani sõnul koolitati seda 680.000 XNUMX tunni jooksul veebist kogutud mitmekeelsete ja "mitmetegumtöötluse" andmete põhjal, mis viis ainulaadsete aktsentide, müratausta ja tehnilise žargooni parema äratundmiseni.
"Me käivitasime mudeli, kuid sellest ei piisanud, et kogu arendaja ökosüsteem selle ümber üles ehitada," ütles Brockman. "Whisperi API on sama suur mudel, mille saate avatud lähtekoodiga, kuid oleme selle äärmuseni optimeerinud. "See on palju, palju kiirem ja äärmiselt mugav."
Brockmani sõnul on kõne transkriptsioonitehnoloogia kasutuselevõtul ettevõtetel palju takistusi. Statista andmetel a küsitlus Alates 2020. aastast nimetavad ettevõtted peamiste põhjustena täpsust, aktsendi või dialektiga seotud äratundmisprobleeme ja kulusid, miks nad ei ole tehnoloogiat nagu kõnetehnoloogia kasutusele võtnud.
Whisperil on aga oma piirangud, eriti "järgmise sõna" ennustamise valdkonnas. Kuna süsteemi õpetati kasutama suurel hulgal mürarikkaid andmeid, hoiatab OpenAI, et Whisper võib oma transkriptsioonidesse lisada sõnu, mida tegelikult ei räägitud, võib-olla seetõttu, et see üritab ennustada helis järgmist sõna ja transkribeerida helisalvestist. Lisaks ei toimi Whisper kõigis keeltes võrdselt, kuna sellel on suurem veamäär, kui suhtleb nende keelte kõnelejatega, mis pole koolitusandmetes hästi esindatud.
Kahjuks pole see viimane osa kõnetuvastuse maailmas midagi uut. Eelarvamused on pikka aega vaevanud isegi parimaid süsteeme, a õppima Stanford 2020 Amazoni, Apple'i, Google'i, IBMi ja Microsofti süsteemides tegi valgete kasutajatega palju vähem vigu (umbes 19%) kui mustanahaliste kasutajatega.
Sellest hoolimata näeb OpenAI Whisperi transkriptsioonivõimalusi olemasolevate rakenduste, teenuste, toodete ja tööriistade täiustamiseks. AI-toega keeleõpperakendus Speak kasutab juba Whisperi API-d, et anda rakenduses uus virtuaalne kõnekaaslane.
Kui OpenAI suudab kõnest tekstiks muutmise turule suurel määral siseneda, võib see Microsofti toetatud ettevõtte jaoks olla üsna tulus. Aruande kohaselt, võib segmendi väärtus 5,4. aastaks olla 2026 miljardit dollarit, võrreldes 2,2 miljardi dollariga 2021. aastal.
"Meie kuvand on, et me tõesti tahame olla see universaalne intelligentsus," ütles Brockman. "Me tõesti tahame väga paindlikult võtta vastu mis tahes tüüpi andmeid, mis tahes tüüpi ülesandeid, mida soovite täita, ja olla selle tähelepanu jõu kordaja."
