TRPlane Clubi kasutajad
OpenAI on välja andnud uue AI "arutlusmudeli" O3-Mini, mis on uusim ettevõtte O arutlusmudelite perekonnas.
OpenAi mudelit esitleti esmakordselt detsembris koos võimekama süsteemiga nimega O3, kuid turuletoomine toimub ettevõtte jaoks otsustaval ajal, mille ambitsioonid ja väljakutsed näivad kasvavat iga päevaga.
OpenAI võitleb arusaamaga, et loovutab AI võidujooksu Hiina ettevõtetele nagu DeepSeek, mille allikad OpenAI väitel võisid varastada. Ta on püüdnud tugevdada oma suhteid Washingtoniga kuna see tegeleb samaaegselt ambitsioonika andmekeskuse projektiga ja loob väidetavalt aluse ajaloo ühele suurimale rahastamisvoorule.
Mis toob meid O3-Mini juurde. OpenAI esitleb oma uut mudelit kui "võimast" ja "taskukohaset".
"Oluline samm meie missiooni teenindava täiustatud tehisintellekti kättesaadavuse laiendamise suunas," ütles OpenAI pressiesindaja.
Tõhusam arutluskäik
Erinevalt enamikust suurtest keelemudelitest kontrollivad arutlusmudelid, nagu o3-Mini, enne tulemuste esitamist põhjalikult. See aitab neil vältida mõningaid lõkse, millega nad mudelitega tavaliselt kokku puutuvad. Nendel arutlusmudelitel kulub lahendusteni jõudmiseks veidi kauem aega, kuid kompromiss seisneb selles, et need kipuvad olema usaldusväärsemad, kuigi mitte täiuslikud sellistes valdkondades nagu füüsika.
O3-Mini on häälestatud STEM-probleemide jaoks, eriti programmeerimise, matemaatika ja teaduse jaoks. OpenAI väidab, et mudel on võimekuse poolest suures osas võrdne O1 perekonna O1 ja O1-Miniga, kuid töötab kiiremini ja maksab vähem.
Ettevõte ütles, et kolmandate osapoolte testijad eelistasid enam kui poole ajast O3-Mini vastuseid O1-Mini vastuseid. Samuti tegi O3-Mini ilmselt 39% vähem suuri vigu "keerulistes reaalmaailma küsimustes" A/B testimine võrreldes O1-Miniga ja andis "selgemad" vastused, pakkudes samal ajal umbes 24% kiiremaid vastuseid.
O3-Mini on ChatGPT kaudu saadaval kõigile kasutajatele, kuid ChatGPT Plusi ja OpenAI Teami plaanide eest maksvad kasutajad saavad kõrgema piirangu 150 päringut päevas. ChatGPT Pro tellijatel on piiramatu juurdepääs ning O3-Mini jõuab peagi ka ChatGPT Enterprise ja ChatGPT EDU klientidele.
Lisatasu pakettidega kasutajad saavad ChatGPT rippmenüüst valida O3-Mini. Tasuta kasutajad saavad klõpsata või puudutada uut nuppu "Põhjus" vestlusribal või lasta ChatGPT-l vastuse "uuesti genereerida".
O3-Mini on arendajatele saadaval ka Openai API kaudu, kuid sellel puudub esialgu piltide analüüsi tugi. Arendajad saavad valida "arutlusjõupingutuse" taseme (madal, keskmine või kõrge), et panna O3-Mini "kõvemini mõtlema", lähtudes nende kasutusjuhtumist ja latentsusvajadusest.
O3-Mini hind on 0.55 dollarit miljoni vahemällu salvestatud sisendmärgi kohta ja 4.40 dollarit miljoni väljundmärgi kohta, kusjuures miljon luba võrdub ligikaudu 750,000 63 sõnaga. See on 1% odavam kui O1-Mini ja konkurentsivõimeline Deepseeki R0.14 arutlusmudeli hinnaga. Deepseek nõuab oma API kaudu R2.19 juurdepääsu eest 1 dollarit miljoni vahemällu salvestatud sisendmärgi ja XNUMX dollarit miljoni väljundmärgi eest.
ChatGPT-s on O3-Mini seatud keskmisele arutluskäigule, mis OpenAI sõnul pakub "tasakaalustatud kompromissi kiiruse ja täpsuse vahel". Tasulised kasutajad saavad mudelivalijas valida „O3-Mini-High”, mis pakub vastutasuks aeglasema reageerimise eest seda, mida OpenAI nimetab „kõrgemaks intelligentsuseks”.
Olenemata sellest, millise O3-Mini ChatGPT versiooni kasutajad valivad, töötab mudel otsinguga, et leida ajakohaseid vastuseid koos linkidega asjakohastele veebiallikatele. OpenAI hoiatab, et funktsioon on "prototüüp", kuna see töötab otsingu integreerimiseks oma arutlusmudelitesse.
"Kuigi O1 jääb meie kõige üldisema otstarbega arutlusmudeliks, pakub O3-Mini spetsiaalset alternatiivi tehnilistele valdkondadele, mis nõuavad nii täpsust kui kiirust," kirjutas OpenAI ajaveebipostituses. "O3-Mini käivitamine on järjekordne samm OpenAI missioonis nihutada kulutõhusa intelligentsuse piire."
Hoiatusi on palju
O3-Mini ei ole seni OpenAI võimsaim mudel ega ületa ka DeepSeeki R1 arutlusmudelit igal võrdlusalusel.
O3-Mini ületab R1 AIME 2024 testis, mis mõõdab, kui hästi mudelid mõistavad keerulisi juhiseid ja reageerivad neile, kuid ainult suure arutlusjõuga. Samuti ületab see kontrollitud programmeerimisele keskendunud testis R1 (0,1 punkti võrra), kuid jällegi ainult suure arutlusjõuga. Väikese jõupingutusega arutluskäigus on O3-Mini R1 taga GPQA Diamondis, mis testib mudeleid doktorikraadi tasemel füüsika, bioloogia ja keemia küsimustes.
Ausalt öeldes vastab O3-Mini paljudele päringutele konkurentsivõimeliselt madalate kulude ja latentsusajaga. Postituses võrdleb OpenAI oma jõudlust O1 perekonnaga:
"Väikse kaalutlusjõuga saavutab O3-Mini võrreldava jõudluse O1-Miniga, samas kui keskmise pingutusega saavutab O3-Mini võrreldava jõudluse O1-ga," kirjutab OpenAI. „Keskmise arutlusjõuga O3-Mini vastab O1 jõudlusele matemaatikas, kodeerimises ja loodusteadustes, pakkudes samas kiiremaid vastuseid. Samal ajal ületab O3-Mini suure arutlustööga O1-Mini ja O1.
Väärib märkimist, et O3-Mini jõudluseeelis O1 ees on mõnes valdkonnas väike. Programmis AIME 2024 ületab O3-Mini O1-d vaid 0.3 protsendipunkti võrra, kui see on seatud suurele arutlusjõule. Ja GPQA Diamondis ei ületa O3-Mini O1 skoori isegi suure arutlustöö korral.
OpenAI väidab, et O3-Mini on siiski sama "turvaline" või turvalisem kui O1 perekond, tänu punase meeskonna jõupingutustele ja selle "arutleva joondamise" metoodikale, mis paneb mudelid päringutele vastates OpenAi turbepoliitikale "mõtlema". Ettevõtte sõnul ületab O3-Mini märkimisväärselt ühte OpenAI lipulaeva mudelit GPT-4O "väljakutseliste turvalisuse ja jailbreak hindamiste osas".