Tehisintellekt
Praegu uuritakse tehisintellekti vallas uute arhitektuuride otsimist, pärast pikaajalist AI vormi nn. Transformer.
Selle Transformeri arhitektuuri eksperdid on olulised audiovisuaalse sisu genereerimise mudelite (nt OpenAI Sora mudeli) väljatöötamisel ning on olulised teksti genereerimise mudelite, nagu Anthropic's Claude, Google'i Gemini ja GPT-4o, loomisel. Siiski seisavad nad praegu silmitsi tehniliste väljakutsetega, eriti arvutusvaldkonnas.
Kaubandusliku riistvaraga töötavad transformaatorid ei ole suurte andmemahtude töötlemiseks ja analüüsimiseks optimaalsed, mis põhjustab suuri kulusid ja potentsiaalselt suuremaid kulusid. talumatu energiavajaduses. See energianõudluse kasv tekib siis, kui ettevõtted arendavad ja laiendavad oma infrastruktuuri trafode vajaduste rahuldamiseks.
Selle kuu jooksul kutsus paljulubav arhitektuur Test-Time-Treening (TTT), mille töötas välja kaheksateistkümne kuu jooksul Stanfordi, UC San Diego, UC Berkeley ja Meta teadlaste meeskond. Uurimisrühma hinnangul pole TTT mudelitel mitte ainult võimalus töödelda suuremat andmemahtu võrreldes Transformeri arhitektuuriga, vaid nad saavad sellega hakkama ka oluliselt väiksema töötlemisvõimsuse tarbimisega.
Varjatud olek Transformeri arhitektuuris
Transformeri arhitektuuris on oluliseks elemendiks "varjatud oleku" mõiste, mis koosneb ulatuslikust andmekogust. Teabe töötlemise ajal lisab transformer asjakohase teabe säilitamiseks uued sisendid varjatud olekusse. Näiteks teksti sõelumisel sisaldab peidetud olek sõnade või sõnafragmentide esitusi.
Stanfordi järeldoktorant ja TTT uuringu kaasautor Yu Sun selgitas, et kui käsitleda transformerit intelligentse üksusena, võib selle varjatud olekut tähistava otsingutabeli võrdsustada trafo ajuga. Suni sõnul on see spetsiaalne komponent trafode tunnustatud võimete, näiteks kontekstuaalse õppimise jaoks ülioluline.
Varjatud olek on trafode võimsuse põhielement, kuigi samal ajal seab see piiranguid. Hiljuti loetud raamatu kohta ühe sõna väljastamiseks peab mudel küsima kogu oma otsingutabelit, mis on sama arvutusmahukas kui kogu raamatu lugemine.
Seejärel tegi Sun ja tema meeskond ettepaneku asendada peidetud olek masinõppemudeliga, mis sarnaneb tehisintellekti Vene nukkudega, st mudeliga mudelis.
TTT mudeli sisemine masinõppemudel erineb trafo otsingutabelist selle poolest, et selle maht ei suurene lisaandmete töötlemisel. Selle asemel kodeerib see andmed puhverserveri muutujateks, mida nimetatakse kaaludeks, mis aitab kaasa TTT mudelite suurele tõhususele. Vaatamata töödeldavate andmete hulgale jääb TTT mudeli sisemudeli suurus konstantseks.
Sun usub, et tulevased TTT mudelid võiksid olla suutelised tõhusalt töötlema suuri andmemahte, sealhulgas sõnu, pilte, helisalvestisi ja videoid, mis ületaks oluliselt praeguste mudelite võimalused.
Suni sõnul on väljatöötatud süsteemil võime analüüsida raamatut ja luua kokkuvõte, ilma et oleks vaja kasutada arvutuslikku keerukust raamatu mitmekordseks ülevaatamiseks. Teisest küljest on trafopõhistel videomudelitel, nagu Sora, oma töötlemisvõimsuse piirangud, kuna nende otsingutabelil põhineva "aju" struktuuri tõttu on need piiratud vaid 10-sekundilise videoga. Projekti lõppeesmärk on luua süsteem, mis suudab pikki videoid analüüsida sarnaselt inimese visuaalse tajuga.
Skeptilisus TTT mudelite suhtes
Kas on võimalik, et TTT mudelid asendavad tulevikus Transformeri mudeleid? Kuigi see võimalus on olemas, on praegu ennatlik seda täie kindlusega kinnitada.
TTT mudelid ei ole otsene alternatiiv Transformerile. Praegu on teadlased oma uurimuse jaoks välja töötanud ainult kaks vähendatud mudelit, mistõttu on raske võrrelda TTT meetodit mõne praegu saadaoleva suuremahulise transformeri rakendustega.
Londoni King's College'i arvutiteaduse osakonna vanemõppejõud Mike Cook andis oma mõtteid TTT innovatsiooni kohta, rõhutades oma huvi ja tõhususe väidete andmete andmetega toetamise tähtsust. Cook ei osalenud uurimistöös ja ütles, et ei suuda kindlaks teha, kas see uus arhitektuur on olemasolevatest parem.
Transformeri mudeli alternatiivide uurimise kiire edenemine näitab, et selles osas revolutsioonilise edusammude tähtsuse üha enam tunnistatakse.
Selle nädala jooksul esitles tehisintellekti startup Mistral uut mudelit nimega Codestral Mamba, mis põhineb Transformeri alternatiivil, mida tuntakse State Space Models (SSM, Selective-State-Spaces) nime all. On täheldatud, et SSM-id, nagu ka TTT mudelid, näitavad trafodega võrreldes suuremat arvutuslikku efektiivsust, võimaldades neil käsitleda suuremaid andmemahtusid.
AI21 Labs uurib järjestuse modelleerimissüsteeme (SSM), Cartesia mis oli üks esimesi ettevõtteid, kes arendas koos Codestrali nimekaimude Mamba, Mamba ja Mamba-2 välja SSM-i.
Kui need jõupingutused saavutatakse, võib generatiivne tehisintellekt muutuda kättesaadavamaks ja laiemalt levinud kui praegu.
