TRPlane Clubi kasutajad
Eelmise aasta kevadel investoritele saadetud sõnumis ütles Anthropic, et kavatseb arendada tehisintellekti, et toita virtuaalseid assistente, kes suudaksid ise uurimistööd läbi viia, e-kirjadele vastata ja muid haldustöid teha. Ettevõte nimetas seda "iseõppiva tehisintellekti järgmise põlvkonna algoritmiks", mis tema arvates võib ühel päeval automatiseerida majanduse suuri aspekte, kui kõik läheb plaanipäraselt.
See võtab veidi aega, kuid see AI hakkab kohale jõudma.
Antroopne vabastatud nende Claude 3.5 Sonneti mudeli täiustatud versioon, mis saab aru mis tahes töölauarakendusest ja nendega suhelda. Uue arvutikasutuse API kaudu, mis on nüüd avatud beetaversioonis, saab mudel jäljendada klahvivajutusi, nuppude klõpsamisi ja hiireliigutusi, imiteerides sisuliselt arvuti ees istuvat inimest.
„Me treenisime Claude'i nägema, mis ekraanil toimub, ja seejärel kasutama saadaolevaid tarkvaratööriistu ülesannete täitmiseks,“ kirjutas Anthropic blogipostituses. „Kui arendaja palub Claude'il arvutitarkvara kasutada ja annab talle vajaliku juurdepääsu, vaatab Claude ekraanipilte sellest, mis on kasutajale nähtav, ja seejärel loendab, mitu pikslit vertikaalselt või horisontaalselt on vaja kursori liigutamiseks ja õigesse kohta klõpsamiseks.“
Arendajad saavad testida arvutikasutust Anthropic API, Amazon Bedrocki ja Google Cloudi Vertex AI platvormi kaudu. Uus Sonet 3.5 patt Arvutijuurdepääsu rakendatakse Claude'i rakendustes ja see toob kaasa mitmeid jõudluse täiustusi võrreldes 3.5 Sonneti hajutatud mudeliga.
Rakenduste automatiseerimine
Tööriist, mis suudab arvutis ülesandeid automatiseerida, pole uudne idee. Seda tüüpi tööriistu pakuvad lugematud ettevõtted, alates aastakümnete vanustest RPA pakkujatest kuni alustavate ettevõteteni, nagu Relay, Induced AI ja Automat.
Nn tehisintellekti agentide väljatöötamise võidujooksus on turg ainult küllastunud. AI agendid on endiselt halvasti määratletud mõiste, kuid üldiselt viitavad need tehisintellektile, mis suudab tarkvara ülesandeid automatiseerida.
Ükskõik analüütikud Nad ütlevad, et AI agendid võiksid pakkuda ettevõtetele lihtsamat teed AI-sse investeeritavate miljardite dollarite raha teenimiseks. Tundub, et ettevõtted nõustuvad: ühe järgi küsitlus Hiljutised Capgemini 10% organisatsioonidest juba kasutavad tehisintellekti agente ja 82% integreerib need järgmise kolme aasta jooksul.
Salesforce avaldas sel suvel oma AI-agendi tehnoloogia kohta räigeid teadaandeid, samal ajal kui Microsoft edutatud uued tööriistad tehisintellekti agentide loomiseks. OpenAI, mis on oma tehisintellekti agentide kaubamärgi kujundamine peab tehnoloogiat sammuks üliintelligentse tehisintellekti suunas.
Anthropic nimetab oma AI-agendi kontseptsiooni versiooni "toimingute täitmise kihiks", mis võimaldab uuel Sonnet 3.5-l täita käske töölaua tasemel. Tänu veebisirvimisvõimalusele (mitte AI mudelite jaoks uus, kuid Anthropicu jaoks uus), saab 3.5 Sonnet kasutada mis tahes veebisaiti ja rakendusi.

Anthropicu uus tehisintellekt suudab juhtida arvutis olevaid rakendusi. Autorid: Antroopne
„Inimesed säilitavad kontrolli, andes Claude'ile konkreetseid juhiseid, näiteks „kasutage selle vormi täitmiseks andmeid minu võrguarvutist”,“ ütles Anthropicu pressiesindaja. „Inimesed lubavad ja piiravad juurdepääsu vastavalt vajadusele. Claude jagab kasutaja juhised arvutikäskudeks (nt liigutage kursorit, klõpsake, tippige) selle konkreetse ülesande täitmiseks.”
Tarkvaraarendusplatvorm Replit on kasutanud uue 3.5 Sonneti mudeli varasemat versiooni, et luua „autonoomne testija“, mis saab rakendusi nende loomise ajal hinnata. Samal ajal uurib Canva, kuidas uus mudel saaks toetada disaini- ja redigeerimisprotsessi.
Kuid kuidas see erineb teistest AI-agentidest? Tarbijaseadmete käivitaja Rabbit loob veebiagendi, mis saab teha näiteks veebist kinopileteid osta, Amazoni hiljuti omandanud Adept koolitab mudeleid veebisaitidel navigeerimiseks ja Twin Labs kasutab turul saadaolevaid mudeleid, sealhulgas OpenAI GPT-4o, töölaua protsesside automatiseerimiseks.
Anthropic väidab, et vastavalt SWE-bench Verified etalonile on uus 3.5 Sonnet lihtsalt tugevam ja vastupidavam mudel, mis suudab kodeerimisülesannetega paremini toime tulla kui isegi OpenAI lipulaev o1. Hoolimata sellest, et uuendatud Sonnet 3.5 pole selleks spetsiaalselt koolitatud, parandab ja proovib ülesandeid uuesti, kui see puutub kokku takistustega, ning suudab töötada sihtmärkidega, mis nõuavad kümneid või sadu samme.

Claude 3.5 Sonneti mudeli jõudlus erinevates testides. Autorid: Antroopne
Hindamisel, mille eesmärk oli testida tehisintellekti agendi suutlikkust aidata lennufirmade broneerimisülesannete täitmisel (nt lennubroneeringu muutmine), suutis uus 3.5 Sonnet edukalt täita vähem kui pooled ülesannetest. Eraldi testis, mis hõlmas selliseid ülesandeid nagu tagastamise algatamine, ebaõnnestus 3.5 Sonnet umbes kolmandiku ajast.
Anthropic möönab, et uuel uuendatud Sonnet 3.5-l on probleeme selliste põhitoimingutega nagu kerimine ja suumimine ning et see võib ekraanipiltide tegemise ja õmblemise viisi tõttu "lühiajalisi" toiminguid ja teavitusi vahele jätta.
„Claude'i arvutikasutus on endiselt aeglane ja sageli veaohtlik,“ kirjutab Anthropic oma postituses. „Julgustame arendajaid alustama uurimist madala riskiga ülesannetega.“
Riskantne äri
Kuid kas uus Sonnet 3.5 on piisavalt võimekas, et olla ohtlik? Tõenäoliselt.
Un õppima leidsin hiljuti, et mudelid patt Võimalusega kasutada töölauarakendusi, näiteks OpenAI GPT-4o-d, olid nad valmis tegelema kahjuliku "mitmeastmelise agendi käitumisega", näiteks küsima pimeveebis kelleltki võltspassi, kui neid jailbreakimise tehnikate abil "rünnati". Teadlaste sõnul viis jailbreakimine kahjulike ülesannete täitmisel kõrge edukuse määrani isegi filtrite ja kaitsemeetmetega kaitstud mudelite puhul.
Võib aimata, kuidas modell koos töölauale juurdepääs võib põhjustada más kaost – ütleme, juures ära kasutada rakenduse haavatavused isikuandmete kahjustamiseks või poevestlusi lihttekstina. Peale selle käsutuses olevate tarkvarahoobade võivad mudeli võrgu- ja rakenduste ühendused avada võimalusi pahatahtlikud vanglamurdjad.
Anthropic ei eita, et uue Sonneti 3.5 turuletoomisega kaasneb risk. Kuid ettevõte väidab, et looduses kasutatava mudeli nägemisest saadav kasu kaalub lõpuks selle riski üles.
„Usume, et palju parem on anda arvutitele juurdepääs praegustele, piiratumatele ja suhteliselt turvalisematele mudelitele,“ kirjutas ettevõte. „See tähendab, et saame hakata jälgima ja õppima võimalikest probleemidest, mis sellel madalamal tasemel tekivad, suurendades järk-järgult ja samaaegselt arvutikasutust ja turvameetmeid.“

Autorid: Antroopne
Anthropic lisab ka, et on astunud samme väärkasutamise tõkestamiseks, näiteks ei treeni uut Sonnet 3.5 ekraanipiltide ja kasutajate juhiste järgi ning takistab mudelil koolituse ajal veebile juurdepääsu. Ettevõte ütleb, et töötas välja klassifikaatorid, et juhtida 3.5 Sonneti eemale suure riskiga tegevustest, nagu sotsiaalmeediasse postitamine, kontode loomine ja valitsuse veebisaitidega suhtlemine.
USA üldvalimiste lähenedes keskendub Anthropic oma mudelite valimistega seotud kuritarvitamise leevendamisele. USA tehisintellekti ohutusinstituut ja Ühendkuningriigi ohutusinstituut, kaks sõltumatut, kuid nendega seotud valitsusasutust, mis on pühendunud tehisintellektimudelite riskide hindamisele, testisid uut 3.5 Sonnetti enne selle kasutuselevõttu.
Anthropic teatas, et neil on võimalus vajadusel piirata juurdepääsu veebisaitidele ja lisafunktsioonidele, et kaitsta näiteks rämpsposti, pettuste ja väärinfo eest. Turvameetmena säilitab ettevõte PC Usage'i jäädvustatud ekraanipilte vähemalt 30 päeva, mis võib mõnele arendajale muret tekitada.
Anthropici küsimusele, millistel asjaoludel (kui üldse) avaldab ta taotluse korral ekraanipilte kolmandale osapoolele (nt õiguskaitseorganitele), ei ole ta vastust andnud.
„Lollikindlaid meetodeid pole olemas ning me hindame ja täiustame pidevalt oma turvameetmeid, et tasakaalustada Claude'i võimalusi vastutustundliku kasutamisega,“ ütles Anthropic. „Claude'i töölauaversiooni kasutajad peaksid võtma asjakohaseid ettevaatusabinõusid selliste riskide minimeerimiseks, sealhulgas isoleerima Claude'i eriti tundlikest andmetest oma arvutis.“
Loodetavasti piisab sellest halvima juhtumise vältimiseks.
Odavam mudel
Esitluse staartoode võis olla uuendatud Sonnet 3.5 mudel, kuid Anthropic ütles ka, et Claude'i seeria odavaima ja tõhusaima mudeli Haiku uuendatud versioon on teel.
Lähipäevil oodatav Claude 3.5 Haiku on teatud võrdlusalustes sama hinna ja "ligikaudse kiirusega" kui Claude 3 Haiku, mis on kunagi Anthropicu uusima põlvkonna mudel, Claude 3 Opuse jõudlusega.
"Kiire kiiruse, täiustatud juhiste järgimise ja täpsema tööriistakasutusega on Claude 3.5 Haiku ideaalne kasutajale suunatud toodete, spetsiaalsete alamagendi ülesannete jaoks ja isikupärastatud kogemuste loomiseks suurtest andmetest, nagu ostuajalugu, hinnad või laoandmed. "Anthropic kirjutas blogipostituses.
Claude 3.5 Haiku on esialgu saadaval ainult tekstimudelina ja hiljem osana multimodaalsest paketist, mis suudab analüüsida nii teksti kui ka pilte.

Claude 3.5. Haiku võrdlev esitus. Autorid: Antroopne
Kui 3.5 Haiku on saadaval, kas on põhjust 3 Opust kasutada? Aga 3.5 Opus, 3 Opuse järglane, mida Anthropic juunis kiusas?
„Kõigil Claude 3 perekonna mudelitel on klientidele oma individuaalsed kasutusviisid,“ ütles Anthropicu pressiesindaja. „Claude 3.5 Opus on meie tegevuskavas ja jagame sellest kindlasti rohkem niipea kui võimalik.“
