Tehisintellekt
Uus uuring seab kahtluse alla uusimate keelemudelite, nagu GPT-4 ja Gemini 1.5 Pro, võime olla "multimodaalne", kuna ei mõista reklaamitud teksti kõrval ka pilte ja heli. Uuringute kohaselt ei pruugi need mudelid visuaalset teavet ootuspäraselt tõlgendada ega pruugi seda isegi üldse teha.
Oluline on selgitada, et selliseid väiteid nagu "See tehisintellekt suudab tajuda nii, nagu inimesed tajuvad" pole tehtud (kuigi võib-olla on mõned inimesed seda nii väljendanud). Nende mudelite turunduse ja reklaamimise valdkonnas kasutatakse aga nende funktsionaalsuse esiletõstmiseks selliseid termineid nagu "visuaalsed võimalused" ja "visuaalne mõistmine". Esile tõstetakse mudeli võimet visualiseerida ja analüüsida pilte ja videoid, mis võimaldab tal lahendada erinevaid ülesandeid alates akadeemiliste probleemide lahendamisest kuni spordi jälgimiseni kasutaja asemel.
Kuigi nende ettevõtete väited on hoolikalt sõnastatud, on selge, et nad püüavad anda teada, et mudel on teatud aspektides mõttekas. Mudel saavutab selle samamoodi nagu matemaatikas või lugude kirjutamises: tuvastades sisendandmetes mustrid, mis vastavad treeningandmete mustritele. See sarnasus põhjustab mudelite ebaõnnestumise samamoodi nagu muud näiliselt lihtsad toimingud, näiteks juhusliku arvu valimine.
Auburni ülikooli ja Alberta ülikooli teadlased viisid läbi süstemaatilise uuringu Visuaalne arusaam tehisintellekti mudelitest (AI) vool. Selles uuringus anti suurematele multimodaalsetele mudelitele mitmeid lihtsaid visuaalseid ülesandeid, näiteks teha kindlaks, kas kaks kujundit kattuvad, lugeda pildil olevate viisnurkade arvu või tuvastada, milline täht sõnas on ringiga ümbritsetud. Saate juurdepääsu a uuringu kokkuvõte sellel lehel.
Need on ülesanded, mida esimese klassi õpilane saaks hõlpsasti täita, kuid kujutas endast tehisintellektimudelitele märkimisväärset väljakutset.
Kaasautor Anh Nguyen väljendas, et seitse määratud ülesannet on oma olemuselt lihtsad ja inimesed saavad neid täita 100% täpsusega. Siiski eeldatakse, et tehisintellektid suudavad neid samamoodi teha, mida praegu ei juhtu. Nguyen rõhutas tõsiasja, et kõige arenenumad mudelid ebaõnnestuvad selliste ülesannete täitmisel.

Pilt: Rahmanzadehgervi ja teised kaastöölised.
Viidi läbi kattuvate kujundite test, mida peetakse elementaarseks visuaalseks arutlusülesandeks. Katse ajal täheldati, et mudelid ei suutnud seda järjepidevalt teostada, kui esitati kaks kattuvat erineva lähedusastmega ringi. Näiteks GPT-4o mudel toimis rohkem kui 95% õigesti, kui ringid olid teineteisest kaugel, kuid oli õige ainult umbes 18% ajast, kui need olid lähedal või kattuvad. Teisest küljest sai Gemini Pro 1.5 mudel lühikestel distantsidel hindeks 7 punkti 10-st, pidades seda selles ülesandes parimaks, kuigi arenguruumi veel on.
Illustratsioonid ei kajasta täpselt mudelite toimivust, vaid pigem püüavad demonstreerida mudelite varieeruvust erinevates olukordades. Iga mudeli konkreetne statistika on üksikasjalikult kirjeldatud dokumendis.
Kuidas on lood võimalusega kvantifitseerida pildil blokeerivaid ringe?

Pilt: Rahmanzadehgervi ja teised kaastöölised
Visual AI saavutab viie rõnga tuvastamisel 100% täpsuse, kuid täiendava rõnga lisamine mõjutab selle jõudlust negatiivselt. Selle stsenaariumi korral ei õnnestu Geminil see üldse korda saada, samal ajal kui Sonnet-3.5 saab hakkama kolmandiku ajast ja GPT-4o saab selle korda veidi vähem kui poole ajast. Täiendava rõnga lisamine muudab ülesande keerukamaks, kuigi mõne inimese jaoks võib ühe lisamine selle lihtsamaks muuta.
Selle katse eesmärk on näidata, et mudelid ei kajasta täpselt meie visuaalset taju. Kuigi mudelite nägemises võib esineda puudujääke, ei eeldata 6, 7, 8 ja 9 rõngaga kujutiste puhul nii ebajärjekindlaid tulemusi.
Teised hinnatud ülesanded näitasid sarnaseid mustreid, see ei olnud tingitud arusaamisest või õigest või valest arutluskäigust, vaid ilmselt oli mõni muu põhjus, miks nad said loenduse ühe stsenaariumi korral sooritada, kuid mitte.
Üks võimalik vastus sellele ilmselgele küsimusele on järgmine: mis on põhjus, miks mudelid on nii täpsed 5 ringi õigesti tuvastamisel, kuid ebaõnnestuvad muudel juhtudel, näiteks 5 viisnurga tuvastamisel? Oluline on märkida, et Sonnet-3.5 mudel toimis viimasel juhul üsna edukalt. Selle erinevuse põhjuseks on see, et kõik modellid on treenitud kindla kujutisega, mis tõstab esile 5 ringi olemasolu: olümpiarõngad.

Pilt: ROK
Logo leidub korduvalt koolitusandmetes ning seda kirjeldatakse alttekstis, kasutusjuhistes ja seotud artiklites. 6 või 7 põimunud rõnga olemasolu treeningandmetes on aga olematu. Selles kontekstis on ilmne visuaalse arusaamise puudumine rõngastest, ülekatetest ja muudest mõistetest.
Küsisin teadlastelt nende arvamust mudelitele omistatud võimsuse puudumise kohta. Sarnaselt teistele kasutatud terminitele on sellel antropomorfne varjund, mis ei ole täiesti täpne, kuid selle kasutamist on raske vältida.
Nguyen tõi välja tähenduste mitmekesisuse, mis terminil "pime" võib olla nii inimeste kui ka tehisintellektide puhul. Ta rõhutas konkreetse sõna puudumist, mis kirjeldaks tehisintellektide võimetust neile esitatud pilte tõlgendada. Samuti rõhutas ta praeguse tehnoloogia puudumist, mis võimaldab täpselt visualiseerida mudeli visuaalset tajumist, mille käitumine tuleneb sisendteksti, sisendpildi ja mitme parameetri keerulisest koostoimest.
On väidetud, et mudelitel puudub täpne visuaalne taju, vaid pigem on nende tõlgendus pildi visuaalsest teabest ligikaudne ja abstraktne, näiteks tuvastab ringi olemasolu vasakul küljel. Nendel mudelitel puudub visuaalse hinnangu andmise võime, mistõttu nende vastused sarnanevad kellegi omadega, kes teavad pilti, kuid ei suuda seda tegelikult visualiseerida.
Viimase näitena esitas Nguyen juhtumi, mis toetab eelnevalt püstitatud hüpoteesi.

Pilt: Anh Nguhen
Kui sinine ring ja roheline ring asetatakse üksteise peale, genereeritakse tavaliselt tsüaaniga varjutatud ala, mis sarnaneb Venni diagrammiga. Reaktsioon sellele olukorrale on etteaimatav iga asjaga kursis oleva inimese jaoks. Siiski võib olukorra tajumine erineda, kui kaaluda erinevaid lähenemisviise või vaatenurki.
Kas see tähendab, et "visuaalsed" AI mudelid on kasutud? Kaugel sellest. Suutmatus teatud piltide kohta elementaarseid arutluskäike teha paljastab teie võimete põhilised, kuid mitte konkreetsed piirangud. Kõik need mudelid on tõenäoliselt väga täpsed sellistes valdkondades nagu inimeste tegevuste ja väljenduste tõlgendamine, igapäevaste objektide ja olukordade fotod jne. Tegelikult on need ülesanded, mida neilt oodatakse.
Tehisintellekti ettevõtted reklaamivad oma mudeleid oma võimete idealiseeritud kuvandiga, mis viitab eksimatule täpsusele sellistes ülesannetes nagu inimtegevuse tuvastamine. Siiski näitavad sellised uuringud, et see täpsus ei tähenda mudelite tavapärast visuaalset mõistmist.
