Tehisintellekt
Los investigadores de IA en Stanford y la Universidad de Washington pudieron capacitar un modelo de “razonamiento” de IA por menos de $50 en coste de computación en la nube, según un nuevo uurimistöö hiljuti tutvustatud.
S1 nime all tuntud mudel töötab sarnaselt nüüdisaegsete arutlusmudelitega, nagu Openi O1 ja Deepseeki R1, koos testidega, mis mõõdavad matemaatika- ja kodeerimisoskusi. S1 mudel on saadaval Githubis koos nende koolitamiseks kasutatud andmete ja koodiga.
El equipo detrás de S1 dijo que crearon el modelo AI a través de la destilación, un proceso para extraer las capacidades de “razonamiento” de otro modelo de IA entrenado en sus respuestas. Los investigadores dijeron que S1 está destilado de uno de los modelos de razonamiento de Google, Gemini 2.0 Flash Thinking Experimental. La destilación es el mismo enfoque que los investigadores de Berkeley usaron para crear un modelo de razonamiento de IA por alrededor de $450 el mes pasado.
Mõne jaoks on põnev idee, et mõned teadlased, kelle taga pole miljoneid dollareid, saavad AI-ruumis uuendusi teha. Kuid S1 tõstatab tõelisi küsimusi tehisintellekti mudelite kaubaks muutmise kohta. Kus on vahe, kui keegi suudab mitme miljoni dollarilist mudelit suhtelise kuluga lähedalt kopeerida?
Pole üllatav, et suured tehisintellekti laborid pole rahul. OpenAI on süüdistanud DeepSeeki oma API väärkasutamises eesmärgiga mudeli destilleerimine.
Los investigadores detrás de S1 buscaban encontrar el enfoque más simple para lograr un fuerte rendimiento de razonamiento y “escalado en los tiempo de prueba”, o permitiendo que un modelo de IA piense más antes de que responda una pregunta. Estos fueron algunos de los avances en el O1 de OpenAi, que DeepSeek y otros laboratorios de IA han tratado de replicar a través de varias técnicas.
S1 dokument viitab sellele, et arutlusmudeleid saab destilleerida suhteliselt väikese andmekogumiga, kasutades protsessi, mida nimetatakse järelevalveks peenhäälestuseks (SFT), mille käigus AI mudelil on selgesõnaliselt juhendatud matkima teatud käitumist andmekogumis. SFT kipub olema odavam kui laiaulatuslik tugevdamisõppe meetod DeepSeek, mida kasutatakse OpenAi O1, R1 reageerimise treenimiseks.
Google pakub oma Google AI Studio platvormi kaudu tasuta juurdepääsu Gemini 2.0 Flash Thinking Experimentalile, kuigi päevamäärade piirangutega. Selle tingimused keelavad aga mudelite pöördprojekteerimise, et arendada teenuseid, mis konkureerivad Google'i enda tehisintellekti pakkumistega.
S1 se basa en un modelo de IA pequeño y listo para usar del Lab AI de Alibaba Qwen, que está disponible para descargar de forma gratuita. Para entrenar S1, los investigadores crearon un conjunto de datos de solo 1,000 preguntas cuidadosamente seleccionadas, combinadas con respuestas a esas preguntas, así como al proceso de “pensamiento” detrás de cada respuesta de Gemini 2.0 Flash Thinking Experimental de Google.
Pärast S1 koolitust, mis võttis 30 NVIDIA H16 GPU-ga aega vähem kui 100 minutit, saavutas S1 teadlaste sõnul tugeva jõudluse teatud tehisintellekti võrdlusalustes. Stanfordi teadlane Niklas Manennighoff, kes projekti kallal töötas, ütles, et saab täna vajaliku arvutusvõimsuse rentida umbes 20 dollari eest.
Los investigadores usaron un ingenioso truco para que S1 verifique su trabajo y extienda su tiempo de “pensamiento”: le dijeron que esperara. Agregar la palabra “esperar” durante el razonamiento de S1 ayudó al modelo a llegar a respuestas un poco más precisas, según el documento.
2025. aastal Meta, Google ja Microsoft plaanib investeerida AI infrastruktuuri sadu miljardeid dollareid mida kasutatakse osaliselt järgmise põlvkonna AI mudelite koolitamiseks. Seda investeeringutaset võib AI innovatsiooni edendamiseks siiski vaja minna. Destilleerimine on osutunud heaks meetodiks tehisintellekti mudeli võimaluste odavaks taasloomiseks, kuid see ei loo uusi tehisintellekti mudeleid, mis oleksid oluliselt paremad kui praegu saadaval.
