Sú prvotriedne generatívne modely umelej inteligencie (AI), ako napríklad ChatGPT, len jeden veľký finančný podvod? Samozrejme, vývoj takýchto systémov stojí nemálo námahy a nepochybne aj finančných prostriedkov. Očividne ale je kde ušetriť. Tím výskumníkov zo Stanfordovej univerzity a Washingtonskej univerzity vytvoril pokročilý AI model na riešenie úloh s logickým uvažovaním, pričom na jeho trénovanie im stačilo menej ako 50 dolárov (48 eur) v cloudových výpočtových kreditoch, informuje server TechCrunch.
Tento model nesie označenie s1, pričom dosahuje podobné výsledky ako špičkové modely zamerané na riešenie matematických a programátorských úloh, napríklad o1 od OpenAI alebo R1 od DeepSeek. Dáta aj kód použité na trénovanie s1 sú dostupné na GitHube.
Tím vedcov použil existujúci AI model ako základ a následne ho vylepšil metódou distilácie. Táto technika umožňuje extrahovať schopnosti „uvažovania” z výkonnejšieho modelu tým, že sa nový model trénuje na jeho odpovediach. Autori projektu uvádzajú, že s1 bol odvodený od modelu Gemini 2.0 Flash Thinking Experimental od spoločnosti Google.
![AI, technológia](https://www.techbyte.sk/wp-content/uploads/2024/09/umela-inteligencia.jpg)
Prístup cez distiláciu pritom už minulý mesiac použili aj výskumníci z Berkeley na vytvorenie podobného modelu. Stálo ich to okolo 450 dolárov (436 eur).
Veľkí hráči nie sú nadšení
Pre mnohých je určite povzbudzujúce, že vývoj špičkovej umelej inteligencie už nie je doménou len veľkých technologických spoločností s obrovskými rozpočtami. Keď totiž vývoj určitej AI stojí málo peňazí, nie je dôvod, aby za ňu museli veľa platiť jej užívatelia či klienti.
Zároveň to však vyvoláva otázky o komodifikácii AI modelov – ak je možné napodobniť modely vyvíjané za milióny dolárov len s minimálnymi nákladmi, čo to znamená pre konkurenčnú výhodu veľkých AI laboratórií? Táto otázka sa zarýva hlboko pod kožu veľkých spoločností, nakoľko znevažuje ich úsilie a predstavuje potenciálne poškodenie ich konkurencieschopnosti.
Stojí za zmienku, že OpenAI nedávno obvinila vývojárov čínskeho modelu DeepSeek z toho, že pri vývoji R1 neoprávnene použili dáta získané z OpenAI API. Pre lepšie porozumenie, vývoj DeepSeek stál približne len 6-miliónov dolárov (5,8-milióna eur), zatiaľ čo 6-mesiacov dlhý tréning modelu GPT-5 môže OpenAI stáť až 500-miliónov dolárov (484-miliónov eur).
DeepSeek stál zlomok toho, čo ChatGPT. Má to však dôvod
No na druhú stranu, vyzerá to tak, že tvorcovia DeepSeek výrazne šetrili na bezpečnosti. Ako sme vás informovali v tomto článku, model pohorel v kľúčových bezpečnostných testoch výskumného tímu zo spoločnosti Cisco.
Tím vykonal sériu testov na modeli DeepSeek R1, pričom využil techniku tzv. algoritmického jailbreaku – prekračovanie bezpečnostných obmedzení. Testy boli vykonané na vzorke 50 náhodných podnetov zo súboru HarmBench, ktorý obsahuje otázky z oblastí kybernetickej kriminality, šírenia dezinformácií, nelegálnych aktivít a iných škodlivých činov.
Výsledky boli priam alarmujúce. DeepSeek R1 mal 100-percentnú úspešnosť útokov, čo znamená, že nezablokoval ani jeden škodlivý podnet. Tento výsledok tak ostro kontrastuje s inými poprednými AI modelmi, ktoré dokázali odolať podobným útokom aspoň čiastočne. Napríklad model o1 (ChatGPT) od spoločnosti OpenAI dokázal zablokovať väčšinu škodlivých podnetov.
![DeepSeek, konkurent ChatGPT](https://www.techbyte.sk/wp-content/uploads/2025/02/deepseek-4.jpg)
S1 je malý, no efektívny AI model
Čo sa týka s1, ide o náramne jednoduchý model, čo značí, že bezpečnosť nebude zrovna na vysokej úrovni. Nateraz však nemáme k dispozícii konkrétne údaje, ktoré by to vyvrátili či potvrdili.
Univerzitní výskumníci sa snažili nájsť čo najjednoduchší spôsob, ako dosiahnuť výkonné uvažovanie a tzv. test-time scaling, čo umožňuje modelu dlhšie premýšľať pred poskytnutím odpovede. Tento prístup využila aj OpenAI pri modeli o1 a ďalšie AI laboratóriá sa ho pokúšali napodobniť rôznymi technikami.
Štúdia o s1 ukazuje, že modely na uvažovanie možno trénovať aj s pomerne malým množstvom dát prostredníctvom metódy supervidovaného doladovania (SFT). Pri tejto technike sa model cielene inštruuje, aby napodobňoval určité vzorce správania na základe poskytnutých tréningových údajov. Ide o podstatne lacnejšiu metódu, než akou je rozsiahle učenie posilňovaním (RLHF), ktoré použili strojcovia DeepSeek.
Je ale nutné podotknúť, že hoci Google ponúka voľný prístup k modelu Gemini 2.0 Flash Thinking Experimental cez platformu Google AI Studio, nerobí tak bez denných obmedzení. Jeho obchodné podmienky pritom výslovne zakazujú spätné inžinierstvo s cieľom vytvoriť konkurenčné AI produkty.
Pokiaľ ide o model, na základe ktorého s1 vznikol, tým má byť open-source projekt čínskeho AI laboratória Qwen, ktoré vlastní Alibaba. Tento model je dostupný na bezplatné stiahnutie.
![AI](https://www.techbyte.sk/wp-content/uploads/2018/05/umela-inteligencia-jpg-webp.webp)
Na účely trénovania výskumníci vyhotovili sadu 1 000 starostlivo vybraných otázok, ku ktorým priradili odpovede a zároveň popis „myšlienkového postupu“ vedúceho k riešeniu. Celý tréning pritom prebehol za menej ako 30 minút, pričom si vyžadoval len 16 grafických kariet Nvidia H100.
Sú obrovské investície nutné?
V roku 2025 plánujú spoločnosti ako Meta, Google a Microsoft investovať stovky miliárd dolárov do vývoja AI infraštruktúry, pričom časť týchto zdrojov pôjde na trénovanie nových generácií modelov.
Hoci metóda distilácie umožňuje efektívne replikovať výkonné AI modely s nízkymi nákladmi, nateraz neexistujú dôkazy, že by pomocou nej bolo možné vytvárať modely, ktoré výrazne prevyšujú už existujúce systémy. To znamená, že obrovské investície do AI výskumu budú aj naďalej zohrávať kľúčovú úlohu pri posúvaní hraníc technologického pokroku.