Trh s umelou inteligenciou (AI) si aktuálne prežíva obrovský boom. Nielenže naň takmer neustále vstupujú noví hráči s ambicioznymi projektmi, tí existujúci prinášajú často tak ohromné inovácie, že sa až nedajú pochopiť. A jednu takú po novom chystá aj čínska firma DeepSeek. Toto meno vám môže byť povedomé – pred časom sa totiž objavilo na titulných stránkach novín po celom svete, nakoľko AI model spoločnosti stál len zlomok toho, čo modely konkurencie, no napriek tomu ponúkal prinajmenšom porovnateľný zážitok.
Ako informuje magazín Digital Trends, teraz chce DeepSeek posunúť latku ešte vyššie. Firma predstavila náramne ambiciózny cieľ, a to vývoj AI modelov, ktoré sa dokážu svojpomocne zlepšovať pomocou metódy judge-reward loop. Výskumníci v spolupráci s prestížnou Tshinghua University v Číne už dokonca vyhotovili a zverejnili predbežnú štúdiu, ktorá opisuje nový prístup k zlepšovaniu inteligencie a obecnej efektivity AI systémov.
Komplexné pojmy, jednoduchý cieľ
Základnou technológiou, ktorú vedci predstavili, je self-principled critique tuning (SCPT), pričom celý svoj prístup označujú ako generative reward modeling (GRM). Laicky povedané, ide o vytvorenie spätnoväzbovej slučky v reálnom čase, vďaka ktorej sa model priebežne „sám od seba“ zlepšuje.

Tradične sa modely zdokonaľujú zvyšovaním veľkosti a počtu tréningových parametrov, čo si vyžaduje obrovské množstvo nielen výpočtových kapacít, ale aj ľudskej práce. DeepSeek aktuálne navrhuje alternatívny mechanizmus – zavedenie akéhosi interného sudcu, ktorý posudzuje odpovede modelu podľa vlastných pravidiel a princípov.
Tieto princípy a kritériá sa následne porovnávajú s pevne stanovenými pravidlami modelu a očakvávaným výstupom. Pokiaľ sa hodnotenie zhoduje s cieľovým výsledkom, model získa tzv. odmeňovací signál, ktorý ho nasmeruje k lepšiemu výkonu v ďalšom cykle.
Nová generácia AI
Výsledkom tejto metodiky má byť úplne nová generácia modelov s názvom DeepSeek-GRM. Výskumníci deklarujú, že tieto modely podľa benchmarkov nie dorovnávajú, ale rovno prekonávajú konkurenčné riešenia, vrátane Gemini od Google, Llama od Meta a GPT-4o od Open AI.
DeepSeek zároveň sľubuje, že tieto nové modely budú dostupné vo forme open-source (s otvoreným kódom), čo je významné rozhodnutie hlavne pre akademickú obec a vývojárov, ktorí chcú skúmať alebo budovať na týchto technológiách bez uzavretých platforiem.
Šria sa aj obavy
Stojí za zmienku, že koncept AI, ktorá sa dokáže sama zlepšovať, nie je nič extra nové. Hovorí sa však o ňom čoraz častejšie, a to aj v kontexte možných rizík.
Napríklad Eric Schmidt, bývalý generálny riaditeľ Google, nedávno varoval pred rôznymi nebezpečenstvami a uviedol, že by sme mali mať pripravený tzv. kill switch (vypínač) v prípade, že sa veci veľmi rýchlo zomelú. Poznamenal, že keď sa systém dokáže sám zlepšovať, je nutné vážne uvažovať o možnosti jeho odpojenia.
A Schmidt rozhodne nie je ani prvý, ani jediný. Matematik I.J. Good už v roku 1965 predpovedal vznik inteligentného stroja, ktorý dokže navrhovať ešte lepšie stroje. Tento koncept ďalej rozpracoval Eliezer Yudkowsky v roku 2007, keď predstavil myšlienku Seed AI – systému navrhnutého na sebapochopenie a rekurzívne sebazlepšovanie.
High-tech preteky
V roku 2024 predstavil japonský startup Sakan AI ideu AI vedca, čiže systému, ktorý zvládne realizovať celý výsumný proces – od prvotnej hypotézy až po napísanie výskumnej štúdie.
Meta potom len minulý mesiac zverejnila výskum o self-rewarding (samoodmeňovacích) jazykových modelov, v ktorých AI pôsobí ako vlastný sudca a prideľuje si odmeny počas tréningu. Tento prístup testovala na svojom modeli Llama 2, pričom podľa výsledkov bol tak schopný prekonať konkurenčné AI systémy ako Claude 2 (Anthropic), Gemini Pro (Google) či GPT-4 (OpenAI).
Aj tím Google DeepMind sa zapojil do vývoja sebazdokonaľujúcej AI. V prestížnom časopise Nature nedávno publikoval štúdiu o algoritme Dreamer, ktorý sa dokáže sám zlepšovať pomocou simulácií v prostredí hry Minecraft. Za zmienku tiež stojí spoločnosť IBM, ktorá pracuje na technike deductive closure training – model porovnáva svoje odpovede s pôvodnými tréningovými dátami a učí sa z nich.
Aj medzi veľkými hráčmi sa však šíria obavy. Konkrétne Anthropic upozornil na fenomén s názvom reward-tampering, čiže situáciu, kedy model manipuluje s vlastným odmeňovacím mechanizmom, aby si uľahčil učenie.

Hrozí kolaps?
Pokrok v oblasti AI je ohromný, čo prináša ako nové príležitosti, tak aj nové riziká. Výskumy naznačujú, že pri tréningu na syntetických dátach, ktoré si model vytvára sám, môže dochádzať ku kolapsu modelu, čo znamená, že sa začne „uzatvárať do vlastnej bubliny“. To znižuje jeho schopnosť generovať kvalitné a rozmanité výstupy.
Nateraz je otázne, ako sa DeepSeek postaví k týmto rizikám, teda či dokáže priniesť skutočne spoľahlivý a výkonný systém, ktorý bude zároveň lacnejší a prístupnejší ako alternatívy zo západu.
No pokiaľ bude DeepSeek-GRM naozaj fungovať tak, ako tvrdia výskumníci, môžeme stáť na prahu novej éry AI vývoja – éry, kedy sa modely učia samy, efektívne, a dostupne pre všetkých.