Jazykové modely založené na umelej inteligencii (AI) sú momentálne najväčším trendom v prostredí technologických firiem. Viaceré známe mená v posledných mesiacoch buď vydali vlastný AI systém, alebo aspoň oznámili, že na takomto systéme pracujú. Po novom sa k tejto skupine pripája aj americká Meta, tvorca a správca svetových sociálnych sietí Facebook a Instagram. Tá však zvolila trochu iný prístup.
Meta prostredníctvom príspevku na svojom blogu ukázala jazykový model s názvom Voicebox. Tento nový systém má byť prvým modelom generatívnej umelej inteligencie pre reč, ktorý dokáže pracovať aj s jazykmi, na ktoré nebol špeciálne vycvičený.
Audio namiesto textu
Podľa Mety je jej nový systém z hľadiska funkcionality do veľkej miery podobný iným známym modelom generatívnej umelej inteligencie, akým je napr. ChatGPT. Voicebox dokáže generovať výstupy buď úplne od základov, alebo formou úpravy vstupu zadaného používateľom. Rozdiel je v tom, že výstupy neponúka vo forme obrázkov či textov, ale vo forme vysoko-kvalitných audio záznamov. Voicebox má byť schopný ponúkať audio výstupy až v šiestich jazykoch a napodobniť ich znenie hlasom skutočných, resp. konkrétnych osôb.
Nový model spoločnosti Meta bol trénovaný na vysokom počte rôznych audio záznamov sprevádzaných transkripciou (prepisom). Vďaka tomuto špeciálnemu školiacemu prístupu vraj zvládne upraviť akúkoľvek časť používateľom poskytnutého vstupu.
Spoľahlivý aj bleskový
Meta taktiež sľubuje vysokú spoľahlivosť. Voicebox je postavený na metóde zvanej Flow Matching, ktorá podľa slov spoločnosti preukázateľne zlepšuje difúzne modely. Údajne prekonáva aj momentálne najmodernejší generatívny model VALL-E. Pri prevode textu na reč má Voicebox robiť oveľa menej chýb, pričom zadané úlohy dokáže vykonávať až 20-násobne rýchlejšie. Jeho chybovosť má byť len 1,9 %, čo je značný rozdiel oproti chybovosti 5,9 %, ktorú dosahuje VALL-E.
Americký gigant však poukázal aj na limitácie takýchto generatívnych modelov. Jedným z hlavných obmedzení má byť to, že ich možno trénovať len na údajoch, ktoré boli špeciálne uspôsobené na konkrétne úlohy. Takéto monotónne údaje či vstupy sa vytvárajú celkom ťažko, čo znamená, že existujú len v obmedzenom množstve.
Na trh sa nedostane. Meta sa bojí zneužitia
Voicebox láka na bleskovú rýchlosť a šikovné kapacity, ktoré by v reálnom svete rozhodne našli svoje uplatnenie. Meta však tvrdí, že svoj generatívny model na trh radšej neuvedie, aby nedošlo k zneužitiu.
Keďže systém dokáže vytvárať hlasy konkrétnych osôb, môže byť zneužitý napríklad na vytváranie a šírenie falošných informácií. „Existuje mnoho zaujímavých spôsobov využitia generatívnych modelov reči, ale vzhľadom na riziká zneužitia model Voicebox a ani jeho kód nezverejníme. Hoci veríme, že je dôležité byť otvorený voči AI komunite a zdieľať náš výskum s cieľom posunúť stav techniky v oblasti AI na vyššiu úroveň, je tiež potrebné nájsť správnu rovnováhu medzi otvorenosťou a zodpovednosťou,“ uvádza Meta.
Ako presne dokáže Voicebox znieť si môžeš vypočuť na tomto odkaze.