Umelá inteligencia (AI) je jedným z najvýznamnejších trendov tohto desaťročia. Vplyv tejto technológie siaha do čoraz väčšieho množstva odvetví a oblastí. V nemalej miere pritom siaha aj do každodenného života nás, bežných ľudí, hoci si to často ani neuvedomujeme. AI dnes disponuje schopnosťami, o akých sa nám pár rokov dozadu ani len nesnívalo. A zdá sa, že pokrok v dohľadnej dobe bude ešte výraznejší.
Ako píše server CzechCrunch, AI už neslúži len ako generátor obrázkov či konverzačný nástroj. Po novom dokáže aj veľmi presvedčivo replikovať ľudský hlas. Na vlastné uši sa o tom mohli presvedčiť obyvatelia Spojených štátov začiatkom tohto roka, kedy mnohým z nich zazvonil telefón. Keď ho zdvihli, prihovoril sa k nim prezident Joe Biden. Samozrejme, v skutočnosti nešlo o prezidentov hlas, ale jeho umelo vytvorenú napodobneninu.
Voice Engine
Hlas je jednou z ďalších základných ľudských čŕt, ktoré po novom dokáže umelá inteligencia nielen napodobniť, ale aj zreplikovať. V tomto smere sa aktuálne angažuje spoločnosť OpenAI, ktorá stojí za veľmi úspešným chatbotom ChatGPT, ako aj za dychberúcim generátorom videí Sora. Jej nový model s názvom Voice Engine sa dokáže naučiť všetky kontúry ľudského hlasu, a to len po niekoľkých sekundách počúvania originálu, teda osoby, ktorej hlas patrí.
Na interakciu s novým modelom vám tak stačia dve veci, a to nahrávka hlasu, ktorý chcete zreplikovať, a klávesnica, ktorou zadáte systému príkaz o tom, čo má daným hlasom povedať. Poskytnutá nahrávka však musí mať dĺžku aspoň 15 sekúnd.
Spoločnosť OpenAI tento model predstavila minulý týždeň, hoci v úzadí sa jeho kapacity využívajú už od roku 2022. Do kontaktu s ním môžete prísť napríklad pri používaní funkcie ChatGPT, ktorá umožňuje počúvanie hlasových príkazov a generovanie hlasových odpovedí.
Po novom je Voice Engine prezentovaný ako samostatný model, ktorý dokáže až strašidelne presvedčivo replikovať ľudské hlasy. O jeho kapacity sa spoločnosť podelila vo forme audio nahrávok, ktoré nájdete na jej oficiálnej stránke.
Pôvodná nahrávka:
Vygenerovaná nahrávka:
Ako je možné niečo také využiť?
Istotne mnohým po prečítaní predošlých odsekov prídu na rozum obavy z toho, ako môže byť nová technológia zneužitá. A hoci nemôžeme s istotou povedať, že k niečomu takému nikdy nedôjde, skutočný úmysel systému Voice Engine je úplne iný.
V súčasnosti ho testuje napríklad Age of Learning, čo je americká digitálna platforma zameraná na výučbu. Tá ho v kombinácii s GPT-4 používa napríklad na vysvetľovanie látok z rôznych odborných predmetov, ako sú matematika, chémia či fyzika. Študentom tak môžu byť dôležité poznatky hovorené hlasom, ktorý im je najviac sympatický.
A to nie je všetko. Voice Engine môže byť taktiež použitý na výučbu cudzích jazykov. Systém totiž dokáže na základe nahrávky hovoriť požadovaný obsah v inom jazyku. V tomto smere ho testuje spoločnosť HeyGen, ktorý umožňuje vytváranie videí s ľudskými avatarmi.
Umelá inteligencia sa pritom snaží zachovávať črty originálnej hlasovej stopy. Napríklad keď je požiadaná o preklad hlasu anglicky hovoriaceho človeka do španielčiny, text odznie v španielčine, avšak s prízvukom.
Pôvodná nahrávka:
Vygenerovaná nahrávka:
Nateraz Voice Engine ako samostatný model nie je prístupný širokej verejnosti, a to kvôli obavám z možného zneužitia. Práve v tomto období je v Spojených štátoch riziko zneužitia celkom vysoké, keďže tu o pár mesiacov dôjde k dôležitým prezidentským voľbám. Záškodníci by mohli zneužiť hlasové nahrávky kandidátov na zneuctenie iných kandidátov či na nekalú propagandu.