OpenAI testuje model, který ukradne hlas za patnáct vteřin. Rozlišili byste člověka od robota?
Umělá inteligence Voice Engine na základě krátké nahrávky řekne hlasem řečníka v podstatě cokoliv. Jak přesvědčivá je, můžete posoudit sami.
Koncem ledna desítkám tisíc lidí v americkém státě New Hampshire zazvonil telefon. Pokud se odvážili hovor od neznámého čísla zvednout, čekalo je překvapení: hovořil k nim totiž hlas amerického prezidenta Joea Bidena. Jenže to ve skutečnosti nebyl on, ale podvržený syntetický hlas, který je nabádal, aby nechodili k volbám. Řeč je totiž další lidskou činností, na kterou si brousí zuby generativní umělá inteligence. A společnost OpenAI nedávno představila model Voice Engine, kterému stačí pár vteřin nahrávky originálního hlasu, aby ho přiměl říct vlastně cokoliv.
Stejně jako AI generátory textu (jako jsou ChatGPT nebo Claude), obrazu (Midjourney či DALLE) nebo videí (Sora), i Voice Engine funguje na základě textového zadání. K němu navíc potřebuje i patnáctivteřinovou nahrávku lidského hlasu. Z těchto dvou ingrediencí pak připraví výrok v podstatě o čemkoliv, a navíc ho v případě potřeby zvládne přeložit do jiného jazyka.
OpenAI tento model, který oficiálně představila koncem minulého týdne, v určitých podobách používá už od konce roku 2022. Aktuálně s ním běžný uživatel přijde do styku ve známém textovém generátoru ChatGPT, kde se stará o funkci, jež programu umožňuje poslouchat mluvená zadání a zároveň i hlasově odpovídat.
Technologický startup Sama Altmana ale nyní zveřejnil i ukázky audio nahrávek vytvořených tímto programem. Níže tak na syntetických záznamech o délce dvacet až třicet vteřin můžete posoudit, jestli byste dokázali rozeznat originál od promluvy vytvořené umělou inteligencí.