OpenAI testuje model, který ukradne hlas za patnáct vteřin. Rozlišili byste člověka od robota?

Umělá inteligence Voice Engine na základě krátké nahrávky řekne hlasem řečníka v podstatě cokoliv. Jak přesvědčivá je, můžete posoudit sami.

Jiří BlatnýJiří Blatný

openaihlas

Foto: Midjourney / CzechCrunch

Generativní umělá inteligence dokáže stále přesvědčivěji replikovat lidský hlas

0Zobrazit komentáře

Koncem ledna desítkám tisíc lidí v americkém státě New Hampshire zazvonil telefon. Pokud se odvážili hovor od neznámého čísla zvednout, čekalo je překvapení: hovořil k nim totiž hlas amerického prezidenta Joea Bidena. Jenže to ve skutečnosti nebyl on, ale podvržený syntetický hlas, který je nabádal, aby nechodili k volbám. Řeč je totiž další lidskou činností, na kterou si brousí zuby generativní umělá inteligence. A společnost OpenAI nedávno představila model Voice Engine, kterému stačí pár vteřin nahrávky originálního hlasu, aby ho přiměl říct vlastně cokoliv.

Stejně jako AI generátory textu (jako jsou ChatGPT nebo Claude), obrazu (Midjourney či DALLE) nebo videí (Sora), i Voice Engine funguje na základě textového zadání. K němu navíc potřebuje i patnáctivteřinovou nahrávku lidského hlasu. Z těchto dvou ingrediencí pak připraví výrok v podstatě o čemkoliv, a navíc ho v případě potřeby zvládne přeložit do jiného jazyka.

OpenAI tento model, který oficiálně představila koncem minulého týdne, v určitých podobách používá už od konce roku 2022. Aktuálně s ním běžný uživatel přijde do styku ve známém textovém generátoru ChatGPT, kde se stará o funkci, jež programu umožňuje poslouchat mluvená zadání a zároveň i hlasově odpovídat.

Technologický startup Sama Altmana ale nyní zveřejnil i ukázky audio nahrávek vytvořených tímto programem. Níže tak na syntetických záznamech o délce dvacet až třicet vteřin můžete posoudit, jestli byste dokázali rozeznat originál od promluvy vytvořené umělou inteligencí.

Nastartujte svou kariéru

Více na CzechCrunch Jobs

Učitel na míru

Systém od OpenAI testuje například americká digitální výuková platforma Age of Learning. Nový program Voice Engine a GPT-4 používá třeba k vytváření personalizovaných interakcí se studenty, vysvětlují vývojáři hlasového modelu.

Nejen fyziku, ale i chemii, matematiku nebo jakékoliv jiné téma žákům díky technologii může přiblížit jeden jediný hlas. Látku, se kterou mají žáci problém, jim tak může vykládat „člověk“, který je jim sympatický a věří mu.

Původní zvuková stopa

Výklad o fyzice od AI


Zdroj: OpenAI

Konec výuky cizích jazyků?

Voice Engine navíc zvládne na základě původního hlasu požadovaný obsah přeložit i do jiného jazyka. Překlad mluveného slova od OpenAI aktuálně testuje další americká společnost HeyGen, která umožňuje vytvářet videa s mluvícími lidskými avatary.

Při překladu model umělé inteligence podle OpenAI zachovává přirozený přízvuk původního mluvčího. Například při generování anglické promluvy s originálním zvukovým vzorkem od francouzsky hovořícího člověka vznikne anglický výrok s francouzským přízvukem a naopak. Sytém od OpenAI zvládne mluvu podle dostupných ukázek kromě francouzského jazyka přeložit do španělštiny, němčiny, japonštiny nebo do mandarínské čínštiny.

Původní promluva v angličtině

Překlad do francouzštiny od AI


Zdroj: OpenAI

Jak je slyšet, promluvy vytvořené umělou inteligencí jsou v podstatě k nerozpoznání od těch opravdových. Což má i stinnou stránku. Kdy – a jestli vůbec – OpenAI službu Voice Engine spustí pro širokou veřejnost, zatím neuvedla. Je prý opatrná kvůli potenciálnímu zneužití technologie. Že to nejsou jen plané obavy, se už ukázalo během v úvodu zmíněného případu telefonátů falešného Joea Bidena.

I plameňák skřížený se žirafou. Režiséři zkouší, jaká videa umí generovat umělá inteligence od OpenAI

Stále to jsou krátké snímky s délkou asi jedné minuty. Jak se ale můžete přesvědčit sami, už to jsou videa, jejichž příběh a střih může dávat smysl.

Jiří BlatnýJiří Blatný

sora-zirafa

Reprofoto: OpenAI

Generátor Sora vytvořil video z netradičního safari

0Zobrazit komentáře

Kvůli použití umělé inteligence (AI) u filmu se koncem minulého roku stávkovalo v Hollywoodu, zaměstnanci chtěli od studií garanci, že je technologie nenahradí. Že se při pohledu na stále přesvědčivější klipy jejich obavám nelze divit, to nedávno všem opět připomnělo OpenAI. Startup, který stojí za populárním textovým generátorem ChatGPT, ve spolupráci s filmovými režiséry připravil další ochutnávku toho, co dokáže jeho generátor videí Sora, jehož představením firma ohromila v únoru.

Létající prasátka, pán se žlutým balónem místo hlavy nebo plovoucí auto jako z Jamese Bonda, to je jenom ochutnávka z toho, co v krátkých filmech, které mají v průměru okolo minuty, lze zahlédnout. Celé klipy vytvořila generativní umělá inteligence. Uživatelsky funguje generátor Sora stejně jako její textoví a obrazoví sourozenci: člověk napíše zadání a systém mu odpoví, v tomto případě videem. Konkrétní výtvory si můžete prohlédnout níže, všechny jsou ke zhlédnutí na blogu OpenAI.

Hlavou v oblacích

Jako první je tu video s názvem Air Head od trojice autorů z Toronta, která si říká shy kids. Kromě filmové tvorby jsou tito Kanaďani i hudební kapelou, mají za sebou tvorbu reklamy třeba pro hudební streamovací službu Spotify nebo seznamovací aplikaci Tinder a sami sebe na svém webu popisují jako „punkrockový Pixar“. Právě u amerického studia a jeho animovaného hitu Vzhůru do oblak se možná inspirovali, když tvořili zadání pro generátor Sora.

Jako otočná hlava Kafky v Praze

Další klip je z klávesnice osmatřicetiletého amerického režiséra Paula Trilla, který má ve Spojených státech na svědomí třeba reklamy pro T-Mobile, Microsoft nebo Starbucks. Kromě toho tvoří i hudební videoklipy, kterých si všiml třeba časopis Rolling Stone.

Pán času a auto Jamese Bonda

Jestli v produkční agentuře Native Foreign sledují filmy s agentem 007 nebo legendární britský seriál, to nevíme. V klipu, který si se Sorou vzal na starosti kreativní ředitel agentury nominované na cenu Emmy Nik Kleverov, je ale zdroj inspirace patrný. Firma má za sebou kampaň pro americkou baseballovou ligu MLB nebo řetězec rychlého občerstvení Subway.

Tak trochu jiné safari

Už jste někdy přemýšleli, jak by vypadal plameňák zkřížený se žirafou? Nebo prase, které umí lítat? Nejspíš ne. Teď to ale díky video generátoru přeci jen můžete zjistit. Na trochu netradiční safari vás totiž zavede klip od tvůrce Dona Allena, který začínal v animačním studiu DreamWorks a kromě tvorby videí také vystupuje v rámci konferencí TEDx.