OpenAI testuje model, který ukradne hlas za patnáct vteřin. Rozlišili byste člověka od robota?

Umělá inteligence Voice Engine na základě krátké nahrávky řekne hlasem řečníka v podstatě cokoliv. Jak přesvědčivá je, můžete posoudit sami.

Jiří BlatnýJiří Blatný

openaihlas

Foto: Midjourney / CzechCrunch

Generativní umělá inteligence dokáže stále přesvědčivěji replikovat lidský hlas

0Zobrazit komentáře

Koncem ledna desítkám tisíc lidí v americkém státě New Hampshire zazvonil telefon. Pokud se odvážili hovor od neznámého čísla zvednout, čekalo je překvapení: hovořil k nim totiž hlas amerického prezidenta Joea Bidena. Jenže to ve skutečnosti nebyl on, ale podvržený syntetický hlas, který je nabádal, aby nechodili k volbám. Řeč je totiž další lidskou činností, na kterou si brousí zuby generativní umělá inteligence. A společnost OpenAI nedávno představila model Voice Engine, kterému stačí pár vteřin nahrávky originálního hlasu, aby ho přiměl říct vlastně cokoliv.

Stejně jako AI generátory textu (jako jsou ChatGPT nebo Claude), obrazu (Midjourney či DALLE) nebo videí (Sora), i Voice Engine funguje na základě textového zadání. K němu navíc potřebuje i patnáctivteřinovou nahrávku lidského hlasu. Z těchto dvou ingrediencí pak připraví výrok v podstatě o čemkoliv, a navíc ho v případě potřeby zvládne přeložit do jiného jazyka.

OpenAI tento model, který oficiálně představila koncem minulého týdne, v určitých podobách používá už od konce roku 2022. Aktuálně s ním běžný uživatel přijde do styku ve známém textovém generátoru ChatGPT, kde se stará o funkci, jež programu umožňuje poslouchat mluvená zadání a zároveň i hlasově odpovídat.

Technologický startup Sama Altmana ale nyní zveřejnil i ukázky audio nahrávek vytvořených tímto programem. Níže tak na syntetických záznamech o délce dvacet až třicet vteřin můžete posoudit, jestli byste dokázali rozeznat originál od promluvy vytvořené umělou inteligencí.

Učitel na míru

Systém od OpenAI testuje například americká digitální výuková platforma Age of Learning. Nový program Voice Engine a GPT-4 používá třeba k vytváření personalizovaných interakcí se studenty, vysvětlují vývojáři hlasového modelu.

Nejen fyziku, ale i chemii, matematiku nebo jakékoliv jiné téma žákům díky technologii může přiblížit jeden jediný hlas. Látku, se kterou mají žáci problém, jim tak může vykládat „člověk“, který je jim sympatický a věří mu.

Původní zvuková stopa

Výklad o fyzice od AI


Zdroj: OpenAI

Konec výuky cizích jazyků?

Voice Engine navíc zvládne na základě původního hlasu požadovaný obsah přeložit i do jiného jazyka. Překlad mluveného slova od OpenAI aktuálně testuje další americká společnost HeyGen, která umožňuje vytvářet videa s mluvícími lidskými avatary.

Při překladu model umělé inteligence podle OpenAI zachovává přirozený přízvuk původního mluvčího. Například při generování anglické promluvy s originálním zvukovým vzorkem od francouzsky hovořícího člověka vznikne anglický výrok s francouzským přízvukem a naopak. Sytém od OpenAI zvládne mluvu podle dostupných ukázek kromě francouzského jazyka přeložit do španělštiny, němčiny, japonštiny nebo do mandarínské čínštiny.

Původní promluva v angličtině

Překlad do francouzštiny od AI


Zdroj: OpenAI

Jak je slyšet, promluvy vytvořené umělou inteligencí jsou v podstatě k nerozpoznání od těch opravdových. Což má i stinnou stránku. Kdy – a jestli vůbec – OpenAI službu Voice Engine spustí pro širokou veřejnost, zatím neuvedla. Je prý opatrná kvůli potenciálnímu zneužití technologie. Že to nejsou jen plané obavy, se už ukázalo během v úvodu zmíněného případu telefonátů falešného Joea Bidena.