Youtuber Standa vydal píseň od umělé inteligence. Podle lidí je to brak a mají pravdu, říká a slibuje album

„Neukazuje to jen výkonnost technologie, ale i nekvalitu české mainstreamové hudby,“ říká o singlu Stanislav Hruška, zakladatel platformy Talk TV.

Jiří BlatnýJiří Blatný

standashow

Foto: StandaShow

Youtuber Stanislav Hruška

0Zobrazit komentáře

Je bubeník amatér, dlouho chtěl založit kapelu, ale nikdy se k tomu nedostal. Sen si plní teď díky umělé inteligenci. Stanislav Hruška, zakladatel platformy Talk TV a youtuber známý jako Standa, vydal song Dobrá banda, který z drtivé většiny složila AI. Přiznává, že si z celé věci tak trochu dělá legraci. S počinem se koneckonců pochlubil na apríla, což je ale načasování údajně čistě náhodné. Singlem ovšem poukázal na trend, proti kterému se v showbyznysu postupně zvedá vlna nevole. A jím to ani nekončí, vznikne celé album umělých písní, říká pro CzechCrunch Hruška.

„Chtěli jsme to udělat co nejrychleji, ale zároveň produkčně kvalitně, protože písničky vytvořené AI jsou trend, který brzo zaplaví sociální sítě,“ vysvětluje čtyřiatřicetiletý bruntálský patriot. Právě ve městě v Moravskoslezském kraji nápad na hudbu říznutou generativní umělou inteligencí vznikl: „Vytvořit základ písničky trvalo asi čtyři hodiny. Dalších osm až dvanáct hodin jsme to dávali dohromady,“ počítá Hruška. Celkem nad singlem Dobrá banda, který si můžete pustit níže, strávili zhruba čtyřicet hodin.

Za všechno může nástroj Suno.ai, jehož umělá inteligence uživatelům umožňuje vytvořit až tříminutovou skladbu podle textového zadání. Hruška a spol. v programu celkem vygenerovali asi sto písní v různých žánrech, až se nakonec rozhodli pro folk. Výslednou skladbu pak „slepovali“ z osmi nejlepších variant. Na Dobré bandě se podílela i bruntálská indie kapela Brixtn.

„Hudba zněla dobře, problém byl s textem. Ten jsme původně měli z ChatGPT, ale nebyl vůbec dobrý,“ směje se Hruška. Výtvor známého textového generátoru od OpenAI tak prý téměř celý přepsali a autorkou textu je nakonec Alžběta Švarcová. Pořád tak platí, že člověk musel být ve středu celého procesu.

To je i případ videoklipu, který za Hruškův tým zatím umělá inteligence nenatočila, byť jsou AI video generátory obecně stále výkonnější. Stejně ale při tvorbě klipu umělou inteligenci využil. V písních z programu Suno.ai je totiž slyšet jen generický hlas a autoři ve skladbě chtěli zpívat sami. Použili tak další nástroj založený na AI s názvem Jammable, který umí zpracovat konkrétní hlas na základě ukázky a poté jím zpívat.

Tady ale Hruškův tým narazil na limity technologie. Zpěv vytvořený pomocí Jammable nezněl dostatečně přesvědčivě. V nahrávce tak sice syntetické hlasy slyšet jsou, ale jsou stažené do pozadí. Podobně jako u psaní textu si autoři nakonec museli vyhrnout rukávy a nahrát vokály postaru s pomocí vlastních hlasivek ve studiu.

Nastartujte svou kariéru

Více na CzechCrunch Jobs

U jedné písně navíc Hruška a jeho tým zřejmě nezůstanou: „Začalo nás to bavit a plánujeme tak udělat album,“ potvrzuje. Kapela Talk, jak si uskupení říká, bude už brzy na Spotify, kam budou postupně přibývat další písně. „Každá skladba bude mít jiný styl, všechno máme promyšlené,“ rozvádí Hruška plány, jejichž součástí je i živý koncert.

Veškeré náklady na aktuální singl podle českého tvůrce, jehož kanál StandaShow má na YouTube 161 tisíc odběratelů, činí deset tisíc korun. Nejdražší položkou byl výrobník mlhy, který tvůrci využili při natáčení videoklipu. „A to počítám i benzín a fakt, že jsem ostatní po natáčení pozval na oběd,“ říká Hruška. Za tak málo peněz má ale docela dost muziky. Během vydání tohoto textu měl videoklip Dobré bandy na síti X přes 157 tisíc zhlédnutí, na YouTube necelých 12 tisíc.

Lidé v reakci na novou píseň zmiňovali třeba to, že je singl na první poslech průměrnou rádiovkou. „Píšou nám, že jsme prostě vytvořili popový brak. A mají pravdu,“ říká Hruška a s nadsázkou dodává: „Příště si v Českém slavíku jdeme pro Objev roku.“ Pokračuje, že lidem ale naopak zatím příliš nevadí, že celá píseň je vlastně reklamou na jeho projekt. Název kapely Talk a text písně Dobrá banda totiž odkazují na Hruškovu podcastovou platformu Talk TV, kterou si zájemci platí formou měsíčního předplatného.

Celý hudební experiment nakonec podle některých reakcí svědčí ještě o další věci: „Nechci urazit hudebníky, ale dá se na to koukat i tak, že to neukazuje jen výkonnost technologie, ale i nekvalitu české mainstreamové hudby,zamýšlí se Hruška, podle kterého se muzikanti, podobně jako další profese, s umělou inteligencí budou muset naučit pracovat, pokud chtějí zůstat relevantní.

CzechCrunch Jobs

CzechCrunch Weekly

V newsletteru Weekly vám každou neděli naservírujeme porci těch nejdůležitějších zpráv, které by vám neměly uniknout.

OpenAI testuje model, který ukradne hlas za patnáct vteřin. Rozlišili byste člověka od robota?

Umělá inteligence Voice Engine na základě krátké nahrávky řekne hlasem řečníka v podstatě cokoliv. Jak přesvědčivá je, můžete posoudit sami.

Jiří BlatnýJiří Blatný

openaihlas

Foto: Midjourney / CzechCrunch

Generativní umělá inteligence dokáže stále přesvědčivěji replikovat lidský hlas

0Zobrazit komentáře

Koncem ledna desítkám tisíc lidí v americkém státě New Hampshire zazvonil telefon. Pokud se odvážili hovor od neznámého čísla zvednout, čekalo je překvapení: hovořil k nim totiž hlas amerického prezidenta Joea Bidena. Jenže to ve skutečnosti nebyl on, ale podvržený syntetický hlas, který je nabádal, aby nechodili k volbám. Řeč je totiž další lidskou činností, na kterou si brousí zuby generativní umělá inteligence. A společnost OpenAI nedávno představila model Voice Engine, kterému stačí pár vteřin nahrávky originálního hlasu, aby ho přiměl říct vlastně cokoliv.

Stejně jako AI generátory textu (jako jsou ChatGPT nebo Claude), obrazu (Midjourney či DALLE) nebo videí (Sora), i Voice Engine funguje na základě textového zadání. K němu navíc potřebuje i patnáctivteřinovou nahrávku lidského hlasu. Z těchto dvou ingrediencí pak připraví výrok v podstatě o čemkoliv, a navíc ho v případě potřeby zvládne přeložit do jiného jazyka.

OpenAI tento model, který oficiálně představila koncem minulého týdne, v určitých podobách používá už od konce roku 2022. Aktuálně s ním běžný uživatel přijde do styku ve známém textovém generátoru ChatGPT, kde se stará o funkci, jež programu umožňuje poslouchat mluvená zadání a zároveň i hlasově odpovídat.

Technologický startup Sama Altmana ale nyní zveřejnil i ukázky audio nahrávek vytvořených tímto programem. Níže tak na syntetických záznamech o délce dvacet až třicet vteřin můžete posoudit, jestli byste dokázali rozeznat originál od promluvy vytvořené umělou inteligencí.

Nastartujte svou kariéru

Více na CzechCrunch Jobs

Učitel na míru

Systém od OpenAI testuje například americká digitální výuková platforma Age of Learning. Nový program Voice Engine a GPT-4 používá třeba k vytváření personalizovaných interakcí se studenty, vysvětlují vývojáři hlasového modelu.

Nejen fyziku, ale i chemii, matematiku nebo jakékoliv jiné téma žákům díky technologii může přiblížit jeden jediný hlas. Látku, se kterou mají žáci problém, jim tak může vykládat „člověk“, který je jim sympatický a věří mu.

Původní zvuková stopa

Výklad o fyzice od AI


Zdroj: OpenAI

Konec výuky cizích jazyků?

Voice Engine navíc zvládne na základě původního hlasu požadovaný obsah přeložit i do jiného jazyka. Překlad mluveného slova od OpenAI aktuálně testuje další americká společnost HeyGen, která umožňuje vytvářet videa s mluvícími lidskými avatary.

Při překladu model umělé inteligence podle OpenAI zachovává přirozený přízvuk původního mluvčího. Například při generování anglické promluvy s originálním zvukovým vzorkem od francouzsky hovořícího člověka vznikne anglický výrok s francouzským přízvukem a naopak. Sytém od OpenAI zvládne mluvu podle dostupných ukázek kromě francouzského jazyka přeložit do španělštiny, němčiny, japonštiny nebo do mandarínské čínštiny.

Původní promluva v angličtině

Překlad do francouzštiny od AI


Zdroj: OpenAI

Jak je slyšet, promluvy vytvořené umělou inteligencí jsou v podstatě k nerozpoznání od těch opravdových. Což má i stinnou stránku. Kdy – a jestli vůbec – OpenAI službu Voice Engine spustí pro širokou veřejnost, zatím neuvedla. Je prý opatrná kvůli potenciálnímu zneužití technologie. Že to nejsou jen plané obavy, se už ukázalo během v úvodu zmíněného případu telefonátů falešného Joea Bidena.