Ukradnout něčí identitu stojí pár korun. Nový generátor videí vás vtělí do celebrity i politika, etiku neřeší
Nástroj Kling AI Motion Control zvládne přenést váš pohyb na fotografii libovolné osoby za méně než pět minut a cenu srovnatelnou s šálkem kávy.
Představte si, že zrovna projíždíte sociální sítě a najednou se vám naskytne pohled, jemuž se vám nechce ani věřit. Prezident Spojených států si na jednom z vám doporučovaných videí v dresu fotbalového týmu Real Madrid ladně pohupuje boky do rytmu popové odrhovačky. Na hlavě mu přitom skáčou jemné blonďaté vlasy a do čočky mobilu, který na něj míří, dělá koketní grimasy.
Než se stihnete vzpamatovat, algoritmus vám naservíruje další šok. Mladík vystupující pod přezdívkou Nikras si v něm pobrukuje populární singl Too Sweet v podání irského interpreta Hoziera, přičemž se každých deset sekund plynule promění v jiného herce z populárního seriálu Euphoria. Na první pohled to vypadá jako drahé, profesionálně sestříhané video, které muselo vzniknout po složité domluvě s americkými castingovými agenturami. Realita dnešních dnů je ale úplně jiná.
Stejně jako se Donald Trump ve fotbalovém dresu s největší pravděpodobností nenatáčí při tanečních kreacích, ani uživatel Nikras se se slavnými seriálovými herci osobně nesešel. Obě tato videa mají totiž společného jmenovatele. Vznikla pomocí nástroje Kling AI Motion Control, překvapivě levného generátoru videí poháněného umělou inteligencí. Ten na jedné straně slouží jako neuvěřitelně šikovná hračka pro kreativce, na straně druhé představuje nástroj, který se ve špatných rukou může snadno stát nebezpečnou zbraní.
Abychom pochopili zajímavost funkce v aplikaci Kling AI, musíme se nejprve podívat na to, jak motion capture funguje v klasickém filmovém průmyslu. Hollywoodský přenos pohybu má totiž několik fází. Živý herec musí přijít na plac, obléknout si speciální oblek posetý desítkami reflexních markerů a technici kolem něj rozmístí do půlkruhu soustavu drahých kamer. Celý tým pak stráví dlouhé hodiny složitou kalibrací ještě předtím, než vůbec poprvé zazní povel „Akce!“.
Nástroj Kling AI se tímto složitým procesem inspiroval a svým způsobem jej zdemokratizoval. Pokud si dnes chce kdokoli vyzkoušet, jaké to je mít pod kontrolou cizí pohyb, nepotřebuje pronajaté studio ani tým expertů. Čínskému nástroji stačí obyčejné video natočené na telefon. Kvalitám špičkového motion capture, jaké známe z filmového plátna nebo herního průmyslu, se zatím nevyrovná. Může však naznačovat směr, kterým se bude tento typ videotvorby v budoucnu ubírat.
Nová tvář na pár kliknutí
Kling AI není žádný záhadný software dostupný pouze technologické elitě. Je to webová aplikace, za kterou stojí společnost Kuaishou, obrovský čínský technologický kolos a přímý rival známé sociální sítě TikTok od firmy ByteDance.
S funkcí aplikace, která aktuálně budí největší rozruch, se pracuje snadno. Není potřeba nic instalovat ani složitě nastavovat, stačí se přihlásit do webového rozhraní a můžete začít pracovat. Do systému nahrajete referenční video, tedy běžný záznam pohybu, který chcete přenést. K němu připojíte statickou fotografii postavy, na niž se má animace aplikovat. Umělá inteligence se postará o zbytek.
Aplikace nabízí několik úrovní předplatného. Základní tarif vyjde na 10 dolarů (zhruba 200 korun) měsíčně a zahrnuje 660 kreditů. Vytvoření jednoho videa s motion capture přitom spotřebuje přibližně 150 kreditů, takže v rámci základního balíčku pořídíte asi pět videí. Náročnější uživatelé mohou sáhnout po verzi Pro za 37 dolarů (zhruba 750 korun) měsíčně, která nabízí tři tisíce kreditů, tedy přibližně dvacet videí.
I my jsme si Kling vyzkoušeli. Celý postup jeho použití je až odzbrojujícím způsobem přímočarý. Stačí zapnout kameru na chytrém telefonu, zamávat do objektivu, vypláznout jazyk, trochu si zatancovat nebo si zahrát na seriózního televizního moderátora. Zkrátka předvést jakýkoli pohyb, který chcete na jinou postavu přenést, a video následně nahrát do webového rozhraní.
Poté už jen vyberete fotografii bytosti nebo osoby, kterou se chcete na chvíli „stát“, stisknete tlačítko pro generování a během pěti až osmi minut si můžete prohlédnout hotový výsledek.
Nástroj vám nijak nebrání v tom, abyste použili fotografii kohokoliv na světě. Je mu naprosto jedno, jestli nahrajete obrázek všemi milovaného filmového zlobra Shreka, protagonisty videoherní série Resident Evil Leona Kennedyho, slavné popové hvězdy Billie Eilish, nebo třeba samotného prezidenta. Platforma prostě mechanicky vezme pohyb z vašeho videa a bez jakýchkoliv zbytečných otázek ho přenese na postavu z dodané fotografie.
Vidět Billie Eilish jak gestikuluje, máchá rukama a dělá přesně to, co si uživatel přeje, je ve výsledku dost mrazivé. Záběry totiž připomínají, že vidět už dávno nutně neznamená vědět. Nástroj jako Kling AI lze totiž velmi snadno zneužít k vytváření lživého či manipulativního obsahu. A přestože technologie zatím není zdaleka dokonalá, může být dost přesvědčivá na to, aby diváka zmátla. Zejména pak takového, který není na podobné digitální triky zvyklý.
Ženský model na mužskou tvář zatím nesedí
Přesto jsme při redakčním testování narazili na několik opakujících se slabin. Pokud například v referenčním videu držíte v jedné ruce telefon a část končetiny se ocitne mimo záběr, umělá inteligence si s takovou situací často neví rady. Výsledkem bývá nepřirozené zalomení, „rozpadlá“ dlaň nebo zcela chybějící část paže.
Podobný problém nastává i ve chvíli, kdy má postava, do níž se chce uživatel „vtělit“, na výsledném videu v ruce nějaký předmět, ať už jde o běžnou rekvizitu, nebo třeba nůž. Aplikace může tento detail chybně interpretovat, předmět deformovat, násobit, nebo jej naopak zcela ignorovat. Právě práce s rukama a objekty tak zatím zůstává jednou z nejviditelnějších slabin jinak zajímavého systému.
Pokud mužský model coby zdroj pohybu pohání ženskou postavu na dodané fotografii, umělá inteligence se velmi křečovitě snaží naroubovat mužskou postavu a pohyby na ženský portrét, což platí i naopak. Tento nesoulad bývá nejvíce patrný třeba na změně tvaru čelisti modelů, jiného tvaru očí nebo na šířce ramen.
Když jsme zkoušeli přenést pohyby redaktorky na postavu hradního pána z reality show Zrádci, kterého ztvárňuje Vojta Kotek, výsledek působil spíš tragikomicky než přesvědčivě. Vousatý herec má přirozeně ostřejší rysy, které si s jemnější a plynulejší ženskou mimikou příliš nerozuměly. Rozdíl ve tvaru očí i stavbě obličeje způsobil, že se výsledná tvář ve vygenerovaném videu nepřirozeně kroutila a místy až deformovala. Naopak v případě Haliny Pawlowské nebo animované postavy Shreka byly výsledky až podezřele dobré.
Software má zjevně potíže i s rychlostí pohybu. Při prudkých otočkách hlavy nebo jiných extrémních gestech se rysy obličeje začnou doslova rozplývat, případně se plynule proměňují v někoho jiného. Jako by postava uprostřed pohybu zapomněla, čí tvář si vlastně „vypůjčila“.
Nastartujte svou kariéru
Více na CzechCrunch JobsA důležitá je také technická kvalita záznamu. Pokud zdrojové referenční video či snímek, z nějž si chce člověk vypůjčit tvář, nemá dostatečnou kvalitu, synchronizace pohybu rtů s případným zvukem se ošklivě rozjede. Není to však vyloženě systémová chyba, ale spíše technická specifikace, na kterou tvůrci Kling AI sami upozorňují.
Pro samotné tvůrce nabízí Kling AI na výběr z několika úrovní detailu a kontroly. V základu si vystačíte s režimem pro běžné pohyby jako chůze či mluvení. Pokud ale potřebujete zachovat čisté textury vlajících vlasů, zvířecí srsti nebo detailních záhybů na oblečení, software nabízí i pokročilá, ale i dražší, nastavení.
Stejně tak si můžete vybrat, zda vám postačí statický záběr, nebo zda chcete složitější dynamiku. Nástroj totiž dokáže napodobit i profesionální kamerové pohyby a filmová přiblížení, takže výsledek nepůsobí jako laciný záznam z webkamery, ale spíše jako stylizovaná filmová scéna.
Více než filmové tvůrce však zatím technologie přitahuje influencery a reklamní společnosti. Vidí v ní další cestu, jak zlevnit produkci a zrychlit tvorbu obsahu bez nutnosti nákladného natáčení.
Kling AI Motion Control je tak technologicky zajímavá a relativně dostupná hračka, která může, pokud se s ní člověk naučí pracovat, šetřit čas i peníze. Zároveň ale představuje další důvod, proč být na internetu obezřetnější. V době, kdy lze realisticky rozpohybovat téměř kohokoli, totiž přestává platit, že co vidíme, je automaticky pravda.







