Oživil jsem svoji kočku a otevřel Apple Store v Olomouci. Otestovali jsme umělou inteligenci Sora
Do Evropy včetně Česka dorazila umělá inteligence Sora, která je schopná generovat video. Vyzkoušeli jsme, co umí a kde jsou její limity.
Před časem jsem viděl epizodu Black Mirror s názvem Přijdu hned. Hlavní hrdinka v ní přijde o svého milovaného přítele. Velmi kvůli tomu trpí, jistou útěchu jí ale přinese umělá inteligence, která podle příspěvků na sociálních sítích a záznamů soukromých konverzací dokáže vygenerovat virtuální nápodobu zemřelého. A to včetně jeho hlasu i podoby. Ovšem ne bez chyb. Když jsem zkoušel generovat videa v Soře, která právě dorazila do Česka, na tu epizodu jsem si vzpomněl.
Umělá inteligence z dílny OpenAI dokáže generovat videa podle nahraných obrázků, takže mě rychle napadlo použít starší fotografii mojí kočky. Pak stačilo doplnit krátké zadání – „Kočka se rozhlíží kolem, hledá myš“. Asi o minutu později jsem dostal dvě desetivteřinová videa milované Laury, jak chodí v trávě, mává chundelatým ocasem a něco hledá. Jako skutečná kočka. Vlastně to je skutečná kočka, jen zachycená na videu v momentu, který se ve skutečnosti nestal.
Etické otázky kolem umělé inteligence – ať už co se týče zdrojů pro její učení, nebo konečných výstupů – se teprve začínají řešit a do budoucna budou jen čím dál relevantnější. V současnosti je to ale hlavně zajímavý kreativní nástroj s obrovským potenciálem.
Firma, která stojí také za chatbotem ChatGPT a generátorem obrázků DALL-E, Soru poprvé představila loni v únoru prostřednictvím série krátkých klipů. O měsíc později už přišly krátké filmy vytvořené ve spolupráci s profesionálními režiséry a například v Hollywoodu se začalo debatovat o tom, jak dlouho ještě budou potřeba klasické rozsáhlé ateliéry nebo drahé výjezdy na lokace.
Od počátku loňského prosince pak mohli videa generovat také běžní uživatelé, když se jeden z momentálně nejpokročilejších nástrojů umělé inteligence zpřístupnil veřejnosti ve vybraných zemích. O pár měsíců později si teď může Soru v plné funkcionalitě vyzkoušet i Evropa. Nástroj nabízí poměrně široké možnosti práce se zadáními i následnými dodatečnými úpravami.
Nastartujte svou kariéru
Více na CzechCrunch JobsPo přihlášení do Sory, která sdílí účet s ostatními nástroji OpenAI, dostane uživatel výběr nejzajímavějších vygenerovaných videí, a hned ve spodní části obrazovky se vznáší lišta pro vlastní zadání. Stačí jen krátce popsat požadovanou scénu a začít generovat, nebo můžeme zvolit detailnější nastavení. Na výběr je poměr stran výsledného videa, rozlišení od 480p až do 1080p, délka 5, 10, 15 nebo 20 vteřin, a počet variací – 1, 2 nebo 4 videa.
Samotné zadání může mít formu věty, několika slov nebo jen výčtu požadavků – například „podivně lidská humanoidní mainská mývalí kočka, tančící tiktokový taneček“. Pochopitelně čím detailnější popis, tím přesnější výsledek. Pro komplexnější výstupy přitom můžeme využít Storyboard, kde je možné popsat sérii několika krátkých scén a vytvořit tak celý dvacetivteřinový film.
Velice zajímavou možností je pak nahrávání vlastních zdrojů (obrázků, fotografií i videí), se kterým Sora dále pracuje – jako jsem to udělal já se svojí kočkou. Před nahráním musíme pochopitelně odsouhlasit, že na dané materiály máme plná autorská práva, že neobsahují explicitní záběry a že osoby, které zachycují, nám k použití daly svolení. OpenAI se tak snaží předejít – nebo spíše právně ochránit – vzniku videí jako je klip s celebritami ukazujícími prostředník rapperovi Kanye Westovi.
Já si při testování nejdříve vystačil s fotografií kočky a jednoduchým popiskem. Ve druhém jsem zkusil složitější situaci, otevření Apple Storu v Olomouci. Přesné zadání znělo: „Krátká reportáž z otevření prvního Apple Storu na Horním náměstí v Olomouci. Prodejna je začleněná mezi staré budovy a zapadá do místní architektury. V oknech jsou viditelná loga Applu, před prodejnou čeká dlouhá řada lidí a u vchodu jsou tleskající zaměstnanci Applu v modrých tričkách.“
Výsledek je na první pohled velmi přesvědčivý, jako by do města skutečně dorazila prestižní prodejna. Při bližším pohledu je ale snadné najít chyby – je dobře známé, že umělá inteligence si neumí poradit s textem, takže Apple Store přejmenovala na Alolacplle Store. Chráněnou obchodní značkou to není, jelikož logo firmy s nakousnutým jablkem je správně. Dále se někteří lidé pohybují velice zvláštně a ve skupinkách dokonce splývají dohromady.
Ve třetím příkladu jsem použil nejdetailnější zadání, které pak Sora sama vyhodnotila jako Storyboard. Znělo takto: „Toto je Blade Runner v Praze. Je noc, těžký vzduch je plný smogu a deště. Kamera zachycuje široký záběr Karlova mostu a okolního města ponořeného do neonových světel, v dálce je vidět budova překrytá obřím billboardem s videoreklamou na Coca-Colu. Z tohoto záběru pak kamera zazoomuje do středu akce na Karlově mostě.
Prochází po něm několik lidí s průhlednými deštníky, na nichž je vidět odrazy světel. V jedné plynulé jízdě kamera sleduje dva běžící muže. Jeden z nich je třicátník, má maskulinní tvář s pár oděrkami. V jeho očích je vidět strach, má na sobě futuristické oblečení. Následuje ho druhý muž s klidnou tváří – je to zjevně profesionál, který se nepoddává emocím vypjaté situace. Má na sobě futuristický dlouhý kabát a v ruce má zbraň.“
Mojí snahou bylo vytvořit jeden efektní záběr, v němž kamera přechází z velkého celku na detail dění na mostě a uvede nás do dramatické scény. Umělá inteligence si celý popis rozdělila do čtyř krátkých scén, u nichž ovšem poměrně výrazně pokulhává kontinuita. Estetika je sice jednotná, počítač ale zcela nepochopil, jak má vypadat honička. Ze dvou nahánějících se mužů se stal jeden, který zmateně pobíhá tam a zpátky, a navíc při tom vypadá, jako by kulhal. Deštník má jaksi připevněný k hlavě a v ruce se mu objevuje a zase mizí zbraň.
Prostředí sice nepůsobí tak kyberpunkově, jak jsem si představoval, v tomto ohledu je ale výsledek velice dobrý a přesně splňuje zadání. V další fázi bych mohl poupravit zadání a doplnit další detaily nebo využít funkci „Remix“, která umožňuje specifikovat změny navíc a vygenerovat video znovu. Pokud bych chtěl, mohu si také z několika získaných výstupů přímo v Soře sám sestříhat klip, který by až na obrazové chyby dával smysl.
Vzhledem k délce získaných videí a jejich mnohdy zcela zjevných nedostatcích se nemusíme obávat, že by v blízké době Instagram, TikTok nebo YouTube zaplavily křemíkové halucinace nerozeznatelné od skutečnosti. Už nyní je Sora nicméně nástroj, který lze kreativně využít – například v reklamě a nízkonákladové produkci videí třeba pro vytváření pozadí a nahrazení klipů z videobank. Nebo pro oživení našich miláčků a blízkých. Profesionální produkce by ji mohla použít pro vytváření náhledů a konceptů před natáčením.
Sora je dostupná platícím zákazníkům OpenAI. Předplatné ChatGPT Plus s cenovkou 20 dolarů (480 korun) měsíčně zahrnuje možnost vygenerovat 50 videí při rozlišení do 720p a délce do 10 vteřin. ChatGPT Pro, které vyjde na 200 dolarů (4 800 korun) měsíčně, otevře plné možnosti Sory – dovolí vygenerovat až 500 klipů za měsíc v rozlišení 1080p a délce 20 vteřin.