Kvůli článku jsme prohodili redaktora oknem. Nový nástroj přemění „čmáranice“ na filmové záběry

Startup Higgsfield představil novinku: k vytvoření videa pomocí AI už nepotřebujete složité textové příkazy. Stačí jen nakreslit, co chcete vidět.

higgsfield
Foto: Higgsfield AI
Fotografie vygenerovaná pomocí aplikace Higgsfield
0Zobrazit komentáře

Že se umělá inteligence vyvíjí zběsilým tempem a každý den nás přibližuje chvíli, kdy jen těžko rozeznáme skutečné video od toho umělého, dnes málokoho zaskočí. Stejně tak už není novinkou, že stačí do AI aplikací nahrát fotografii a program ji velmi přesně promění v pohyblivý obraz, který lze na povel zaplnit nejrůznějšími speciálními efekty. A přesto se vývojářům ze společnosti Higgsfield AI podařilo překvapit.

Generativní umělá inteligence pro tvorbu videí dosud spoléhala na sepsané textové prompty – tedy detailní písemné instrukce. Tvůrci tak často trávili hodiny laděním formulací, aby se ve výsledném videu objevilo přesně to, co chtěli. Chtěli kočku? Museli slovně popsat, kde se objeví, kudy projde, jak se bude pohybovat… a i tak si občas dělala, co chtěla. To by však podle vývojářů z americké společnosti Higgsfield AI mohlo skončit.

Startup specializující se na generování videí minulý týden představil nástroj Draw-to-Video. Ten umožňuje tvůrcům pracovat s umělou inteligencí způsobem, který připomíná režii při natáčení filmu. Místo herců však pokyny dostává samotná AI.

Princip nástroje je jednoduchý. Stačí nahrát vlastní obrázek nebo si nechat vygenerovat nový. Do fotografie pak uživatel načrtne, co se má odehrát – nakreslí třeba šipku určující směr pohybu, kroužek zvýrazňující důležitý objekt a doplní poznámku typu „rozbije se“ s čárou vedoucí k předmětu, který čeká na svou zkázu. Zbytek zařídí program, který statickou scénu promění v animaci a nakreslené značky převede na živou akci. Má postava přejít na obrázku zprava doleva? Stačí tah prstem či myší.

Nový nástroj je zatím dostupný jen pro předplatitele a nejlevnější tarif vychází přibližně na šest set korun měsíčně. V redakci jsme jej vyzkoušeli v praxi a rozpohybovali nejen prostředí, ale i detailní snímky předmětů a lidských tváří. Umělá inteligence reagovala na nakreslené pokyny okamžitě.

Aplikace umí generovat videa v rozlišení od základních 512p až po plnohodnotné 1080p. Vyzkoušeli jsme obě možnosti a i ta nejúspornější varianta dokáže příjemně překvapit. Na fotografii keramické kasičky ve tvaru prasete jsme nakreslili šipku a doplnili pokyn „kočka shodí předmět“. Program do minuty vytvořil záběr, který působil naprosto realisticky.

V následujícím testu jsme aplikaci postavili před složitější úkol: další scénář kočičího terorismu, tentokrát v podobě hromadného útoku na gauč. Musela zvládnout hned čtyři po sobě jdoucí instrukce, což je o jednu víc, než doporučují sami vývojáři. Ti totiž radí držet se při zemi, aby výsledná videa zůstala uvěřitelná a systém se neutopil v halucinacích, ke kterým má při zahlcení příkazy sklony.

Nejprve ve videu mělo prasknout okno, poté se do místnosti měla přiřítit skupina koček a pustit se do demolice pohovky. Pak by spadlo logo CzechCrunche ze zdi a celé představení by zakončily vzplanuté závěsy. Umělá inteligence vše splnila, bylo však znát, že více úkolů jí dalo zabrat. Prasknutí skla působilo nepřirozeně a dvě kočky, které měly pohovku napadnout, se při přeskoku záhadně rozmnožily na čtyři – jak se ostatně můžete přesvědčit ve videu níže.

Nastartujte svou kariéru

Více na CzechCrunch Jobs

Platforma využívá ke generování videí hned několik modelů umělé inteligence, z nichž každý má své silné stránky i cenovou náročnost. Veo 3 například disponuje vestavěnými audio funkcemi a umí synchronizovat pohyb rtů s hlasem. Za tuto technickou vyspělost si ale uživatelé připlatí, jeden záběr v nejvyšší kvalitě stojí zhruba 150 kreditů. A protože předplatitelé verze Pro mají k dispozici 600 kreditů měsíčně, každý výstup se v jejich „virtuálním rozpočtu“ projeví.

Na druhé straně mají zájemci k dispozici také nástroj Hailuo 02, který je výrazně levnější a hodí se pro rychlé, dynamické záběry. Jeden takový tu lze vytvořit v plné kvalitě už za 15 kreditů. Seedance Pro, další z dostupných modelů, se zase specializuje na ostré video ve vysokém rozlišení a cenově se pohybuje podobně jako Hailuo.

Google Veo 3 je v oblasti audia skutečně nepřekonatelný. Dokáže postavám ve videu vložit do úst téměř jakýkoli dialog a pohyb rtů působí přirozeně. Prostředí si navíc i v nejvyšší kvalitě zachovává celistvost, objekty se nerozmazávají ani nedeformují a efekt vysypaného skla v jeho provedení vypadá až překvapivě realisticky.

Slabší stránkou nástroje z dílny Googlu zůstává samotný pohyb, který působí trochu strnule. Když náš virtuální redaktor proskočí oknem, aby stihl ranní poradu, pohodlně se usadí na gauči, jako by se nic nedělo. Za jeho zády se pak zčistajasna objevují polštáře, které tam předtím nebyly. A firemní logo, jež se při dopadu sesype ze stěny, se v půli pádu z neznámých důvodů promění v obálky.

Podstatně levnější Hailuo 02 se v případě akčnější scény ukázalo být lepší volbou. Když postava narazí do skleněného okna, zdá se, že jej skutečně proráží vlastní vahou, a celé prostředí na to adekvátně reaguje. Přestože se v rohu rozpohybované fotografie lehce „prohýbá“ redakční PlayStation 5, záběr jako celek působí bez ohledu na horší rozlišení a absenci zvuku živěji a uvěřitelněji než u dražších variant.

My jsme nástroj využili hlavně k experimentům a zábavným pokusům, jeho potenciál ale sahá mnohem dál. Například v prostředí filmových a televizních studií by se mohl stát prostředkem, jak během okamžiku proměnit storyboardy – tedy jednoduché obrázkové náčrty scén, které režiséři a štáby používají k plánování filmů – ve věrohodně působící animace. A navíc během několika minut.