Od Operace Flashpoint přes hollywoodské filmy až do Warhorse. České eso převádí do digitální podoby lidi, koně i kočky
Štěpán Kment, expert na technologii motion capture ve hrách i filmech
Moderní filmový a herní průmysl se neobejde bez technologie, která umí dokonale zachytit a převést pohyb lidského těla do digitálních filmových efektů nebo herních animací. Takzvaný motion capture je disciplínou, která tvůrcům umožňuje omlazovat herce, vytvářet realisticky vyhlížející mimozemské rasy, skřety a rozpohybovávat herní avatary tak, jako to dělá sama příroda. Vyzpovídali jsme českého experta se zkušenostmi ze světových projektů a garantujeme, že po přečtení rozhovoru pochopíte, proč občas herní postavy zamrzají v divné pozici s roztaženýma rukama nebo kdo může za to, že hlavní boss má v herním filmečku ruce zabořené ve stole.
Česko má na poli motion capture pro zábavní průmysl experta se zkušenostmi jak z legendárních českých her, tak z hollywoodských filmů. Štěpán Kment začínal před dvaceti lety v české videoherní společnosti Bohemia Interactive, pro kterou zpočátku tvořil jako grafik mapy ostrovů do kultovní hry Operace Flashpoint. Dnes působí v herním studiu Warhorse Studios, z jehož dílny pochází populární hra Kingdom Come: Deliverance.
Motion capture neboli jednoduše mocap je systém technik pro zachycení pohybu lidí a jeho převod do digitální podoby. Využívá speciální kamery, které dokáží sledovat zvláštní značky připevněné na tělech skutečných herců. To pak umožňuje převádět pohyby na digitální filmové a herní postavy.
Kromě zábavy našla tato disciplína uplatnění například při tvorbě protéz a ortopedických pomůcek či ve vrcholovém sportu, základních principů využívá například analýza golfových švihů. Motion capture pomáhá ale také s koordinací dronů či analýzou pohybu bublinek v kapalinách.
Nastartujte svou kariéru
Více na CzechCrunch JobsKdyž Štěpán Kment s motion capture začínal, celá technologie byla v plenkách a herní studio Bohemia Interactive ji průkopnicky používalo ke snímání pohybu do animací své vojenské simulace. Kombinací náhody a turbulentních změn jednoho dne na podzim roku 2005 dostal klíče od mocap studia Štěpán, který se rovnou zapojil do vývoje dalších her ze série Arma.
Měl sice vystudované ČVUT, uměl základy 3D grafiky a měl předchozí zkušenosti s profesionálním filmovým videem, ale novou technologii se učil za pochodu metodou pokus omyl. Jak ale sám říká, díky tomuto brutálnímu vhození do vody má motion capture nastudovaný jako málokdo.
Později se v Bohemia Interactive podílel i na řadě filmových projektů, například na snímku Wanted s Angelinou Jolie, a když v roce 2016 přišla nabídka do studia Weta Digital, které je světovou špičkou v oblasti digitálních efektů, neváhal a kývl. Studio stojí za všemi filmy ze světa Pána prstenů, Štěpán Kment se ale účastnil natáčení filmů Alita: Bojový anděl, který je svým způsobem revolučním počinem v oblasti motion capture, a francouzského sci-fi snímku Valerian a město tisíce planet.
Co je hlavním úkolem motion capture?
Typicky dostanu ve filmu nebo ve hře panáka, kterého potřebuji rozhýbat tak, aby se vše podobalo realitě. Zní to triviálně, ale je to poněkud komplikovaný problém, protože v biomechanice jde o souhru obrovského množství pohybů svalů koordinovaných mozkem s roky zkušeností z raného dětství, kdy se dítě učí chodit po dvou. Pohyb se všemi nuancemi se snažím co nejlépe zaznamenat v trojrozměrném prostoru a přenést na kostru cílové postavy.
Jde tedy jednoduše o způsob zachycení reality pohybu, ne o ruční animaci?
Přesně tak, pokud chci do filmu nebo počítačové hry dostat realistický pohyb, proč bych se ho snažil ručně imitovat, když ho mohu jednoduše natočit? Je to levnější, vypadá to lépe a režisér do záběru dostane přesně to, co si odrežíroval na scéně. U animace mnohem častěji záleží na stylu umělce, výsledek je většinou pracný a poněkud nejistý.
Jaký je rozdíl v motion capture pro počítačovou hru a pro film?
Mezi filmem a hrou je největší rozdíl ve svobodě. Ve hrách kvalitu pohybů hráč ocení naplno v příběhových animacích, všude jinde je to z větší části dáno enginem, na kterém hra běží. Herní pohyby jsou typicky skládané z malých kousků, které se neustále opakují, a záleží na enginu, jak dobře dokáže postava při chůzi opisovat oblouky nebo zda musí zastavit, otočit se a zase vyrazit přímo rovně. Například Arma, nástupce hry Operace Flashpoint, měla takových bolístek celou řadu, ačkoliv v dalších oblastech byla velice komplexní.
Nespadnout do neskutečna
Bojují dnes filmy o co nejvyšší uvěřitelnost vizuálních efektů?
Obecně ano, ale je tady jeden zajímavý paradox, do kterého se jako tvůrci nechceme za žádnou cenu dostat. Říkáme mu anglicky „uncanny valley“, tedy údolí neskutečna. Diváci nemají problém sledovat animace, které jsou vysoce stylizované, přehnané, šílené a probíhají ve světě, kde nefunguje fyzika. Realističnost vzhledu a animace postav můžeme postupně zvyšovat, ale diváci to vnímají pozitivně jen do určitého bodu, ve kterém se jejich odezva náhle změní na negativní – postava je téměř jako živá, ale působí jaksi nemocně. Teprve po dalším zlepšení realističnosti dosahujeme už v zásadě fotorealistického vzhledu.
Je nějaký známý příklad pro ilustraci tohoto problému?
Odstrašujícím příkladem je film Polární expres, kde některé z postav vypadaly divně, nemocně, divákům se z filmu dělalo až nevolno. Producenti se proto snaží držet na té bezpečné, pohádkové straně, nebo se dostat na takovou úroveň realističnosti, aby mozek naopak už nedokázal rozdíly odhalit a ideálně věřil všemu, co v záběru vidí. To se povedlo třeba tvůrcům filmu Gemini Man. Nespadnout do údolí neskutečna ale ani dnes není vůbec snadné.
Máme tu ukázku z filmu Alita: Bojový anděl, na kterém ses podílel. Můžeme si rozebrat, jak motion capture probíhá v praxi?
Jasně, určitě to bude lepší vidět. První fází je snímání na place – herci jsou v přiléhavých elastických kombinézách, které jsou posázené kuličkami, markery. Ty mají tu vlastnost, že jsou retroreflexní a odráží paprsek zpět do směru, ze kterého přišel – kamera si tak posvítí na plac jako reflektor auta v noci a světlo se jí vrátí odrazem od markerů. Podobně jako zasvítí chodec s oblečenou bezpečnostní vestou ve světle reflektorů vašeho auta. Markerů používáme různé množství na jednoho herce, někdy čtyřicet, jindy přes padesát, záleží na produkci. Scénu snímáme minimálně osmi kamerami, ale častěji několika desítkami ze všech směrů, abychom zachytili trajektorii jednotlivých bodů v trojrozměrném prostoru.
Co se s daty děje potom?
Ve druhé fázi se všechna data z kamer vezmou, vytvoří se z nich ve virtuálním prostoru pohyblivé body odpovídající původním markerům na place a ty pak řídí pohyb trojrozměrné kostry postavy, která se obleče do zjednodušeného prozatímního avatara, a všechno se ladí, aby to bylo dokonalé pro finální scénu. U těla je toto celkem jednoduché, problém je s mimikou.
Jak se snímá mimika?
Náročně (smích). V té ukázce jde v čase 2:34 vidět, jak má herečka před obličejem dvě kamery a na sobě síť teček. Podobně vznikalo i mladší dvojče Willa Smitha pro film Gemini Man. Jde jednoduše o to nasnímat co nejpodrobněji mimiku obličeje, která se poté převede do hercovy digitální podoby a zakomponujeme do záběru. Alita má větší oči, ale jinak je velmi podobná své herečce. Hlavně tady bylo potřeba dát pozor na „uncanny valley“, proto návrh Ality vznikal snad ve 150 verzích, aby si autoři byli jistí, že do něj nespadnou a postava bude ve filmu fungovat.
Má na kvalitu finálního výstupu vliv výkon herce?
Ano, a to velký. Třeba Rosa Salazar, která Alitu ztvárňovala, všechno zahrála skvěle a trikové studio Weta to dokonale převedlo z placu do digitální podoby. Když se Rosa smála, tak se opravdu smála jako Alita. Ty emoce jsou čistě její a bez ní by zfilmovat příběh ve stylu japonské anime knihy nešlo.
Co byla největší výzva tohoto natáčení?
Jednoznačně tlak na kvalitu. U filmu za 200 milionů dolarů si člověk nemůže dovolit chybu. Neexistuje, že se něco na place nepovede a musí se to přetáčet. Všechno musí být dokonale zkoordinované, aby to klaplo na první dobrou.
Podívejme se ještě na ukázku z filmu Valerian. Co bylo oproti Alitě jiné?
Valeriana jsme natáčeli v Paříži a byla to místy opravdu dřina. Téměř šest dnů z týdnu jsme jeli v kuse, protože když herci dotočili, my ještě stěhovali kamery na nový set. Ráno si člověk dal sprchu, aby obživl, dojel na plac, pracoval, pracoval, pracoval, večer domů, druhá sprcha a padnout do postele. Nikdy v životě jsem snad nepracoval víc, nejvíc to bylo 74 hodin za jeden týden – ale ne na židli u počítače, šlo o pobíhání na place, umísťování a skrývání kamer do kulis a tahání těžkých stativů a kabeláže.
Normální mocap plac je velká prázdná místnost s kamerami na zdech, zde byl velmi úzký koridor vesmírné lodi, stísněný, plný drátů a reálných sazí, takže jsem ani nevěřil, že v něm dokážeme nahrát celý dav Pearlů.
To jsou ti hubení mimozemšťané?
Přesně tak, hrát je musely velice hubené herečky. Fyziologie herců má na věrohodnost obrovský vliv. Mohutný chlap, zavalitý medvěd, má mnohem větší setrvačnost než štíhlá dívka, takže fyziologie musí odpovídat také. Historicky mohl pohyby hrát kdekdo, sám mám na kontě pár scén, ale dnes se snažíme mít vždy herce, který maximálně odpovídá roli.
Kam se bude motion capture technologicky vyvíjet?
Už dnes existuje několik různých způsobů, přičemž optické snímání markerů patří mezi nejrozšířenější. Takovou vizí je, že pohyb se bude snímat pomocí strojového vidění, markery odpadnou a dokážeme pokročilou analýzou obrazu získat pohyb čistě z kamerového záznamu. U obličejů a mimiky si to zatím nedovedu bez kamer těsně u obličeje představit, kamery na kraji placu by byly daleko a herec se navíc otáčí, takže by se střídavě objevoval v různých záznamech. Naopak o záznam pohybu těla se už celkem úspěšně snaží více týmů. Když ale odhlédnu od technologie, trendem dneška je perfcap, tedy performance capture.
Co přesně je u perfcapu jiné oproti motion capture?
Perfcap doplňuje nahrávané pohyby těla o mimiku, animaci prstů a hlas. Herci nejsou dabováni, hlas je snímaný v produkční kvalitě přímo na place, aby vše bylo maximálně realistické a celý herecký projev synchronní. To je přesně směr, kterým teď jdeme ve Warhorse Studios. V Kingdom Come: Deliverance byly snímány pouze pohyby těla a zvuk, mimika se odvozovala velmi zjednodušeně pomocí fonémové analýzy mluveného projevu a následně se s prsty animovala ručně. Fonémová analýza dokáže tvarovat ústa podle vyslovovaných hlásek, ale neřeší už pohyby očí, úsměvy, emoce – ty se ze zvuku dostat opravdu nedají. Perfcap si s tímto poradí, ale rapidně zvyšuje složitost a komplexnost zpracování.
Cutscény ze hry Kingdom Come: Deliverance sklízely velký úspěch mezi hráči i přes tato zjednodušení. Tušíš proč?
Warhorse Studios mimo jiné perfektně zvládlo autentičnost komplikovaných pohybů v soubojích, které jsou pro mocap jako technologii náročné. Prvním krokem k úspěchu bylo najít herce, kteří se věnují šermu a jejich souboje vypadají věrohodně, jak to lze vidět na další ukázce. Dále je třeba zmínit nahrávání ve stylu klasického filmového placu, kdy skutečné profesionální herce režíruje podle důkladně rozmyšleného skriptu zkušený režisér a záznam prochází střihem a designem kamery podobně, jako bývá zvykem ve filmu.
V neposlední řadě je potřeba dostatečně velké studio, kde se dá rozběhnout nebo skočit. Forum Karlín obecně stačilo, a když ne, tak se celá technologie stěhovala krátkodobě do větších prostor v hale. Akorát plac v přízemí mohl být ještě větší, aby se tam dal dovést i kůň (smích).
Pohyby se dají snímat i u zvířat?
Ne úplně často, ale dá se to. Měl jsem na place už koně, psy, dokonce i kočky. Akorát těm se markery ztrácely v srsti a jsou to tvrdohlavé herečky, takže natáčení bylo čiré utrpení.
Hodně se mluví o postprodukci a její náročnosti. Jak velkou část tvoří?
Bez stovek hodin postprodukčních prací, by se většina děl neobešla. Jakmile celé tělo herce nesnímá alespoň dvojice kamer, je potřeba trajektorie někdy i ručně doplnit, protože ne se vším si poradí počítače. V bojových scénách, kdy se herci v soubojích dynamicky pohybují, zakrývají jeden druhého a válí se na zemi, to je potom obzvlášť pracné.
Ať ale jenom nechválíme, po zveřejnění první verze hry v roce 2018 hráči naráželi na chyby, kdy postavy zamrzaly v pozoru s rozpaženýma rukama. Čím to bylo?
To je T-póza, nebo jak říkali polští kolegové na jednom natáčení Jesus Pose (smích). Jde o postavení ve tvaru tiskacího písmene T, které zaujme herec, abychom bezpečně rozeznali na začátku scény všechny markery, a v této póze nahrávání i končí. Aniž bychom to rozváděli do detailu, póza pak může prosáknout do hry jako ta, ve které postava skončí, pokud nenajde vhodný pohyb v databance. Přesně tak vznikli například rytíři jedoucí do akce na zádech koní – ve stoje. Teď už je to opravené, ale tato sorta problémů se vyskytuje ve hrách dost často, vzpomeňme třeba na slavný Cyberpunk 2077.
Jsou nějaké další typické potíže a chyby?
Obvyklé jsou chyby při interakci herců s kulisami, například stoly, dveřmi nebo hrnky. Je potřeba přenést pohyb kostry herce na pohyb kostry jeho digitální postavy při zachování všech proporcí. Motion editoři musí opravit situace, kdy ruka herní postavy nedosáhne na hrnek, případně ten chybou konfigurace skončí levitující v prostoru. Když má herní panák příliš krátké nohy, sedí zadkem zaseklý v židli a ruce má zabořené v dubovém stole.
Snažíme se maximum těchto problémů odchytit už na place, jinak to opět znamená hodiny manuálních úprav, aby se to zachránilo. Pro zajímavost, Alita měla kostru vytvořenou podle proporcí herečky, my ve hrách máme jednu kostru pro všechny mužské postavy a druhou pro ženské, takže se nedá potížím spojeným s přenosem pohybu z kostry na kostru vyhnout, protože chlapů i žen se na place vystřídá spousta.
Proč musí mít ženské postavy svou kostru?
Ženy mají anatomicky jinou stavbu těla, jiné těžiště a setrvačnost. Proto je na výběr ženská postava jen v málokteré komplexní hře, kde hlavní postava dělá tisíce pohybů – celá obrovská sada animací by se musela nahrát dvojmo, což je obvykle neúnosné. Když už tento výběr někde hráč má, jeho postava často využívá mužské pohyby, což vypadá fakt divně.
Ty jsi nastoupil do Warhorse Studios před rokem a půl. Co je tvým úkolem?
Starám se o nahrávání videa a mimiky herců na place. Kolega vyrobil helmy s kamerami pro nahrávání obličeje, já jsem pak napsal řídicí software, který všechny kamery ovládá, synchronizuje a se záznamy následně pracuje. Dále jsem se zabýval takzvaným rigováním 3D hlav, jde o vytvoření ovládacích prvků pro animátory, aby mohli na hlavách vytvářet a upravovat animaci mimiky.
Na jakém konkrétním projektu pracuješ?
To zatím nemůžu prozradit, ale bude rozhodně stát za to.