Smráká se nad Hollywoodem? Umělá inteligence od OpenAI už generuje i úchvatná realistická videa
Americká firma Sama Altmana opět posouvá možnosti umělé inteligence. Po textu a fotografiích se vrhá do videí. Výsledky jsou fascinující.
Že napíšete textové zadání a umělá inteligence vám z něj vyrobí mnohdy velmi kvalitní fotky, těžce rozeznatelné od reality, na to si už postupně zvykáme všichni. Že ale zadáte textový pokyn a umělá inteligence vám z něj vyrobí poutavé video, které vypadá jako od špičkových animátorů nebo filmařů? To je novinka, se kterou teď přichází americká firma OpenAI, jeden z hlavních hybatelů pokroku ve světě umělé inteligence. Teď s ní opět vyvolává rozruch.
Tvůrci pokročilého textového generátoru ChatGPT a programu pro tvorbu obrázků DALL·E dnes představili další nástroj do svého portfolia. Jmenuje se Sora, což v japonštině znamená nebe, a právě i na hlavním městě Japonska ilustruje, jak úchvatné výsledky dokáže umělá inteligence vygenerovat. Tentokrát z oblasti videa a animace.
Už před časem jsme si mohli nechat vygenerovat videa podle textového popisu, třeba přes nástroj od Runway AI. Ani zdaleka ale nedosahovala kvalit, jaké nabízí novinka od OpenAI. Ostatně níže přiložená videa, která v Soře vznikla, mluví za vše. Ať už jde o výrobu procházky v zasněženém Tokiu, běh mamutů nebo pohyblivou příšerku obdivující svíčku. Za ničím nestojí hodiny práce animátorů ani natáčení v exteriérech.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Princip celé věci je znovu z uživatelského pohledu naprosto jednoduchý: v angličtině napíšete „scénář“ (takzvaný prompt) a necháte Soru pracovat. O zbytek se postará generativní umělá inteligence, která se učí analýzou digitálních dat a tím pádem je s každou novou verzí schopnější.
Pro zkušené filmaře může technologie pomoci s tvorbou, přičemž začínající a nepříliš dobré animátory může nahradit kompletně. Lze očekávat, že generování videa bude opět velmi rychlé.
Takto zní například zadání pro výrobu videa s mamuty: „Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.“
Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024
„Naším záměrem je poskytnout náhled toho, co se chystá, aby lidé viděli možnosti této technologie – a my mohli získat zpětnou vazbu,“ uvádí Tim Brooks, jeden z výzkumníků, kteří na novém rozhraní pracují. Sora tak momentálně není dostupná pro širokou veřejnost, ale pouze pro malou skupinu akademiků a dalších výzkumníků, jež ji testují pro potenciální nebezpečí.
Už generování fotek nám ukázalo, jak tenká hranice je mezi legitimním využíváním nástrojů pro posunutí vlastní tvorby a zneužíváním schopností umělé inteligence pro vyrábění falešných zpráv, potažmo generování obrázků poškozujících osoby třetích stran. Nad něčím podobným musí OpenAI přemýšlet také v případě Sory, akorát v kontextu videotvorby.
OpenAI nesděluje, z kolika videí se systém učil a odkud pocházejí, pouze uvádí, že školení zahrnovalo jak veřejně dostupná videa, tak videa licencovaná od držitelů autorských práv. Společnost o datech použitých k tréninku svých technologií říká jen málo, nejspíš proto, že si chce udržet výhodu před konkurencí. A byla již několikrát zažalována za používání materiálů chráněných autorskými právy.
Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024
Prompt: “A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.” pic.twitter.com/gzEE8SwP81
— OpenAI (@OpenAI) February 15, 2024
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024
welcome to bling zoo! this is a single video generated by sora, shot changes and all. https://t.co/81ZhYX4gru pic.twitter.com/rnxWXY71Gr
— Bill Peebles (@billpeeb) February 15, 2024