Sesadilo OpenAI Google z trůnu? Vyzkoušeli jsme jeho nový generátor obrázků, výsledek bere dech
Novinka GPT Images 1.5 přináší až čtyřikrát rychlejší tvorbu obrázků a výrazně přesnější upravování fotografií.
Už dlouho se mohlo zdát, že po Midjourney, které se prosadilo jako jeden z prvních výrazných nástrojů na generování obrázků, nastoupil nový král. Google se svým nástrojem Nano Banana totiž v mnoha ohledech předčil konkurenci. Jenže souboj umělých inteligencí zdaleka nekončí. Společnost OpenAI se nyní rozhodla zvýšit laťku a představila nový obrazový model GPT Images 1.5, který má nabídnout nejen výrazně vyšší rychlost generování, ale také přesnější práci s uživatelskými instrukcemi a lepší kontrolu nad výslednou podobou obrázků.
Mění navíc i samotné prostředí svého chatbota. V aplikaci přibyla nová záložka Images, která se stává jakýmsi centrem pro tvorbu obrázků. Najdete v ní hotové styly, filtry a inspirace podle aktuálních trendů. K dispozici jsou také šablony, díky kterým může uživatel vytvářet nebo upravovat snímky doslova na pár kliknutí, aniž by se trápil psaním složitých zadání. Jak si však novinka vede v porovnání s dosavadní hvězdou scény? Abychom zjistili, zda je nový model skutečně lepší, připravili jsme sérii praktických testů.
Není nic vánočnějšího než velbloud na rozpálené poušti. Právě takový motiv jsme si proto vybrali hned pro první test nejnovějšího modelu umělé inteligence z dílny týmu Sama Altmana. Zadání bylo poměrně přímočaré: z fotografie pouštního velblouda, ležícího vedle beduína, odstranit člověka, přesunout zvíře do zimní krajiny a nasadit mu na hlavu vánoční čepičku.
Nástroj od OpenAI si s úkolem poradil výborně. Velbloud zůstal ve stejné pozici, včetně provazu, kterým je přivázaný ke kůlu, aby svému majiteli neutekl. Vánoční čepička mu překvapivě sluší, na sedle se lehce usadil sníh a kolem zvířete poletují sněhové vločky. Zachován zůstal i stromek, který se na fotce nenápadně vyjímal v pozadí. A tak se zdá, že model dokáže vnímat předloženou scénu jako celek, nikoli jen jako soubor jednotlivých prvků. Barevné ladění celého snímku navíc působí chladným dojmem, což se k vánoční scéně hodí.
Konkurence od Googlu si se stejným zadáním poradila také velmi dobře, ale s několika drobnými rozdíly. Upravila pozadí za zvířetem podle sebe, původní stromek zmizel a nahradily ho malé keříky a lehce rozmazané nebe. Velbloud navíc dostal hřívu na krku, kterou na původní fotografii neměl, a barevné ladění snímku zůstalo teplejší. Oranžové podtóny vyprahlé krajiny tak úplně nezmizely.
Vánoční perníček nebo podivná skulptura
Druhý test byl o něco zajímavější. ChatGPT mezi přednastavenými styly nabízí možnost proměnit fotografii pomocí jednoduchého zadání v cukrovou sušenku, téma, které se svátečním obdobím i sněžným velbloudem pěkně ladí. Vzali jsme proto fotografii kočky a zkusili ji přetvořit v perníček. Právě tady se začínají ukazovat výraznější rozdíly v tom, jak oba nástroje k podobným úkolům přistupují.
Řešení od OpenAI vytvořilo plastickou, téměř trojrozměrnou sušenku s velmi realistickým čumákem i náznakem vousků a chlupů. Výsledek však působí spíš jako jakási skulptura než sušenka, kterou by si někdo mohl doma upéct.
Nástroj od Googlu naopak během krátké chvíle vytvořil přesně to, co měl. Barva polevy odpovídá srsti kočky na původní fotografii, její oči narozdíl od výtvoru konkurence připomínají cukrovou hmotu a celek působí velmi realisticky. Pokud by někdo na sociální sítě nahrál takovou fotografii s popiskem „tohle jsem upekl“, pravděpodobně by mu jeho sledující bez váhání uvěřili.
V dalším kole testování se obětí umělé inteligence stali moderátoři podcastu Money Maker, které AI přenesla do světa LEGO kostek. A i zde se projevily zásadní rozdíly v přístupu obou nástrojů. ChatGPT v mžiku vytvořil postavičky s výrazně větším množstvím detailů. Figurky mají naznačené vrásky, realističtější stínování a působí velmi propracovaně. Výsledkem je obraz, který ale připomíná spíše záběr z animovaného LEGO filmu než skutečnou stavebnici. Nástroj si však výborně poradil s atmosférou scény i světlem, které věrně kopíruje původní fotografii a dodává scéně hloubku.
Konkurence od Googlu ukázala opačný přístup. Postavičky v podání Nano Banana jsou hladké, jednoduché a přesně odpovídají tomu, jak skutečné LEGO vypadá. Žádné vrásky ani dodatečné textury, jen čisté a jasně definované tvary.
Pokud jde o generování obrázků, umělá inteligence měla ve svých počátcích pověst nespolehlivého kreslíře. Často deformovala ruce, nohy i obličeje a nebylo výjimkou, že se na snímcích objevovalo například moc prstů na rukách zobrazených lidí. Dnes už je situace zcela jiná, přesto je ale na místě ověřit, kam se nejnovější technologie posunula.
Z portrétní fotografie měly oba nástroje vytvořit scénu. Osoba, jejíž portrét jsme umělé inteligenci předložili, projíždí na motorce Prahou, zatímco za ní šlehají blesky a celé to působí maximálně dramaticky. Netrvalo dlouho a AI vyplivla záběry Prahy v bouřce, jako by vypadly z filmové série Underworld. ChatGPT vygeneroval scénu nabitou atmosférou. Dramatické světlo, blesky, déšť i akční úhel kamery fungují přesně tak, jak mají. Obličej je sice své předloze podobný spíš vzdáleně, celek ale působí dynamicky a zábavně, i když rozhodně ne stoprocentně realisticky.
Druhý nástroj si lépe poradil se zachováním délky vlasů, detailů oblečení i celkově realističtějšího vzhledu. Problém ovšem znovu nastává u obličeje. V případě Nano Banana je výrazně pozměněný a každé oko jako by vyhlíželo jiný pól deštivé metropole. Zásadním nedostatkem je pak pozadí, které připomíná spíš nepovedený Photoshop než soudržnou scénu. Postava působí, jako by byla do obrazu vložená v postprodukci.
A co kdybychom zašli ještě o krok dál? Vzali jsme portréty dvou různých osob a požádali chatbota, aby je společně zasadil do jedné scény, konkrétně na procházku lesem. Jde o výrazně náročnější úkol, než se může na první pohled zdát. Postavy pocházejí z odlišných fotografií, takže AI musí odhadnout jejich vzájemný výškový rozdíl, sladit perspektivu a zasadit je do prostředí tak, aby výsledek nepůsobil uměle.
Novější model si s touto výzvou poradil opět dobře. Obličeje vykreslil poměrně věrně, oblečení dává smysl a výškový poměr mezi postavami odhadl téměř přesně. Fotografie působí jako promyšlený umělecký portrét. Postavy jsou do scény zasazeny velmi přirozeně, kompozice funguje, světlo i barevnost ladí s prostředím. Zároveň to ale má lehce stylizovaný nádech, jako by se fotograf v případě reálného snímku vůbec nebál výraznější postprodukce ve Photoshopu.
Výstup z Google Gemini připomíná spíš klasickou fotografii. Ačkoliv si model opět poradil s oblečením, postavám ale pocitově chybí přirozené ukotvení v prostoru. Výsledek tak působí ploše, jako by dvojici do lesní scenérie dodatečně vložil grafik.
Aby testy nezůstaly jen u poklidné procházky, dvojice postav, z nichž jedné jsem propůjčila vlastní tvář, se pomocí umělé inteligence přesunula z lesa rovnou do společnosti. Místo romantické večeře ale skončila v přeplněné hospodě, kde se utkala v páce za bouřlivého fandění okolí.
Zde se znovu ukázal jeden ze zásadních problémů modelu od OpenAI. Atmosféra je sice skvělá a scéna působí živě, ale problém opět nastává u obličejů. Jsou značně pozměněné a originálu se už se podobají minimálně, pokud vůbec. Google je v tomto ohledu mnohem spolehlivější. Tváře zachovává věrně, a to včetně detailů oblečení.
Co z toho plyne?
Je téměř jisté, že žádný z nástrojů nenese status jednoznačného vítěze. Každý má své silné stránky a hodí se pro jiný typ práce. Novinka od OpenAI exceluje především v práci s atmosférou. Pokud potřebujete vytvořit filmově působící, vizuálně poutavou scénu, kde jde hlavně o celkový dojem a dynamiku, je to velmi dobrá volba.
Model si výborně poradí se světlem i kompozicí a dokáže přirozeně zasadit postavy do prostředí. V mnoha ohledech je kreativnější než jeho konkurent a nebojí se výraznější stylizace, ale ani volnější interpretace zadání.
Řešení od Googlu je naopak konzervativnější a zpravidla ukazuje větší respekt k původnímu materiálu. Pokud je tak pro uživatele zásadní zachovat podobu obličejů nebo specifické detaily originálu, působí jako spolehlivější nástroj. Jeho slabinou však může být integrace postav do pozadí, v některých případech pak výsledek připomíná spíše nepříliš povedený Photoshop než ucelenou scénu.
Pro běžného uživatele je novější nástroj pravděpodobně přístupnější volbou. Přednastavené styly, rychlejší generování a možnost volně experimentovat bez dlouhého čekání dělá z GPT Image 1.5 řešení použitelné pro většinu lidí. Pokud vytváříte obsah pro sociální sítě, náhledové obrázky nebo si jen chcete rychle ověřit kreativní nápady, sáhnete s ním jen málokdy vedle. Pro profesionální využití, kde je klíčová věrnost originálu, například v reklamě, brandingu nebo při tvorbě produktových katalogů, může být naopak bezpečnější volbou starší model. Lepší zachování podoby osob i jemných detailů může být v těchto případech rozhodující.