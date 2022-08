Kdyby vám někdo před pár lety řekl, že si brzy budete moci nechat vygenerovat obraz jen zadáním několika málo slov podobně jako ve vyhledávači Google, asi byste si klepali na čelo. Pokrok v oblasti umělé inteligence a strojového učení však postupuje závratnou rychlostí. Jsme v druhé polovině roku 2022 a projektů, které se tímto segmentem zabývají, ať už privátních, nebo veřejných, existuje hned několik.

Službu dnes nabízí firma OpenAI Elona Muska se svým programem DALL·E 2, společnost Midjourney a firma Stability AI se svým Stable Diffusion. Redakce CzechCrunche si při psaní tohoto textu vyzkoušela práci s Midjourney, která je částečně dostupná zdarma každému, kdo používá komunikační službu Discord. Všechny tři nástroje jsou zatím ve fázi beta testování.

V praxi si program otevřete a zadáte anglický pokyn stejně, jako kdybyste hledali fotografie nebo obrázek na Googlu. Když jste milovník psů a přírody, zadáte třeba „roztomilý psík“ nebo „realistická a nádherná scéna zasněžených hor při západu slunce s oceánem v popředí a s letícími ptáky v dálce.“

Midjourney si ale poradí i s ještě komplexnějším zadáním. Slavný americký spisovatel Cormac McCarthy, autor děl jako Cesta nebo Tahle země není pro starý, je známý mimo jiné pro svá květnatá souvětí. V knize Krvavý poledník ukazuje řádění gangu na mexicko-texaských hranicích v polovině devatenáctého století. Popis jedné scény například tvoří souvětí o 241 slovech. Jak si s pokyny poradí Midjourney, to můžete sami posoudit níže.

Klíčové pro pochopení, jak tyto programy fungují, je anglické slovo diffusion, neboli česky rozptyl. Na principu rozptylu jsou totiž dnes založené všechny tři zmíněné aplikace. Spočívá v jejich schopnosti rozpoznávat význam mezi obrazem a textem, který snímky popisuje.

Program začne u vzorce náhodných teček a postupně z nich vytváří zadané dílo. Neuronová síť umělé inteligence to dokáže díky tomu, že se cvičila na ohromné databázi obrázků, které doprovázel textový popis. Ten podrobně vysvětloval, co je na vizuálním podkladu zachycené.

Databáze jsou opravdu masivní. Například program DALL·E 2 pracuje se čtyřmi sty miliony snímků, Midjourney s desítkami milionů a Stable Diffusion dokonce se dvěma miliardami obrazů. DALL·E 2 navíc uživatelům umožňuje výsledný obrázek všemožně upravovat.

Všechny tři generátory mají své plusy a minusy. Je pravděpodobné, že stejně jako jde člověk najisto do určitého obchodu pro triko nebo pro kabát určité velikosti, protože ví, že mu sedne, budou si amatéři i profesionálové za pár let moci najisto otevřít jeden z generátorů, když budou potřebovat zobrazit realisticky znázorněnou smějící se osobu. Ale s jiným budou pracovat ve chvíli, kdy budou chtít vygenerovat romantické zátiší.

Ve srovnání všech tří aplikací například Midjourney vyčnívá, pokud jde o detailní zobrazení textury nebo generování obrazů různých přístrojů, myslí si umělec Fabian Stelzer. Ten se podílí na přípravě údajně prvního filmu zcela vytvořeného umělou inteligencí. Výtvory Midjourney obecně připomínají spíše malby, zatímco DALL·E 2 a Stable Diffusion jsou lépe schopné přiblížit se fotografickému zobrazení.

„portrait of a man who looks exactly like super mario, ⁰photography, portrait photograph“

all of these can do amazing portraits, with DALL-E and SD being better at photos, while MJ does more refined facial textures in a painting context pic.twitter.com/bSRjbj88r0

— fabians.eth (@fabianstelzer) August 20, 2022