Veterán umělé inteligence nechce ChatGPT nechat náskok. Midjourney spustilo vylepšené generování obrázků
Midjourney uvedlo na trh svůj nejnovější model V7. Nacítí styl uživatele a slibuje realističtější obrázky.
Když OpenAI nedávno přidala do ChatGPT možnost generovat obrázky, zaujala tím i ty, kteří se o umělou inteligenci nikdy moc nezajímali. Sociální sítě zaplavily stylizované výtvory ve stylu anime nebo Ghibli a zdálo se, že největší hvězdou generativního obrazu je najednou ChatGPT. Ale co na to Midjourney – projekt, který tohle všechno odstartoval?
Dlouhé měsíce byl relativně potichu, ale teď se vrací s novinkou. Midjourney spustilo na začátku dubna model s označením V7 a podle všeho jde o největší posun od vzniku platformy. Nejde totiž jen o drobné úpravy, ale o kompletní přestavbu. CEO společnosti David Holz to na síti X označil za „zcela novou architekturu“ a na Discordu doplnil: „V7 je mnohem chytřejší při práci s textovými prompty, obrázkové prompty vypadají fantasticky, kvalita je viditelně vyšší – s krásnými texturami a podstatně lepší koherencí těl, rukou a objektů všech typů.“
Hlavní změnou je tedy to, že nový model si lépe poradí s tím, co po něm chcete. Pochopí složitější zadání a výsledné obrázky jsou realističtější, čitelnější a bez dřívějších chyb, jako byly deformované ruce či podivné textury. Pokud jste někdy zkoušeli starší verze, rozdíl poznáte na první pohled.
Model Midjourney V7 je dostupný pro všechny, kteří mají předplatné (od 10 dolarů měsíčně). Zatím v něm chybí některé funkce ze starších verzí – třeba upscaling (zvětšení obrázku) nebo retexturování – ale ty se mají v nejbližších týdnech vrátit. Do budoucna vývojáři slibují i nové nástroje: například tvorbu scén s více postavami nebo moodboardy.
Velkou novinkou je personalizace. Midjourney se naučí, co se vám líbí – ale potřebuje s tím pomoct. Nejdřív musíte ohodnotit přibližně 200 obrázků, a tím mu dáte představu o vašem vkusu. Model pak začne generovat výstupy, které „sedí vám“ – ne jen obecně. Je to trochu pracné, ale výsledek pak působí překvapivě přesně.
Midjourney vs. ChatGPT
Midjourney
Počet uživatelů: Přes 16 milionů
Investice: Bez investice
Cena pro uživatele: od 10 USD/měsíc
Spuštění: Červenec 2022
Způsob přístupu: Discord (textové prompty přes boty)
ChatGPT
Počet uživatelů: Přes 180 milionů měsíčně
Investice: Microsoft, Thrive Capital, fond SoftBank a další
Cena pro uživatele: Od 20 USD/měsíc (neomezené užívání v rámci ChatGPT-4)
Spuštění: Listopad 2022
Způsob přístupu: Webové rozhraní
Součástí updatu je také Draft Mode – tedy náhledový režim, který umí rychle vygenerovat náčrt obrázku. Jakmile jste spokojení, můžete finální výstup vygenerovat v plné kvalitě. Šetří to čas i nervy – a tvůrci říkají, že právě tohle bude nový standard práce s Midjourney.
Na první pohled to může vypadat, že ChatGPT s novou funkcí „obrázky na přání“ předehnal konkurenci. Ale v reálu jsou tyhle dva nástroje dost rozdílné. ChatGPT umí všechno trochu – obrázky, texty, kód – a sází na univerzálnost. Midjourney se zaměřuje čistě na obraz a styl, v čemž má ambici být nejlepší.
Nemělo by se ale zapomínat ani na Metu, která představila nové jazykové modely Llama 4. Ty sice negenerují obrázky, ale mají být dalším krokem ve vývoji AI, která lépe rozumí lidskému jazyku, přemýšlí a odpovídá s větší přesností. Meta nabízí čtyři verze – od menších, které rozběhnete i na slabším počítači, po „Behemotha“, obří model s víc než dvěma biliony parametrů.
Co to znamená v praxi? Přesnější odpovědi, rychlejší odezvu a možnost, že tyhle nástroje časem využijí i jiné aplikace – včetně těch, které generují obrázky. Meta zároveň tvrdí, že její modely fungují efektivněji než konkurenční – i když zatím jde hlavně o výsledky jejich vlastního testování.