Konec podivným rukám. Nová verze obrazového generátoru Midjourney ohromí svými schopnostmi

Obrazové generátory na bázi umělé inteligence si dlouho neuměly poradit se zobrazením rukou. Nová verze MIdjourney nabízí zlepšení nejen v tom.

Jiří BlatnýJiří Blatný

ruce_midjourney

Foto: Midjourney/CzechCrunch

Nepovedené detaily rukou obrazového generátoru Midjourney jsou už prý minulostí

0Zobrazit komentáře

Může to znít jako maličkost, že počítačový program konečně dokáže přesvědčivěji zobrazit lidskou ruku. Tato schopnost však poměrně dlouho obrazovým generátorům, jako je Midjourney, unikala, a většina snímků vytvořených s jejich pomocí tak poskytovala jednoduché vodítko k rozpoznání, jestli je to opravdová fotografie, nebo obraz od umělé inteligence. Stačilo se podívat na ruce, kde tu prst chyběl, tu zase přebýval, jak je ostatně patrné i z našeho obrázku výše. Nejnovější verze generátoru Midjourney to však, zdá se, umí daleko lépe a zlepšila se i v dalších oblastech.

Pátá verze obrazového generátoru Midjourney je sice dostupná zdarma, ale zatím jen platícím uživatelům na komunikační platformě Discord, kde jsou k dispozici i ostatní verze. Pro přístup je potřeba mít na platformě účet. Jak si ho můžete založit a jak lze obrazový generátor spustit, její tvůrci přehledně píší v návodu na svém webu.

Pátou verzi v Midjourney trénovali zhruba pět měsíců. Podle vývojářů i uživatelů, kteří se svými výtvory chlubí na sociálních sítích, má opět o poznání lepší schopnosti. Textové zadání dokáže přeměnit v ještě realističtější obrazy, než jaké uměly vytvořit předchozí varianty.

Nastartujte svou kariéru

Více na CzechCrunch Jobs

Jestli v souvislosti s obrazovými generátory byl dlouhodobě znatelný nějaký nedostatek, byla to jejich (ne)schopnost věrohodně zachytit lidské ruce. „Tyto generátory nemají žádnou představu o trojrozměrné geometrii něčeho, jako je ruka. Mají o ní obecnou představu – má dlaň, prsty a nehty, ale žádný z těchto modelů ve skutečnosti nechápe, co je celek,“ upozornil pro BBC Science Focus odborník na výpočetní techniku Peter Bentley z University College London.

Některé obrazy od páté verze Midjourney lze jen stěží rozeznat od opravdové fotografie. Podle umělkyně Julie Wieland jsou zlepšení patrná v realističtějších texturách pleti, rysech obličeje, realističtějším osvětlení nebo lepších světelných odrazech, odlescích a stínech, uvedla pro server Ars Technica. Chcete třeba snímek Elona Muska, jak ve smokingu prochází na veřejné události kolem kamer? Žádný problém.

„Umělá inteligence od Midjourney si už poradí s rukama,“ napsal na Twitteru také vývojář známého herního studia Naughty Dog Del Walker. Lidé by tak podle něj měli být ještě obezřetnější, pokud na internetu narazí na fotografii s politickým obsahem.

Walker připouští, že se na falešné obrázky nenachytá každý, zejména pokud se na daný snímek zadívá na delší dobu. Většinou totiž nakonec najde nějakou nesrovnalost, která prozradí, že je od umělé inteligence. Spoléhat se na to je ale podle něj špatně. „Názor, že člověk pozná, že je to od umělé inteligence díky tomu, jak na fotce vypadá kus látky, se opravdu míjí účinkem. Vaši rodiče se na to podívají jen na okamžik a uvěří tomu,“ vysvětlil Walker.

Služba Midjourney v současnosti kromě zkušební verze zdarma nabízí tři zpoplatněné plány, které mimo jiné zpřístupňují právě nejnovější pátou generaci – základní předplatné stojí 10 dolarů měsíčně (asi 220 korun), standardní 30 dolarů (zhruba 660 korun) a profesionální vyjde na 60 dolarů (1 320 korun). Při představení páté verze zástupci Midjourney zpřístupnění programu jen pro odběratele odůvodnili tím, že nedokáží zajistit dostatečný výpočetní výkon, aby mohli novou verzi uvolnit všem zájemcům.

Pokud ovšem placenou verzi máte, můžete si Midjouney na Discordu vyzkoušet. Pátou verzi je třeba nejdříve spustit v nastavení generátoru, do kterého se v Discordu dostanete, když do řádku pro novou zprávu napíšete /settings. Poté se zobrazí nastavení Midjourney. Zde je třeba kliknout na tlačítko s nápisem „MJ version 5“ v prvním řádku vpravo. Druhou variantou je psát na konec každého jednotlivého zadání při tvorbě obrazu pokyn „–v 5“, který vždy zajistí, že se o generování postará právě nejnovější verze.

Technický a sociální experiment. Umělá inteligence sama obstarává a tvoří český sebevzdělávací web

Lidé už pro určitý obsah nejsou potřeba, říká Petr Brzek, který nechal program GPT tvořit jeho web. A varuje proti rizikům, jež s sebou AI nese.

Peter BrejčákPeter Brejčák

petr-brzek-boxed

Foto: PB

Petr Brzek staví projekty na umělé inteligenci

0Zobrazit komentáře

Na první pohled celý web vypadá „normálně“. Nachází se na něm klasický seznam článků, které se tematicky věnují oblasti sebevzdělávání – jak maximalizovat svou produktivitu, pět kroků k uvolnění potenciálu či třeba devět tipů pro úspěšné manželství. Texty doprovází obyčejné obrázky z databanky. Vše ale automaticky píše i publikuje umělá inteligence, která obsah navíc překládá do různých jazyků a také ho dává na sociální sítě.

„Jde o obsah, který je velmi ‚zřejmý‘ a dlouhodobě stejný. Každý rok se publikují tisíce knih o tom, jak být lepší a jak si organizovat úkoly. Jejich kvalita je téměř identická, až na příběhy autorů, kolem nichž se ty stejné rady točí. Pro takový typ obsahu ale nejsou potřební lidé, náklady na jeho tvorbu se blíží nule,“ líčí pro CzechCrunch Petr Brzek.

Jedenatřicetiletý tvůrce webu Mindhaste.com je úspěšný startupista. Společně s dalšími třemi společníky založil startup Avocode, který v roce 2021 prodali za stovky milionů korun. „Baví mě umělá inteligence, s GPT experimentuju již dva roky. V tomto případě jde i o sociální experiment, zda to budou lidé číst a sdílet si to,“ přibližuje Brzek motivaci, proč se do projektu pustil.

„Běžní lidi nejsou schopni vůbec detekovat, jestli ty články píše člověk nebo stroj. Ani je nenapadne, že by to mohla psát umělá inteligence. Podívejte se třeba jen na babičky, které věří všemu, co na internetu vidí včetně řetězových mailů,“ pokračuje. Navzdory tomu, že jde o obecný obsah, kterého již na trhu existuje hodně, lidé mají neustále potřebu návody na sebezdokonalování konzumovat, tvrdí.

Experimentální web – jenž minimálně zatím funguje neziskově – spustil Brzek v listopadu, aktuálně produkuje tři články denně a automaticky je také posílá na sociální sítě. Brzkovi přitom vždy jen přijde notifikace na Slack, že k těmto krokům došlo, a může tak zkontrolovat, jestli je obsah v pořádku. Nastavení všech nutných procesů mu trvalo týden, ovšem jen pár hodin denně, které si našel vedle svého zaměstnání na plný úvazek.

Klasické texty později z obsahového hlediska doplnil také o Q&A články a začal přidávat i „obrázky s moudry“ či s motivačními citáty, které v jiných podobách můžete na sociálních sítích zahlédnout běžně. Zatímco tvorba textů i obrázků je jednoduchá, již teď Brzek přemýšlí nad další úrovní. „Oříškem bude automatizovaná tvorba videí na YouTube, aby měla přirozené střihy a chování. To chce ještě čas a trochu pokroku, ale tvorba takových nástrojů nebude trvat dlouho,“ míní.

Na samotném webu se přímo přiznává k tomu, že obsah generuje umělá inteligence. „Není to žádné tajemství. Ale vím, že hodně tvůrců se k tomu nepřizná,“ říká Brzek a odvolává se také na morální stránku. „Obecné tipy jsou za mě v pohodě, nic o nikom netvrdím a nevytvářím lživý obsah. Tvorba fake news je ale hodně snadná, pro mě je to už ale za hranou a do budoucna to bude hodně velký problém.“

Nastartujte svou kariéru

Více na CzechCrunch Jobs

Sám Brzek se soustředí hlavně na pozitivní aspekty technologického pokroku a možností, které umělá inteligence nabízí. Jeho dalším projektem je Občan GPT, který automaticky odpovídá na otázky související s vysvětlením textů z občanského zákoníku. Web ovšem rovnou upozorňuje, že poskytnuté výsledky nemusí být vždy správné a je třeba je konzultovat s odborníky.

„Mojí základní myšlenkou při využívání technologií umělé inteligence je, že mohou být pro lidi asistentem, se kterým mohou řešit nejen problémy v práci, ale dokáží všechno také zařídit,“ popisuje Brzek. Jak ale přiznává, minimálně zatím se lidé potřebují bavit s lidmi. Odvolává se na experiment, kdy uživatelé dostávali rady na zlepšení své nálady nebo řešení problémů. Hlásili pozitivní výsledky a zlepšení své spokojenosti. Když se pak ale dozvěděli, že se ve skutečnosti nebaví s člověkem, ale robotem, konverzace přestaly mít jakýkoliv vliv. „Uvidíme, jestli se takový přístup změní,“ dodává Brzek.

Nebezpečí umělé inteligence

Všechen obsah je třeba zpochybňovat, ověřovat, zamýšlet se nad ním. Na to ale lidé vůbec nemají čas ani energii. Petr Brzek sepsal, jaká nebezpečí související s umělou inteligencí vnímá, že již existují.

Generování fake news. GPT je pro generování falešných zpráv a řetězových e-mailů naprosto perfektní. Bláboly o všem už nemusí psát člověk, stačí dát stroji správné zadání. Náklady na generování takových zpráv jsou téměř na nule.

Generování nahotinek s vaším obličejem. Z tohoto bude ještě bolení. Už teď je totiž velmi jednoduché a nenákladné natrénovat nástroj Stable Diffusion na vašich fotkách a stačí jich pouze pět. Koukněte se na svůj Instagram, kolik tam máte fotek… S takto natrénovaným modelem můžu generovat fotorealistické obrázky s vaším obličejem a kvalita je velmi dobrá.

Tím, že je nástroj Stable Diffusion open source, na něm vzniká spousta speciálně natrénovaných modelů. Samozřejmě vznikl model postavený nad obsahem pro dospělé. Co to znamená? Je velmi snadné tvořit falešné fotky s vaším obličejem. A to ještě není všechno! S ControlNet lze generovat obrázky, které věrně replikují originální pózu. Asi chápete, co to znamená, když se všechno zkombinuje dohromady.

grok-2

Přečtěte si takéNoví virtuální společníci od Groka se utrhli ze řetězuNabízí režim pro dospělé a plánují únos papeže. Noví virtuální společníci od Groka se utrhli ze řetězu

Generování vašeho hlasu. Tuhle oblast umělé inteligence sleduju trochu méně, ale nešlo si toho nevšimnout. Tento nástroj potřebuje asi patnáct sekund vašeho hlasu z nějakého videa nebo audia, a pak jej můžete použít kdekoliv. Viz například video Davida Guetty, který použil hlas Eminema na svém koncertě.

Co s tím? Netuším. Ale je dobré vědět, že už tady takové nástroje máme a jsou snadno dostupné. Obrázky budou nerozeznatelné od reality. Brzy se to stane i s videem. Vše, co jsem popsal, je samozřejmě ideální nástroj pro vyhrožování a šikanu. To je vše. Snad to nebylo moc depresivní. Je holt potřeba se obrnit a přidávám pro-tip: nedávejte fotky svých dětí na sociální sítě.