Umělá inteligence je příliš mocná, aby ji ovládala jedna společnost, říká expert firmy, která budí vášně

Jakou roli má mít umělá inteligence ve společnosti? To má rozhodnout komunita, ne jedna firma, říká v exkluzivním rozhovoru Tom Mason ze Stability AI.

Jiří BlatnýJiří Blatný

tommasonstabilityaiRozhovor

Foto: Stability AI

Tom Mason ze Stability AI

0Zobrazit komentáře

Umělá inteligence nebo strojové a hloubkové učení. To jsou termíny, které se na nás v současnosti valí snad ze všech stran. Oblast IT zaměřující se na vývoj programů schopných plnit úkoly, které by běžně vyžadovaly zapojení lidí, v současné době zaznamenává nebývalý boom. Poslední rok byl obzvlášť průlomový. Je to zásluha rostoucího výkonu počítačů a objemu použitých dat,“ vysvětluje pro CzechCrunch v ojedinělém rozhovoru Tom Mason z britské firmy Stability AI, kde řídí technologickou stránku byznysu. Jeho společnost stojí mimo jiné za generátorem obrazů Stable Diffusion.

Nejen generátory obrázků, ale i textu, hudby a videa. Způsobů využití umělé inteligence je spoustu, sázejí na ni třeba vývojáři při hledání chyb v softwaru nebo rovnou k inspiraci pro psaní zbrusu nového kódu, stále větší oblibě se těší například i mezi studenty, pro něž je pomocnicí při psaní domácích úkolů.

Na společnosti, jako je právě Stability AI, se ale v posledním čase snáší i kritika. A to kvůli možnostem použít jejich nástroje pro nekalé praktiky, tvorbu fake news a podobně. Mason však na výtky odpovídá, že hlavní úlohou jeho firmy a vývojářů umělé inteligence obecně je dostat tyto technologie mezi lidi. „Chceme rozvířit diskuzi, takže jsme rádi, že se o takových věcech mluví. Nejen v široké veřejnosti, ale i v komunitě odborníků na technologie či etiku,“ vysvětluje v rozhovoru Mason.

Umělá inteligence je podle něj jednoduše nástroj. A stejně jako každý jiný ho lze použít ke konání dobra i zla. Byť souhlasí, že by společnosti vyvíjející tyto technologie měly mít roli v nastavování pravidel, největší slovo v tom, jak s touto stále ještě novou technologií zacházet, by podle něj měla mít komunita. „Pokud se jako celek rozhodne, že bychom to měli dělat jinak, pak to změníme. Komunita je pro nás nejdůležitější,“ říká Mason v rozhovoru pro CzechCrunch.

Kdy jste si naposledy vyzkoušel váš program?
Nedávno jsem Stable Diffusion ukazoval přátelům, které jsem už dlouho neviděl. Bylo to docela vtipné, protože nikdo z nich o generátorech obrázků nebo textů předtím neměl ani ponětí.

Jak reagovali?
Byli ohromeni tím, že to funguje. Když to někomu jen popisujete, je to trochu krkolomné. Ještě před rokem by vám nic jiného než slovní popis pravděpodobně nezbývalo, protože výkony takových programů ještě nebyly moc dobré. Teď už to však můžete někomu přímo ukázat, aby si to sám vyzkoušel.

Jak byste vysvětlil, čemu se ve Stability AI věnujete?
Existuje spousta různých typů umělé inteligence. My se zaměřujeme na ten generativní. Což znamená, že vyvíjíme modely, které jsou schopné tvořit různé formy médií – od obrázků přes jazyk až po audio i video – a replikovat nebo nějakým způsobem napodobovat lidskou schopnost tvořit. A skvělé na tom je, že člověk je pořád uprostřed celého procesu a může tu technologii ovládat.

Takže o tom uvažujete jako o spolupráci mezi softwarem a lidmi?
Je to něco jako spolupráce mezi počítačem a člověkem, ano.

V posledním roce a půl došlo k explozi modelů, které jsou schopny generovat obrazy v mnoha různých oblastech a rozumět různým uměleckým stylům.

Na podobných projektech pracují i další laboratoře a společnosti OpenAI má DALL·E 2, pak je tu Midjourney a další služby. Jak do toho zapadá Stability AI a čím se lišíte od ostatních značek?
Snažíme se, aby každá fáze, každá část procesu a našeho vývoje byla otevřená. To je to, co nás odlišuje –⁠ je pro nás stěžejní práce s komunitou.

V poslední době se o podobných programech mluví a píše denně. Co je důvodem takového boomu?
Poslední rok byl obzvláště průlomový. Už jen, když se podíváte na velikost modelů, výpočetní výkon počítačů, objemy datových souborů, se kterými pracujeme. Svůj neodmyslitelný díl na tom má i aktivní komunita výzkumníků, odborníků i nadšenců, kteří spolupracují a celé to tím posouvají stále dopředu.

Takže je to v podstatě spousta proměnných, které se v tomto konkrétním čase spojují, a toto je výsledek?
Zdá se mi, že ano. Když se podíváte zpět do roku 2017 nebo 2018, došlo k velkému rozmachu těchto difúzních programů (difúze neboli rozptyl je princip, na kterém obrazové generátory fungují – pozn. red.). Už tehdy bylo možné vytvářet obrázky, které vypadaly realisticky. Obličeje jsme schopni také generovat už poměrně dlouho. V posledním roce a půl ale došlo k explozi modelů, které jsou schopny generovat obrazy v mnoha a mnoha různých oblastech a rozumět různým uměleckým stylům, žánrům a konceptům a spojovat je dohromady. A to hlavně díky pokroku v architektuře těchto modelů. Ale také díky ochotě firem a dalších skupin spojit se, aby je ve velkém trénovaly. Bez věcí jako LAION, což je obrovský soubor obrazových a textových dat, by to bylo zcela nemožné.

Technologie za miliardu

Mohl byste podrobněji popsat, co to LAION je?
LAION je německá skupina, která už několik let věří, že pokud mají být modely umělé inteligence trénovány v otevřeném prostředí, je opravdu důležité, aby existoval velký soubor otevřených dat s obrázky. V LAION mají proces, který se nazývá označování nebo popisování. Během něj vlastně párují obrázky s jejich popisky. Ty ve výsledku vypadají podobně jako zadání, které napíšete obrazovému generátoru, když ho chcete aktivovat. Ideálně to tedy je věta nebo dvě, které popisují vše, co vidíte, v lidsky čitelné podobě.

Ten proces sice můžete do jisté míry automatizovat pomocí informací získaných z webových stránek, ze kterých obrázky pocházejí, ale musíte také spoustu toho označování provést ručně. Proto má LAION týmy lidí po celém světě, které pomáhají třídit soubor dat a přidávat do něj užitečné informace. Výsledkem jejich snažení je soubor pěti miliard dvojic obrázků a jejich popisků, který je vícejazyčný. Dvoumiliardovou sadu pak mají jen pro anglické popisky.

stablediffusion

Foto: CzechCrunch/Stable Diffusion

Odpověď obrazového generátoru Stable Diffusion na zadání, ať zobrazí, jak se lidé baví o umělé inteligenci

Takže používáte jejich soubory dat k trénování svého softwaru.
Ano. Na těch datech navíc dále pracujeme. Snažíme se je vylepšovat pomocí různých filtrů, které mění způsob, jakým náš program obrázky následně vybírá. Tyto změny pak nakonec vložíme zpět do systému LAION jako nové datové sady. Je to takový koloběh.

Modely trénujete na tisících grafických karet. Můžeme to zasadit do kontextu? Jak moc je to učení náročné na hardware?
Grafické karty jsou původně určené k provádění mnoha složitých matematických výpočtů pro videohry. Grafika je vlastně složitá matematika. To je do značné míry to, co dělají při zpracování dat i modely, o kterých se tu bavíme my. Nejvíce namáhavou částí celého procesu je samotný trénink našich modelů. Máme přes pět a půl tisíce grafických karet. V posledních několika letech jsme na naší soustavě spolupracovali s Amazonem a nyní už tvoří jedenáctý nejrychlejší soukromý superpočítač na světě. Skvělé je, že jakmile je jednou model hotový, je hotový navždy a lidé ho mohou používat navždy. Vy si ho ale jako koncový uživatel pak můžete pustit jednoduše třeba na webu.

Kolik lidí používá Stable Diffusion a kolik snímků generují?
Dream Studio (verze Stable Diffusion pro webový prohlížeč – pozn. red.) používají asi tři miliony uživatelů a denně vytvoří pět až deset milionů obrázků. Model si můžete stáhnout i jako rozhraní API. To znamená, že vývojáři s ním mohou dále pracovat a integrovat ho do různých služeb. Tímto způsobem registrujeme hodně přes milion stažení. A když uvážíte, že většina lidí, kteří k softwaru přistupují tímto způsobem, s ním pak dál pracuje a nějak ho posouvá, je to určitě obrovské číslo. Přesný celkový počet ale neznáme.

dalle2ai

Přečtěte si takéUmělá inteligence ChatGPT napíše program, práci ale nesebereUmělá inteligence ChatGPT umí česky, napíše smlouvu i program. Práci vám ale nesebere, nýbrž ulehčí

Stability AI nedávno získala stamilionovou investici. Investoři si vaší firmy cení na jednu miliardu dolarů, což z vás dělá startupového jednorožce. Jak ty peníze plánujete využít a na čem dalším pracujete?
Pracujeme ještě na dalším obrazovém modelu, který brzy zveřejníme, stejně jako na audio a video modelech. Naší hlavní motivací je snaha spojovat lidi v komunitě. Věříme, že technologie se bude stále zrychlovat a že pomáháme vytvářet zdravější svět tím, že lidem umožňujeme vést otevřený dialog o etice a předsudcích v souvislosti s umělou inteligencí. Co můžete s tímto modelem dělat? Jak ho můžete vylepšit? Jaké nástroje na jeho základě můžeme vytvořit?

Hodně se diskutuje o tom, že se generátory obrázků poháněné umělou inteligencí používají k některým potenciálně kontroverzním věcem. Je podle vás vaší odpovědností stanovovat pravidla? Nebo je to odpovědnost uživatelů?
Myslím, že je to obojí. Chceme, aby se model dostal k co největšímu počtu lidí. Proto chceme, aby byl bezpečný. Je tolik úžasných věcí, které můžete dělat, aniž by to bylo nebezpečné. Nejlepší vlastností těchto modelů podle mě je jejich schopnost poskytnout uživateli pocit štěstí, radosti a kreativity. To všechno můžete dělat, aniž by to bylo nebezpečné. Tyto programy jsou však neuvěřitelně výkonné a budou se používat k nejrůznějším činnostem.

Samozřejmě máme etické standardy použití. Jako každý nástroj ale Stable Diffusion a ostatní programy můžete použít k dobrému i špatnému účelu a v komunitě musí existovat shoda o tom, kde jsou hranice mezi dobrem a zlem, pokud to takto nazveme. Lidé je prostě používají způsoby, se kterými jsme nepočítali, což se stává vždy, když přicházíte s nějakým novým nástrojem. Nemyslíme si tedy, že bychom měli být jedinou stranou, která se podílí na určování pravidel. Právo na rozhodnutí toho, co je správné a co ne, má mít komunita. Každopádně jsme, doufejme, umožnili, aby tato konverzace proběhla. A aby se uskutečnila veřejně – to je klíčové.

Nemyslíme si, že bychom měli být jedinou stranou, která se podílí na určování pravidel.

Tématem, které se v rámci této debaty otevřelo, je také otázka autorských práv a vlastnictví vygenerovaných obrazů. Zejména některým umělcům se třeba nelíbí, že jejich díla jsou v souboru dat pro trénování těchto programů. Snažíte se na to nějak reagovat? Uvažujete například o tom, že jim dáte možnost odhlásit se, podobně jako se člověk odhlásí třeba z odběru různých e-mailů?
Ano, spolupracujeme se skupinou z webové stránky Have I Been Trained?, která umožňuje přesně to, co jste popsal. Umělci v nejnovější verzi Stable Diffusion už mohou požádat o vyřazení. Stejně tak je to způsob, jak se do toho souboru dostat, pokud tam ještě nejste a měli byste o to zájem. Pracujeme také s mnoha společnostmi, které chtějí trénovat vlastní modely. Je docela dobře možné, že budou existovat projekty, které budou umělce odměňovat za to, že jejich díla v modelu budou, zejména u datových sad, jako je hudba. Myslím, že to bude velká věc, možná i pro video. Předpokládám, že plno hudebních společností je nadšeno, protože je to třeba potenciálně nový způsob, jak propojit fanoušky s jejich oblíbenými interprety. V současné době například vedeme opravdu zajímavé hovory s hudebními společnostmi, které se chtějí zapojit do pomoci při vytváření nových modelů.

Nedávno jste vydali druhou verzi programu Stable Diffuison. Předpokládám, že mnoho nových funkcí jste založili na zpětné vazbě, kterou jste dostali od komunity, je to tak?
Ano, v nové verzi je několik novinek. Datová sada je jiná, snažíme se ji trochu zabezpečit filtrováním, abychom odstranili snímky, které se nám moc nelíbily a které jsme v datové sadě nechtěli mít. Pak jsme také mírně změnili architekturu modelů, ne moc, ale je to významná změna.

Ze všech možných problémů, kterých jsme se tu dotkli, se zdá, že na každém rohu je třeba hasit nějaký požár. Jak najít rovnováhu mezi tím, abyste se ve svém oboru posouvali vpřed a zároveň neotevřeli nějakou potenciální Pandořinu skříňku?
Myslím, že to děláme tak, že nasloucháme lidem. Jako open source komunita nejsme důležitější než kterýkoli jednotlivý člen této komunity. Bylo by špatné, kdybychom se snažili tuto technologii ovládat a byli jediní, kdo o ní může rozhodovat. Umělá inteligence je neuvěřitelně silná technologie a už nezmizí. Bude možné s ní dělat neuvěřitelné věci, o kterých zatím ani nevíme.

A co je nejdůležitější, je zde skutečně otevřená debata, která mezi výzkumníky, akademiky a tvůrci probíhá každý den. Odborníci, firmy i jednotlivci se mohou spojit a řešit tyto problémy společně. Ve Stability AI je nás pouze 120, takže bychom neměli být těmi, kdo tu diskusi řídí. A myslím si, že by debatu pod palcem nikdy neměla mít jedna jediná firma. Umělá inteligence je příliš mocná na to, aby ji ovládala jedna společnost.

Co podle vás čeká generativní umělou inteligenci dál?
Víte, o umělé inteligenci se toho dá říct hodně. Dost se mluví o tom, že AI ovládne svět a stroje budou mít vlastní vědomí, ale já si myslím, že k tomu máme ještě hodně daleko. Nejdůležitějším úkolem, který teď máme, je dostat tuto technologii na veřejnost, aby mohla probíhat diskuse. Když komunita řekne, že to máme dělat jinak, poslechneme.