Umělá inteligence je příliš mocná, aby ji ovládala jedna společnost, říká expert firmy, která budí vášně

Jakou roli má mít umělá inteligence ve společnosti? To má rozhodnout komunita, ne jedna firma, říká v exkluzivním rozhovoru Tom Mason ze Stability AI.

Jiří BlatnýJiří Blatný

tommasonstabilityaiRozhovor

Foto: Stability AI

Tom Mason ze Stability AI

0Zobrazit komentáře

Umělá inteligence nebo strojové a hloubkové učení. To jsou termíny, které se na nás v současnosti valí snad ze všech stran. Oblast IT zaměřující se na vývoj programů schopných plnit úkoly, které by běžně vyžadovaly zapojení lidí, v současné době zaznamenává nebývalý boom. Poslední rok byl obzvlášť průlomový. Je to zásluha rostoucího výkonu počítačů a objemu použitých dat,“ vysvětluje pro CzechCrunch v ojedinělém rozhovoru Tom Mason z britské firmy Stability AI, kde řídí technologickou stránku byznysu. Jeho společnost stojí mimo jiné za generátorem obrazů Stable Diffusion.

Nejen generátory obrázků, ale i textu, hudby a videa. Způsobů využití umělé inteligence je spoustu, sázejí na ni třeba vývojáři při hledání chyb v softwaru nebo rovnou k inspiraci pro psaní zbrusu nového kódu, stále větší oblibě se těší například i mezi studenty, pro něž je pomocnicí při psaní domácích úkolů.

Na společnosti, jako je právě Stability AI, se ale v posledním čase snáší i kritika. A to kvůli možnostem použít jejich nástroje pro nekalé praktiky, tvorbu fake news a podobně. Mason však na výtky odpovídá, že hlavní úlohou jeho firmy a vývojářů umělé inteligence obecně je dostat tyto technologie mezi lidi. „Chceme rozvířit diskuzi, takže jsme rádi, že se o takových věcech mluví. Nejen v široké veřejnosti, ale i v komunitě odborníků na technologie či etiku,“ vysvětluje v rozhovoru Mason.

Umělá inteligence je podle něj jednoduše nástroj. A stejně jako každý jiný ho lze použít ke konání dobra i zla. Byť souhlasí, že by společnosti vyvíjející tyto technologie měly mít roli v nastavování pravidel, největší slovo v tom, jak s touto stále ještě novou technologií zacházet, by podle něj měla mít komunita. „Pokud se jako celek rozhodne, že bychom to měli dělat jinak, pak to změníme. Komunita je pro nás nejdůležitější,“ říká Mason v rozhovoru pro CzechCrunch.

Nastartujte svou kariéru

Více na CzechCrunch Jobs

Kdy jste si naposledy vyzkoušel váš program?
Nedávno jsem Stable Diffusion ukazoval přátelům, které jsem už dlouho neviděl. Bylo to docela vtipné, protože nikdo z nich o generátorech obrázků nebo textů předtím neměl ani ponětí.

Jak reagovali?
Byli ohromeni tím, že to funguje. Když to někomu jen popisujete, je to trochu krkolomné. Ještě před rokem by vám nic jiného než slovní popis pravděpodobně nezbývalo, protože výkony takových programů ještě nebyly moc dobré. Teď už to však můžete někomu přímo ukázat, aby si to sám vyzkoušel.

Jak byste vysvětlil, čemu se ve Stability AI věnujete?
Existuje spousta různých typů umělé inteligence. My se zaměřujeme na ten generativní. Což znamená, že vyvíjíme modely, které jsou schopné tvořit různé formy médií – od obrázků přes jazyk až po audio i video – a replikovat nebo nějakým způsobem napodobovat lidskou schopnost tvořit. A skvělé na tom je, že člověk je pořád uprostřed celého procesu a může tu technologii ovládat.

Takže o tom uvažujete jako o spolupráci mezi softwarem a lidmi?
Je to něco jako spolupráce mezi počítačem a člověkem, ano.

V posledním roce a půl došlo k explozi modelů, které jsou schopny generovat obrazy v mnoha různých oblastech a rozumět různým uměleckým stylům.

Na podobných projektech pracují i další laboratoře a společnosti OpenAI má DALL·E 2, pak je tu Midjourney a další služby. Jak do toho zapadá Stability AI a čím se lišíte od ostatních značek?
Snažíme se, aby každá fáze, každá část procesu a našeho vývoje byla otevřená. To je to, co nás odlišuje –⁠ je pro nás stěžejní práce s komunitou.

V poslední době se o podobných programech mluví a píše denně. Co je důvodem takového boomu?
Poslední rok byl obzvláště průlomový. Už jen, když se podíváte na velikost modelů, výpočetní výkon počítačů, objemy datových souborů, se kterými pracujeme. Svůj neodmyslitelný díl na tom má i aktivní komunita výzkumníků, odborníků i nadšenců, kteří spolupracují a celé to tím posouvají stále dopředu.

Takže je to v podstatě spousta proměnných, které se v tomto konkrétním čase spojují, a toto je výsledek?
Zdá se mi, že ano. Když se podíváte zpět do roku 2017 nebo 2018, došlo k velkému rozmachu těchto difúzních programů (difúze neboli rozptyl je princip, na kterém obrazové generátory fungují – pozn. red.). Už tehdy bylo možné vytvářet obrázky, které vypadaly realisticky. Obličeje jsme schopni také generovat už poměrně dlouho. V posledním roce a půl ale došlo k explozi modelů, které jsou schopny generovat obrazy v mnoha a mnoha různých oblastech a rozumět různým uměleckým stylům, žánrům a konceptům a spojovat je dohromady. A to hlavně díky pokroku v architektuře těchto modelů. Ale také díky ochotě firem a dalších skupin spojit se, aby je ve velkém trénovaly. Bez věcí jako LAION, což je obrovský soubor obrazových a textových dat, by to bylo zcela nemožné.

Technologie za miliardu

Mohl byste podrobněji popsat, co to LAION je?
LAION je německá skupina, která už několik let věří, že pokud mají být modely umělé inteligence trénovány v otevřeném prostředí, je opravdu důležité, aby existoval velký soubor otevřených dat s obrázky. V LAION mají proces, který se nazývá označování nebo popisování. Během něj vlastně párují obrázky s jejich popisky. Ty ve výsledku vypadají podobně jako zadání, které napíšete obrazovému generátoru, když ho chcete aktivovat. Ideálně to tedy je věta nebo dvě, které popisují vše, co vidíte, v lidsky čitelné podobě.

Ten proces sice můžete do jisté míry automatizovat pomocí informací získaných z webových stránek, ze kterých obrázky pocházejí, ale musíte také spoustu toho označování provést ručně. Proto má LAION týmy lidí po celém světě, které pomáhají třídit soubor dat a přidávat do něj užitečné informace. Výsledkem jejich snažení je soubor pěti miliard dvojic obrázků a jejich popisků, který je vícejazyčný. Dvoumiliardovou sadu pak mají jen pro anglické popisky.

stablediffusion

Foto: CzechCrunch/Stable Diffusion

Odpověď obrazového generátoru Stable Diffusion na zadání, ať zobrazí, jak se lidé baví o umělé inteligenci

Takže používáte jejich soubory dat k trénování svého softwaru.
Ano. Na těch datech navíc dále pracujeme. Snažíme se je vylepšovat pomocí různých filtrů, které mění způsob, jakým náš program obrázky následně vybírá. Tyto změny pak nakonec vložíme zpět do systému LAION jako nové datové sady. Je to takový koloběh.

Modely trénujete na tisících grafických karet. Můžeme to zasadit do kontextu? Jak moc je to učení náročné na hardware?
Grafické karty jsou původně určené k provádění mnoha složitých matematických výpočtů pro videohry. Grafika je vlastně složitá matematika. To je do značné míry to, co dělají při zpracování dat i modely, o kterých se tu bavíme my. Nejvíce namáhavou částí celého procesu je samotný trénink našich modelů. Máme přes pět a půl tisíce grafických karet. V posledních několika letech jsme na naší soustavě spolupracovali s Amazonem a nyní už tvoří jedenáctý nejrychlejší soukromý superpočítač na světě. Skvělé je, že jakmile je jednou model hotový, je hotový navždy a lidé ho mohou používat navždy. Vy si ho ale jako koncový uživatel pak můžete pustit jednoduše třeba na webu.

Kolik lidí používá Stable Diffusion a kolik snímků generují?
Dream Studio (verze Stable Diffusion pro webový prohlížeč – pozn. red.) používají asi tři miliony uživatelů a denně vytvoří pět až deset milionů obrázků. Model si můžete stáhnout i jako rozhraní API. To znamená, že vývojáři s ním mohou dále pracovat a integrovat ho do různých služeb. Tímto způsobem registrujeme hodně přes milion stažení. A když uvážíte, že většina lidí, kteří k softwaru přistupují tímto způsobem, s ním pak dál pracuje a nějak ho posouvá, je to určitě obrovské číslo. Přesný celkový počet ale neznáme.

dalle2ai

Přečtěte si takéUmělá inteligence ChatGPT napíše program, práci ale nesebereUmělá inteligence ChatGPT umí česky, napíše smlouvu i program. Práci vám ale nesebere, nýbrž ulehčí

Stability AI nedávno získala stamilionovou investici. Investoři si vaší firmy cení na jednu miliardu dolarů, což z vás dělá startupového jednorožce. Jak ty peníze plánujete využít a na čem dalším pracujete?
Pracujeme ještě na dalším obrazovém modelu, který brzy zveřejníme, stejně jako na audio a video modelech. Naší hlavní motivací je snaha spojovat lidi v komunitě. Věříme, že technologie se bude stále zrychlovat a že pomáháme vytvářet zdravější svět tím, že lidem umožňujeme vést otevřený dialog o etice a předsudcích v souvislosti s umělou inteligencí. Co můžete s tímto modelem dělat? Jak ho můžete vylepšit? Jaké nástroje na jeho základě můžeme vytvořit?

Hodně se diskutuje o tom, že se generátory obrázků poháněné umělou inteligencí používají k některým potenciálně kontroverzním věcem. Je podle vás vaší odpovědností stanovovat pravidla? Nebo je to odpovědnost uživatelů?
Myslím, že je to obojí. Chceme, aby se model dostal k co největšímu počtu lidí. Proto chceme, aby byl bezpečný. Je tolik úžasných věcí, které můžete dělat, aniž by to bylo nebezpečné. Nejlepší vlastností těchto modelů podle mě je jejich schopnost poskytnout uživateli pocit štěstí, radosti a kreativity. To všechno můžete dělat, aniž by to bylo nebezpečné. Tyto programy jsou však neuvěřitelně výkonné a budou se používat k nejrůznějším činnostem.

Samozřejmě máme etické standardy použití. Jako každý nástroj ale Stable Diffusion a ostatní programy můžete použít k dobrému i špatnému účelu a v komunitě musí existovat shoda o tom, kde jsou hranice mezi dobrem a zlem, pokud to takto nazveme. Lidé je prostě používají způsoby, se kterými jsme nepočítali, což se stává vždy, když přicházíte s nějakým novým nástrojem. Nemyslíme si tedy, že bychom měli být jedinou stranou, která se podílí na určování pravidel. Právo na rozhodnutí toho, co je správné a co ne, má mít komunita. Každopádně jsme, doufejme, umožnili, aby tato konverzace proběhla. A aby se uskutečnila veřejně – to je klíčové.

Nemyslíme si, že bychom měli být jedinou stranou, která se podílí na určování pravidel.

Tématem, které se v rámci této debaty otevřelo, je také otázka autorských práv a vlastnictví vygenerovaných obrazů. Zejména některým umělcům se třeba nelíbí, že jejich díla jsou v souboru dat pro trénování těchto programů. Snažíte se na to nějak reagovat? Uvažujete například o tom, že jim dáte možnost odhlásit se, podobně jako se člověk odhlásí třeba z odběru různých e-mailů?
Ano, spolupracujeme se skupinou z webové stránky Have I Been Trained?, která umožňuje přesně to, co jste popsal. Umělci v nejnovější verzi Stable Diffusion už mohou požádat o vyřazení. Stejně tak je to způsob, jak se do toho souboru dostat, pokud tam ještě nejste a měli byste o to zájem. Pracujeme také s mnoha společnostmi, které chtějí trénovat vlastní modely. Je docela dobře možné, že budou existovat projekty, které budou umělce odměňovat za to, že jejich díla v modelu budou, zejména u datových sad, jako je hudba. Myslím, že to bude velká věc, možná i pro video. Předpokládám, že plno hudebních společností je nadšeno, protože je to třeba potenciálně nový způsob, jak propojit fanoušky s jejich oblíbenými interprety. V současné době například vedeme opravdu zajímavé hovory s hudebními společnostmi, které se chtějí zapojit do pomoci při vytváření nových modelů.

Nedávno jste vydali druhou verzi programu Stable Diffuison. Předpokládám, že mnoho nových funkcí jste založili na zpětné vazbě, kterou jste dostali od komunity, je to tak?
Ano, v nové verzi je několik novinek. Datová sada je jiná, snažíme se ji trochu zabezpečit filtrováním, abychom odstranili snímky, které se nám moc nelíbily a které jsme v datové sadě nechtěli mít. Pak jsme také mírně změnili architekturu modelů, ne moc, ale je to významná změna.

Ze všech možných problémů, kterých jsme se tu dotkli, se zdá, že na každém rohu je třeba hasit nějaký požár. Jak najít rovnováhu mezi tím, abyste se ve svém oboru posouvali vpřed a zároveň neotevřeli nějakou potenciální Pandořinu skříňku?
Myslím, že to děláme tak, že nasloucháme lidem. Jako open source komunita nejsme důležitější než kterýkoli jednotlivý člen této komunity. Bylo by špatné, kdybychom se snažili tuto technologii ovládat a byli jediní, kdo o ní může rozhodovat. Umělá inteligence je neuvěřitelně silná technologie a už nezmizí. Bude možné s ní dělat neuvěřitelné věci, o kterých zatím ani nevíme.

A co je nejdůležitější, je zde skutečně otevřená debata, která mezi výzkumníky, akademiky a tvůrci probíhá každý den. Odborníci, firmy i jednotlivci se mohou spojit a řešit tyto problémy společně. Ve Stability AI je nás pouze 120, takže bychom neměli být těmi, kdo tu diskusi řídí. A myslím si, že by debatu pod palcem nikdy neměla mít jedna jediná firma. Umělá inteligence je příliš mocná na to, aby ji ovládala jedna společnost.

Co podle vás čeká generativní umělou inteligenci dál?
Víte, o umělé inteligenci se toho dá říct hodně. Dost se mluví o tom, že AI ovládne svět a stroje budou mít vlastní vědomí, ale já si myslím, že k tomu máme ještě hodně daleko. Nejdůležitějším úkolem, který teď máme, je dostat tuto technologii na veřejnost, aby mohla probíhat diskuse. Když komunita řekne, že to máme dělat jinak, poslechneme.

Flexibilní frajeřina. Vyzkoušeli jsme skládací kombo notebooku a tabletu se 17″ OLED obrazovkou

Je to tablet. Je to laptop. Je to monitor. Je to všechno mezi tím a všechno najednou. A hlavně je Asus Zenbook Fold 17 OLED překvapivě návykový.

Michal MančařMichal Mančař

fold-boxed

Foto: CzechCrunch

Domácí cukroví je super, ale Zenbook Fold 17 OLED od Asusu je také pořádná pochoutka

0Zobrazit komentáře

K čemu je notebook, který rozložíte na velký tablet? Anebo naopak, má smysl tablet, jenž ohnete do podoby laptopu? To jsou validní otázky, které v nás Asus Zenbook Fold 17 OLED vyvolával od prvních okamžiků našeho týdenního testování. Jenže s každou hodinou na ně tento skládací stroj velice rozumně odpovídal. A úspěšně přesvědčoval, že tohle není slepá ulička, ale cesta vedoucí do budoucnosti.

Ohebné displeje sice stále nejsou zdaleka běžné, ale divokou a nevídanou exotikou už pár let také nejsou. Zato na větší zařízení se flexibilní obrazovky dostávají spíš pozvolna. Před dvěma roky jsme v CzechCrunchi zkoušeli třeba skládací laptop od Lenova. Tentokrát jsme však do redakce dostali k vyzkoušení mnohem větší kalibr. Asus Zenbook Fold 17 OLED, jehož název okamžitě dává na odiv tři nejvýraznější lákadla zařízení. Ohebnost sedmnáctipalcového displeje s půvabem technologie OLED.

Další námi testovaná novinka od Asusu je první skládací laptop se 17” obrazovkou na světě, což vzhledem k mizivé konkurenci mezi ohebnými hybridními zařízeními není úplně důvod k rozdávání medailí, ale je to impozantní, ne že ne. V kombinaci s použitou obrazovou technologií a rozlišením 2 560 na 1 920 pixelů je to parádní plocha pro sledování obsahu s krásně jasnými barvami i hlubokou černou. Ale byť vypadá parádně, je hned na začátku nutné zmínit, že platí dvojnásobnou daň za svou ohebnost.

Ta není kdovíjak vysoká (na rozdíl od ceny Zenbooku, která se točí kolem 90 tisíc korun), ale občas je znát. Pod ostřejším úhlem je totiž ohyb celkem výrazný. Především při zobrazení jednolitějšího a jednobarevného obsahu, kdy linii kloubu nerozbíjí různá okna. Flexibilní technologie a dotykové ovládání si také vyžádaly lesklou, a tedy občas rušivou povrchovou úpravu. Dobrou zprávou nicméně je, že u přímého pohledu přítomnost ohybu a odlesky nejsou výrazné a jinak krásný vizuální dojem neruší.

Když pohled přesunete z obrazovky, Fold 17 spíš než coby kousek originální technologie působí při složení dojmem luxusnějšího zápisníku. Především díky designovému hřbetu, který zakrývá kloub. Ten měl mimochodem podle výrobce projít důkladnými zkouškami a má vydržet 30 tisíc otevření. Část hřbetu pak lze odklopit coby stojánek a zařízení tak během sekundy proměníte z rozloženého tabletu či ohnutého notebookového režimu na monitor. A ono je to užitečné i příjemné.

fold-obrazovka

Foto: CzechCrunch

Zenbook Fold 17 je vybavený OLED displejem, který je zárukou parádní podívané

Součástí balení je bluetoothová klávesnice, která se při laptopovém používání magneticky přichytí na polovinu displeje. Když ji odpojíte a Fold postavíte do pozice monitoru, najednou máte prakticky plnohodnotnou pracovní stanici. Poté, co vás práce přestane bavit, skočíte na gauč a pustíte si film. Celkově je flexibilita Zenbooku nesmírně příjemným překvapením. Konzervativní hlas v hlavě se při prvních minutách používání ozýval, k čemu že to bude dobré. Jenže za chvíli ho překřičelo nadšení z toho, jak intuitivní to je.

Velká a ohebná obrazovka je totiž pro oči navyklé telefonu a ruce zvyklé na klasický laptop opravdu návyková. Protože do postele si monitor od stolního počítače nevezmete, notebook není tak komfortní a tablet s takto pěkným a velkým displejem je na trhu úkaz. A dokud bychom to nevyzkoušeli, nevěřili bychom, jak může být i taková zdánlivá pitomost jako ohnutí kloubu do tvaru knížky příjemné pro čtení ebooků. Ačkoliv u té příjemnosti je nutné zmínit hmotnost zařízení.

Nastartujte svou kariéru

Více na CzechCrunch Jobs

Jeden a půl kilogramu není hodnota, která by nějak vážně znemožňovala častou manipulaci a přenášení, ale k dokonalé dynamičnosti a mobilitě by se ještě nějaká dieta hodila. A to i co se rozměrů týče. Coby tablet to je vcelku standardní, tloušťka mezi devíti a třinácti milimetry, rozměry o něco menší než formát papíru A3. Ale složený Fold sice v pohodě popadnete do ruky, nicméně je to spíš plnoštíhlá kniha než elegantní konkurent tenkého notebooku. A to bez klávesnice a různých krytů či pouzder.

Při běžném používání to však není kdovíjaká překážka, spíš jen taková konstantní připomínka toho, že třeba příští generace Foldu by v tomto ohledu mohla být uživatelsky mnohem přívětivější. Ale i za současného stavu máte stroj chvíli zlomený v režimu notebooku a předstíráte práci, načež si ho v mžiku otočíte, rozložíte a místo toho, abyste na pracovní poradě dávali pozor, si s vedle sedícím kolegou kooperativně čmáráte ve windowsovském Malování.

fold-kniha

Foto: CzechCrunch

Tablet, notebook i kniha. Zenbook Fold 17 má mnoho podob – a je to velmi příjemné

Podobně hravě založené uživatele však Zenbook příliš nepotěší, na pěkné obrazovce si užijí spíš jen videohry s nevýraznými hardwarovými požadavky. Grafiku pohání pouze čip Intel Iris Xe – což tedy dává smysl, nadupaná GeForce čtyřkové řady by se do kompaktního a flexibilního těla těžko cpala – ale ani nanejvýš středně náročné 3D tituly nejsou plynulé, byť v nejvyšší abstinenční nouzi nejsou vyloženě nehratelné.

Přitom na testovaného Fantasy Generala 2 a Civilization nebo podobné záležitosti by byl Fold opravdu jako dělaný. Což potvrzuje třeba při příjemném hraní retro titulů, remasterovaný Broken Sword s tabletem na gauči je čirá radost. Procesor Intel i7-1250U a 16 gigabajtů operační paměti nicméně klasičtější nebo kancelářštější fungování zvládají zcela na pohodu, nepříjemné čtvrtsekundové prodlevy známé z lacinějších přenosných zařízení nehrozí.

Bude zajímavé sledovat, jestli a jak hardware zařízení do příštích modelů Asus vylepší. A vlastně právě toto potěšené pokukování po potenciálně lepší budoucnosti je věc, kterou tenhle flexibilní frajer vyvolává docela často. Zenbook Fold 17 totiž ještě není to zařízení, které odstartuje revoluci, jež změní návyky uživatelů. Ale první obavy, že to bude jen taková legrace bez většího potenciálu, rozprášil na atomy. Nevede do slepé uličky, ale ukazuje cestu do budoucnosti.

Možná ohebné tabletonotebooky nebudou největší mainstream, který nahradí klasické laptopy. Ale určitě to bude s každým rokem rostoucí a sílící kategorie strojů, jež si najdou zákazníky, kteří jejich možnosti skutečně využijí. A až budou podobná zařízení o třetinu tenčí a lehčí a o dvě třetiny levnější, budou po nich úplně běžně sahat i nenároční zájemci, kteří prostě hledají nový notebook.

asus-zenbook-fold-16-oled-02

Foto: Asus

Asus Zenbook Fold 17 Oled v režimu tabletu s připnutou klávesnicí