Poslední měsíce se v oblasti vývoje umělé inteligence nesou ve znamení mánie, která by ještě před rokem byla jen těžko představitelná. Schopnosti takzvaných generativních modelů, které dokážou z ničeho tvořit texty, obrázky i kompletní videa, se zlepšují takřka exponenciálně. Běžný smrtelník to všechno pozoruje s otevřenou pusou, ovšem pro Tomáše Mikolova je to denní chleba, kterému se věnuje už přes patnáct let.

Rodák ze Šumperka je jedním z předních světových expertů na jazykové modely umělé inteligence postavené na neuronových sítích – zjednodušeně řečeno tu technologii, která v základu stojí nad aktuálně hojně používanými nástroji jako Dall-E, ChatGPT nebo Midjourney. Jeho nejslavnější model Word2Vec přispěl třeba k zásadnímu zlepšení Google překladače. Dnes působí na pražské ČVUT, ale má za sebou i štace ve Facebooku, Microsoftu a právě i Googlu.

Technologický gigant známý pro svůj vyhledávač je přitom aktuálně v nebývalé krizi – kvůli startupu OpenAI a jeho nástroji ChatGPT, který se za deset miliard dolarů schoval pod křídla Microsoftu. Pokročilý jazykový model, který dokáže téměř o všem konverzovat jako člověk, totiž začíná fungovat i v rámci vyhledávače Bing. Googlu tak hrozí, že ztratí svůj nejcennější monopol.

Právě čtete úplnou verzi rozhovoru s Tomášem Mikolovem, který jsme natočili pro podcast Weekly. Společně s dalšími zprávami týdne si ho můžete pustit na Spotify, Google Podcasts a Apple Podcasts. K dispozici je i na cc.cz/podcasty a v přehrávači níže.

Chybělo ale docela málo a mohlo být vše jinak. V Googlu totiž v letech 2012 až 2014 pracoval i Tomáš Mikolov. Když ale navrhoval, aby se od staré technologie hledání podle klíčových slov posunul jeho hlavní produkt k bázi, na níž dnes stojí ChatGPT, vedení ho odmítlo. „Panoval názor, že vyhledávání nás živí, takže se na něj nesmělo v základu sahat. Pracují tam na něm tisíce lidí a myšlenka, že bychom ho od základu změnili, je děsila,“ říká v rozhovoru pro CzechCrunch.

V posledních měsících to vypadá, že se v AI spustila smršť. Jak ji vnímáš z pozice člověka, který se jazykovým modelům věnuje přes 15 let?

Pro běžné lidi je to revoluce, pro mě spíš logické vyústění toho, co už zde bylo dávno. Taková zajímavost je, že první generativní modely jazyka, které byly postavené na neuronových sítích, jsem vymyslel už v roce 2007, takže jsem je dělal dlouhé roky před ostatními. Tehdy jsem je ale ukazoval v Brně a lidé říkali: „Dobrá blbinka, ale k čemu je to dobré?“ Teď jsem samozřejmě nadšený z toho, jak získávají na popularitě.

O programech, jako je ChatGPT, se mluví teď jako o revoluci, hlavně ve chvíli, kdy vstoupí do vyhledávání na internetu. Někdo by si ale mohl říct, že je to vlastně jen malá změna oproti tomu, jak dnes funguje Google…

Jasně, z určitého pohledu je můžeme vidět jen jako lepší vyhledávač. Nicméně dnešní Google je postavený na technologii z 90. let. Já napíšu dotaz, ono mi to vrátí webové stránky, které plus minus obsahují klíčová slova. Ale přes neuronové sítě můžeme získat odpovědi a hledat věci, které nikdy nikdo nenapsal. Navíc mohou ty modely pro každého uživatele generovat personalizovaný obsah. Možností tak vzniká nepřeberně víc, než jen vyhledávač, který vrací odkazy na existující webové stránky.

Personalizace mě zaujala. Takže myslíš, že skutečně bude cíleně třeba ChatGPT odpovídat každému jinak?

Ano a ani na to nemusíme vymýšlet nic nového. Modely již existují a v podstatě do nich jen vložíme další možnosti pro uživatele, které je budou dobře reprezentovat. Na to téma jsem měl článek už asi před 11 lety, takže ten problém je vyloženě aplikační. Myslím, že jakmile se do toho Microsoft pustí se svým rozpočtem, začne se to hýbat velmi rychle kupředu. Očekávám, že v blízké době budou ty modely personalizované a budou vracet různým lidem různé odpovědi, a to různým stylem.

Může personalizace i v tomhle případě fungovat stejně dobře, jako jsme zvyklí z dnešního Googlu?

Je několik způsobů, jak toho technicky dosáhnout. Můžeme třeba udělat klastry obyvatel podle pohlaví, povolání, věku, zájmů a dalších kategorií a vytvořit k nim korespondující modely. Nebo bychom adaptaci mohli řešit i online pro každého uživatele zvlášť, nicméně to by ještě dnes bylo ohromně nákladné na výpočetní výkon. Ale uvidíme – dnešní modely jsou také trénované na množství hardwaru, které by ještě před deseti lety bylo nepředstavitelné. Možná nakonec bude mít každý z nás v cloudu personalizovaný model a budeme to brát jako běžnou věc.

O to, kdo bude na tomto novém trhu hrát prim, se teď budou prát Google a jeho nový produkt Bard právě s Microsoftem. Je možné, že by tedy Google přišel o svůj monopol ve vyhledávání na internetu?

Mohl by. Ta technologie Googlu je totiž opravdu zastaralá. Stojí na klíčových slovech a machine learning se používá jen na malá vylepšení okolo. Už před deseti lety, když jsem tam pracoval, jsme samozřejmě měli nápad předělat celý vyhledávač pomocí neuronových jazykových modelů. Vůbec to ale nebylo na pořadu dne. Panoval názor, že vyhledávání nás živí, takže se na něj nesmělo v základu sahat. Pracují tam na něm tisíce lidí a myšlenka, že bychom ho od základu změnili, je děsila. Já si ale uměl tehdy představit i vývoj nějakého paralelního produktu.

Takže Google zazdil příležitost aktualizovat svou technologii z 90. let a mohl být dneska zásadně napřed před Microsoftem…

Když jsem začínal v Googlu v roce 2012, tak se ve vyhledávači nepoužívalo pomalu ani strojové učení. Tehdy ho vedl Amit Singhal (bývalý viceprezident Googlu – pozn. red.), ten podobné snahy odmítal a chtěl mít vše „pravidlové“ jak z devadesátek. Až později se implementoval Word2Vec a neuronové sítě, ale vždy jen na nějaké malé části vyhledávání na drobné změny. Že by se to celé předělalo, lidi ve firmě děsilo.

Nicméně podobné věci se staly v historii mockrát, stačí se podívat třeba na smartphony. Taky je nevymysleli v Applu, ale tuším, že už je dělali mnoho let před nimi v Microsoftu a tehdy je pohřbili, protože v tom neviděli potenciál. Všechny technologie mají nějaké období, kdy vzniknou, a jiné období, kdy mají šanci komerčně uspět.

Tohle by mohl být začátek konce Googlu, pokud nebude reagovat.

Má teď Microsoft lepší startovní pozici než Google, aby předělal svůj vyhledávač Bing?

V některých ohledech si myslím, že má. Bing vznikal později než Google, takže nemá tyto problémy s historickou technologií zdaleka tak velké. Google si udržel náskok díky uživatelským datům, která má k dispozici. Pokud se nicméně objeví miliony lidí, kteří teď budou pro Microsoft tvořit uživatelská data přes ChatGPT, je možné, že to bude nakonec on, kdo bude v monopolní pozici a Google ho bude dohánět. Postupně takhle Google může přicházet o trh. Nepředpokládal bych, že něco jako ChatGPT dokáže nahradit celý Google, ale dokáže asi nahradit část. Tohle by mohl být začátek konce Googlu, pokud na to nebude reagovat, což tedy reaguje.

Asi není pochyb o tom, že Google má zmíněná uživatelská data oproti Microsoftu hodně kvalitní. Jak zásadní výhoda to pro něj v tomto souboji?

Všechny jazykové modely, které jsem zaznamenal v posledních letech, nebyly nějak zázračné po vědecké nebo technické stránce, ale vycházely právě z většího množství dat. Samozřejmě, že Google má obrovské datasety, protože je to firma, která se snaží sbírat data o všem a všude a pokud k tomu není donucena, nikdy je nemaže. Na druhou stranu, data pro jazykový model jsou vlastně libovolný text. Dostat z internetu desítky či stovky miliard slov přitom není dnes problém pro univerzitní tým, natož pak pro firmy s miliardovými rozpočty, dokáže to každý. Google má výhodu v historických datech o tom, na co uživatelé klikají, když si zadají nějaký dotaz. Ale jestliže se styl dotazů výrazně změní, tak tato data budou mít výrazně menší hodnotu, než mají dnes.

Jedna z diskutovaných limitací ChatGPT je fakt, že si často vymýšlí, když jde o odpovědi na faktické dotazy. Ostatně při svém představení se spletl i Google Bard. Můžeme si tedy být jistí, že nám tyto modely prostě nebudou nadále říkat nepravdy?

Už z podstaty jazykových modelů vychází, že se snaží vygenerovat texty, u nichž je vysoká pravděpodobnost, že by je tak mohl napsat člověk. Můžeme ale vymyslet spoustu relativně triviálních příkladů, kde by se nespletlo ani malé dítě, ale tyto jazykové modely se plést budou. Dnes víme, že práce s pamětí nebo něco, čemu říkáme „uvažování“, jsou v těchto modelech špatné, nicméně i tak lepší, než bývaly. Není to tedy o tom, že by si ty modely vymýšlely. Jen nedokážou zaznamenat všechny pravidelnosti v jazyce. Je to oblast aktivního výzkumu a je velmi těžké s tím pohnout.

Foto: Nguyen Lavin/CzechCrunch Vědec a expert na umělou inteligenci Tomáš Mikolov

Není ale předpoklad pro využívání ve vyhledávání právě to, že modely budou umět říkat pravdu?

Záleží především na tom, co si od té technologie budou slibovat uživatelé. I dnešní vyhledávače přece používáme s tím, že se můžeme dostat na stránky, které neříkají pravdu, a následně informace ověřujeme z míst s větší kredibilitou. Jsem v tomhle optimista – myslím, že lidé najdou věci, které tyto nástroje budou umět bezchybně, postupně zjistí, kde se jim dá věřit a kde naopak ne. Nemáme ale teď možnost naučit všechny modely skokově říkat všechno správně, ale postupně to bude lepší.

Další limitací je fakt, že ChatGPT sama o sobě není připojená na internet a je natrénovaná jen na datech z do roku 2021. Je velký zádrhel tuto limitaci odstranit?

Naopak, je to triviální a dokáže to v podstatě každý, jde jen o to skutečně to udělat. Modely se mohou dynamicky adaptovat na základě dat třeba i z posledního měsíce nebo týdne, která do něj proudí.

Teď už jsi podruhé zmínil, že to může vyvinout prakticky kdokoliv. Je ta bariéra vstupu na tento trh tak nízká? Může tedy ještě vzniknout úplně jiná konkurence pro Microsoft a Google?

To záleží, o jaké oblasti se přesně bavíme. Pokud jde o vyhledávač, tak modely, které se v něm používají, jako právě ChatGPT, jsou velké a velmi drahé. Nevím, kolik přesně stálo natrénování modelu, ale pravděpodobně to budou desítky až stovky milionů dolarů. To není věc, co vytvoří nějaký startup ze dne na den. Nicméně pokud nechcete vyhledávač, který umí všechno od psaní kódu až po skládání básniček, a zaměříte se na nějakou konkrétní oblast, tak tam jsou náklady menší a neuronové sítě mohou nahradit řadu zastaralých technologií. Nedávno jsem ostatně zakládal s kolegy startup právě v oblasti neuronových jazykových modelů.

Když se dá část kreativního psaní zautomatizovat, neměli bychom studenty zkoušet z něčeho komplexnějšího?

Prozradíš, čemu se věnuje tvůj nový startup?

Zatím ho můžu popsat jen rámcově. Můžeme totiž mít menší jazykové modely, jejichž provoz nestojí miliony dolarů denně – to je právě případ ChatGPT. My se věnujeme spíš středně velkým modelům. Máme s nimi v plánu získávat data z internetu a popisovat tak kupříkladu názory lidí a jejich vývoj v čase. Užitečné je to pro marketingové účely, ale nechtěl bych to víc rozebírat, než dokončíme demoverzi produktu.

Proti ChatGPT se také zvedá vlna odporu ve školství. Jedna australská univerzita se dokonce vrátila k psaní esejí na papír, aby nástroj nemohli studenti používat. Sám působíš na ČVUT, tak jak se na tyto tendence díváš?

Připomíná mi to ještě moje studentská léta, kdy se zakazovaly kalkulačky. Školství často bojuje proti novým technologiím, místo toho, aby se zamyslelo, jak je začlenit do výuky. Když se dá část kreativního psaní zautomatizovat, neměli bychom studenty zkoušet z něčeho komplexnějšího? Ostatně je to podobné jako už běžné nástroje na gramatiku. Ušetřili bychom spoustu času, pokud by se žáci nebiflovali vyjmenovaná slova nebo výjimky ve velkých písmenech a radši řešili důležitější témata, aby se dokázali v budoucnu uplatnit.