Chceme průlom v umělé inteligenci. Jaroslav Beck dá do nového startupu s Tomášem Mikolovem čtvrt miliardy

Český startup BottleCap AI má velké ambice ve světě umělé inteligence. Spoluzakladatel Beat Saberu se v něm spojuje s uznávaným vědcem.

Ondřej HolzmanOndřej Holzman

bottlecap1

Foto: BottleCap AI

David Herel, Tomáš Mikolov a Jaroslav Beck, zakladatelé BottleCap AI

0Zobrazit komentáře

Dlouho hovořil o tom, že další velký projekt po úspěšném prodeji hry Beat Saber teprve představí. A teď nadešel ten správný čas. Jaroslav Beck oznámil, že společně s uznávaným vědcem Tomášem Mikolovem spouští nový startup, který chce přinést průlom do vývoje velkých jazykových modelů pohánějících současnou umělou inteligenci. V zakládajícím týmu je s nimi jako hlavní vývojář David Herel a jejich mise je velmi ambiciózní. Důkaz, že to myslí vážně? Jaroslav Beck do rozjezdu startupu investuje ze svého deset milionů dolarů, což je v přepočtu zhruba 240 milionů korun.

„Moje investice je jasným závazkem, že věříme v naše řešení a chceme ho rychle aplikovat. Stejně jako v mých dalších startupech nechci přenášet riziko na investory, dokud si nebudeme jisti, že se náš produkt úspěšně rozšíří po celém světě,“ vysvětluje pro CzechCrunch hlavní motivaci za tak velkou úvodní investicí Jaroslav Beck. Ten ve svých aktivitách čerpá kapitál z miliardového prodeje úspěšné VR hry Beat Saber, za kterou stál společně s Jánem Ilavským a Vladimírem Hrinčářem a kterou před více než pěti lety koupil Facebook. Jeho nový startup míří tam, kde je teď v technologiích nejvíce živo.

V projektu BottleCap AI chtějí Beck, Mikolov a Herel vyvinout novou generaci velkých jazykových modelů s radikálně vyšší efektivitou. V první fázi však nebudou stavět další jazykový model, ale rádi by významně zlepšili ty existující. „Dnešní jazykové modely jako ChatGPT vycházejí z architektury Transformer a jejich zlepšování se dosud opíralo hlavně o větší modely, více dat a silnější hardware. Softwarová stránka však v posledních letech stagnovala. Naše výzkumy ukazují, že existují zcela nové způsoby trénování modelů, které mohou přinést mnohonásobně vyšší efektivitu,“ vysvětluje Tomáš Mikolov.

tomas-mikolov

Přečtěte si takéChatGPT může být začátek konce Googlu, říká Tomáš MikolovVyhledávání od Googlu zůstalo v 90. letech. ChatGPT může být začátek jeho konce, říká Tomáš Mikolov

Do velkých podrobností o tom, co chystají, se zatím zakladatelé BottleCap AI nechtějí pouštět. Plánují, že více prozradí až s prvními reálnými výsledky, které chtějí mít v řádu jednotek měsíců. Navíc ve světě umělé inteligence probíhá obrovský konkurenční boj. Velký rozruch například nedávno způsobil čínský startup DeepSeek, který dokázal postavit velké jazykové modely s mnohem slabšími čipy, než s jakými je trénují velké západní technologické společnosti, a ukázal, že další vývoj umělé inteligence nemusí být postaven pouze na nejvýkonnějším hardwaru.

„DeepSeek ukázal, že lze vylepšit efektivitu modelů i bez enormního výpočetního výkonu. My se ale nesoustředíme na vývoj vlastního modelu, nýbrž na zefektivnění těch existujících. Naším cílem je až stokrát efektivnější trénování jazykových modelů, což bude mít obrovský dopad na celou oblast umělé inteligence,“ doplňuje Tomáš Mikolov, který je ve světě AI uznávanou osobou. Působil ve výzkumných týmech ve Facebooku či Microsoftu a v roce 2013 jeho tým v Googlu vyvinul techniku Word2vec. Ta představovala průlom v oblasti zpracování přirozeného jazyka, protože umožnila počítačům lépe porozumět textu převedením slov na čísla srozumitelná pro stroje.

jaroslav-beck2

Foto: Cans

Jaroslav Beck

Dnešní moderní velké jazykové modely v čele s ChatGPT staví na principech této techniky a Tomáš Mikolov, který se před pěti lety vrátil z USA do Česka a působí mimo jiné na půdě ČVUT, bude nyní své zkušenosti jako Chief Scientist Officer využívat v BottleCap AI. Jaroslav Beck bude jako CEO dohlížet na provoz, rozvoj produktu a škálování expanze celého projektu. David Herel bude mít jako Senior Scientist na starost vývoj prvního produktu firmy, jejíž název je v doslovném překladu „víčko láhve“. Jde o narážku na obrázek, který koloval po sítích zejména v posledních měsících.

„Inspirace pro název BottleCap vychází z vtipného memu, který srovnává evropskou inovaci reprezentovanou spojenými plastovými víčky vůči rychlostí inovace raket SpaceX. Ačkoliv toto srovnání pochopitelně není úplně fér, jistá reflexe ohledně rychlosti inovací a konkurenceschopnosti Evropy je dnes zásadní téma. To nás motivovalo založit si základnu právě v Evropě, kde chceme urychlit vývoj efektivní umělé inteligence,“ říká Jaroslav Beck. Tým proto staví v Praze a v první fázi se chtějí soustředit hlavně na rychlé dosažení výsledků. I ty mohou rozhodnout o dalším vývoji firmy.

meme

Foto: BottleCap AI

Internetový meme, který inspiroval název BottleCap AI

Pokud se Beckovi a spol. podaří podstatným způsobem posunout efektivitu jazykových modelů, zváží prý i externí spolupráci s dalšími investory. Úvodní investici atakující v přepočtu čtvrt miliardy korun ale poskytne sám Jaroslav Beck. „To nám umožní rychlý start a plné soustředění na vytvoření prvního reálného produktu postaveného na našem výzkumu bez zpoždění způsobeného žádostmi o granty či externí podporou,“ vysvětluje. Hlavní investice mají jít do týmu, hardware prioritou zatím není – i proto, že se prý efektivní algoritmy dají vyvíjet vcelku levně.

Na poměry globálních investic, které firmy a startupy do vývoje umělé inteligence vkládají, je deset milionů dolarů relativně málo. Minimálně zpočátku by to ale prý pro BottleCap neměl být problém.

„Velikost rozpočtu není vždy klíčová, což poslední měsíce v oblasti AI potvrzují. Tomáš Mikolov i já jsme prošli velkými technologickými firmami, známe jejich silné i slabé stránky. Soustředí se hlavně na inkrementální vylepšování, což jim brání v radikálních inovacích. Naším klíčovým faktorem je znalost efektivnějších přístupů. Technologie, které dnes dominují AI trhu, vycházejí z metod, které jsou zastaralé a neefektivní. My vidíme lepší cestu,“ doplňuje Jaroslav Beck.

O tom, že chce v Česku vidět další úspěchy jako Beat Saber, hovořil šestatřicetiletý rodák ze Strakonic už před lety, kdy po prodeji jedné z nejpopulárnějších her pro virtuální realitu začal investovat do jiných startupů. Před dvěma lety pak studio Beat Games definitivně opustil a rozjel například značku plechovek Cans, kterých se za rok a půl prodal milion. Také v tomto projektu potvrdil své ambice, když rozjezd ochucené perlivé vody bez sladidel podpořil investicí ve výši 100 milionů korun.

V rámci nadačního fondu Giving Beck poskytuje dětem v dětských domovech hudební vybavení a má investice v řadě startupů, například v Qerku, ArtMasteru nebo Outfindu. Do některých investuje společně s Robertem Kynclem, který dříve působil v Netflixu, HBO nebo YouTube a aktuálně jako nejvýše postavený Čech ve světovém showbyznysu šéfuje Warner Music.

CzechCrunch Jobs

CzechCrunch Weekly

V newsletteru Weekly vám každou neděli naservírujeme porci těch nejdůležitějších zpráv, které by vám neměly uniknout.

Oživil jsem svoji kočku a otevřel Apple Store v Olomouci. Otestovali jsme umělou inteligenci Sora

Do Evropy včetně Česka dorazila umělá inteligence Sora, která je schopná generovat video. Vyzkoušeli jsme, co umí a kde jsou její limity.

Tomáš ChlebekTomáš Chlebek

sora-openai-1

Foto: Sora/CzechCrunch

Apple Store v Olomouci, záběr kočky, který není skutečný a Blade Runner na Karlově mostě

0Zobrazit komentáře

Před časem jsem viděl epizodu Black Mirror s názvem Přijdu hned. Hlavní hrdinka v ní přijde o svého milovaného přítele. Velmi kvůli tomu trpí, jistou útěchu jí ale přinese umělá inteligence, která podle příspěvků na sociálních sítích a záznamů soukromých konverzací dokáže vygenerovat virtuální nápodobu zemřelého. A to včetně jeho hlasu i podoby. Ovšem ne bez chyb. Když jsem zkoušel generovat videa v Soře, která právě dorazila do Česka, na tu epizodu jsem si vzpomněl.

Umělá inteligence z dílny OpenAI dokáže generovat videa podle nahraných obrázků, takže mě rychle napadlo použít starší fotografii mojí kočky. Pak stačilo doplnit krátké zadání – „Kočka se rozhlíží kolem, hledá myš“. Asi o minutu později jsem dostal dvě desetivteřinová videa milované Laury, jak chodí v trávě, mává chundelatým ocasem a něco hledá. Jako skutečná kočka. Vlastně to je skutečná kočka, jen zachycená na videu v momentu, který se ve skutečnosti nestal.

Etické otázky kolem umělé inteligence – ať už co se týče zdrojů pro její učení, nebo konečných výstupů – se teprve začínají řešit a do budoucna budou jen čím dál relevantnější. V současnosti je to ale hlavně zajímavý kreativní nástroj s obrovským potenciálem.

Firma, která stojí také za chatbotem ChatGPT a generátorem obrázků DALL-E, Soru poprvé představila loni v únoru prostřednictvím série krátkých klipů. O měsíc později už přišly krátké filmy vytvořené ve spolupráci s profesionálními režiséry a například v Hollywoodu se začalo debatovat o tom, jak dlouho ještě budou potřeba klasické rozsáhlé ateliéry nebo drahé výjezdy na lokace.

Od počátku loňského prosince pak mohli videa generovat také běžní uživatelé, když se jeden z momentálně nejpokročilejších nástrojů umělé inteligence zpřístupnil veřejnosti ve vybraných zemích. O pár měsíců později si teď může Soru v plné funkcionalitě vyzkoušet i Evropa. Nástroj nabízí poměrně široké možnosti práce se zadáními i následnými dodatečnými úpravami.

Nastartujte svou kariéru

Více na CzechCrunch Jobs

Po přihlášení do Sory, která sdílí účet s ostatními nástroji OpenAI, dostane uživatel výběr nejzajímavějších vygenerovaných videí, a hned ve spodní části obrazovky se vznáší lišta pro vlastní zadání. Stačí jen krátce popsat požadovanou scénu a začít generovat, nebo můžeme zvolit detailnější nastavení. Na výběr je poměr stran výsledného videa, rozlišení od 480p až do 1080p, délka 5, 10, 15 nebo 20 vteřin, a počet variací – 1, 2 nebo 4 videa.

Samotné zadání může mít formu věty, několika slov nebo jen výčtu požadavků – například „podivně lidská humanoidní mainská mývalí kočka, tančící tiktokový taneček“. Pochopitelně čím detailnější popis, tím přesnější výsledek. Pro komplexnější výstupy přitom můžeme využít Storyboard, kde je možné popsat sérii několika krátkých scén a vytvořit tak celý dvacetivteřinový film.

Velice zajímavou možností je pak nahrávání vlastních zdrojů (obrázků, fotografií i videí), se kterým Sora dále pracuje – jako jsem to udělal já se svojí kočkou. Před nahráním musíme pochopitelně odsouhlasit, že na dané materiály máme plná autorská práva, že neobsahují explicitní záběry a že osoby, které zachycují, nám k použití daly svolení. OpenAI se tak snaží předejít – nebo spíše právně ochránit – vzniku videí jako je klip s celebritami ukazujícími prostředník rapperovi Kanye Westovi.

Já si při testování nejdříve vystačil s fotografií kočky a jednoduchým popiskem. Ve druhém jsem zkusil složitější situaci, otevření Apple Storu v Olomouci. Přesné zadání znělo: „Krátká reportáž z otevření prvního Apple Storu na Horním náměstí v Olomouci. Prodejna je začleněná mezi staré budovy a zapadá do místní architektury. V oknech jsou viditelná loga Applu, před prodejnou čeká dlouhá řada lidí a u vchodu jsou tleskající zaměstnanci Applu v modrých tričkách.“

Výsledek je na první pohled velmi přesvědčivý, jako by do města skutečně dorazila prestižní prodejna. Při bližším pohledu je ale snadné najít chyby – je dobře známé, že umělá inteligence si neumí poradit s textem, takže Apple Store přejmenovala na Alolacplle Store. Chráněnou obchodní značkou to není, jelikož logo firmy s nakousnutým jablkem je správně. Dále se někteří lidé pohybují velice zvláštně a ve skupinkách dokonce splývají dohromady.

Ve třetím příkladu jsem použil nejdetailnější zadání, které pak Sora sama vyhodnotila jako Storyboard. Znělo takto: „Toto je Blade Runner v Praze. Je noc, těžký vzduch je plný smogu a deště. Kamera zachycuje široký záběr Karlova mostu a okolního města ponořeného do neonových světel, v dálce je vidět budova překrytá obřím billboardem s videoreklamou na Coca-Colu. Z tohoto záběru pak kamera zazoomuje do středu akce na Karlově mostě.

Prochází po něm několik lidí s průhlednými deštníky, na nichž je vidět odrazy světel. V jedné plynulé jízdě kamera sleduje dva běžící muže. Jeden z nich je třicátník, má maskulinní tvář s pár oděrkami. V jeho očích je vidět strach, má na sobě futuristické oblečení. Následuje ho druhý muž s klidnou tváří – je to zjevně profesionál, který se nepoddává emocím vypjaté situace. Má na sobě futuristický dlouhý kabát a v ruce má zbraň.“

Mojí snahou bylo vytvořit jeden efektní záběr, v němž kamera přechází z velkého celku na detail dění na mostě a uvede nás do dramatické scény. Umělá inteligence si celý popis rozdělila do čtyř krátkých scén, u nichž ovšem poměrně výrazně pokulhává kontinuita. Estetika je sice jednotná, počítač ale zcela nepochopil, jak má vypadat honička. Ze dvou nahánějících se mužů se stal jeden, který zmateně pobíhá tam a zpátky, a navíc při tom vypadá, jako by kulhal. Deštník má jaksi připevněný k hlavě a v ruce se mu objevuje a zase mizí zbraň.

Prostředí sice nepůsobí tak kyberpunkově, jak jsem si představoval, v tomto ohledu je ale výsledek velice dobrý a přesně splňuje zadání. V další fázi bych mohl poupravit zadání a doplnit další detaily nebo využít funkci „Remix“, která umožňuje specifikovat změny navíc a vygenerovat video znovu. Pokud bych chtěl, mohu si také z několika získaných výstupů přímo v Soře sám sestříhat klip, který by až na obrazové chyby dával smysl.

Vzhledem k délce získaných videí a jejich mnohdy zcela zjevných nedostatcích se nemusíme obávat, že by v blízké době Instagram, TikTok nebo YouTube zaplavily křemíkové halucinace nerozeznatelné od skutečnosti. Už nyní je Sora nicméně nástroj, který lze kreativně využít – například v reklamě a nízkonákladové produkci videí třeba pro vytváření pozadí a nahrazení klipů z videobank. Nebo pro oživení našich miláčků a blízkých. Profesionální produkce by ji mohla použít pro vytváření náhledů a konceptů před natáčením.

Sora je dostupná platícím zákazníkům OpenAI. Předplatné ChatGPT Plus s cenovkou 20 dolarů (480 korun) měsíčně zahrnuje možnost vygenerovat 50 videí při rozlišení do 720p a délce do 10 vteřin. ChatGPT Pro, které vyjde na 200 dolarů (4 800 korun) měsíčně, otevře plné možnosti Sory – dovolí vygenerovat až 500 klipů za měsíc v rozlišení 1080p a délce 20 vteřin.