Na začátku byl špatný polský dabing. Dnes je to raketa, na níž může české Credo vydělat miliardy
Naše ambice jsou hodně velké, hlásí v rozhovoru miliardový jednorožec ElevenLabs. Díky AI tvoří zvukové nahrávky nerozeznatelné od lidského hlasu.
Spoluzakladatel startupu ElevenLabs Mati Staniszewski
Českému fondu Credo Ventures se již před lety podařilo najít startup, z něhož vyrostl takový obr, až to překvapilo i samotného partnera fondu Ondřeje Bartoše. Osobně stál u investice do rumunského UiPath, do kterého fond postupně vložil necelých 200 milionů korun. Když před třemi lety firma vstupovala na newyorskou burzu cenných papírů, hodnota podílu Creda bezpečně přesáhla deset miliard. Zhodnocení tak dosáhlo tisíců procent. „Bylo takřka nemožné, že by byl UiPath takový úspěch,“ komentoval tehdy Bartoš. Ve svém portfoliu teď Credo opět drží eso, ze kterého se časem může vyklubat další podobná raketa.
Oficiálně londýnský startup ElevenLabs dvou polských zakladatelů Matiho Staniszewského a Piotra Dabkowského svůj produkt představil teprve v lednu 2023. Jde o nástroj, který pomocí umělé inteligence vytváří hlasy k nerozeznání od lidských. Metu bájného jednorožce, tedy startupu s hodnotou přesahující jednu miliardu dolarů, překonal o rok později.
Credo u příběhu stojí téměř od začátku – v ElevenLabs vedlo již úvodní, takzvané pre-seed investiční kolo ve výši 44 milionů korun na přelomu let 2022 a 2023. Již v červnu pak startup oznámil uzavření kola série A o hodnotě 413 milionů, kterého se kromě Čechů účastnily i prestižní zahraniční fondy v čele s Andreessen Horowitz a Sequoia. Letos v lednu ElevenLabs získal dalších 1,8 miliardy korun a stal se zmiňovaným miliardovým jednorožcem s valuací 1,1 miliardy dolarů, přibližně 25 miliard korun. Pro kontext: v Česku se tuto metu podařilo podařit Rohlíku, Productboardu a Mews.
„Pořád jsme jen na začátku,“ říká skromně Mati Staniszewski, když spolu mluvíme nad šálkem kávy během jeho návštěvy Prahy. „Že budeme úspěšní jako UiPath, si zatím můžeme jen přát. Ale rozhodně jsou i naše ambice hodně velké,“ pokračuje startupista, jenž letos slaví třicet let.
Od polského dabingu…
Staniszewski i Dabkowski vyrůstali na předměstí Varšavy, seznámili se na střední škole a stali se z nich nejlepší kamarádi. „Možná jsme spolu trávili až příliš moc času,“ směje se Staniszewski, jenž pak studoval obor matematiky na Imperial College v Londýně a následně působil například ve finanční společnosti BlackRock nebo Palantiru se zaměřením na oblast tzv. big data. Dabkowski se rozhodl pro víc výzkumnou dráhu, kdy po studiu počítačových věd na prestižních univerzitách v Oxfordu a Cambridge například pracoval na jazykových modelech v Googlu.
Oba se pořád setkávali a ve volném čase chodili na hackerské víkendy, kde testovali pokroky v různých technologiích. V roce 2021 takovým způsobem vytvořili model umělé inteligence, který zkoumal, jak člověk mluví, a dokázal mu nabídnout doporučení, jak zlepšit svou intonaci a výslovnost. „Tím jsme si otevřeli dveře do světa zvuku. Opravdová inspirace ale nastala o pár měsíců později,“ vypráví Staniszewski.
Dabkowski tehdy se svou přítelkyní, která neuměla anglicky, koukali na film s polským dabingem. Určitě tamní dabing znáte: jeden (mužský) hlas téměř bez emocí čte dialogy všech postav a v pozadí je slyšet originální zvuk. Sám byl překvapen, že se tato praxe, kterou znali ze sledování televize v dětství, pořád využívá i v roce 2021.
„Uvědomili jsme si, že je to problém, který řeší hodně lidí, a když jsme si myšlenku rozpracovali, viděli jsme potenciál využití v mnoha oborech,“ popisuje Staniszewski. Rozhodli se tak naplnit jeden ze svých snů – budovat společně vlastní byznys. Oba dali na dobře placených pozicích výpověď a díky našetřeným vlastním penězům založili ElevenLabs.
Dabkowski do startupu přinesl technické znalosti s prací se strojovým učením i velkými jazykovými modely, Staniszewski zkušenosti s tvorbou go-to-market strategie i budováním a škálováním produktů. V roce 2022 začali s vývojem vlastní umělé inteligence, která se v první fázi zaměřovala na transformaci textu do zvukových nahrávek.
Produkt veřejně spustili v lednu 2023 a rychle se ujal mezi tvůrci obsahu na sociálních sítích či u autorů knih, kteří je chtěli publikovat i v audio formě, avšak na profesionální provedení neměli prostředky. Po šesti měsících hlásili jeden milion registrovaných uživatelů, kteří vytvořili zvukové nahrávky v celkové délce deset let. Po dalším půlroce to již bylo celkově sto let.
Postupem času dvojice společně se svým týmem přidávala další nástroje na konverzi audio nahrávek na jiné hlasy, konverzi textu na zvuky, na klonování hlasů, redukci rušivého šumu v pozadí nahrávek a podobně. To vše na základě vlastního výzkumu a modelů. „V oboru jsme s tímto fungováním jedni z mála. Většina firem se zaměřuje buď na výzkum, nebo na produkty, my jsme spíš výjimkou,“ říká Staniszewski.
…do americké politiky
V základní verzi jsou tyto nástroje pro uživatele zdarma. Výši tržeb za zpoplatněné služby ElevenLabs nekomentuje, dle odhadu CzechCrunche se již ale mohou pohybovat ve stovkách milionů korun. Kromě tvorby audioknih, čtení článků v médiích nebo dabingu nacházejí širokou škálu uplatnění. Staniszewski jako příklad zmiňuje členku americké Sněmovny reprezentantů Jennifer Wexton, která kvůli onemocnění postupně ztrácí svůj hlas, ale díky ElevenLabs dokáže se svým vlastním hlasem stále veřejně vystupovat.
„V Kongresu Spojených států poprvé zazněl hlas tvořený umělou inteligencí. Je to hodně inspirující příběh, navzdory zdravotním překážkám dokáže bojovat,“ doplňuje Staniszewski. S tímto příkladem souvisí i samotná dlouhodobá vize ElevenLabs: zbourat jakékoliv jazykové bariéry a umožnit lidem tvořit obsah i komunikovat. „Řešíme, jak můžeme udělat audio naprosto přístupné komukoliv a kdekoliv bez ohledu na jejich znalosti. V budoucnu to vytvoří nové zážitky a možnosti, jak sdílet svou kulturu, vzdělání i zábavu.“
Využití těchto technologií má však také své stinné stránky. V lednu například tisíce obyvatel amerického státu New Hampshire obdrželi nahrávku hlasu podobného prezidentovi Joeu Bidenovi s výzvou, aby se v den primárek zdrželi hlasování. Dle některých expertů tato nahrávka vznikla právě využitím ElevenLabs, samotný startup ale konkrétní případy nikdy nekomentuje.