Nejrychlejších sedm měsíců života, říká žena, která vede vývoj generativní umělé inteligence Seznamu

Seznam.cz si jako česká internetová jednička nechce nechat příležitost v umělé inteligenci ujít. Investuje do ní desítky milionů a učí ji česky.

Jiří BlatnýJiří Blatný

diana-hlavacova

Foto: Seznam.cz

Diana Hlaváčová stojí v čele snah Seznamu v oblasti velkých jazykových modelů

0Zobrazit komentáře

Od okamžiku, kdy OpenAI představilo textový generátor ChatGPT, uběhl zhruba rok a půl. Od té doby generativní umělá inteligence (AI) stále více prostupuje do běžného každodenního života. Vysoké tempo rychle rostoucí technologie vnímá i Seznam.cz a Diana Hlaváčová, která stojí v čele snahy české internetové jedničky vyvinout vlastní velké jazykové modely, na kterých programy typu ChatGPT fungují. Pro CzechCrunch popisuje, co ji při její práci nejvíce překvapuje a jak rychle při vývoji generativní AI plyne čas. A samozřejmě co má v této oblasti v plánu samotný Seznam.

Česká internetová jednička si uvědomuje, že si nemůže nechat boom umělé inteligence ujít. Do vývoje už investovala desítky milionů korun a další pravděpodobně přidá. Chce těžit ze svého výsadního postavení na českém trhu a hrát u nás prim také v oblasti generativní umělé inteligence. Podobně jako velké technologické společnosti Microsoft nebo Google globálně.

Ve většině zemí by se to mohlo zdát nemožné, ale Česko je v tomto ohledu specifickým trhem, bez negativních konotací. Jen na několika málo trzích, mezi nimiž je Rusko, Čína nebo Severní Korea, nemá Google suverénní a dominantní pozici. V Česku už sice dokázal svým vyhledávačem překonat ten od Seznamu, ale přesto si česká firma drží na trhu vedle globálního hegemona výraznou pozici.

Dlouhodobě se Seznamu daří držet s Googlem krok i díky tomu, že svou službu staví na míru českému zákazníkovi. Ví, co ho zajímá a jak funguje. A proto si také v Seznamu při vývoji umělé inteligence dávají záležet na tom, aby jejich jazykové modely byly zdatnými češtináři. Ty od globálních technologických firem jsou totiž tradičně nejjistější v angličtině.

Co je to velký jazykový model

Algoritmus, který předpovídá, jaké slovo nebo věta bude nejpravděpodobněji následovat po zadané sekvenci slov. Je trénován na velkém množství dat a poté může být použit pro generování textu, překlad nebo rozpoznávání řeči.

Třeba GPT-4 od OpenAI nebo Gemini od Googlu a další nástroje fungují na základě velkého objemu dat z internetu, tedy většinově anglofonního prostředí. Diana Hlaváčová říká, že výuka českého jazyka se Seznamu daří a některé jeho modely už jsou v řeči schopnější než GPT-3.5, starší sourozenec GPT-4.

„Neformálně jsme jeden z modelů nechali dělat přijímací řízení na osmileté gymnázium z českého jazyka,“ říká Hlaváčová a s úsměvem dodává: „Jeden z našich systémů by se na školu úspěšně dostal.“

Velké jazykové modely už teď na webu Seznamu pohání třeba na první pohled docela nenápadnou funkci. „Když si teď otevřete Seznam.cz, pod řádkem vyhledávání jsou hesla, která lidé v posledních hodinách nejvíce hledají. Po rozkliknutí se objeví sumář k tématu, který už generujeme právě pomocí velkého jazykového modelu,“ uvádí Hlaváčová. Další služby říznuté umělou inteligencí chce Seznam veřejnosti začít představovat letos.

Je to paradox: jsem s AI ve styku každý den v práci, mimo ji ale moc nepoužívám.

A cíl? Takzvaný foundation model. Tak se v anglické hantýrce umělé inteligence označuje model, který je výchozím bodem, jejž lze po natrénování upravovat ke konkrétnímu použití, třeba pro překlad nebo konverzaci. V Seznamu zatím vlastní takové systémy vyvíjejí a testují interně. Experimentují při tom s různými otevřenými jazykovými modely, které jsou dostupné veřejně a může si je tvarovat podle potřeby.

Tým kolem Diany Hlaváčové spoléhá třeba na model společnosti Meta Marka Zuckerberga zvaný Llama 2 nebo na systém francouzského startupu Mistral AI, do kterého nedávno ve velkém investoval Microsoft. Takové modely následně právě doučují na velkém množství dat v češtině. „Pracujeme s modely o velikosti od sedmi do sedmdesáti miliard parametrů,“ říká Hlaváčová.

Parametry jsou zjednodušeně řečeno různá nastavení, která modely používají ke zlepšování schopnosti porozumět a tvořit text. Více parametrů obvykle znamená přesnější a relevantnější odpovědi. Pro srovnání: několikrát zmíněný GPT-4 jich má podle Hlaváčové zhruba 175 miliard. Větší číslo ale nutně lepší výkon neznamená. Trend je aktuálně opačný a jazykové modely se spíše zmenšují.

„Ukazuje se, že výkon se i přes to zlepšuje. To mě překvapilo. Když jsme začínali, šlo se naopak cestou co největších velikostí,“ vysvětluje Hlaváčová. Kromě objemu textových dat je totiž při trénování velkých jazykových modelů klíčová i jejich kvalita, které mají v Seznamu i díky své různorodé činnosti v digitálním prostředí dostatek.

„Jsme i mediální dům, máme reklamní systémy a další zdroje textových dat,“ vyjmenovává výhody Seznamu při vývoji umělé inteligence jeho manažerka. Aby ale jazykové modely mohly opravdu dobře fungovat, je třeba také kvalitní „železo“, tedy hardware. V datových centrech Seznamu tak je zapojený zlatý standard oblasti umělé inteligence: grafické karty H100 od Nvidie, jejichž kusová cena se pohybuje v desítkách tisících dolarů.

Americká Nvidie díky boomu generativní umělé inteligence zažívá velmi příjemné období. V příjmech vloni dosáhla v přepočtu na 1,4 bilionu korun a vykázala čistý zisk přes 700 miliard korun. Přesný počet karet v Seznamu Hlaváčová uvést nechtěla. Podle deníku e15 nakoupil Seznam k vývoji vlastní AI od Nvidie řádově stovky čipů.

cipy

Přečtěte si takéGrog, Grok… Groq! Na Nvidii dotírá startup, co zrychluje chatbotyGrog, Grok… Groq! Na Nvidii dotírá výrobce čipů, který chatbotům dovoluje zařadit vyšší rychlost

Rychlost nástupu umělé inteligence, kterou šéf OpenAI Sam Altman označil za nejrychlejší průmyslovou revoluci vůbec, pro tým Hlaváčové znamená neustálé třídění a vstřebávání nových informací. Na otázku, jak jí uběhlo sedm měsíců, po které v Seznamu vývoj velkých jazykových modelů vede, rodačka ze Slovenska odpovídá: „Byly to ty nejrychlejší měsíce v životě.“

Množství nových poznatků ale nevnímá negativně. „Spíš vás to nakopne, otevře nové dveře. Každý den víme něco nového,“ dodává Hlaváčová. Kolik lidí spolu s ní na vývoji umělé inteligence pracuje, prozradit nechce. Je to pro ni každopádně srdcová záležitost. V Seznamu působí dva roky a než se dostala do čela vývoje velkých jazykových modelů, pracovala na algoritmu, který při internetovém vyhledávání řadí výsledky podle jejich relevance.

„Když vyšel ChatGPT, zkoušela jsem tvořit prototypy a snažila jsem se u nás dělat osvětu, na co všechno to jde využít,“ říká Hlaváčová. Umělá inteligence ji pořád dokáže nadchnout a v Seznamu jí žije. Jak ji ale využívá mimo pracovní dobu? „Přiznávám, že je to paradox: jsem s AI ve styku každý den v práci, mimo ji ale moc nepoužívám,“ uzavírá Hlaváčová.