Seznam chystá vlastní umělou inteligenci. Má držet krok s češtinou a pomůže s hledáním na internetu

Firma se službami říznutými AI přijde letos. Do vývoje dala desítky milionů korun a chce zahraniční konkurenci předčit v českém jazyce.

Jiří BlatnýJiří Blatný

cz-umela-inteligence

Foto: Dall-E / OpenAI / CzechCrunch

Seznam pracuje na vlastní generativní umělé inteligenci

1Zobrazit komentáře

Textové generátory, jako je ChatGPT od OpenAI, jsou většinou nejjistější v angličtině, čeština je v jejich podání často nevalná. A právě to chce změnit česká internetová jednička Seznam, která dala na vývoj velkých jazykový modelů desítky milionů korun. Firma zatím využívá volně dostupných modelů, postupně ale chce vyvinou vlastní základní model, který by využívala v různých službách, od internetového vyhledávání po popis nabídky při nakupování online. První produkty, které na nich budou založené, chce Seznam představit letos.

Seznam uvede třeba textový generátor zapojený do internetového vyhledávání, kterému budou uživatelé moct klást dotazy. Podobně dnes už fungují vyhledávače světových technologických firem, třeba Bing a další produkty od Microsoftu, kde je umělá inteligence Copilot, nebo textový generátor Bard od Googlu. Plány Seznamu koncem minulého roku přiblížil Pavel Zima z předsednictva firmy pro Seznam Zprávy.

Oproti známým jazykovým modelům jako GPT od OpenAI, které jsou trénované na velkých datových sadách zejména v anglickém jazyce, se Seznam chce zaměřit na český jazyk. „Je pro nás důležité, aby modely měly sofistikovanou češtinu včetně dialektů. GPT v tom zase tolik neexceluje. Máme rozběhnutý model, který toto zvládá trochu lépe,“ uvedla pro server Lupa.cz Diana Hlaváčová, produktová manažerka velkých jazykových modelů Seznamu.

Společnost chce využít toho, že má k dispozici velký objem dat v českém jazyce. Podle Hlaváčové „jde například o textová data v našich službách, databázi zboží nebo zpravodajské texty z našich médií“. Jazykové modely, na kterých Seznam pracuje, mají minimálně sedm miliard paramentů, ten největší jich má sto miliard. Pro srovnání – u GPT-4 je to číslo 1,7 bilionu.

Výhodu vlastních modelů Seznam vidí v tom, že se nebude muset spoléhat na produkty třetích stran a bude mít přehled o tom, jak dané algoritmy fungují. Seznam s umělou inteligencí a neuronovými sítěmi pracuje už nějakou dobu. V roce 2021 například vydal neuronovou síť Small-E-Czech, která například upravuje řazení výsledků internetového vyhledávání.

Diskuze (1)

Novinka

Anonym
Paráda! Díky za novinky. Jenom, neměly by to být “jazykové modely”?