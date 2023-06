Jsme novináři, rádi se setkáváme s lidmi a děláme s nimi rozhovory. Horší část je přepis běžně i více než hodinových nahrávek z mluvené řeči do textu. Zabírá hodně času a nejraději bychom se téměř všichni v oboru tohoto procesu zbavili. Během posledních let jsem dostal různé maily o českých nástrojích, které přepisy dělají – konkrétně jich bylo za šest let devět, při testování se ale ani jeden z nich neukázal jako využitelný. Teď se však zdá, že technologický pokrok konečně došel do kýženého stavu. Řešení, se kterým se dá už dobře pracovat, nabízí aplikace Beey z dílny domácí společnosti Newton Technologies, na níž spolupracovali i vědci z Technické univerzity v Liberci.

Ne že by všechny softwary, které jsem během let testoval, byly úplně špatné, svoji práci ve specifických use-casech dělají pravděpodobně dobře. Jenže já jsem běžný novinář, který píše, moje rozhovory nevznikají v profesionálních studiích s vysokou kvalitou zvuku. Místo toho často spíše v hlučných kavárnách nebo restauracích a nahrávám je na mobil, což kvalitu zvuku výrazně snižuje.

Když se mi tedy v mailu objevila tisková zpráva o dalším českém nástroji na přepis řeči, byl jsem po mnoha zkušenostech skeptický. V posledním roce ale došlo k výrazným pokrokům ve vývoji umělé inteligence, kterou u běžné veřejnosti zpopularizoval zejména nástroj ChatGPT od společnosti OpenAI. A proto jsem byl zvědavý, zda jde s tímto pokrokem ruku v ruce také zlepšování technologií NLP, takzvaného Natural Language Processing, tedy zpracování přirozeného jazyka. S tím, jak si v současnosti dokáže poradit umělá inteligence s tvorbou textu, se pokroky mohly projevit i ve vytváření přepisů.

S tvůrci aplikace Beey jsem si dohodl přístup do testovací verze. A musím přiznat, že jsem byl z výsledku příjemně překvapen. Po dlouhých letech konečně první nástroj využitelný i pro potřeby běžného novináře. Nahrávku do textu přepíše rychle, chápe konec věty, většinou rozpoznává hlasy jednotlivých řečníků, čímž umožňuje snazší editaci textu. Samotný nástroj funguje jednoduše, uživatel nahraje zvukový záznam většiny běžně používaných formátů a software se postará o přepis. Hodinovou nahrávku převede do psané formy v průměru do několika minut.

Foto: CzechCrunch Přepis testovací nahrávky v aplikaci Beey

K dispozici je pak textový editor, v němž je možné naráz pracovat se zvukem a textem, což finální úpravy zjednodušuje. Beey ale nabízí i další use-casy včetně tvorby titulků k videím, překlady a podobně. V základním cenovém modelu je software zpoplatněn třemi korunami plus DPH za minutu nahrávky. Cenu na míru nabízí přes firemní profily s pokročilejšími funkcemi.

„Základem Beey je rychlý a co nejpřesnější přepis hlasu. Ten je u řady nahrávek téměř stoprocentně bez chyb. Navíc jsme v loňském roce díky novým neuronovým modelům zvýšili přesnost i u záznamů horší kvality, například z tiskových konferencí nebo z hlučného prostředí,“ vysvětluje Petr Červa, vedoucí týmu vědců na liberecké Technické univerzitě, kde pracují na počítačových modelech pro rozpoznávání řeči a podíleli se i na tvorbě Beey.

Většina konkurenčních nástrojů, které jsem v posledních letech testoval, na rozdíl od Beey přepisuje text bez jakékoliv interpunkce. Přepis hodinové nahrávky tak obsahuje „jednu větu“ o několika tisících slovech. Některé nástroje si pomáhají tím, že nahrávku převádějí ve stylu titulků například po patnácti sekundách. Naproti tomu Beey dokáže zpravidla rozlišit jednotlivé mluvčí, výsledek se tak nejvíc podobá klasickému rozhovoru.

Shodou náhod jsme v redakci ve stejné době narazili také na konkurenční software Good Tape z Nizozemí, který nabízí podobné funkcionality. Česká aplikace ale funguje na vyšší úrovni, což ukazuje i příklad přepisu rychlé testovací konverzace s kolegyní (viz snímky obrazovky výše a níže). Naschvál jsme použili také zkratky a anglická slova, což přináší relevantní pohled na to, jak je jazykový model umělé inteligence nastaven.

Foto: CzechCrunch Přepis testovací nahrávky v aplikaci Good Tape

Se samotným textem je ovšem potřeba pořád dále pracovat, míru úprav vždy ovlivňuje samotný respondent – někteří používají výplňková slova a do mluvené řeči se míchají různé zkratky a anglicismy. S některými si Beey poradí, ne však vždy. Do velké míry ale pracuje spolehlivě, což při přepisech dlouhých rozhovorů šetří spoustu času. I při editování se totiž lépe pracuje s textem než s nahrávkou, což ocenili i další kolegové z redakce. A nejen my – nástroj je využitelný i pro studenty, tvůrce podcastů a videí, výzkumníky a obecně všechny lidi, kteří pracují se zvukovými nahrávkami.

Beey aktuálně dokáže kromě češtiny pracovat s dalšími devatenácti světovými jazyky včetně angličtiny a němčiny, umí ale třeba i norštinu či švédštinu. Českou aplikaci tak nyní používá již více než deset tisíc uživatelů v padesáti zemích světa. „Naším cílem je, aby výsledky posledních výzkumů v oblasti umělé inteligence mohl využívat každý, ať je to novinář, student, lékař, nebo třeba státní úředník. Proto si náš program může vyzkoušet zdarma každý,“ přibližuje Petr Herian, ředitel společnosti Newton Technologies, která na vývoji Beey spolupracuje s týmem vědců z Technické univerzity v Liberci.

Současný zvýšený zájem o novinky v oblasti umělé inteligence podle Heriana pomáhá tyto technologie dále zlepšovat a hledat i jejich další uplatnění. „Lidé si pomalu zvykají na to, že se hlasové technologie stávají součástí jejich práce i běžného života. A nejde už zdaleka jen o diktování zpráv do mobilu. Náš program titulkuje oblíbené seriály, pomáhá neslyšícím nebo přepisuje jednání na soudech. Usnadňuje práci novinářům nebo výuku ve školách. Nových příležitostí je celá řada,“ dodává Herian.