Vědecká data pro všechny. ČVUT vyvinula nástroj, který pomáhá využít informace z výzkumů „navíc“

To, která data jsou důležitá, není na začátku výzkumů vždy jednoznačné. Nástroj z FIT ČVUT je schraňuje, aby se neztratila.

Iva BrejlováIva Brejlová

ČVUT přišla s nástrojem, který tvoří souhrn informací ze světových výzkumů

Ať už jde o výzkumy v genetice, biomedicíně, archeologii nebo třeba ekologii, všechny za sebou nechávají obrovské množství dat. Jenže když se k nim výzkumníci chtějí vrátit, málokdy jsou v takovém stavu, aby jejich další studia nebyla problematická. Informace je třeba správně popisovat, ukládat i schraňovat – a na výzkumných institucích k tomu ne vždy je prostor. Nástroj, se kterým přišli vědci z Fakulty informačních technologií, to řeší za ně. Pomáhá i starší data zpřístupňovat pro vědecké účely univerzitám a dalším výzkumným organizacím v EU i po světě. A jen v Evropě už má tři tisíce uživatelů.

Čím digitálnější svět, tím více dat. Výzkumy po celém světě ročně chrlí petabajty dat, více či méně uspořádané informace vznikají ve vědních kruzích mnohdy i jako vedlejší produkt výzkumu – a přesto znamenají obrovské bohatství. Tedy v teorii: pokud jsou správně uspořádaná tak, aby se k nim vědci mohli vrátit, když nastane vhodná příležitost.

Typické je to u medicínských výzkumů. Mnohdy samy instituce nevědí, jaká všechna data o problému již existují, kde je vlastně hledat a co přesně představují. A přitom právě v medicíně informace ponechané ladem můžou skrývat vodítka důležitá pro výzkum neléčitelných nemocí.

Odborníci tak vytyčili cíl, aby uchovávaná data byla takzvaně FAIR – nalezitelná, přístupná, interoperabilní a znovupoužitelná. A vědci z Fakulty informačních technologií ČVUT rovnou připravili nástroj, kterému dali název Data Stewardship Wizard (DSW).

Pomáhá plánovat, jak co nejlépe využít existující data – a výsledná data pak správně popisovat, ukládat a dále zpřístupňovat pro vědecké účely univerzitám a dalším výzkumným organizacím v Evropské unii i po celém světě. Kromě Česka ho používají univerzity a další organizace v Norsku, Portugalsku, Estonsku, Belgii, Polsku či například Finsku.

„Žádný vědec by nezačal náročný experiment bez náležitého plánování správy dat, které je však často odbyto jen jako ‚otravná povinnost‘. Jedním z důvodů je náročnost vytvoření dobrého plánu. Tento nástroj přináší snadný a účinný způsob, jak vytvářet dobré plány správy dat, vede výzkumníka, pomáhá využít, co je pro výzkum k dispozici, a maximalizovat efekt dat z výzkumu, což přináší hodnotu výzkumníkům, institucím i celé společnosti,“ říká Robert Pergl, vedoucí centra pro konceptuální modelování a implementace na FIT ČVUT.

Systém vědce provází k tomu, aby data strukturovali od začátku, čímž buduje propracovanou databázi dosažitelnou zpětně i pro ostatní. Kromě toho umožňuje online spolupráci na projektech, ukládat komentáře a otázky, zjišťovat, kdo na které odpověděl, a také lze pracovat s uloženou historií verzí.

bacikova_1xxx

Přečtěte si takéLidé musí rozumět, jak fungují peníze. Pak se nám bude líp žítLidé musí chápat, jak fungují peníze. Pak se nám bude líp žít, říká tvůrkyně ekonomických olympiád

Nástroj vyvinuli čeští výzkumníci z ČVUT a Ústavu organické chemie a biochemie Akademie věd ČR ve spolupráci s holandskými kolegy v rámci evropské infrastruktury s názvem Elixir, mezinárodní infrastruktury pro data z přírodních věd. Právě proto DSW v současnosti využívají především výzkumníci v tomto oboru, ale nejen v něm.

Principy, kterými se výzkumníci řídí, zlepšují znovupoužitelnost dat a pomáhají informace z výzkumů propojovat mezi sebou navzájem. „Například spojení dat klinických studií léků s výzkumem genetiky. Efektivní využívání dat na globální úrovni je též klíčové pro účinné řešení epidemiologických situací, což ukázala pandemie covid-19. V rámci ní jsme se s projektem DSW podíleli na digitalizaci a FAIRifikaci pacientských dat, která je možné využít v dalším výzkumu, a to zcela anonymizovaně,“ doplňuje Pergl.

Jedním z cílů iniciativy FAIR je i lepší strojová zpracovatelnost dat, která se uplatní při výzkumu umělé inteligence. Pokud bude mít AI k dispozici více dobře popsaných a interpretovatelných datových sad, bude jim lépe rozumět a efektivně je využije ke zlepšení svých výsledků. Právě exaktnost a auditovatelnost výstupů AI je klíčová pro posun od „kreativní AI“ k „exaktní AI“.