Tým z ČVUT pracuje na strojovém vidění pro Toyotu. Na českých školách je to zcela výjimečný projekt, říká profesor Matas
Jiří Matas z FEL ČVUT dlouhodobě spolupracuje s Toyotou
Až před vámi příště odpadne z kamionu kus ledu, možná to budou čeští vědci, kterým budete moct poděkovat, že asistenční systémy vašeho vozu včas zareagovaly. České vysoké učení technické a jeho Fakulta elektrotechnická už přes patnáct let pracují na výzkumu v oblasti strojového vidění s japonskou automobilkou Toyota.
Čeští a japonští vědci už naučili kamery rozeznávat dopravní nebo registrační značky, dnes vylepšují například detekci a predikci pohybu rychle se pohybujících předmětů nebo analýzu vozovky. I přes veškeré dosažené úspěchy ale profesor Jiří Matas, který český výzkumný tým vede, nepovažuje Česko za světovou špičku ve strojovém vidění.
Profesor Matas by sám sebe jednoduše označil za zkušeného vědeckého pracovníka. Jeho životopis nicméně zdobí celá řada oceněných vědeckých prací a umístění na předních příčkách mezi odborníky na strojové vidění, nedávno působil na univerzitách ve Finsku. Kromě pozice zástupce vedoucího katedry kybernetiky Fakulty elektrotechnické pražského ČVUT, kde zastává i funkci proděkana pro rozvoj, vystupuje také jako garant ve vědecké radě nadačního fondu Neuron a je šéfredaktorem špičkového časopisu International Journal of Computer Vision.
Přes patnáct let stojí v čele desetičlenného výzkumného týmu, který v rámci katedry kybernetiky vyvíjí různé aplikace strojového vidění pro systémy z dílny japonské automobilky Toyota. Jak sám trefně shrnul, mezi vědci už patří k té starší generaci, která se nemusí hnát přes mrtvoly za kariérou a může se v klidu věnovat svému výzkumu a zlepšování reputace celé vědecké komunity. Snaží se proto říkat věci tak, jak jsou, a vždy objektivně hodnotit obsah, ne formu.
Na ČVUT vedete už přes 16 let výzkum pro japonskou Toyotu. Zkusíte si vzpomenout, jak se vám povedlo zaujmout významnou automobilku proslulou svým důsledným přístupem k inovacím a kvalitě?
Svět si nás začal všímat v roce 2004, kdy jsme na uznávané vědecké konferenci British Machine Vision Conference získali cenu za nejlepší článek. Bylo to něco jako vyhrát druhou nejvyšší soutěž ve fotbale, ale i tak nás to zviditelnilo a otevřely se nám úplně nové možnosti. To, co jsme tenkrát vymysleli, šlo mimo mainstream, měli jsme úplně jiný přístup než všichni ostatní, kdo se v té době strojovému vidění věnovali. Tím jsme zaujali i Toyotu, se kterou jsme poté navázali spolupráci, která trvá až dodnes.
Nastartujte svou kariéru
Více na CzechCrunch JobsCo přesně jste pro Toyotu tady na ČVUT začali vyvíjet?
Tenkrát jsme byli první, kdo dokázal funkčně rozpoznávat značky a jiné ploché objekty z kamerového záznamu. Kromě toho nejjednoduššího scénáře, kdy na značku koukáte přímo, jsme si poradili i s případy, kdy ji vidíte pod ostrým úhlem a obraz značky se deformuje. Kromě značek dopravních jsme uměli číst pod ostrými úhly i ty poznávací. To byla jedna z prvních věcí, kterou jsme pro Toyotu na prvopočátku vyvíjeli, teď už by nešlo o nic světoborného.
Kam jste se tedy ve výzkumu posunuli?
Těžiště naší práce se plynule přesunulo na sledování a detekci rychle se pohybujících a letících předmětů. Dnes se věnujeme detekci neočekávaných předmětů a odhadujeme jejich dráhu. Snažíme se odhadnout hmotnost předmětu, jeho rychlost a vzdálenost od vozidla tak, abychom mohli případně určit, zda se jedná o nebezpečí, na které by měly další systémy či přímo řidič začít reagovat. Snažíme se například rozpoznat, zda jde o kusy prasklé pneumatiky, padající listí nebo o led uvolněný z plachty kamionu.
Co je v této oblasti největší výzvou?
Kromě samotné detekce pohybujícího se předmětu musíme interpretovat celou situaci a zvážit nebezpečí, které by hrozilo řidiči. Vytváříme proto kontextový model celého okolí a vyhodnocujeme, zda jde o malý předmět pohybující se blízko, nebo velký předmět pohybující se daleko, které na kamerovém záznamu není strojově jednoduché odlišit. Teď se nově zaměřujeme i na vizuální analýzu vlastností povrchu, kdy umíme rozpoznat například výmoly nebo riziková místa mimo zpevněné cesty, kde hrozí smyk či zapadnutí. Výsledné hodnocení kvality kontaktu potom může využít centrální jednotka vozu k nastavení elektronických zabezpečovacích systémů jako ABS, ESP, nastavení bezpečnostních pásů a mnoha dalších. A to ještě předtím, než se na nebezpečný povrch auto dostane. To ale už není naše starost, my se soustředíme pouze na tu první fázi.
V Česku vyvíjíte pouze software pro strojové vidění, nebo tu máte i nějaké prototypy kamer či celých vozidel?
Pro Toyotu u nás vyvíjíme v drtivé většině pouze software, který je potom nasazen v Belgii, kde je v ostrém provozu plně autonomní vozidlo testující celou řadu nově vyvíjených komponent a systémů, včetně toho našeho. Pokud se daný systém v testovacím provozu osvědčí, převezme si celou záležitost oddělení vývoje a výzkumu Toyoty přímo v Japonsku, které se postará o to, aby se novinka dostala na trh. Je to ovšem běh na velmi dlouho trať a my jsme rádi, že můžeme Toyotě pomáhat se strategickým výzkumem na deset až patnáct let dopředu a netlačí nás žádná provozní omezení nebo nedostatek času.
Máte v rámci ČVUT i další podobné výzkumné projekty?
Toyota je v mnoha ohledech jedinečným projektem. Je zcela výjimečným délkou spolupráce a dlouhodobým výhledem zaměřeným na základní problémy, o ničem podobném na českých univerzitách nevím. Spolupracovali jsme na několika projektech například s americkou společností Cisco, aktuálně má fakulta projekty s firmou Avast, ale tam je horizont maximálně kolem pěti let a zaměřuje se na řešení aplikovaných problémů operativnější povahy.
Využíváte ve svém výzkumu umělou inteligenci?
Většina strojového vidění, které tu děláme, je založena na hlubokých neuronových sítích, dnešními slovy bych tedy asi měl mluvit o umělé inteligenci. Před deseti lety by mě ale nenapadlo náš výzkum spojovat s umělou inteligencí, protože jde o vlastně jen o pokročilé využití strojového učení a zpracování dat. Celkově na mě šum kolem umělé inteligence působí trochu jako situace kolem „fuzzy logic”, což byl kolem roku 2000 podobně populární termín. Byly fuzzy logic pračky a vyvolávalo to podobně přehnaná očekávání jako umělá inteligence dnes. Kdybych se tomu chtěl vyhnout, říkal bych, že využíváme modely učené na datech.
Když uvidím poprvé v životě na silnici losa, budu vědět, jak se zachovat, protože jsem třeba viděl koně. Ale počítač zatím ne.
Jak daleko jsme od stavu, kdy budou na silnicích běžná autonomní vozidla bez řidiče?
Úplně daleko nejsme, zatím jsme pořád ve stadiu, kdy je k řízení nezbytná přítomnost řidiče, jenž je v kterýkoliv moment schopen okamžitě převzít řízení. Jinými slovy, číst si za jízdy ještě nějakou dobu nebudeme. Umíme systémy naučit zvládat celou řadu situací, ale neumíme jim předat jedinečnou lidskou schopnost generalizace, zobecnění. Když uvidím poprvé v životě na silnici losa já, budu pravděpodobně vědět, jak se mám zachovat, protože jsem třeba viděl podobnou situaci s koňským spřežením. Ale počítače, ač sebevíc výkonné, na takovou situaci připravené zatím nejsou a neumíme je vybavit schopností reagovat na všechny možné eventuality.
Jaká je přesnost vašeho strojového vidění?
Přesnost na standardní databázi dosahuje obvykle téměř 100 procent, ale to není zajímavé. Je tu totiž realita, kde přesnost bude vždy funkcí podmínek. Značka zapadá sněhem, kamerový záznam bude přesvícený, protože do mlhy svítíte dálkovými světly, a tak dále. To jsou extrémně komplikované podmínky, kterým se budeme v nejbližší době věnovat podrobněji na specializovaných workshopech. Jelikož potřebujeme testovat chování, nestačí nám jen záznamy z jízdy vozidel, potřebujeme vědět, co se stane, když danou situaci nějak vyhodnotíme a upravíme třeba směr nebo rychlost vozu. K takovému testování přesnosti se začínají používat simulátory, ale zatím to není nijak standardizované, takže se opíráme o testování v Belgii, které jsem už zmiňoval.
Je dnes něco, co limituje oblast strojového vidění od dalšího významného evolučního kroku?
Mám obrácený pocit. Celá oblast strojového vidění se posouvá tak rychle dopředu, že to už jednotlivec ani nestíhá sledovat. Připadám si spíš jako mořeplavec, který objevil neprobádanou pevninu a může se vydat doleva, doprava i rovně a všude najde něco nového. Ano, svět se mění, potřebujeme stále více výpočetního výkonu, který začíná tvořit značnou nákladovou položku každého výzkumu, ale zase tu jsou nové možnosti jako třeba okamžitý přístup k tisícům strojů skrze cloud. Možná nám jednou pomohou i kvantové počítače. Tedy v současné chvíli žádnou zásadní limitující překážku kolem nás nespatřuji.
Mají Češi v oblasti strojového vidění nějakou specialitu?
Tady bych si pomohl tenisem. Dřív možná existovala španělská, česká nebo americká škola, dnes je ale na internetu k vidění tolik videí rozebírajících styl jednotlivých hráčů, že se ty rozdíly stírají. Podobně je to už i ve vědě, kde není možné být dlouhodobě v úniku. Je standardem, že veškerý publikovaný software z vědecké činnosti je volně dostupný na online úložišti GitHub, kde je jeho použití umožněno pro další výzkum či případnou kontrolu. Celý svět vám tedy vidí pod ruce a věci se dopředu posunují neskutečně rychle.
Kdybych ale měl vyzdvihnout přece jen jeden úspěch, tak je to zpětná rekonstrukce rozmazaných pohybujících se předmětů na fotografiích. Jeden z mých studentů pomocí speciálního nástroje dokonce vyřešil přes deset let starou záhadu UFO, když se jim ze šmouhy údajného létajícího talíře na snímku podařilo metodou zpětného „odmazání” rekonstruovat obrys ptáka raroha velkého.
A dá se říct, že patříme mezi světovou špičku, když na vás v ČVUT vsadila i Toyota?
Naší přidanou hodnotou pro Toyotu je především stabilita a vytrvalá snaha o dosahování stále lepších výsledků. To je ostatně velmi důležitým pilířem celé japonské kultury, kterou mám po těch 15 letech snad ještě raději než na začátku. Kdybych to rozšířil o sportovní metaforu, tak určitě existují lepší pracoviště po celém světě, třeba na anglické univerzitě Cambridge, ale trápí je to samé, co velké fotbalové týmy. Přemotivovanost vedoucí k častým přestupům, které celý výzkum brzdí, protože zapojení nového člověka do výzkumného projektu je otázkou minimálně šesti měsíců, než se stane přínosem.
Určitě tu je spousta špičkových odborníků a šikovných lidí. Pro akademické prostředí by největší přínos mělo začít budovat excelenci a upustit od zakořeněné myšlenky, že všechny vysoké školy jsou stejné. Prvním krokem by bylo vytvořit podmínky pro postup našich nejlepších univerzit do první stovky ve světě nebo první desítky v Evropě. Ani k jednomu se zatím ale neblížíme.