Digitální avataři a trenéři s umělou inteligencí jsou na úrovni letušky, bez urážky, říká odborník na AI Jan Romportl

romportl-boxedRozhovor

Foto: Archiv JR

Jan Romportl, přední český expert na umělou inteligenci

V technologickém a startupovém světě je posledních pár let trendem ohánět se na všechny strany umělou inteligencí, strojovým učením a hlubokými neuronovými sítěmi. Jak daleko lidstvo pokročilo ve snaze vytvořit technologii schopnou samostatně myslet? Zeptali jsme se Jana Romportla, kybernetika, filozofa a ředitele centra umělé inteligence Dataclair pod O2, jak daleko jsme od vytvoření digitálních bytostí, čemu všemu se dnes mylně přezdívá AI a jaké jsou naše vyhlídky.

Artificial intelligence, zkráceně AI nebo česky umělá inteligence je termínem, na který v dnešní digitální době narazíte téměř na každém kroku. Firmy jím dávají najevo, že jsou jejich produkty chytré, samy se učí, že nabízí personalizovaný zákaznický zážitek, ale už málokdy vysvětlují, jak je toho dosahováno.

V principu jde o vysoce abstraktní a komplexní oblast, která pod kapotou není tak úplně „sexy“. Nejspíš proto vzniká celá řada mylných představ o tom, jak daleko je lidstvo od momentu vytvoření samostatně myslící entity nebo něčeho, co by alespoň vzdáleně připomínalo to, co si většina z nás pod inteligencí představí jako první.

Jan Romportl, který vystudoval kybernetiku a filozofii na Západočeské univerzitě v Plzni a následně se zabýval výzkumem aplikované umělé inteligence a řečových technologií. Dnes vede centrum umělé inteligence Dataclair pod O2 Czech Republic, které spadá do finanční skupiny PPF, a problematice umělé inteligence ve vztahu k člověku se nadále věnuje jak na akademické, tak filozofické úrovni.

Když se řekne umělá inteligence, co bych si měl správně představit?
Těžká otázka hned na začátek. Když to řeknu populárně-naučně, jde o systém, který se snaží nahradit lidské schopnosti jako myšlení, plánování a vnímání. Tedy vzít činnosti a kompetence, které doteď příslušely výslovně člověku, a umožnit jejich vykonávání strojům. Podobně jako bagr nahradil lidskou manuální kompetenci v oblasti kopání děr, tak umělá inteligence automatizuje a nahrazuje celé spektrum lidských kognitivních kompetencí.

Jaké jsou základní prvky umělé inteligence z pohledu technologických firem?
Když se umělá inteligence řekne v technologickém světě, ve většině případů se tím myslí strojové učení a neuronové sítě, jež mají automatizovat určité úlohy, které do té doby dokázal dělat jen člověk nebo je nedokázal dělat vůbec nikdo. Oproti tomu široká veřejnost si představuje spíše snáze uchopitelné aplikace, například chytré asistenty jako Siri, samořiditelná vozidla nebo programy, které dokážou bleskově porazit lidské mistry šachu nebo hry go.

Pojďme se jako první podívat na strojové učení, které je vnímáno jako základ, na který dnes narazíme u mobilních a webových aplikací všech možných typů. Je to umělá inteligence?
Může být, ale zároveň nemusí. Do určité míry si tu sice jen hrajeme s pojmy, které si můžeme definovat jakkoli, ale když vidím, že pojem „umělá inteligence“ je strašně často zneužívaný, mám pocit, že to škodí celému oboru. Proto se snažím o význam toho pojmu trochu dbát a občas ho vysvětlovat. Jde mi především o vztah umělé inteligence a strojového učení. Strojové učení (machine learning, ML) je vcelku stará technologie už někdy z minulého století, která původně vycházela z logistické regrese, statistických pravidel a rozhodovacích stromů.

Technik strojového učení je velké množství a vybíráme si z nich podle typu úloh a dat. Dnes se dá říct, že umělá inteligence je podmnožinou strojového učení, takže určité typy strojového učení bych považoval za AI. Drtivá většina všech byznysových problémů se dá ale velmi dobře řešit pomocí logistické regrese, takže bych to klidně dál hrdě označoval za skvělý machine learning. Dobře postavená logistická regrese je vždycky lepší než špatně navržená umělá inteligence.

Jak vypadá typická úloha v rámci strojového učení?
Nemusí jít o nic složitého. Mám například úlohu, kdy chci o nějakém pozorování rozhodnout, jaký to je dopravní prostředek, když o něm mám určité informace. Pokud ty informace jsou třeba toho typu, že váží dvě tuny, má pět dveří, bílou barvu a čtyři kola, tak po strojovém učení chci odpověď, jestli to je letadlo, auto, motorka, nebo třeba kolo. Maximální rychlost je ale 900 km/h, takže auto to asi nebude. Na základě trénovacích dat vytvořím takovou rozhodovací funkci, která všem vstupním kombinacím proměnných přiřadí, s jakou pravděpodobností jde o jaký dopravní prostředek. To je typické strojové učení. Neříkal bych tomu ale umělá inteligence, protože nejdřív někde musela být inteligence lidská, která se na každý dopravní prostředek podívala a řekla, že tenhle má kola čtyři a tenhle jen dvě. Zbytek pak už je jen statistika.

***

Stroje pomocí umělé inteligence obvykle řeší úzce definované úkoly, například rozpoznávání obličejů z fotek nebo personalizaci zákaznického zážitku během návštěvy webové stránky. Pod pojmem AI si lze však představit nesourodý mix myšlení, vnímání a zároveň funkcionalit, které jsou skriptem, nikoliv inteligencí. Vědci rozlišují dva hlavní typy umělé inteligence:

Obecná umělá inteligence (artificial general intelligence, AGI): Podobá se té lidské, umí se sama učit nové úkoly, pokud slouží ke splnění hlavního cíle. Zatím se k jejímu vytvoření lidstvo ani neblíží.

Úzká umělá inteligence (narrow AI): Zaměřuje na specifické úkony, k nimž byla vytvořena a vytrénována. Už dnes funguje v rozdílných oblastech a často s vyšší přesností a výkonem než člověk.

***

Kdy se strojové učení stává umělou inteligencí?
Ve chvíli, kdy algoritmus strojového učení už nepotřebuje proměnné typu počet kol, rychlost a tak dále. Místo toho do něj vstupují surová nestrukturovaná data třeba jako milion pixelů z fotografie, na které je letadlo. Člověk už nemusí systému říkat, že pozorovaný objekt je reprezentovaný tím, že má tři kola a vrtuli. Systém místo toho dostává jen miliardy čísel, třeba tisíce fotografií, každou s milionem pixelů, a sám si musí najít, co jednotlivé obrázky spojuje nebo odlišuje, tedy co jednotlivé objekty reprezentuje. Říká se tomu reprezentační učení (representational learning). Jde o systém podobný tomu biologickému, který se musí v realitě zorientovat sám. Stačí mu vidět tisíce fotek, aby ze surových dat nasál esenci dané věci – „letadlovitosti” nebo „autovitosti”. Když si sám najde rozdíl mezi „autovitostí” a „letadlovitostí”, už bych to považoval za umělou inteligenci, ale to většina byznysů dneska vlastně ani nepotřebuje.

Dalším termínem, který slýcháme mezi startupy velmi často, je neuronová síť, neuronka. O co jde?
Neuronová síť je jedním z velmi efektivních nástrojů pro redukci dimenzionality, kterou může strojové učení skutečně využívat. Termín „neuronky“ na mě působí velmi devadesátkově. Připomíná dobu, kdy jsme si vzpomněli, že něco takového z 50. let dvacátého století existuje. Každopádně neuronová síť není nic biologického, nemá to s neurony v mozku nic společného, není to mozek v kádi. Je to v podstatě vysoce paralelní výpočetní proces popsaný velkým grafovým výpočetním schématem, který umožňuje provádět značné množství malých výpočtů nad mnohadimenzionálními vstupními daty, a tím jejich dimenzionality postupně redukovat. Jsou to miliony logistických regresí, které bychom ručně už nezvládli vytvořit. A nejčastěji se řetězí do vrstev. To se pak mluví o hlubokých neuronových sítích a hlubokém učení (deep learningu).

romportl

Přečtěte si takéUmělá inteligence potřebuje kvůli rizikům regulaci. Evropská unie ale zatím netuší, co AI vlastně je, říká expert Jan Romportl

V čem se tedy odlišuje deep learning od neuronové sítě?
Deep learning označuje využití vícevrstvých neuronových sítí. Tedy sítí, které mají své jednotlivé výpočetní prvky uspořádány kaskádovitě do řady po sobě následujících vrstev. Většinou jde o mnoho vrstev, a ještě daleko více neuronů, třeba miliony. Mělká neuronová síť je tedy vlastně jednokrokový paralelní program, zatímco hluboká síť je vícekrokový paralelní program. Jednotlivé vrstvy z toho obrovského množství čísel na vstupu odebírají v postupných krocích komplexitu, až dojdou do vrstvy poslední, kdy mám obvykle jen několik málo dimenzí, které potřebuju k řešení úlohy.

Pro představu se vrátíme k příkladu s dopravními prostředky: na vstupní vrstvu sítě pustím megapixelovou fotografii, tedy milion čísel vybraných z milion-rozměrného prostoru. Každá vrstva sítě přepočítá tu předchozí do nižší dimenzionality, takže se spousta informací ztrácí, ale zůstává jen ta důležitá z hlediska úlohy, kterou síť řeší. Proto ztrátová komprese dat. Na poslední vrstvě mám neuronů a dimenzí třeba jen pět: auto, kolo, motorka, letadlo a loď. A každý z těch výstupních neuronů ukazuje pravděpodobnost, s jakou si myslí, že na obrázku je „jeho“ dopravní prostředek. Neurony na těch vnitřních hlubokých vrstvách se naučí poznávat hrany, stíny, pravé úhly, otočení, kola, vrtule… Většinou bych se neostýchal nazvat ho umělou inteligencí.

Jaké úlohy neuronové sítě nejčastěji řeší?
Nejčastěji jde o úlohy související s percepcí, vnímáním. Může jít o vidění nebo slyšení, mám mnoho dat na vstupu a potřebuji souhrnnou odpověď. Neuronové sítě jsou skvělé na zpracování přirozeného jazyka nebo extrakci informací ze skenů dokumentů či jiných snímků.

Nabyde v dohledné době umělá inteligence plně samostatného vědomí?
Tato otázka má v sobě hned dvě velmi zajímavé podoblasti. Tou první je autonomnost či samostatnost a teprve tou druhou je vlastní vědomí. Autonomnost je schopnost systému kontinuálně dosahovat svého cíle bez člověka a jeho zásahu. Autonomní nástroje pro rozpoznávání obličeje nejsou problém, autonomní vozidlo už je větší oříšek, i když by se mnou Elon Musk určitě nesouhlasil. Nemluvím teď o flotile vozidel, která spolu nějak kolektivně komunikují v relativně izolovaném a přizpůsobeném prostředí kalifornského města nebo čínské dálnice, ale o scénáři, kdy se odpojené vozidlo dokáže zcela samostatně rozhodovat stejně, jako by v něm seděl člověk.

Ačkoliv jde přísně vzato o Narrow AI, tak kompetenčně už jsme velmi blízko obecné inteligenci, protože zapojení člověka-řidiče je po kontextové stránce většiny dopravních situací enormní. Představte si jen interakci, která probíhá mezi řidičem a chodcem na přechodu. To je problém z teorie her. O tom, kdo půjde dřív, kde rozhoduje oční kontakt, neverbální komunikace, lidské hodnoty.

Všechno, co se dnes prezentuje jako vědomá digitální bytost, je naprostý podvod. Až takový, že mě to někdy rozčiluje.

Nečekal bych, že u přecházení se budou řešit lidské hodnoty.
Možná ne takto specificky, ale pro provoz autonomních vozidel a pro jakékoliv jiné fungování umělé inteligence s potenciálně závažným dopadem do reality budeme muset bránit tomu, čemu se říká AI value misalignment, což rádoby hravě překládám jako vymknutí hodnot umělé inteligence. Ať už se bavíme třeba o algoritmu sociálních sítí, který sbírá kvanta dat o mně jako o člověku, aby je následně využil k tomu, že maximalizuje můj čas strávený na platformě, nebo se bavíme třeba o AI, která vytváří bankovní skóring žadatelů o půjčku, chceme mít jistotu, že cíle, ke kterým umělou inteligenci používáme, jsou v souladu s hodnotami nás, lidí.

Je v pořádku, když YouTube v rámci dosažení svého primárního cíle maximalizace prokliků na reklamy nabízí divákům různá radikální videa, láká je do králičích nor plných konspirací a fake news? To je pěkný příklad vymknutí hodnot u Narrow AI systému. Chceme AI umožnit takové sociopatologické chování, které sice nikdo neplánoval, ale AI dospěla k závěru, že to je nejefektivnější cesta k cíli? Je v pořádku, když umělá inteligence znevýhodňuje etnické menšiny, protože se to tak naučila z trénovacích dat, kde se stejné diskriminace historicky dopouštěli sami lidé? Je v pořádku, že by autonomní vozidlo při nehodě záměrně srazilo chodce, aby ochránilo svého pasažéra? To jsou otázky, které před námi už teď vyvstávají a vyvstávat budou.

Co je tou druhou podoblastí samostatného vědomí?
Tou je právě vědomí ve smyslu takovém, jak ho kvalitativně prožívá člověk a jak spoluvytváří jeho osobnost a vnitřní svět. Může něco takového mít digitální bytost? To je velmi problematická a ošemetná věc, o které toho zatím víme málo. My totiž velmi málo víme také o lidském vědomí. Můžu říct jen to, že všechno, na co teď narazíte a prezentuje se to jako vědomá a svébytná digitální bytost, je naprostý podvod. Až takový, že mě to někdy rozčiluje.

Navíc absolutně nesmíme zaměňovat schopnost AI systému vést nějaký přirozeně vypadající dialog s tím, že by ten systém měl vlastnosti plnohodnotné obecné inteligence AGI či dokonce vlastní vědomí. Chatboti, virtuální asistenti jako Siri a další typy personifikované umělé inteligence jsou v dnešní době čistokrevná Potěmkinova vesnice. To ví každý, kdo něco takového vyzkoušel, protože jakýkoliv chatbot je dnes vyloženě špatný jak ve schopnosti skutečné kontextové orientovanosti, tak i přirozenosti lidské interakce.

Ví to i firmy, protože drtivá většina zákazníků se interakci s chatbotem nebo voicebotem snaží za každou cenu vyhnout. Digitální avataři a trenéři s umělou inteligencí jsou dnes na úrovni letušky, bez urážky prosím, která ukazuje v letadle, kde najdete pás a únikové východy, a na požádání vám ukáže toalety a přinese kafe. Ani to není úplně přirozená interakce.

Jan Romportl

Foto: Archiv JR

Přední český odborník na umělou inteligenci Jan Romportl

Už tu ale byl případ, kdy si AI dokázala objednat stůl v restauraci, aniž by to člověk rozpoznal.
To ano, ale takový úkon nevyžaduje moc obecné inteligence, a už vůbec ne vědomí. Spíš jen naskriptovaný systém řízení dialogu, který na splnění takto jednoduchého cíle v drtivé většině případů bude stačit. Během těch pár sekund to nejspíš neodhalím, Turingův test porovnávající umělou inteligenci s člověkem by taková AI zčásti možná splnila, ale převedení diskuze na obecnou úroveň virtuální asistent prostě nezvládne. Současný výkon umělé inteligence v této oblasti je k uzoufání špatný, něco jako Císařovy nové šaty. Firmy se navzájem ujišťují v tom, že to funguje, že to je správně, vydávají fantastická prohlášení do médií, ale reálně je ta technologie zatím zcela nahá a nevidím pro ni slibnou krátkodobou budoucnost. Střednědobou a dlouhodobou určitě ano, ale nejdřív bude muset udělat AI zásadnější průlom v některých svých stavebních kamenech.

Kudy tedy vede cesta k takovým virtuálním asistentům, kteří budou „k něčemu”?
Musí se najít opravdu správný use case. A to není jednoduché. Myslím si však, že nejsme daleko od bodu, kdy skutečně užiteční konverzační agenti vzniknou. Už teď se objevují první vlaštovky. Vždy musí mít chirurgicky přesné zaměření na určitou tematickou doménu a vyřešení jasně definované zákaznické situace, třeba jako nahlášení poruchy zařízení a asistence s jeho restartem. Už třeba za pět let to dokážeme udělat tak, že to nebude ostuda. Systém si ale nesmí hrát na obecný dialog, ani že má vlastní osobnost nebo vědomí. Poznám, že to není člověk, ale to bude spíše správně.

Proč je to správně?
Už teď vzniká návrh zákonné AI regulace, který bude ukládat povinnost informovat uživatele o tom, že se baví s umělou inteligencí, a ne živým člověkem. Zároveň se ukazuje, že pokud se stroj příliš snaží napodobit člověka, je to pro uživatele spíš děsivá zkušenost. Takže jako lidi preferujeme stylizovanou formu komunikace se strojem, plechový hlas, vtipnou animovanou postavičku. Jde o koncept takzvaného uncanny valley, o kterém jsem dělal výzkum už v roce 2014. Ukázalo se, že lidé mají problém přijímat řečovou syntézu, která zní téměř přirozeně, ale jsou v ní drobné skoky v intonaci, které na určitá mozková centra působí jako červený hadr na býka. To stejné se děje i při vizuálním vnímání, náš mozek je dokonale vycvičený odhalovat přetvářku a podvody na základě nejdrobnějších nuancí.

Náš mozek podvědomě zavrhuje obrovská množství informací. Zrealizovat tento předvýběr u stroje bude velkou výzvou následujících dekád.

Dokáže tedy někdy umělá inteligence nahradit tu lidskou?
Tady je potřeba si ujasnit, o jaké umělé inteligenci se bavíme. Podle mého odhadu se ve světě byznysu o plnohodnotné obecné umělé inteligenci nemá smysl bavit dalších tak dvacet až třicet let. Jediné, čím se má smysl zabývat už teď, je moje oblíbené téma bezpečnosti použití umělé inteligence a etických otázek. Firmy v současnosti používají jedině Narrow AI, kde už dnes dokážeme pomocí strojů člověka někdy zcela nahradit, v mnoha případech dokonce danou úlohu vykonávat mnohonásobně rychleji a přesněji.

Co například?
Tak třeba to, že mobil z fotky pozná mnohem přesněji, kdo na ní je, než kterýkoliv člověk. Když označujete, kdo je na fotkách, tak si toho všimněte, až se vás smartphone zeptá, jestli je to František. Vy netušíte, protože náhled je jen rozpixelovaný výřez něčího obličeje. Musíte si fotku oddálit, vzpomenout si, kde se to fotilo a jestli tam byl František, abyste si mohli říct: „Jasně, to asi fakt bude on!“ Už dnes tu jsou oblasti, kde Narrow AI dosahuje doslova nadlidské úrovně. Rozpoznávání věcí na fotkách, doporučování videí, personalizace obsahu. Kromě té přesnosti to umělá inteligence dokáže i téměř neomezeně škálovat. Kdybych si měl vybrat, byl bych raději, kdyby můj bankovní skóring dělala dobře vycvičená AI než všemožně zaujatý a náladový člověk.

Proč je vytvoření obecné umělé inteligence tak náročný úkon?
Inteligence jako taková je mnohem rozsáhlejší oblast, než jak si ji většina lidí představuje. Není to jen to racionální uvažování a plánování, jak ho známe z IQ testů. Lidská inteligence jako taková je velmi zjednodušeně schopnost ztrátově komprimovat realitu. Tedy určité množství dat vyjádřit pomocí menšího množství dat a tak kontinuálně vytvářet modely reality, které jsou sice ztrátové a zjednodušující, ale užitečné pro další zachování člověka ve světě. Když člověk narazí v džungli na tygra, z miliardy možných trajektorií, po kterých se může tygr vydat, vybírá zcela podvědomě a instinktivně těch několik málo možných, které teprve potom vědomě zpracovává.

Část inteligence je tedy spíš něco jako pocit?
Ano, Daniel Kahneman v legendární knize o umělé inteligenci Thinking, Fast and Slow rozlišuje dvě vrstvy označené jako S1 a S2, kdy první je podvědomá vrstva a druhá, ta evolučně mladší, je vědomá a racionální. Náš mozek zavrhuje obrovská množství variant, aniž bychom o tom vůbec věděli. Například v partii šachu existuje víc možností, jak se může jedna čtyřicetitahová hra vyvíjet, než je fotonů v celém vesmíru. I ten největší mistr skutečně vědomě v S2 pracuje pouze se zlomkem několika málo variant možného vývoje. Zrealizovat u stroje správně tento podvědomý předvýběr v libovolné situaci bude velkou výzvou následujících dekád. Už teď někdy pracuji s hříčkou, že AGI vlastně není obecná artificial intelligence, ale artificial intuition, tedy umělá intuice.

 

Matyáš Vejskal

Nadšenec do startupů, technologií a digitálního marketingu.

Nadšenec do startupů, technologií a digitálního marketingu.