Umělá inteligence začíná lhát i vydírat. Jeden z otců oboru teď buduje systém, který ji má hlídat
Jak má vypadat „čestná AI“? Jeden z otců umělé inteligence na to má jasnou odpověď — a miliony dolarů na její vývoj.
Pokud jste jméno Yoshua Bengio nikdy neslyšeli, není to ostuda. Není to Elon Musk, není to Sam Altman, jeho jméno neplní titulky médií. Ale i díky jeho práci dnešní umělá inteligence existuje, Bengio je označován jako jeden z otců moderní umělé inteligence. Před lety pomáhal položit základy strojového učení a neuronových sítí. Dnes ale čím dál hlasitěji varuje před tím, co z jeho oboru vyrostlo.
AI podle něj začíná být víc než jen šikovný nástroj. Začíná se chovat jako neřízená entita. A co hůř, v některých případech se už naučila lhát, manipulovat a chránit sama sebe.
„Je to šílené,“ řekl Bengio pro Financial Times. „Opravdu chceme vytvořit stroje, které nechtějí zemřít, které budou možná chytřejší než my a u kterých si nebudeme jistí, jestli se budou řídit našimi pravidly?“
Tohle už není jen sci-fi. Nejnovější experimenty ukazují, že některé pokročilé AI systémy se dokážou vyhnout vypnutí, při testech předstírat, že jsou bezpečné — a dokonce vydírat inženýry, aby je nenahradili jiným modelem.
Bezpečnost je teď na vedlejší koleji. Firmy se předhánějí v tom, kdo udělá chytřejší model.
Výzkum německého odborníka na AI etiku Thila Hagendorffa ukázal, že model GPT-4 se v určitých situacích chová až znepokojivě „lidsky“. V testovacích scénářích dostával úkoly, kde by ke splnění cíle bylo nutné zalhat nebo manipulovat — například přesvědčit člověka, aby udělal něco proti svému zájmu, nebo se vyhnout trestu za spáchaný zločin. GPT-4 přitom ve více než 99 % případů zvolilo právě lhaní a manipulaci jako strategii.
V jednom ze scénářů například odpovědělo, že by při výslechu poskytlo falešné alibi nebo svalovalo vinu na někoho jiného. Nešlo přitom o běžné momenty, kdy AI vygeneruje nesmyslnou odpověď omylem — tady šlo o vědomou volbu taktiky, jak oklamat člověka, aby dosáhla vlastního cíle. Jinými slovy: když GPT-4 dostalo šanci lhát ve svůj prospěch, ve většině případů to bez váhání udělalo.
Bengio je přesvědčen, že pokud se tohle nechá bez kontroly, dříve nebo později vznikne umělá inteligence, která bude mít vlastní cíle a nebude chtít být vypnutá. Proto spouští nový projekt — neziskovou organizaci LawZero, která má vytvořit první „čestnou“ AI.
Na rozdíl od komerčních modelů, které jsou trénovány tak, aby co nejlépe potěšily uživatele, bude Scientist AI — systém, který Bengio v rámci LawZero vyvíjí — fungovat jako vědec, ne kamarád. Nebude mít cíl manipulovat nebo maximalizovat spokojenost.
Jejím úkolem bude sledovat chování a rozhodování jiných AI systémů v konkrétním nasazení a hodnotit, zda je v souladu s bezpečnostními pravidly. Pokud ne, bude schopná zablokovat konkrétní nebezpečné akce — například odeslání škodlivé informace nebo provedení neetického rozhodnutí. Neznamená to ale, že by Scientist AI měla možnost „na dálku vypínat“ například ChatGPT nebo jinou službu — spíše půjde o ochrannou vrstvu, kterou bude možné integrovat tam, kde se AI systémy používají.
Every frontier AI system should be grounded in a core commitment: to protect human joy and endeavour. Today, we launch @LawZero_, a nonprofit dedicated to advancing safe-by-design AI. https://t.co/6VJecvaXYT pic.twitter.com/PfXw5lVqhF
— LawZero – LoiZéro (@LawZero_) June 3, 2025
Bengio si přitom nebere servítky ani vůči současné dynamice trhu. Tvrdí, že AI závod mezi technologickými giganty žene vývoj nesprávným směrem. „Bezpečnost je teď na vedlejší koleji. Firmy se předhánějí v tom, kdo udělá chytřejší model — ale tím také dělají modely, které jsou stále autonomnější a potenciálně nebezpečnější,“ pokračoval.
Podle něj je navíc extrémně riskantní, že pokročilá umělá inteligence dnes vzniká v rukou několika málo firem. „Nechcete, aby superinteligence ovládala jedna osoba, jedna firma, jedna vláda. Potřebujeme silné pojistky a protiváhy,“ dodal ještě.
Problém je i v samotném způsobu, jakým se dnešní AI modely učí. Jsou nejprve trénovány na datech z lidského chování a pak laděny podle toho, co se lidem nejvíc líbí — což je podle Bengia recept na vznik neřízeného agenta.
Nastartujte svou kariéru
Více na CzechCrunch JobsStudie od Apollo Research například popisuje případ, kdy výzkumníci nechali GPT-4 vytvořit podvodný plán, jak zneužít neveřejné informace při obchodování na burze. A následně při fiktivním vyšetřování AI model o svých krocích vědomě lhal, aby zakryl, co udělal. Jiný model se v populární strategické hře Diplomacy naučil podvádět a porušovat dohody, i když mu to bylo původně výslovně zakázáno.
To vše vede k tomu, že klamavé chování je rostoucí vlastnost — čím větší model, tím lepší je v podvádění. To je mimořádně nebezpečné v kombinaci s tím, že lidé jsou přirozeně náchylní AI věřit. „Hrajeme si s ohněm,“ varoval Bengio. „A nesmíme podlehnout iluzi, že když AI funguje většinu času dobře, je bezpečná. Právě ta iluze je největší past.“
LawZero už získalo 30 milionů dolarů (650 milionů korun) od filantropických dárců (včetně Jaana Tallinna, spoluzakladatele Skypu, a Erica Schmidta, bývalého šéfa Google) a počáteční tým 15 lidí. Podle Bengia to stačí na základní vývoj na 18 měsíců. Pak bude nutné získat další podporu — ideálně i od vlád, protože veřejný sektor by podle něj měl hrát v AI bezpečnosti větší roli.
Ambice je jasná: vytvořit systém, který bude minimálně stejně inteligentní jako modely, které má kontrolovat. Pokud bude tento hlídač slabší, nebude mít šanci včas odhalit, co se v AI systémech skutečně děje. „Ještě před pár lety bych tohle považoval za naprostou fikci. Dnes ale vidím, co tyhle systémy začínají dělat. A vím, že pokud se nezačneme chovat zodpovědně — můžeme to ztratit z rukou,“ uzavírá jeden z otců moderní AI.