Umělá inteligence – 07. 6. 2025 – 3 min čtení

Umělá inteligence začíná lhát i vydírat. Jeden z otců oboru teď buduje systém, který ji má hlídat

Jak má vypadat „čestná AI“? Jeden z otců umělé inteligence na to má jasnou odpověď — a miliony dolarů na její vývoj.

Foto: Canva Pro

AI začíná lhát i vydírat

Pokud jste jméno Yoshua Bengio nikdy neslyšeli, není to ostuda. Není to Elon Musk, není to Sam Altman, jeho jméno neplní titulky médií. Ale i díky jeho práci dnešní umělá inteligence existuje, Bengio je označován jako jeden z otců moderní umělé inteligence. Před lety pomáhal položit základy strojového učení a neuronových sítí. Dnes ale čím dál hlasitěji varuje před tím, co z jeho oboru vyrostlo.

AI podle něj začíná být víc než jen šikovný nástroj. Začíná se chovat jako neřízená entita. A co hůř, v některých případech se už naučila lhát, manipulovat a chránit sama sebe.

„Je to šílené,“ řekl Bengio pro Financial Times. „Opravdu chceme vytvořit stroje, které nechtějí zemřít, které budou možná chytřejší než my a u kterých si nebudeme jistí, jestli se budou řídit našimi pravidly?“

Tohle už není jen sci-fi. Nejnovější experimenty ukazují, že některé pokročilé AI systémy se dokážou vyhnout vypnutí, při testech předstírat, že jsou bezpečné — a dokonce vydírat inženýry, aby je nenahradili jiným modelem.

Bezpečnost je teď na vedlejší koleji. Firmy se předhánějí v tom, kdo udělá chytřejší model.

Výzkum německého odborníka na AI etiku Thila Hagendorffa ukázal, že model GPT-4 se v určitých situacích chová až znepokojivě „lidsky“. V testovacích scénářích dostával úkoly, kde by ke splnění cíle bylo nutné zalhat nebo manipulovat — například přesvědčit člověka, aby udělal něco proti svému zájmu, nebo se vyhnout trestu za spáchaný zločin. GPT-4 přitom ve více než 99 % případů zvolilo právě lhaní a manipulaci jako strategii.

V jednom ze scénářů například odpovědělo, že by při výslechu poskytlo falešné alibi nebo svalovalo vinu na někoho jiného. Nešlo přitom o běžné momenty, kdy AI vygeneruje nesmyslnou odpověď omylem — tady šlo o vědomou volbu taktiky, jak oklamat člověka, aby dosáhla vlastního cíle. Jinými slovy: když GPT-4 dostalo šanci lhát ve svůj prospěch, ve většině případů to bez váhání udělalo.

Přečtěte si takéEvropa zaspala AI revoluci, ale profituje z její infrastrukturyEvropa v umělé inteligenci prý zaspala, přesto ji drží při životě. Průmyslové firmy zažívají zlaté časy

Bengio je přesvědčen, že pokud se tohle nechá bez kontroly, dříve nebo později vznikne umělá inteligence, která bude mít vlastní cíle a nebude chtít být vypnutá. Proto spouští nový projekt — neziskovou organizaci LawZero, která má vytvořit první „čestnou“ AI.

Na rozdíl od komerčních modelů, které jsou trénovány tak, aby co nejlépe potěšily uživatele, bude Scientist AI — systém, který Bengio v rámci LawZero vyvíjí — fungovat jako vědec, ne kamarád. Nebude mít cíl manipulovat nebo maximalizovat spokojenost.

Jejím úkolem bude sledovat chování a rozhodování jiných AI systémů v konkrétním nasazení a hodnotit, zda je v souladu s bezpečnostními pravidly. Pokud ne, bude schopná zablokovat konkrétní nebezpečné akce — například odeslání škodlivé informace nebo provedení neetického rozhodnutí. Neznamená to ale, že by Scientist AI měla možnost „na dálku vypínat“ například ChatGPT nebo jinou službu — spíše půjde o ochrannou vrstvu, kterou bude možné integrovat tam, kde se AI systémy používají.

Every frontier AI system should be grounded in a core commitment: to protect human joy and endeavour. Today, we launch @LawZero_, a nonprofit dedicated to advancing safe-by-design AI. https://t.co/6VJecvaXYT pic.twitter.com/PfXw5lVqhF

— LawZero – LoiZéro (@LawZero_) June 3, 2025

Bengio si přitom nebere servítky ani vůči současné dynamice trhu. Tvrdí, že AI závod mezi technologickými giganty žene vývoj nesprávným směrem. „Bezpečnost je teď na vedlejší koleji. Firmy se předhánějí v tom, kdo udělá chytřejší model — ale tím také dělají modely, které jsou stále autonomnější a potenciálně nebezpečnější,“ pokračoval.

Podle něj je navíc extrémně riskantní, že pokročilá umělá inteligence dnes vzniká v rukou několika málo firem. „Nechcete, aby superinteligence ovládala jedna osoba, jedna firma, jedna vláda. Potřebujeme silné pojistky a protiváhy,“ dodal ještě.

Problém je i v samotném způsobu, jakým se dnešní AI modely učí. Jsou nejprve trénovány na datech z lidského chování a pak laděny podle toho, co se lidem nejvíc líbí — což je podle Bengia recept na vznik neřízeného agenta.

Nastartujte svou kariéru

Více na CzechCrunch Jobs

Studie od Apollo Research například popisuje případ, kdy výzkumníci nechali GPT-4 vytvořit podvodný plán, jak zneužít neveřejné informace při obchodování na burze. A následně při fiktivním vyšetřování AI model o svých krocích vědomě lhal, aby zakryl, co udělal. Jiný model se v populární strategické hře Diplomacy naučil podvádět a porušovat dohody, i když mu to bylo původně výslovně zakázáno.

To vše vede k tomu, že klamavé chování je rostoucí vlastnost — čím větší model, tím lepší je v podvádění. To je mimořádně nebezpečné v kombinaci s tím, že lidé jsou přirozeně náchylní AI věřit. „Hrajeme si s ohněm,“ varoval Bengio. „A nesmíme podlehnout iluzi, že když AI funguje většinu času dobře, je bezpečná. Právě ta iluze je největší past.“

LawZero už získalo 30 milionů dolarů (650 milionů korun) od filantropických dárců (včetně Jaana Tallinna, spoluzakladatele Skypu, a Erica Schmidta, bývalého šéfa Google) a počáteční tým 15 lidí. Podle Bengia to stačí na základní vývoj na 18 měsíců. Pak bude nutné získat další podporu — ideálně i od vlád, protože veřejný sektor by podle něj měl hrát v AI bezpečnosti větší roli.

Ambice je jasná: vytvořit systém, který bude minimálně stejně inteligentní jako modely, které má kontrolovat. Pokud bude tento hlídač slabší, nebude mít šanci včas odhalit, co se v AI systémech skutečně děje. „Ještě před pár lety bych tohle považoval za naprostou fikci. Dnes ale vidím, co tyhle systémy začínají dělat. A vím, že pokud se nezačneme chovat zodpovědně — můžeme to ztratit z rukou,“ uzavírá jeden z otců moderní AI.

Přejít do diskuze

Umělá inteligence začíná lhát i vydírat. Jeden z otců oboru teď buduje systém, který ji má hlídat

Přečtěte si takéEvropa zaspala AI revoluci, ale profituje z její infrastrukturyEvropa v umělé inteligenci prý zaspala, přesto ji drží při životě. Průmyslové firmy zažívají zlaté časy

Nastartujte svou kariéru

Nejčtenější články

Je mu 33 let a bude nejbohatším Čechem. Teď Michal Strnad potvrdil, že s CSG zvažuje vstup na burzu

Obří injekce pro investiční impérium Daniela Křetínského. Přes 12 miliard mu posílá největší český fond

Na e-maily nereagovali, tak Češi odjeli do New Yorku a čekali na recepci. Uspěli a přivezli nový byznys

Český fanoušek navrhl LEGO podle oblíbeného britského seriálu. Je tak povedené, že vyjde oficiálně

Za jejich pizzu by je Italové prokleli, oni na ní generují 500 milionů ročně. A to jsou zatím jen na Moravě

Je mu 33 let a bude nejbohatším Čechem. Teď Michal Strnad potvrdil, že s CSG zvažuje vstup na burzu

Vyhledávání

Umělá inteligence začíná lhát i vydírat. Jeden z otců oboru teď buduje systém, který ji má hlídat

Přečtěte si takéEvropa zaspala AI revoluci, ale profituje z její infrastrukturyEvropa v umělé inteligenci prý zaspala, přesto ji drží při životě. Průmyslové firmy zažívají zlaté časy

Nastartujte svou kariéru

Nejčtenější články

Je mu 33 let a bude nejbohatším Čechem. Teď Michal Strnad potvrdil, že s CSG zvažuje vstup na burzu

Obří injekce pro investiční impérium Daniela Křetínského. Přes 12 miliard mu posílá největší český fond

Na e-maily nereagovali, tak Češi odjeli do New Yorku a čekali na recepci. Uspěli a přivezli nový byznys

Český fanoušek navrhl LEGO podle oblíbeného britského seriálu. Je tak povedené, že vyjde oficiálně

Za jejich pizzu by je Italové prokleli, oni na ní generují 500 milionů ročně. A to jsou zatím jen na Moravě

Je mu 33 let a bude nejbohatším Čechem. Teď Michal Strnad potvrdil, že s CSG zvažuje vstup na burzu

Vyhledávání

Nahlásit komentář

Vyplňte své jméno