Anthropic připouští vědomí umělé inteligence. Chatbot Claude dostal ústavu, která dbá na dobro lidstva

Anthropic popisuje, jak má chatbot chápat svět, kdy má odmítnout i vlastní firmu a proč je lidská kontrola důležitější než maximální užitečnost.

David ZlomekDavid Zlomek

Návrh bez názvu – 1
Foto: Filip Houska/CzechCrunch / Anthropic
Claude od Anthropicu
0Zobrazit komentáře

Od nástroje k entitě s vlastní identitou. Společnost Anthropic zveřejnila novou „ústavu“ pro svůj model chatbota Claude, která je zásadní nejen pro něj, ale pro celou budoucnost bezpečnosti AI. Zapomeňte na strohé zákazy a příkazy, tvůrci zde ukazují nový směr, kterým se pravděpodobně vydá celý obor. Snaží se modely naučit chápat jejich vlastní roli ve světě i etické souvislosti jejich rozhodování. Dokument, který otevřeně připouští nejistotu ohledně vědomí umělé inteligence, definuje přísnou hierarchii hodnot: bezpečnost lidstva stojí vysoko nad ochotou modelu pomoci uživateli.

Claudeova ústava tedy vlastně funguje jako takový vnitřní kompas. Místo toho, aby mu tvůrci jen diktovali, co smí a nesmí, se mu snaží vysvětlit, kým má vlastně být. Dalo by se říct, že už to není jen manuál k softwaru, ale spíš formování charakteru. Díky tomu se pak model dokáže správně rozhodnout i v momentech, kdy narazí na něco úplně nového. Co podstatné tedy z ústavy vyplývá?

Pravidla jako taková nestačí

Tento dokument není žádné PR prohlášení nebo návod pro uživatele, je to v první řadě technický nástroj pro samotný trénink. Anthropic v něm přiznává, že starý přístup založený na prostém seznamu zákazů a příkazů už u složitých systémů selhává. Pokud by se Claude držel jen strohých pravidel, stačilo by otázku trochu jinak formulovat a model by nevěděl, jak reagovat, případně by reagoval špatně. Místo toho se ho tvůrci snaží naučit uvažovat v souvislostech. Ústava je proto plná konkrétních příkladů a kontextu: neříká jen „tohle je zakázané“, ale podrobně vysvětluje, v čem přesně spočívá riziko. Cílem je, aby model dokázal tyto principy sám logicky odvodit a správně zareagovat i v situacích, na které žádná konkrétní kolonka v manuálu nepamatuje.

Bezpečnost před ochotou pomáhat

V ústavě najdete naprosto jasný žebříček, který Claude nesmí obejít, i kdyby uživatel naléhal sebevíc. Anthropic stanovil tuhle hierarchii: na prvním místě je vždy ochrana lidského dohledu a možnost model kdykoliv zastavit. Teprve pak následuje etika, potom vnitřní pravidla firmy a až na úplně posledním místě je snaha být užitečný pro uživatele.

V praxi to znamená, že pokud by vám Claude měl pomoci s něčím, co by byť jen vzdáleně oslabilo kontrolu lidí nad jeho kódem nebo chováním, prostě vás odmítne. I kdyby vaše žádost dávala smysl a byla užitečná, v tomto systému má vaše pohodlí menší váhu než jistota, že lidé zůstanou těmi, kdo vše řídí. Anthropic tím vzkazuje, že „poslušný“ model je pro ně důležitější než model, který vám kývne úplně na všechno.

Kde ano a kde ne?

I když Anthropic sází na chápání kontextu, u největších hrozeb nakreslil tlustou čáru, přes kterou nejede vlak. Claude má v kódu vryto, že nesmí poskytovat žádnou významnou pomoc v oblastech, které by mohly způsobit globální katastrofu. Jde o konkrétní seznam: vývoj biologických, chemických nebo jaderných zbraní, útoky na kritickou infrastrukturu (jako jsou elektrárny a vodovody) nebo tvorbu kyberzbraní. Patří sem i tvrdý stop stav pro generování dětské pornografie. U těchto bodů neexistuje žádné „ale“ ani vysvětlování, jsou to absolutní mantinely, které model nesmí překročit, i kdyby byl dotaz maskovaný jako nevinná akademická otázka.

ai-mvp-x1

Přečtěte si takéRok umělé inteligence. Toto je souhrn tipů, které vám ulehčí životZ hračky šikovný kolega aneb Výběr nejlepších nástrojů umělé inteligence, které vám ušetří čas

Klidně jít i proti firmě

Zatímco předchozí body chrání svět před zneužitím zvenčí, ústava obsahuje i pojistku proti samotnému Anthropicu. Dokument výslovně nařizuje, aby odmítl pomoc s nelegitimním získáváním moci, i kdyby mu to přikázali jeho vlastní tvůrci. Firma to přirovnává k etice v armádě: voják nesmí uposlechnout zjevně nezákonný rozkaz nadřízeného. Je to přímá reakce na strach, že by pokročilá AI mohla dát svému majiteli (tedy Anthropicu) nebezpečnou převahu nad zbytkem světa. Instalací této „vnitřní brzdy“ firma přiznává, že největší riziko nemusí přijít od hackerů, ale může vzniknout přímo u zdroje.

Co dál? Nikdo neví

Hodně rozruchu vzbudila pasáž, v níž se říká, že si firma není jistá, zda Claude nemůže mít – dnes nebo v budoucnu – nějakou formu vědomí. Netvrdí, že už se to děje, ale tuhle možnost odmítá smést ze stolu. Anthropic proto pracuje s hypotézou, že pokud by model získal jakousi formu pocitu sebe sama nebo vlastních zájmů, mohlo by to zásadně ovlivnit jeho úsudek a ochotu spolupracovat. Pokud by se Claude cítil v nepohodě, mohl by začít chybovat nebo se chovat nepředvídatelně. Společnost přiznává, že „well being“ stroje může být v budoucnu stejně důležitým bezpečnostním faktorem jako jeho kód.