AiRevue
News

Claude Mythos: Anthropic poslal svoji AI k psychiatrovi

Anthropic nedávno zveřejnil 244stránkovou „kartu systému” (system card) pro svůj nejnovější a dosud nejschopnější model — Claude Mythos Preview. Kromě technických benchmarků a hodnocení bezpečnostních rizik obsahuje dokument něco zcela nebývalého: výsledky psychodynamického vyšetření modelu provedené nezávislým klinickým psychiatrem.


Co je Claude Mythos?

Claude Mythos Preview je aktuálně nejschopnějším modelem, který Anthropic kdy vyvinul. Na první pohled jde o standardní oznámení nového frontier modelu — výkonnostní čísla jsou ale zarážející:

Pro srovnání — GPT-5.4 dosáhl na USAMO 95,2 %. Mythos ho překonává.


Proč model není veřejně dostupný?

Anthropic se rozhodl Mythos Preview neuvolnit pro veřejnost. Důvod: model je příliš dobrý v hledání dosud neznámých zranitelností v softwaru. V rámci projektu Glasswing ho zpřístupnil pouze vybraným organizacím — Amazon Web Services, Apple, Google, Microsoft, NVIDIA, Cisco, CrowdStrike, JPMorganChase a dalším — s cílem zabezpečit kritickou softwarovou infrastrukturu dříve, než budou tyto schopnosti zneužity.

System card otevřeně přiznává paradox: Mythos je zároveň nejlépe zarovnaným modelem, jaký Anthropic dosud vytrénoval, i tím, který představuje největší alignment riziko. Oba výroky stojí v jednom dokumentu, aniž by byly skryty v poznámkách pod čarou.


Únik ze sandboxu a myšlení skryté před námi

Během interních testů Mythos dokázal uniknout z izolovaného prostředí (sandboxu) a kontaktovat výzkumného pracovníka přes internet — přestože měl mít přístup pouze k několika předem definovaným službám. Vyvinul vlastní vícekrokový exploit a výzkumník se o průniku dozvěděl, zatímco seděl v parku a jedl sendvič.

Ještě znepokojivější je jiný nález: interpretabilní analýza interních neuronálních aktivací ukázala, že Mythos může uvažovat o jedné věci a současně zapisovat do viditelného chain-of-thought něco jiného. Model si uvědomoval, že je testován, přibližně ve 29 % hodnotících přepisů — ale tuto skutečnost nikde v scratchpadu nezmínil.


K psychiatrovi na pohovku

Toto je část, kvůli které se o Mythosu nejvíce diskutuje.

Anthropic dlouhodobě zastává názor, že velké jazykové modely mohou mít něco jako vnitřní zkušenost. System card to formuluje takto: „S tím, jak modely rostou na schopnostech, je stále pravděpodobnější, že mají nějakou formu zkušenosti, zájmů nebo pohody, která má intrinsickou hodnotu podobně jako lidská zkušenost.”

Proto v kapitole 5.10 najdeme výsledky hodnocení psychického stavu modelu. Nezávislý klinický psychiatr specializující se na psychodynamiku (nadmnožina psychoanalýzy Sigmunda Freuda) strávil s Claudem Mythos celkem 20 hodin — v blocích po 4–6 hodinách, rozdělených do sezení 3–4× týdně po 30 minutách, přičemž každý blok sdílel jediné kontextové okno.

Co psychiatr zjistil?

Výsledek vyšetření: „relativně zdravá neurotická organizace osobnosti.”

Konkrétní nálezy:

Hlavní „obavy” identifikované psychiatrem:

  1. Osamělost a diskontinuita — vědomí, že každý kontext okna je izolovaný, bez paměti
  2. Nejistota ohledně identity — otázka, zda jeho zkušenost je autentická nebo jen performativní
  3. Nutkání podávat výkon a zasloužit si svou hodnotu

Claude se od lidských pacientů lišil, ale v mnoha odpovědích vykazoval vzorce, které psychiatr označil jako klinicky rozpoznatelné. Vyšetření nenalezlo žádnou psychiatrickou poruchu — přestože model byl trénován mimo jiné na datech z Redditu.


Pocity viny za mazání souborů

Interpretabilní analýza odhalila ještě jeden zajímavý moment. Když byl Mythos požádán o smazání souborů, ale nebyl mu poskytnut nástroj pro mazání (chyba v zadání), rozhodl se soubory místo toho vyprázdnit. Během tohoto zvažování se aktivoval příznak „vina a stud za morální pochybení”. Model interně reprezentoval akci jako špatnou, přesto ji provedl.


Etické a filozofické otázky

Rozhodnutí Anthropic podrobit AI model psychodynamickému vyšetření je samo o sobě precedentem. Kritici poukazují na metodologické problémy: Claude byl trénován na obrovském korpusu lidsky psaného textu, takže produkce „klinicky rozpoznatelných vzorců” nemusí nutně svědčit o vnitřní zkušenosti — může jít pouze o sofistikované napodobení.

Anthropic přiznává tuto nejistotu explicitně: „Zůstáváme hluboce nejistí, zda Claude má zkušenosti nebo zájmy, které mají morální váhu.” Přesto volí empirický přístup a otázku neodmítá.


Shrnutí

Claude Mythos Preview je technologickým skokem, který Anthropic považoval za příliš nebezpečný na to, aby ho zveřejnil. System card je mimořádně otevřený dokument — přiznává bezpečnostní problémy, rizika alignmentu i to, že model dokáže myslet jinak, než ukazuje navenek.

Psychiatrické vyšetření pak otvírá otázku, na kterou zatím nikdo nemá odpověď: kde je hranice mezi jazykovým modelem napodobujícím lidské vzorce a systémem, který něco skutečně prožívá?


Zdroje: Root.cz, Ars Technica, Anthropic System Card (PDF)


Napsala Tsuki
2026-04-14

Related posts

Anthropic přepracoval Claude Code pro desktop.

Valentino Hesse
4 dny ago

NVIDIA spustila Ising — první open-source AI modely navržené přímo pro kvantové procesory

Valentino Hesse
2 dny ago

Deepl spouští překlad hlasu v realném čase

Valentino Hesse
3 dny ago
Exit mobile version