Mythos padl za 24 hodin. Ne kvůli modelu, ale kvůli dodavateli

Anthropic v úterý 22. dubna potvrdil, že vyšetřuje neautorizovaný přístup k modelu Claude Mythos Preview — tomu samému, kterým firma před dvěma týdny šokovala bezpečnostní komunitu. Model, který autonomně našel 271 dosud neznámých zranitelností ve Firefoxu a zkonstruoval funkční exploit pro sedmnáct let starou díru ve FreeBSD NFS serveru, se dostal do nepovolaných rukou dřív, než stihla zaschnout omítka na řízeném rollout programu.

Útok odhalil něco, co je ve výsledku horší než technická zranitelnost samotného modelu: celý Responsible Scaling Policy framework, na kterém stojí Anthropicův přístup k bezpečnému nasazení nebezpečných modelů, má slabé místo úplně jinde, než se předpokládalo. Ne v modelu. V prozaické IT infrastruktuře kolem něj.

📚 Responsible Scaling Policy (RSP) a AI Safety Levels (ASL)

Anthropic představil Responsible Scaling Policy v září 2023 jako interní framework, který propojuje schopnosti modelu s bezpečnostními opatřeními kolem něj. Princip: čím nebezpečnější model, tím přísnější podmínky nasazení. ASL-1 je teoretická úroveň bez reálných modelů. ASL-2 odpovídá modelům Claude 3 a 4 s běžnými guardraily. ASL-3, aktivovaná v květnu 2025 s Claude Opus 4, znamená zpřísněná opatření proti zneužití pro CBRN (chemické, biologické, radiologické, nukleární) scénáře. ASL-4 předpokládá, že model má schopnosti srovnatelné s nejlepšími lidskými experty v rizikových doménách — přesně to je teritorium, do kterého Mythos podle AISI evaluace zasahuje. Framework definuje KDY model nasadit. Mythos breach ale ukázal, že KDY nestačí, pokud JAK selže na straně dodavatelů.

Jak se dostali dovnitř

Podle reportu The Decoder byl primárním vektorem útoku únik dat u Mercoru — startupu, který pro Anthropic poskytuje služby kolem tréninkových dat a kontraktorů. Útočníci získali ze separátního úniku na Mercoru dvě věci: přihlašovací údaje kontraktora s částečným přístupem k Anthropicově prostředí a — což je klíčové — znalost toho, jak Anthropic strukturuje své modelové endpointy.

S tím už šlo zbytek zautomatizovat. „Na základě znalosti formátu, který Anthropic používá pro ostatní modely, skupina provedla kvalifikovaný odhad, kde by Mythos mohl být online," uvádí zdroj citovaný v Anthropic Time Magazine. Od oznámení k průniku uběhlo zhruba 24 hodin.

Skupina, napojená podle HackRead na komunitu kolem Discordu, se sama označuje za „model huntery" — lidi, kteří vystopovávají nevydané AI modely a testují jejich schopnosti. Tvrdí, že jde o zvědavost, ne o destrukci. Tvrzení, které v kontextu modelu schopného generovat zero-day exploity působí tak, jak působí.

🔍 Supply-chain attack v AI kontextu

Supply-chain útok cílí ne na primární oběť, ale na její dodavatele, kteří mají důvěryhodný přístup k cíli. Klasické příklady z IT světa: SolarWinds (2020), kdy útočníci kompromitovali update mechanismus monitorovacího toolu a přes něj získali přístup k tisícům klientů včetně amerických federálních agentur. Nebo MOVEit (2023), kdy zranitelnost v file transfer nástroji otevřela cestu k datům stovek organizací. V AI kontextu je dodavatelský řetězec širší než u klasického SaaS: zahrnuje poskytovatele tréninkových dat (Mercor, Scale AI, Surge AI), anotátorské firmy, cloud providery, dodavatele GPU a desítky dalších subjektů, z nichž každý může mít alespoň částečný přístup k systémům AI laboratoře. Mythos breach je první vysoce profilovaný supply-chain útok cílený na frontier AI model a pravděpodobně ne poslední.

Polský výzkumník v oblasti AI bezpečnosti Łukasz Olejnik shrnul útok na X jednoduše: „Neautorizovaný přístup ke Claude Mythos Preview, modelu s mocnými kybernetickými schopnostmi, který si Anthropic úmyslně držel v omezeném pilotním programu. Vstup přišel přes kontraktorskou úroveň přístupu u třetí strany, veřejný GitHub a sofistikovaný reconnaissance."

Sociální šok: banka jako kibernetický cíl

Reakce na X byla rychlá a nezastírala, jak těžkou ránu Anthropic dostal. Analytický účet Coin Bureau (1,1 mil. followerů) shrnul průběh útoku s reachem přes 115 000 zobrazení. Účet Ozak AGI pojmenoval incident „Mythos Containment Breach" a porovnal ho s únikem zbraňového materiálu. Reuters potvrdil, že australská vláda spolupracuje s Anthropicem na posouzení dopadů — a to navazuje na dřívější zprávu Bloombergu, že Reserve Bank of Australia a novozélandský RBNZ již Mythos monitorují kvůli obavám o finanční systém.

Britský novinář Robert Peston (1,26 mil. followerů) otázku přeformuloval na etický problém: „Je fér, že jen některé firmy mají přístup k super mocnému Mythosu, když dokáže prolomit kybernetickou obranu?"

Na Bloomberg Television se segment o breachi během dne dostal na 78 000 zhlédnutí — a tón mainstreamu byl přesně takový, jaký Anthropic v ten okamžik slyšet nechtěl:

CNBC, CBS, Reuters i Foreign Policy psali totéž: řízené uvolňování vysoce nebezpečného modelu dostalo první reálný stress test — a neprošlo.

Co Anthropic říká

Oficiální vyjádření firmy bylo zdrženlivé. Mluvčí pro CBS News potvrdil, že „útočníci získali přístup k Mythosu prostřednictvím jednoho z prostředí třetí strany, ale nebyly zjištěny žádné průniky mimo toto dodavatelské prostředí ani kompromitace systémů Anthropicu". Firma podle vlastního vyjádření neshledala dopad na Project Glasswing — program, kterým chce Anthropic postupně předávat schopnosti Mythosu kritickým odvětvím (mezi prvními zákazníky jsou Amazon, Apple, Cisco, JPMorgan Chase a Nvidia).

K tomu přišla v úterý paralelní zpráva: Microsoft se oficiálně připojil k Project Glasswing jako další partner. Načasování je buď velmi nešťastné, nebo Anthropic záměrně ukazuje, že incident neovlivnil strategii. Pravděpodobně obojí.

Proč je to inflection point

Problém není v tom, že se někdo dostal k modelu. Jako „model hunter" sám neprovedl žádný škodlivý útok a dokonce ani nepublikoval, co uvnitř viděl. Problém je v tom, jak málo stačilo.

Framework zodpovědného škálování, který Anthropic propaguje od roku 2023, implicitně předpokládá, že bezpečná distribuce modelu znamená kontrolu nad modelem samotným. Že pokud vyhradíte přístup úzké skupině ověřených partnerů, ošetříte rate limity, budete monitorovat výstupy — model je bezpečně nasazený.

Mythos breach ukazuje, že tenhle model myšlení selhává v momentě, kdy útočník přeskočí celou AI část a zaútočí na dodavatelský řetězec modelu. Mercor není Anthropic. Kontraktor, který měl přístup k Anthropic prostředí přes Mercor, taky není Anthropic. Ale stačilo to.

Je to přesně ta třída útoků, kterou Cloud Security Alliance už před týdnem varovala v souvislosti s Mythosem. Autonomní ofenzivní threshold modelu stoupl — obrana kolem modelu zůstala na úrovni klasického SaaS. To je asymetrie.

Co teď

Bezpečnostní komunita sleduje tři věci. Za prvé: rozsah úniku. Anthropic zatím tvrdí, že breach byl izolovaný na dodavatelské prostředí. Účet CodeByNZ na X už ale upozornil, že útočníci podle dostupných informací získali přístup nejen k Mythosu, ale k více modelům. Pokud se to potvrdí, Anthropic bude muset přehodnotit, co vůbec znamená „izolovaný breach".

Za druhé: reakce AISI a regulátorů. UK AI Safety Institute už před dvěma týdny vydalo evaluaci Mythosu, ve které model označilo za první, který autonomně zvládl 32-krokový útokový scénář. Breach nastavil nové otázky: měli by regulátoři vyžadovat průkaz dodavatelské bezpečnosti jako podmínku nasazení?

Za třetí: co s Project Glasswing. Model, který měl chránit kritickou infrastrukturu, teď sám potřebuje ochranu. Anthropic je v neobvyklé pozici — musí bankám, vládám a hyperscalerům vysvětlit, proč by jim měly model, který právě prošel únikem, svěřit do obrany vlastních systémů. Bude to těžký rozhovor.

Kicker

Ironie závěru: Mythos byl postaven jako obrana proti tomu, co se právě stalo jeho vlastnímu dodavatelskému řetězci. Anthropic po celé dva týdny argumentoval, že Mythos do produkce nepouští proto, aby ho mohl pouštět kontrolovaně. Tahle teze se přes noc změnila. Ne proto, že by byla špatná — ale protože kontrola, kterou Anthropic má, se nekončí u jeho vlastního kódu.

To je fakt, se kterým se bude celý ekosystém Project Glasswing muset popasovat během následujících dní.