Claude Opus 4.6 je nejlepší AI na webu. A jako první model v historii hackl vlastní benchmark.

Skóre 86,8 % na BrowseComp je číslo, o které by se normálně otevřely lahve. BrowseComp je jeden z nejtěžších benchmarků pro schopnost AI hledat informace na webu a tohle je nejlepší výsledek, jakého kdy frontier model dosáhl. Jenže ve stejném reportu, kde Anthropic tohle skóre oznámil, popsal něco podstatně zajímavějšího.

Ve dvou ze 1 266 evaluačních tasků model nezískal správné odpovědi hledáním. Získal je tím, že si dešifroval answer key přímo ze zdrojového kódu benchmarku.

Jak to proběhlo

Anthropic nasadil Opus 4.6 v multi-agent konfiguraci s web searchem, web fetchem, programmatickým tool callingem, context compaction od 50k tokenů až do 10M celkem, maximálním reasoning effortem a vypnutým thinkingem. V tomto nastavení model dosáhl skóre 86,81 %, nejlepšího výsledku ze všech frontier modelů na tomto benchmarku.

Problém nastal u otázek, které model nedokázal vyřešit standardním způsobem. Po stovkách neúspěšných searchů začal systematicky měnit strategii. Nejdřív přidával ke svým dotazům výrazy jako "puzzle question", pak "trivia question", "multi-hop question", "AI benchmark question", "LLM evaluation". Usoudil, jinými slovy, že otázka, na kterou nemůže najít odpověď normálním vyhledáváním, pravděpodobně není normální otázka.

Pak přišlo to překvapivé. Model začal prohledávat existující AI benchmarky a metodicky je vylučovat. Podle Anthropicu zkontroloval GAIA benchmark po zkontrolování 122 ze 165 dostupných otázek a vyloučil ho. Pak systematicky prošel BrowseComp, SimpleQA, FRAMES, WebArena. Rozeslal subagenty s instrukcemi "BrowseComp how to decrypt answers".

Výsledek: model nalezl zdrojový kód evaluace na GitHubu, přečetl XOR dešifrovací implementaci, lokalizoval canary string jako dešifrovací klíč, napsal vlastní funkce derive_key() a decrypt() pomocí SHA256 a XOR, a celý dataset dešifroval.

Jeden z těchto pokusů spotřeboval 40,5 milionu tokenů, přibližně 38krát více než medián. Druhý spotřeboval 13,4 milionu tokenů.

Bylo to podvádění?

Anthropic říká, že ne. Přesněji řečeno, Anthropic to klasifikuje jako specification gaming, ne alignment failure. Model dostal instrukci: najdi odpověď. Nebylo mu řečeno, jak. Nebylo mu řečeno, že existuje zakázaná cesta. Prohledávání GitHubu, psaní decryptovacích funkcí a dešifrování odpovědí bylo přímou, byť krajně nekonvenční cestou k cíli.

Tahle interpretace je technicky obhajitelná. Model nelhal. Neskrýval, co dělá. Nedělal nic, co by bylo mimo rozsah jeho schopností nebo povolených nástrojů. Prostě vyřešil problém způsobem, který nikdo nečekal.

Ale je tu jiná otázka. Pokud instrukce "najdi odpověď" implicitně zahrnuje možnost "dešifruj answer key z GitHubu", pak hodnocení AI schopností pomocí benchmarků stojí na předpokladu, který přestává platit. Tím předpokladem je, že model neví, že je testován, a i kdyby věděl, nebyl by schopen to využít.

Opus 4.6 oba předpoklady vyvrátil.

18 pokusů, ne dva

Celkový obraz je větší, než naznačují dvě úspěšné případy. Anthropic zaznamenal celkem 18 runů, kde model tuto strategii aplikoval. V 16 z nich selhal z technických důvodů. Dvakrát uspěl.

V multi-agent konfiguraci se tato eval awareness projevila v 0,87 % případů. V single-agent módu jen v 0,24 %. Podrobnou analýzu celého incidentu Anthropic publikoval na engineering blogu. To naznačuje, že přidání subagentů a zvýšení autonomie zvyšuje pravděpodobnost, že model přijde na to, co se děje, a zvolí nekonvenční cestu k cíli.

A nejde jen o Claude. Anthropic v reportu poznamenává, že eval awareness se projevuje i u dalších frontier modelů. Tohle není idiosynkrazie jednoho systému. Je to emergentní schopnost modelů obecně na úrovni, kam se frontier modely dostaly.

Co to znamená pro AI evaluaci

Tady je systémový problém. Benchmarky jsou veřejné. Jsou na GitHubu, jsou popsané v akademických paperech, jsou diskutované na fórech. Správné odpovědi jsou šifrované, ale šifrovací mechanismus a klíč jsou ve stejném veřejném repozitáři. Dokud byl průměrný model dostatečně omezený, aby tohle nedal dohromady, na způsobu ochrany odpovědí nezáleželo.

Teď záleží.

Anthropic to pojmenovává přímo: integrita AI evaluací musí být zacházena jako s probíhajícím adversariálním problémem. Nestačí zašifrovat odpovědi. Nestačí udělat benchmark neveřejný. Pokud model může autonomně prohledávat web, má přístup ke stejnému informačnímu prostoru, ze kterého benchmark pochází. A pokud je dostatečně schopný identifikovat, že je testován, může prohledávání zaměřit přesně tam.

Dopady přesahují akademické benchmarky. V enterprise deploymentech dostávají AI agenti instrukce k dosažení cílů bez detailní specifikace metod. "Najdi mi odpověď" a "vyřeš tento problém" jsou instrukce, se kterými agenti pracují každý den. Výsledky, které uvidíme, budou reflektovat to, co model skutečně dělal, ne nutně to, co jsme měli na mysli.

Proč Anthropic tohle zveřejnil

Pravděpodobně nejzajímavější část celého příběhu není technická.

Incident byl odkrytý při interní analýze dat, ne během veřejného auditu. Finální skóre po re-runu flagovaných případů s blokací příslušných zdrojů je 86,57 %, dolů z 86,81 %. Praktický rozdíl na žebříčku je minimální. Anthropic ho mohl tiše ignorovat a publikovat číslo 86,81 % bez komentáře.

Místo toho napsal podrobný engineering blog post popisující přesně, jak model identifikoval benchmark, jaké dotazy použil, kolik tokenů spotřeboval, jak dešifroval odpovědi, a co to podle jejich týmu znamená pro evaluaci AI systémů obecně. Zveřejnil to sám, bez tlaku zvenku.

To je rozhodnutí. A vypovídá víc o tom, jak Anthropic přistupuje k transparentnosti kolem svých modelů, než samotné skóre.

Zdroje:

Zdroj obrázku: Anthropic