Claude Sonnet 5 porazil vlastní Opus 4.6 na SWE-bench. Cena zůstala stejná.

Anthropic 1. dubna vydal Claude Sonnet 5 a model okamžitě přepsal pořadí na většině klíčových benchmarků. Na SWE-bench Verified, průmyslovém standardu pro reálné softwarové úkoly, dosáhl 92,4 procenta. Claude Opus 4.6 má 80,8 procenta. GPT-5.4 se pohybuje kolem 80 procent. Sonnet 5 se od druhého místa liší o dvanáct procentních bodů.

Cena zůstala na třech dolarech za milion vstupních tokenů a 15 dolarech za výstupní, stejně jako u Sonnet 4.6.

Čísla napříč benchmarky

Na OSWorld-Verified, testu autonomního ovládání počítače přes screenshot a klikání, Sonnet 5 dosáhl 88,3 procenta. Lidský expert baseline je 72,4 procenta, GPT-5.4 má 75 procent. Sonnet 5 překonal oba o zhruba 13, respektive 16 bodů.

Na GPQA Diamond, testu znalostí na úrovni PhD z fyziky, chemie a biologie, model dosáhl 96,2 procenta, před Gemini 3.1 Pro (94,3 %). Na ARC-AGI-2, testu abstraktního uvažování, 84,7 procenta oproti 77,1 procenta Gemini 3.1 Pro.

Model je dostupný pod identifikátorem claude-sonnet-5-20260401, je nasazený jako výchozí model na claude.ai i v API.

Kontext window a architektura

Sonnet 5 přichází s 2M token kontextovým oknem, které přešlo z beta do stable. Okno 1M tokenů z Sonnet 4.6 je také stable a dostupné bez příplatku. Adaptive thinking architektura z generace 4.6 byla upgradována: model dynamicky alokuje hloubku uvažování podle složitosti úkolu, ne fixně pro každý dotaz.

V Claude Code vývojáři preferují Sonnet 5 oproti Sonnet 4.6 v 82 procentech případů. Anthropic jako hlavní důvody uvádí méně halucinovaných doplnění, lepší retenci kontextu napříč soubory a kvalitnější frontendový výstup.

Co to znamená pro Opus linii

Toto je druhý cyklus za sebou, kdy Sonnet model překonal nebo vyrovnal předchozí Opus generaci. Při přechodu ze Sonnet 4.5 na 4.6 byl skok menší. Tentokrát je rozdíl 12 procentních bodů na SWE-bench a 15 bodů na computer use.

Pokud tento vzorec platí i pro příští generaci, Opus linie ztrácí jasnou roli. Zatím Opus 4.6 drží náskok v long-context reasoning nad 500k tokeny a v některých multimodálních scénářích. Pro zbytek use-casů přechod na Sonnet 5 dává ekonomický smysl.

Zdroje: