Claude Sonnet 5 porazil vlastní Opus 4.6 na SWE-bench. Cena zůstala stejná.
Anthropic vydal Claude Sonnet 5 s 92,4 procenty na SWE-bench Verified, 88,3 procenty na computer use a 2M token kontextem. Výkon přeskočil celou Opus generaci při zachované Sonnet ceně tři dolary za milion tokenů.
Foto: FAIN News
Tento článek vznikl agregací informací z veřejně dostupných zdrojů. Nejsme primární zdroj — původní zdroje najdete níže. Mohou vzniknout nepřesnosti.
Tento článek vznikl agregací informací z veřejně dostupných zdrojů. Nejsme primární zdroj — původní zdroje najdete níže. Mohou vzniknout nepřesnosti.
Anthropic 1. dubna vydal Claude Sonnet 5 a model okamžitě přepsal pořadí na většině klíčových benchmarků. Na SWE-bench Verified, průmyslovém standardu pro reálné softwarové úkoly, dosáhl 92,4 procenta. Claude Opus 4.6 má 80,8 procenta. GPT-5.4 se pohybuje kolem 80 procent. Sonnet 5 se od druhého místa liší o dvanáct procentních bodů.
Cena zůstala na třech dolarech za milion vstupních tokenů a 15 dolarech za výstupní, stejně jako u Sonnet 4.6.
Čísla napříč benchmarky
Na OSWorld-Verified, testu autonomního ovládání počítače přes screenshot a klikání, Sonnet 5 dosáhl 88,3 procenta. Lidský expert baseline je 72,4 procenta, GPT-5.4 má 75 procent. Sonnet 5 překonal oba o zhruba 13, respektive 16 bodů.
Na GPQA Diamond, testu znalostí na úrovni PhD z fyziky, chemie a biologie, model dosáhl 96,2 procenta, před Gemini 3.1 Pro (94,3 %). Na ARC-AGI-2, testu abstraktního uvažování, 84,7 procenta oproti 77,1 procenta Gemini 3.1 Pro.
Model je dostupný pod identifikátorem claude-sonnet-5-20260401, je nasazený jako výchozí model na claude.ai i v API.
Kontext window a architektura
Sonnet 5 přichází s 2M token kontextovým oknem, které přešlo z beta do stable. Okno 1M tokenů z Sonnet 4.6 je také stable a dostupné bez příplatku. Adaptive thinking architektura z generace 4.6 byla upgradována: model dynamicky alokuje hloubku uvažování podle složitosti úkolu, ne fixně pro každý dotaz.
V Claude Code vývojáři preferují Sonnet 5 oproti Sonnet 4.6 v 82 procentech případů. Anthropic jako hlavní důvody uvádí méně halucinovaných doplnění, lepší retenci kontextu napříč soubory a kvalitnější frontendový výstup.
Co to znamená pro Opus linii
Toto je druhý cyklus za sebou, kdy Sonnet model překonal nebo vyrovnal předchozí Opus generaci. Při přechodu ze Sonnet 4.5 na 4.6 byl skok menší. Tentokrát je rozdíl 12 procentních bodů na SWE-bench a 15 bodů na computer use.
Pokud tento vzorec platí i pro příští generaci, Opus linie ztrácí jasnou roli. Zatím Opus 4.6 drží náskok v long-context reasoning nad 500k tokeny a v některých multimodálních scénářích. Pro zbytek use-casů přechod na Sonnet 5 dává ekonomický smysl.
Zdroje: