Den, kdy se frontier rozjel třemi směry. GPT-5.5, DeepSeek V4 a ChatGPT Images 2.0 v jednom týdnu

OpenAI vydal GPT-5.5 jako nový #1 v Artificial Analysis. O několik hodin později DeepSeek dropnul V4 s 1M kontextem za zlomek ceny. A pár dní předtím přišly ChatGPT Images 2.0, které Sam Altman přirovnal ke skoku z GPT-3 na GPT-5. Tři capability shifty, jeden týden, tři jiné směry.

Týden mezi 21. a 24. dubnem 2026 byl jednou z nejhustších releasových sekvencí, jaké si AI scéna pamatuje. Tři velké capability releasy během čtyř dnů, každý míří na jinou dimenzi: text reasoning, open-source efficiency a multimodal generation. Když se na ně podíváme společně, vykreslují obraz, který je zajímavější než kterýkoliv z nich samostatně.

GPT-5.5: OpenAI bere zpátky korunu

Ve čtvrtek 23. dubna oznámil OpenAI GPT-5.5, o den později se objevila i Pro varianta v API. Marketingově to firma podala jako "smartest and most intuitive model yet", ale zajímavé jsou až čísla.

Artificial Analysis zařadil GPT-5.5 jako nového jedničku ve svém Intelligence Indexu, +3 body nad three-way tie, který tvořily Claude Opus 4.6, GPT-5.4 a Gemini 3.1 Pro. GPT-5.5 (xhigh) vede Terminal-Bench Hard, GDPval-AA i nový APEX-Agents-AA. V GDPval-AA dosáhl Elo 1785, což je o 30 bodů víc než Claude Opus 4.7 a o 470 bodů víc než Gemini 3.1 Pro Preview.

Klíčový capability úhel je ale jiný. GPT-5.5 řeší stejné úkoly za výrazně méně tokenů než GPT-5.4 a se srovnatelnou latencí. Pro agentic workflows, kde se token cost akumuluje napříč desítkami volání, je tohle větší deal než další body na MMLU. Na Artificial Analysis Coding Indexu dodává state-of-the-art performance při poloviční ceně oproti konkurenčním frontier coding modelům.

Jeden warning sign nicméně stojí za zmínku. Na AA-Omniscience benchmarku má GPT-5.5 (xhigh) 57 % accuracy, ale 86 % hallucination rate. Pro srovnání: Opus 4.7 má 36 %, Gemini 3.1 Pro 50 %. OpenAI zvolila trade-off směrem k confidence. Model si troufá odpovídat tam, kde si jiní raději přiznají nejistotu. V agentic context, kde model dělá rozhodnutí bez supervise, je tohle materiální risk.

Ethan Mollick, který má early access, popsal GPT-5.5 jako "sign of the future" právě pro to, kolik dokáže odbavit s minimálním návodem. Pro Mollickovu poznámku je užitečné rozumět kontextu: kde dřívější modely vyžadovaly precizní prompt engineering, GPT-5.5 si ze zadání umí dojít k cíli sám. To je posun směrem k autonomním agentům, ne k chytřejšímu chatbotu.

📚 Artificial Analysis Intelligence Index

Kompozitní benchmark od týmu Artificial Analysis, který agreguje výsledky napříč čtyřmi doménami: Agents, Coding, General Knowledge a Scientific Reasoning, každá s váhou 25 %. Cílem je dát jedno číslo, které reflektuje "intelligence" modelu napříč úkoly. Index se průběžně aktualizuje, jak vycházejí nové modely a benchmarky. Jeho hodnota je ve standardizaci. Místo aby se srovnávaly izolované benchmarky, dává jeden referenční bod. Limitace je obvyklá: žádný jednočíselný benchmark nezachytí celou paletu capability, a váhy mezi doménami jsou volba autorů.

DeepSeek V4: open-source jede pár hodin za frontierem

Ne všechno se podařilo OpenAI udržet pro sebe ani jeden den. V pátek 24. dubna, několik hodin po rolloutu GPT-5.5, DeepSeek release-nul V4 Preview jako open-weight model pod MIT licencí.

Sázka je radikální. DeepSeek-V4-Pro má 1,6 bilionu parametrů (49B aktivních) v MoE architektuře, V4-Flash 284 miliard total a 13B aktivních. Oba modely mají 1 milion tokenů kontext a maximální output 384K. Podle DeepSeeku si Pro varianta v 1M-token kontextu vystačí s 27 % single-token inference FLOPs a jen 10 % KV cache oproti V3.2.

Simon Willison, který je v community kalibrován jako jeden z mála spolehlivých testerů, popsal DeepSeek V4 jako "almost on the frontier, a fraction of the price". V4-Pro je nejlevnější z větších frontier modelů a V4-Flash poráží na ceně i OpenAI GPT-5.4 Nano.

Konkrétní čísla: na cache-miss pricingu je V4-Pro zhruba sedminu ceny GPT-5.5 a šestinu ceny Claude Opus 4.7. S cached input se mezera prohlubuje na zhruba desetinu GPT-5.5. Na benchmarcích MMLU Pro, GPQA Diamond a SWE-Bench se modely blíží GPT-5.5 a Opus 4.7, i když na knowledge testech zůstávají 3 až 6 měsíců za frontierem.

Geopolitický rozměr je tu nepřehlédnutelný. DeepSeek V4 byl trénován na Huawei Ascend čipech, ne na Nvidia H100. Fortune to popsal jako "rock-bottom prices and close integration with Huawei's chips". Pro firmu, která loni s R1 vyvolala paniku na Wall Street, je tohle pokračování stejné teze: čínská alternativa nepotřebuje americké čipy ani americké modely a cenově je tlačí dolů.

Pro evropského čtenáře je tu zajímavý úhel. DeepSeek V4-Pro je největší open-weight model na trhu, větší než Kimi K2.6 (1,1T) a GLM-5.1 (754B), víc než dvojnásobek V3.2 (685B). MIT licence znamená plné komerční využití. V kombinaci s 1M kontextem a 1/7 ceny GPT-5.5 to staví otázku, kterou si EU regulátoři kladou už od ledna: pokud open-weight modely doženou frontier do 6 měsíců a evropské firmy je můžou self-hostovat, jak relevantní budou US-only API restrictions?

ChatGPT Images 2.0: multimodal jump, nebo jen lepší text v obrázcích?

O tři dny dřív, 21. dubna, vydal OpenAI ChatGPT Images 2.0, v API jako gpt-image-2. Sam Altman během livestreamu prohlásil, že skok z gpt-image-1 na gpt-image-2 je "like going from GPT-3 to GPT-5 all at once". To je odvážné prohlášení, které si zaslouží konkrétní rozbor.

Co model umí: ~99 % přesnost při generování textu v jakémkoli jazyce a písmu, vestavěné reasoning před generací (model "myslí", než kreslí), context-aware multi-turn editing bez driftu, 100+ objektů v jedné scéně bez ztráty kvality. Klíčová innovace je ta vestavěná reasoning vrstva, která modelu dovolí udělat web search, vygenerovat víc kandidátů a sám si je ověřit před vrácením výsledku.

Během 12 hodin po launchi obsadil gpt-image-2 první místo ve všech kategoriích Image Arena leaderboardu, s rekordním náskokem +242 bodů. To je nejvyšší lead v historii toho leaderboardu.

Simon Willison, který Altmanovo srovnání s GPT-3→GPT-5 zkoumal hands-on, je opatrnější. Generování textu v obrázcích, multi-turn editace bez driftu a layout reasoning jsou skutečné capability jumpy. Ale srovnání se skokem GPT-3→GPT-5 je marketingový hyperbol. GPT-3→GPT-5 přinesl novou kategorii capability (reasoning, agentic work). gpt-image-2 přináší výrazně lepší instance toho, co dělala už předchozí generace, plus jednu novou capability (build-in reasoning). Rozdíl je v tom, jestli mluvíme o emergent jump nebo iterativním upgradu na steroidech.

TechCrunch zdůraznil text v obrázcích jako nejvíc viditelný posun. Pro marketingové týmy, designéry, edukátory a všechny, kdo dělají vizuální obsah s textem (memes, infografiky, social posty, slide decky), je tohle skutečný unlock. Generování typografie, na které se LLM modely roky lámaly, najednou funguje.

Distribuce je dvojvrstvá. Instant mode (základní quality jumpy) je dostupný i pro free tier. Thinking mode (reasoning, web search, multi-image batching, output verification) je za paywallem od Plus ($20/měsíc) výš. Strategicky to zapadá do širšího OpenAI tahu na "AI super app", o kterém Sam Altman mluví od začátku roku.

⚡ Multimodal reasoning

Schopnost modelu provádět reasoning kroky napříč více modalitami (text, obraz, audio) v rámci jedné inference. U gpt-image-2 to znamená, že model před generováním obrázku interně proběhne sekvenci reasoning kroků: parsování promptu, layout planning, validace textových elementů, případně web search pro reference. Output je výsledek toho reasoning pipeline, ne první sample z latentního prostoru. Tím se snižuje hallucination v textech a layoutech, ale zvyšuje latency a cost. V tradičních text-only LLM modelech se reasoning běžně řeší přes chain-of-thought; v multimodal je to architektonicky složitější, protože model musí udržovat konzistenci napříč modalitami.

Co tři releasy říkají dohromady

Když se podíváme na ten týden jako na celek, vyplyne z něj obraz, který žádný z releasů sám nedává.

Frontier se konsoliduje, ne fragmentuje. OpenAI, Anthropic a Google se v Intelligence Indexu drželi v three-way tie celé jaro. GPT-5.5 ten tie rozbil, ale o pouhé 3 body. Capability gap mezi top-tier modely je malý a každá nová release ho jen na chvíli rozhoupe. To má praktický důsledek: pro většinu use cases přestává záležet, kterého ze tří hráčů zvolíš, a začíná záležet na price/latency/integration. Tohle je trh komodifikace, který přitom vypadá jako trh diferenciace.

Open-source je 6 měsíců, ne 2 roky. Pro DeepSeek V4 je to klíčový moment. Loňská R1 mela být one-off, ale V4 ukazuje konzistentní trajektorii: open-weight modely doženou frontier během půl roku, ne během dvou let. Pro firmy, které řeší AI strategii na 2 až 3 roky dopředu, to mění kalkulaci. Self-hosting, který dnes vypadá jako compromise pro paranoiu, bude za rok běžnou volbou pro cost-sensitive workloady.

Multimodal už není "extra", ale baseline. ChatGPT Images 2.0 v kombinaci s vision capabilitami Claude Opus 4.7 a Gemini 3.1 Pro signalizují, že multimodální schopnosti přestávají být odlišovacím prvkem. Stejně jako se před třemi lety přestalo mluvit o "podpora víc jazyků" (přepokládá se), za rok se přestane mluvit o "podpora obrázků". Co zbude, je kvalita instrukčního následování a integrace do workflow.

Hallucination paradox sílí. GPT-5.5 dosahuje top accuracy a zároveň top hallucination rate. To je zajímavá inverze. Model, který je nejlepší v tom, co ví, je zároveň nejhorší v tom, co neví. Pro produkční nasazení v agentic settings to znamená, že retrieval a verification vrstvy zůstávají stejně kritické jako u modelů z 2024. "Lepší model" neřeší problém, pro který RAG existuje.

Pro koho to dnes znamená co

Vývojáři a startupy: Pokud jste na GPT-5.4 nebo Opus 4.6, GPT-5.5 zlevňuje agentic workflows skrz token efficiency, ale ostražitě testujte hallucination v autonomous loops. Pokud řešíte cost, DeepSeek V4-Flash dává smysl pro non-critical workloady, kde 90 % Opus quality stačí. V4-Pro pro firmy s GDPR concerns nebo data sovereignty požadavky se stává reálnou self-host opcí.

Marketingové a kreativní týmy: ChatGPT Images 2.0 je jednoznačné upgrade. Generování textu v obrázcích konečně funguje, multi-turn editace bez driftu šetří desítky iterací. Test driver: udělejte stejný brief na dnešním tooling a na gpt-image-2 a porovnejte počet retake.

CIO a enterprise architekti: Tři releasy v jednom týdnu posílají signál, že AI capability shift bude pokračovat v měsíčním tempu, ne ročním. Strategie postavené na "počkáme, až se trh ustálí" zaostávají, protože trh se neustálí. Užitečnější rámec je: jaké procesy jsou dnes 80% AI-ready a nejsou nasazené kvůli infrastruktuře nebo governance, ne kvůli technologii?

Pro evropský kontext: DeepSeek V4 přidává tlak na otázku, jestli má EU smysl regulovat foundation modely jako jednolitou kategorii, když open-weight modely s frontier capability poběží uvnitř EU bez US API. AI Act počítá s GPAI provider obligations od 2.8.2025, enforcementem od 2.8.2026. Otázka, jestli se compliance vztahuje i na firmy, které deploynou open-weight model self-hosted, je v Bruselu zatím nedořešená. Týden jako tento ji posouvá z teorie do praxe.

Pro hands-on srovnání nových modelů se podívejte na detailní rozbor:

Týden, kdy se frontier rozjel třemi směry, byl spíš signálem než novinkou. Tempo capability releasů zrychluje, ne zpomaluje. Příští "ticho" v releasech bude ne týden, ale dva dny.