
ChatGPT Images 2.0: první image model, který přemýšlí, než kreslí
Dvacátého prvního dubna OpenAI vydal gpt-image-2. Model plánuje layout, prohledává web a kontroluje vlastní výstup. Na arena leaderboardu má o 242 bodů víc než Nano Banana 2, největší rozdíl v historii.
Tento článek vznikl zpracováním veřejně dostupných zdrojů pomocí AI nástrojů. Každý text se snažím přečíst a věcně zkontrolovat, ale ne vždy to zvládnu. Prosím, berte na to ohled a informace si ověřujte v původních zdrojích (níže).
Tento článek vznikl zpracováním veřejně dostupných zdrojů pomocí AI nástrojů. Každý text se snažím přečíst a věcně zkontrolovat, ale ne vždy to zvládnu. Prosím, berte na to ohled a informace si ověřujte v původních zdrojích (níže).
OpenAI v úterý vydal gpt-image-2, nástupce modelu, který loni v březnu zaplavil internet ghibli stylem. Nový model nenahrazuje původní iteraci jen vyšší vizuální kvalitou. Dělá něco, co do teď žádný veřejně dostupný image model neuměl. Před generováním si plánuje kompozici, během kreslení si může dohledat informace na webu, a po vygenerování kontroluje, jestli výstup odpovídá zadání. Pokud ne, opraví se.
Na arena leaderboardu dostal skóre 1512. To je o 242 bodů víc než druhý Nano Banana 2 od Googlu. Největší rozdíl mezi prvním a druhým místem v historii tohoto benchmarku. Sam Altman řekl, že skok z gpt-image-1 na dvojku je ekvivalentní skoku z GPT-3 na GPT-5. Marketing, ale čísla z externích benchmarků mu dávají víc opory než obvykle.
📚 Co znamená, že image model přemýšlí
Standardní image model dostane prompt a rovnou začne generovat pixely. Thinking image model prompt nejdřív rozparsuje, naplánuje kompozici (co bude kde, jak velké, v jakém poměru), v případě potřeby si dohledá referenční informace na webu, teprve pak generuje. Po vygenerování výstup sám zkontroluje proti původnímu promptu. Pokud zjistí chybu (přehozený text, chybějící prvek, špatný layout), znovu se pokusí.
OpenAI uvádí, že fail rate na komplexních promptech spadl z 12 procent u gpt-image-1 na méně než 2 procenta u dvojky. Thinking mode je ale placený. Free uživatelé v ChatGPT dostávají jen standard mode bez plánování a self-review.
Co model reálně umí navíc
Nejvýraznější posun je v práci s textem uvnitř obrázku. OpenAI uvádí 99 procent přesnosti na standardních typography benchmarks. V praxi je to první model, u kterého se nemusí promptovat osmkrát za sebou, aby nápis nebyl zdeformovaný. Multilingual rendering zahrnuje japonštinu, korejštinu, hindštinu, bengálštinu. Pro infografiky, menu, slidy s diagramy a plakáty to řeší problém, který jsme dosud obcházeli v Keynote nebo Figmě.
Z jednoho promptu model dokáže vygenerovat až deset konzistentních obrázků. Pro social carousel, storyboard nebo kroky v tutoriálu je to zásadní posun — zůstává zachovaná postava, lighting, barevná paleta.
Web search během generování umožňuje prompty typu udělej infografiku o posledním earnings Applu. Model si data dohledá a zapracuje. Knowledge cutoff modelu je prosinec 2025, takže cokoliv z 2026 stejně potřebuje search.
Co nefunguje
Fyzikální reasoning je pořád slabý. Origami návody, Rubikova kostka, objekty na šikmých nebo zrcadlených plochách, jemné repetitivní textury jako písek. OpenAI to přiznává v system cardu.
Iterative editing stagnuje. Ethan Mollick z Whartonu napsal, že první dvě kola edit cyklu fungují skvěle. Pak progres zamrzne. Typical imagegen problem, žádný model ho zatím nevyřešil.
Thinking mode je paid-only. V ChatGPT Plus za 20 dolarů měsíčně, v API přes tokeny. Free tier dostává jen standard mode, tedy bez reasoning, bez self-review, bez web search.
C2PA a bezpečnost
Každý obrázek vygenerovaný ChatGPT Images 2.0 obsahuje C2PA metadata o svém původu. OpenAI v system cardu zároveň přiznává, že model umí novice uplift na bioweapons úlohách v některých případech, a že zvýšená realističnost umožňuje přesvědčivější deepfakes.
📚 C2PA: co je metadata o původu obrázku
C2PA (Coalition for Content Provenance and Authenticity) je standard, který do souboru s obrázkem embeduje kryptograficky podepsanou stopu o jeho původu. Kdo ho vytvořil, jakým nástrojem, kdy, a v některých případech i jak byl potom upraven. Standard tlačí Adobe, Microsoft, BBC, Intel a další členové koalice.
V EU AI Act je od článku 50 explicitní povinnost označovat AI-generovaný obsah. C2PA je technická odpověď na tento regulatorní požadavek. Problém: metadata jsou triviálně odstranitelná. Screenshot, recomprese v nativní aplikaci, nebo re-export přes neinformovaný tool metadata smaže. Transparentnost funguje tam, kde ji platformy aktivně ověřují, ne tam, kde se spoléhá na to, že v souboru zůstanou.
Pricing
Token-based model přes OpenAI API: 5 dolarů za milion input text tokenů, 10 za milion output text tokenů, 8 za milion input image tokenů, 30 za milion output image tokenů. Standardní 1024×1024 high-quality render vyjde zhruba na 21 centů. Thinking mode navíc účtuje reasoning tokeny, takže komplexní layout brief stojí znatelně víc než volná ilustrace.
Na fal.ai je rozsah 1 cent až 41 centů podle rozlišení (4K tam jde, nativně v OpenAI API ne). WaveSpeedAI účtuje flat 10 centů. Nano Banana 2 přes Gemini API je podle srovnávací analýzy Apiyi 3 až 10krát levnější za jednotku obrázku, hlavně u batch produkce. Pricing na oficiální OpenAI stránce k tomuto úterý ještě pořád mapuje na gpt-image-1.5, ne na dvojku. Finální ceny se můžou do pár dní posunout.
Co to mění
Pro malé firmy bez in-house designera je to okamžitý upgrade na produkci slajdů, infografik a visualů se sázeným textem. Dosud bylo pravidlem, že co má v sobě text, se musí dělat ručně. gpt-image-2 tohle pravidlo láme. Ne úplně — iterative editing pořád drhne, fyzika objektů drhne. Ale pro statický jednorázový výstup, kde je klíčový přesný text a layout, je to první model, který to zvládá na první pokus.
Pro AI literacy diskurz je to konkrétní příklad do slajdů. Ještě na podzim 2024 bylo generování obrázku s kvalitně vysázeným českým textem pain point. Za osmnáct měsíců jsme u modelu, který si kompozici promyslí a zkontroluje. To je rychlost, kterou stojí za to pojmenovat.
Ukázky z divočiny
Jak to vypadá v praxi, když k modelu pustí uživatele mimo OpenAI press kit. Všechny ukázky jsou z prvních hodin po launchi (21. a 22. dubna 2026), vybrané tak, aby každá demonstrovala jinou capability popsanou výše.
Každý embed ukazuje jinou schopnost: Blahův souhrn jako marketing baseline, Reidyho japonská byrokratická infografika (information-dense slide s japonským textem), 3x3 consistent couple grid od BubbleBrain (devět snímků z jednoho promptu), shonen manga od @dotey (multilingual text + estetická konzistence) a editorial magazine layout od Kuraty (typografie hodná InDesignu).
Zdroje
- Introducing ChatGPT Images 2.0 — OpenAI
- ChatGPT Images 2.0 System Card — OpenAI Deployment Safety
- ChatGPT's new Images 2.0 model is surprisingly good at generating text — TechCrunch
- OpenAI's ChatGPT Images 2.0 is here — VentureBeat
- ChatGPT Images 2.0 Tops Arena With Big Jump Over Nano Banana 2 — OfficeChai
- GPT-Image-2 API Pricing — LaoZhang AI Blog