ChatGPT Images 2.0: první image model, který přemýšlí, než kreslí

OpenAI v úterý vydal gpt-image-2, nástupce modelu, který loni v březnu zaplavil internet ghibli stylem. Nový model nenahrazuje původní iteraci jen vyšší vizuální kvalitou. Dělá něco, co do teď žádný veřejně dostupný image model neuměl. Před generováním si plánuje kompozici, během kreslení si může dohledat informace na webu, a po vygenerování kontroluje, jestli výstup odpovídá zadání. Pokud ne, opraví se.

Na arena leaderboardu dostal skóre 1512. To je o 242 bodů víc než druhý Nano Banana 2 od Googlu. Největší rozdíl mezi prvním a druhým místem v historii tohoto benchmarku. Sam Altman řekl, že skok z gpt-image-1 na dvojku je ekvivalentní skoku z GPT-3 na GPT-5. Marketing, ale čísla z externích benchmarků mu dávají víc opory než obvykle.

📚 Co znamená, že image model přemýšlí

Standardní image model dostane prompt a rovnou začne generovat pixely. Thinking image model prompt nejdřív rozparsuje, naplánuje kompozici (co bude kde, jak velké, v jakém poměru), v případě potřeby si dohledá referenční informace na webu, teprve pak generuje. Po vygenerování výstup sám zkontroluje proti původnímu promptu. Pokud zjistí chybu (přehozený text, chybějící prvek, špatný layout), znovu se pokusí.

OpenAI uvádí, že fail rate na komplexních promptech spadl z 12 procent u gpt-image-1 na méně než 2 procenta u dvojky. Thinking mode je ale placený. Free uživatelé v ChatGPT dostávají jen standard mode bez plánování a self-review.

Co model reálně umí navíc

Nejvýraznější posun je v práci s textem uvnitř obrázku. OpenAI uvádí 99 procent přesnosti na standardních typography benchmarks. V praxi je to první model, u kterého se nemusí promptovat osmkrát za sebou, aby nápis nebyl zdeformovaný. Multilingual rendering zahrnuje japonštinu, korejštinu, hindštinu, bengálštinu. Pro infografiky, menu, slidy s diagramy a plakáty to řeší problém, který jsme dosud obcházeli v Keynote nebo Figmě.

Z jednoho promptu model dokáže vygenerovat až deset konzistentních obrázků. Pro social carousel, storyboard nebo kroky v tutoriálu je to zásadní posun — zůstává zachovaná postava, lighting, barevná paleta.

Web search během generování umožňuje prompty typu udělej infografiku o posledním earnings Applu. Model si data dohledá a zapracuje. Knowledge cutoff modelu je prosinec 2025, takže cokoliv z 2026 stejně potřebuje search.

Co nefunguje

Fyzikální reasoning je pořád slabý. Origami návody, Rubikova kostka, objekty na šikmých nebo zrcadlených plochách, jemné repetitivní textury jako písek. OpenAI to přiznává v system cardu.

Iterative editing stagnuje. Ethan Mollick z Whartonu napsal, že první dvě kola edit cyklu fungují skvěle. Pak progres zamrzne. Typical imagegen problem, žádný model ho zatím nevyřešil.

Thinking mode je paid-only. V ChatGPT Plus za 20 dolarů měsíčně, v API přes tokeny. Free tier dostává jen standard mode, tedy bez reasoning, bez self-review, bez web search.

C2PA a bezpečnost

Každý obrázek vygenerovaný ChatGPT Images 2.0 obsahuje C2PA metadata o svém původu. OpenAI v system cardu zároveň přiznává, že model umí novice uplift na bioweapons úlohách v některých případech, a že zvýšená realističnost umožňuje přesvědčivější deepfakes.

📚 C2PA: co je metadata o původu obrázku

C2PA (Coalition for Content Provenance and Authenticity) je standard, který do souboru s obrázkem embeduje kryptograficky podepsanou stopu o jeho původu. Kdo ho vytvořil, jakým nástrojem, kdy, a v některých případech i jak byl potom upraven. Standard tlačí Adobe, Microsoft, BBC, Intel a další členové koalice.

V EU AI Act je od článku 50 explicitní povinnost označovat AI-generovaný obsah. C2PA je technická odpověď na tento regulatorní požadavek. Problém: metadata jsou triviálně odstranitelná. Screenshot, recomprese v nativní aplikaci, nebo re-export přes neinformovaný tool metadata smaže. Transparentnost funguje tam, kde ji platformy aktivně ověřují, ne tam, kde se spoléhá na to, že v souboru zůstanou.

Pricing

Token-based model přes OpenAI API: 5 dolarů za milion input text tokenů, 10 za milion output text tokenů, 8 za milion input image tokenů, 30 za milion output image tokenů. Standardní 1024×1024 high-quality render vyjde zhruba na 21 centů. Thinking mode navíc účtuje reasoning tokeny, takže komplexní layout brief stojí znatelně víc než volná ilustrace.

Na fal.ai je rozsah 1 cent až 41 centů podle rozlišení (4K tam jde, nativně v OpenAI API ne). WaveSpeedAI účtuje flat 10 centů. Nano Banana 2 přes Gemini API je podle srovnávací analýzy Apiyi 3 až 10krát levnější za jednotku obrázku, hlavně u batch produkce. Pricing na oficiální OpenAI stránce k tomuto úterý ještě pořád mapuje na gpt-image-1.5, ne na dvojku. Finální ceny se můžou do pár dní posunout.

Co to mění

Pro malé firmy bez in-house designera je to okamžitý upgrade na produkci slajdů, infografik a visualů se sázeným textem. Dosud bylo pravidlem, že co má v sobě text, se musí dělat ručně. gpt-image-2 tohle pravidlo láme. Ne úplně — iterative editing pořád drhne, fyzika objektů drhne. Ale pro statický jednorázový výstup, kde je klíčový přesný text a layout, je to první model, který to zvládá na první pokus.

Pro AI literacy diskurz je to konkrétní příklad do slajdů. Ještě na podzim 2024 bylo generování obrázku s kvalitně vysázeným českým textem pain point. Za osmnáct měsíců jsme u modelu, který si kompozici promyslí a zkontroluje. To je rychlost, kterou stojí za to pojmenovat.

Ukázky z divočiny

Jak to vypadá v praxi, když k modelu pustí uživatele mimo OpenAI press kit. Všechny ukázky jsou z prvních hodin po launchi (21. a 22. dubna 2026), vybrané tak, aby každá demonstrovala jinou capability popsanou výše.

Tibor Blaho

@btibor91

·Follow

OpenAI released ChatGPT Images 2.0, a state-of-the-art image generation model that brings a step change in detailed instruction following, object placement, dense text rendering, and multilingual output, plus a new thinking mode that can search the web, generate multiple distinct Show more

9:19 AM · Apr 22, 2026

Read 6 replies

Gearoid Reidy リーディー・ガロウド

@GearoidReidy

·Follow

Ultimate use case for ChatGPT Images 2.0: making information-dense slides from Japanese bureaucrats understandable

7:43 AM · Apr 22, 2026

Read 2 replies

BubbleBrain

@BubbleBrain

·Follow

couple. 3x3 collage by gpt-image-2 ---prompt--- 9:16 vertical — Japanese Fuji film style couple portrait, 3x3 grid (nine frames), same couple in all images, consistent facial features and styling Fujifilm analog aesthetic (Pro 400H / Superia feel), soft pastel tones, slight Show more

5:38 AM · Apr 22, 2026

Read 3 replies

宝玉

@dotey

·Follow

GPT Image 2 Prompt：Japanese shonen manga Source：openai.com/index/introduc… --- Prompt --- Make a sample page of a colorized Japanese shonen adventure manga. The page should vividly depict our main character found a magical quill. The name of the quill is called the Quill of GPT Show more

4:43 AM · Apr 22, 2026

Read 2 replies

Yukinobu Kurata : 倉田幸暢

@YukinobuKurata

·Follow

GPT-Image-2 sample Prompt: an editorial magazine page about a wide variety of Japanese folktales about On. make it look like a glossy, smooth, well laid out widely distributed science magazine.

Yukinobu Kurata : 倉田幸暢

@YukinobuKurata

GPT-Image-2 sample Prompt: I want to create a magazine page that features a professional realistic photography in an English bookstore that selling English books in English languages. The photography should feature book covers in English. The books must be made-up books with

6:09 AM · Apr 22, 2026

ChatGPT Images 2.0: první image model, který přemýšlí, než kreslí

Co model reálně umí navíc

Co nefunguje

C2PA a bezpečnost

Pricing

Co to mění

Ukázky z divočiny

Zdroje