GPT-5.4: První obecný model s nativním ovládáním počítače překonává člověka

OpenAI 5. března vydal GPT-5.4, první obecný model firmy s nativními schopnostmi ovládat počítač. Simultánně se objevil v ChatGPT (jako GPT-5.4 Thinking), API a Codexu. Kontextové okno: až 1 milion tokenů.

Proč je computer use průlomový

Na benchmarku OSWorld-Verified, který měří schopnost modelu navigovat desktopové prostředí přes screenshoty a ovládání myši/klávesnice, GPT-5.4 dosáhl 75,0 % úspěšnosti. Pro kontext: GPT-5.2 zvládl 47,3 % a lidský výkon je 72,4 %. Poprvé AI model v tomto typu úlohy překonal člověka.

Model umí psát kód pro ovládání počítače přes knihovny jako Playwright a současně vydávat přímé příkazy myši a klávesnici na základě screenshotů, dva komplementární přístupy k computer use v jednom balení.

Thinking: plánování nahlas

GPT-5.4 Thinking v ChatGPT zobrazuje na začátku složitých odpovědí plán přístupu, osnovu toho, jak hodlá úkol řešit. Uživatel může plán přečíst a korigovat ještě před tím, než model dokončí celou odpověď. Je to krok k transparentnějšímu reasoning. místo black-box odpovědi vidíte myšlenkový postup.

Benchmarky

GPT-5.4 Pro verze boduje výrazně výš na nejnáročnějších testech: 89,3 % na BrowseComp, 83,3 % na ARC-AGI-2 a 38,0 % na FrontierMath Tier 4. OpenAI reportuje 33% snížení faktických chyb oproti GPT-5.2 a 47% redukci spotřeby tokenů na 250 úlohách z MCP Atlas benchmarku.

Pro uživatele to znamená: model je výrazně schopnější, efektivnější a, díky Thinking módu. poprvé alespoň částečně průhledný v tom, jak přemýšlí.

GPT-5.4: První obecný model s nativním ovládáním počítače překonává člověka

Proč je computer use průlomový

Thinking: plánování nahlas

Benchmarky

Zdroje