
GPT-5.4: První obecný model s nativním ovládáním počítače překonává člověka
OpenAI vydal GPT-5.4 s kontextovým oknem 1 milion tokenů a nativním computer use. Na OSWorld benchmarku dosáhl 75 %, poprvé více než lidský výkon (72,4 %).
Foto: Build Fast with AI
Tento článek vznikl zpracováním veřejně dostupných zdrojů pomocí AI nástrojů. Každý text se snažím přečíst a věcně zkontrolovat, ale ne vždy to zvládnu. Prosím, berte na to ohled a informace si ověřujte v původních zdrojích (níže).
Tento článek vznikl zpracováním veřejně dostupných zdrojů pomocí AI nástrojů. Každý text se snažím přečíst a věcně zkontrolovat, ale ne vždy to zvládnu. Prosím, berte na to ohled a informace si ověřujte v původních zdrojích (níže).
OpenAI 5. března vydal GPT-5.4, první obecný model firmy s nativními schopnostmi ovládat počítač. Simultánně se objevil v ChatGPT (jako GPT-5.4 Thinking), API a Codexu. Kontextové okno: až 1 milion tokenů.
Proč je computer use průlomový
Na benchmarku OSWorld-Verified, který měří schopnost modelu navigovat desktopové prostředí přes screenshoty a ovládání myši/klávesnice, GPT-5.4 dosáhl 75,0 % úspěšnosti. Pro kontext: GPT-5.2 zvládl 47,3 % a lidský výkon je 72,4 %. Poprvé AI model v tomto typu úlohy překonal člověka.
Model umí psát kód pro ovládání počítače přes knihovny jako Playwright a současně vydávat přímé příkazy myši a klávesnici na základě screenshotů, dva komplementární přístupy k computer use v jednom balení.
Thinking: plánování nahlas
GPT-5.4 Thinking v ChatGPT zobrazuje na začátku složitých odpovědí plán přístupu, osnovu toho, jak hodlá úkol řešit. Uživatel může plán přečíst a korigovat ještě před tím, než model dokončí celou odpověď. Je to krok k transparentnějšímu reasoning. místo black-box odpovědi vidíte myšlenkový postup.
Benchmarky
GPT-5.4 Pro verze boduje výrazně výš na nejnáročnějších testech: 89,3 % na BrowseComp, 83,3 % na ARC-AGI-2 a 38,0 % na FrontierMath Tier 4. OpenAI reportuje 33% snížení faktických chyb oproti GPT-5.2 a 47% redukci spotřeby tokenů na 250 úlohách z MCP Atlas benchmarku.
Pro uživatele to znamená: model je výrazně schopnější, efektivnější a, díky Thinking módu. poprvé alespoň částečně průhledný v tom, jak přemýšlí.