GPT-5.4 jako první AI překonal lidský baseline v ovládání počítače. Claude Opus 4.6 těsně za ním

OSWorld-Verified je benchmark, který testuje AI na reálných desktopových úkolech: vyplňování formulářů, práci v kancelářských aplikacích, navigaci v systému, práci s přílohami v e-mailech nebo konfiguraci vývojového prostředí. Na rozdíl od izolovaných testů kódu nebo znalostních kvízů OSWorld vyžaduje, aby model viděl obrazovku, rozuměl kontextu a klikal na správná místa ve správném pořadí.

GPT-5.4, vydaný v březnu 2026, dosáhl na tomto benchmarku 75,0 % a překonal lidský expert baseline poprvé u jakéhokoli modelu. Model zvládá vícekrokové pracovní postupy napříč aplikacemi bez browserových pluginů nebo speciálních integrací. Claude Opus 4.6, vydaný v únoru 2026, skončil na 72,7 %, tedy stále na lidské úrovni, ale pod novým maximem GPT-5.4. Gemini 3.1 Pro nemá k datu tohoto scanu publikovaný srovnatelný výsledek na tomto benchmarku.

Pro kontext: na SWE-bench Verified, benchmarku pro opravu chyb v reálných GitHub repozitářích, je pořadí opačné. Claude Opus 4.6 dosahuje 80,8 % a Gemini 3.1 Pro 80,6 %, přičemž GPT-5.3-Codex zaostává s 56,8 % na SWE-Bench Pro. Každý model má jiný silný profil a jedno číslo celkový obraz nevypovídá.

Praktický dopad se teprve ukáže v produkčním použití. OSWorld-Verified je laboratorní podmínka: úkoly jsou dobře definované, prostředí kontrolované. Reálná kancelářská práce přináší chaotičtější vstupy, nestandardní aplikace a situace, kde model musí sám rozpoznat, že nastalo něco neočekávaného. To, že AI překonává lidi na benchmarku, neznamená, že ji lze nasadit bez lidského dozoru na libovolný pracovní počítač. Ale čísla naznačují, v jakém tempu se capabilities pohybují: ještě v roce 2024 byl nejlepší model pod 40 % na OSWorld.

GPT-5.4 jako první AI překonal lidský baseline v ovládání počítače. Claude Opus 4.6 těsně za ním

Zdroje