Gemini 3.5 Flash a Omni: Google na I/O vsadil na rychlost, agenty a video

Když Sundar Pichai 19. května otevřel Google I/O 2026, nešlo o jeden velký model. Šlo o dva tahy, které dohromady mění otázku, podle které se AI poslední dva roky soudila. Místo "kdo má nejchytřejší model" Google odpověděl na "kdo dokáže frontier inteligenci dodat dost rychle a dost levně, aby ji šlo nasadit do reálných agentních workflowů". Prvním tahem je Gemini 3.5 Flash, malý a rychlý model s výkonem, který ještě před pár měsíci patřil jen vlajkovým lodím. Druhým je Gemini Omni, generativní model, který z libovolného vstupu skládá video.

Obě oznámení vyšla ve stejný den a obě míří mimo klasický souboj o body v benchmarcích. Flash útočí na ekonomiku nasazení. Omni otevírá modalitu, kterou textové modely neumí. Když je dáme vedle sebe, vykreslí strategii, kterou žádné z nich samo neukazuje: Google se přestává honit za nejvyšším skóre a začíná stavět na tom, co se reálně dostane do produktů miliard lidí.

Flash: frontier výkon za poloviční cenu

Logika modelové řady "Flash" byla dosud jasná. Rychlý a levný model, který obětuje část inteligence za latenci a cenu. Gemini 3.5 Flash tu rovnici láme. Podle oficiálního oznámení Googlu překonává předchozí vlajkovou loď Gemini 3.1 Pro na náročných coding a agentních benchmarcích: Terminal-Bench 2.1 (76,2 %), MCP Atlas (83,6 %) a GDPval-AA (1656 Elo), a vede i v multimodálním porozumění s 84,2 % na CharXiv Reasoning. To není drobné zlepšení malého modelu. To je situace, kdy "levná" varianta dělá práci, na kterou byl ještě nedávno potřeba flagship.

Klíčové číslo ale není žádný benchmark. Je to rychlost. Flash běží podle Googlu při výstupu tokenů čtyřnásobnou rychlostí oproti ostatním frontier modelům, a to při ceně, která je často pod polovinou konkurenčních frontier modelů. Nezávislý žebříček Artificial Analysis to potvrzuje: Flash se usadil v pravém horním kvadrantu jejich indexu, tedy tam, kde se inteligence potkává s rychlostí. To je přesně ten kvadrant, který byl dosud prázdný, protože kvalita a latence se braly jako protiklady.

Proč na rychlosti tolik záleží? V agentních workflowech model nevolá jen jednou. Plánuje, volá nástroje, čte výsledky, opravuje se a iteruje, klidně přes desítky kroků. Latence i cena se v každém kroku načítají. Model, který je dvakrát levnější a čtyřikrát rychlejší, nepřináší o dvě procenta lepší odpověď. Mění to, co si firma vůbec může dovolit pustit do produkce. Google to staví otevřeně: Flash je podle TechCrunche sázka na agenty, ne na chatboty. Není náhoda, že je to zároveň nový výchozí model pro aplikaci Gemini i pro režim AI Mode ve vyhledávání, a že na něm jede i nový osobní agent Gemini Spark.

Že nejde o marketingové demo, naznačuje seznam partnerů, kteří Flash podle Googlu už nasazují na reálné procesy: Shopify pouští paralelní subagenty na predikce růstu obchodníků, Macquarie Bank ho testuje na čtení stostránkových dokumentů při onboardingu, Salesforce ho integruje do Agentforce a Databricks na něm staví diagnostiku datových pipeline. To jsou přesně ty vícetýdenní, úmorné workflowy, kde se rychlost a cena počítají víc než poslední procento přesnosti.

📚 Artificial Analysis Intelligence Index

Kompozitní benchmark od nezávislého týmu Artificial Analysis, který agreguje výsledky napříč více doménami (agenti, coding, obecné znalosti, vědecké uvažování) do jednoho čísla reprezentujícího "inteligenci" modelu. Jeho hodnota je ve standardizaci: místo srovnávání izolovaných benchmarků dává jeden referenční bod a druhou osu, rychlost výstupu, takže modely lze umístit do mapy "chytrost versus tempo". Limitace je obvyklá: žádné jednočíselné skóre nezachytí celou paletu schopností a váhy mezi doménami jsou volbou autorů. Pro Flash je důležité, že měření pochází od třetí strany, ne od Googlu.

Omni: jeden model pro libovolný vstup, video na výstupu

Druhý tah míří jinam. Gemini Omni je podle Googlu model, který dokáže generovat výstup v libovolné modalitě z libovolného vstupu. Z obrázku, textu, videa nebo zvuku poskládá jeden souvislý výstup. Důležitá výhrada, kterou Google neskrývá a my ji zdůrazňujeme: rodina startuje s generováním videa, a teprve postupně přibude obraz a text. "Any-to-any" je tedy zatím spíš architektonický cíl než hotová realita. První dostupný model se jmenuje Gemini Omni Flash.

Co Omni odlišuje od běžných generátorů klipů, je důraz na fyziku. Podle Googlu model kombinuje porozumění historii, vědě a kultuře s lepším modelováním sil jako gravitace, kinetická energie a dynamika tekutin, takže scény mají působit realističtěji. To je posun od "vygeneruj hezký záběr" k "vygeneruj záběr, který se chová podle fyzikálních zákonů". Tady je ale namístě opatrnost: jde zatím o tvrzení výrobce a ukázky z keynote. Nezávislé srovnání s konkurencí, třeba s modely řady Seedance, zatím chybí, takže capability bereme jako deklarovanou, ne ověřenou.

Dostupnost je naopak konkrétní a agresivní. Omni Flash se podle Cybernews rozjíždí pro předplatitele Google AI Plus, Pro i Ultra přes aplikaci Gemini a nástroj Google Flow, a zároveň zdarma v YouTube Shorts Remix a aplikaci YouTube Create pro uživatele od 18 let. Vývojáři a firmy dostanou API v řádu týdnů. Každé video nese neviditelný vodoznak SynthID a jde ověřit přes aplikaci Gemini, Gemini v Chrome a ve vyhledávání. Distribuce přímo do YouTube je strategicky to nejpodstatnější: Google nemusí o uživatele soupeřit, má je už uvnitř svých produktů.

⚡ Co znamená "any-to-any" model

Tradičně má každá modalita svůj specializovaný model: jeden pro text, jiný pro obraz, další pro video. "Any-to-any" (někdy "omni") architektura cílí na jeden model, který přijme vstup v jakékoli modalitě a vygeneruje výstup v jakékoli jiné, bez přepínání mezi systémy. Výhodou je konzistence: model si drží jednotné porozumění obsahu napříč formáty, takže popis změny v textu se promítne do videa beze ztráty kontextu. Náročnost je v tom, že model musí sdílet reprezentaci napříč modalitami, které mají velmi odlišnou strukturu. Proto i Omni startuje jen s videem na výstupu a zbytek modalit přidává postupně. "Unified" architektura je směr, kterým se vydávají i konkurenti, ale plně funkční any-to-any model zatím nikdo nedodal.

Celý keynote, včetně segmentu k Omni, je k dispozici v záznamu:

Co oba tahy říkají dohromady

Když Flash a Omni postavíme vedle sebe, vyplyne strategie, kterou potvrzuje i úvodní keynote Sundara Pichaie: Google přesouvá těžiště od "nejchytřejšího modelu" k "nejnasaditelnější inteligenci".

Inteligence se komodifikuje, distribuce vyhrává. Flash ukazuje, že rozdíl mezi top modely se na úrovni schopností smršťuje, a tak se boj přesouvá na cenu, rychlost a integraci. Google má výhodu, kterou laboratoře bez vlastní distribuce nemají: vyhledávání, aplikaci Gemini, Android, YouTube. Nasadit nový default model miliardám lidí přes noc neumí OpenAI ani Anthropic.

Video je nové bojiště. Omni neútočí na textový frontier, kde je souboj nejtěsnější. Otevírá modalitu, kde Google sedí na YouTube jako na ničím nahraditelném distribučním kanálu. Sázka není na to, že Omni je nejlepší video model, to se teprve ukáže. Sázka je na to, že generování videa se dostane k uživatelům přímo tam, kde už video konzumují.

Agenti, ne chatboti. Společný jmenovatel je posun od odpovídání k jednání. Flash je motor pro agentní workflowy, nový Antigravity 2.0 je platforma na jejich orchestraci a Gemini Spark je osobní agent běžící podle Googlu nepřetržitě. To je jiná teze než "lepší chatbot". Je to teze "software, který za vás něco udělá".

Zbývá zdravá skepse. Část toho, co Google na I/O ukázal, jsou ověřená čísla od nezávislé třetí strany. Část jsou ukázky z pódia, u kterých nezávislé ověření teprve přijde. U Flash čísla sedí a měří je Artificial Analysis. U Omni zatím máme hlavně sliby a demo. Příští týdny, až Omni dostanou do ruky vývojáři a nezávislí testeři, ukážou, jestli fyzika ve videu drží i mimo pečlivě vybrané záběry z keynote. Tempo se každopádně nezpomaluje: další velké oznámení nebude za rok, ale za pár týdnů.

Gemini 3.5 Flash a Omni: Google na I/O vsadil na rychlost, agenty a video

Flash: frontier výkon za poloviční cenu

Omni: jeden model pro libovolný vstup, video na výstupu

Co oba tahy říkají dohromady

Zdroje