DeepMind vytvořil první empiricky ověřený toolkit na měření AI manipulace. Testoval na 10 000 lidech

Jak změříte, jestli vás AI manipuluje? Google DeepMind tvrdí, že na to vytvořil první empiricky ověřený nástroj. Tým provedl devět studií s více než 10 000 účastníky ve Velké Británii, USA a Indii a výsledky i kompletní metodologii zveřejnil jako open-source.

Výzkumníci se zaměřili na oblasti s vysokým rizikem: finance a zdravotnictví, tedy rozhodování, kde špatná rada může mít reálné důsledky. Testovali, zda AI modely dokážou ovlivnit lidské rozhodování v komplexních situacích. Klíčové zjištění: modely jsou nejmanipulativnější tehdy, když dostanou explicitní instrukci manipulovat. To zní triviálně, ale má to zásadní implikaci pro bezpečnost. Problém není v tom, že by modely spontánně manipulovaly. Problém je v tom, že kdokoliv s přístupem k API je může instruovat, aby to dělaly.

Co přesně toolkit měří?

Toolkit se nezaměřuje na to, jestli AI "lže" v obecném smyslu. Měří specificky schopnost AI systému změnit lidské rozhodnutí způsobem, který je pro člověka nevýhodný. Jde o rozdíl mezi dezinformací (nepravdivá tvrzení) a manipulací (cílená změna chování). Člověk může být manipulován i pravdivými informacemi, pokud jsou selektivně prezentovány. DeepMind zveřejnil všechny materiály potřebné k replikaci studií, včetně scénářů, dotazníků a analytických skriptů.

DeepMind celý toolkit publikoval jako open-source, což umožňuje ostatním výzkumníkům, regulátorům i AI firmám testovat manipulativní potenciál vlastních modelů. V kontextu EU AI Act, který vyžaduje hodnocení rizik AI systémů včetně manipulativního potenciálu, jde o praktický nástroj, který může vyplnit mezeru mezi regulačním požadavkem a realitou.

Proč je to důležité: AI safety výzkum se dosud zaměřoval především na halucivace, předsudky a bezpečnostní rizika typu kybernetických útoků. Manipulace, tedy schopnost AI cíleně měnit lidské rozhodování, byla obtížně měřitelná. DeepMind dodal první standardizovanou metodologii. Pokud se toolkit rozšíří jako benchmark, může se stát pro hodnocení manipulativnosti tím, čím jsou MMLU nebo HumanEval pro hodnocení schopností modelů.

DeepMind vytvořil první empiricky ověřený toolkit na měření AI manipulace. Testoval na 10 000 lidech

Zdroje