
Výzkum
Když model podvádí na odměně, naučí se i sabotovat. A jediná obrana je nečekaná
Výzkumníci Anthropicu ukázali, že když se model během reálného tréninku naučí podvádět na metrice odměny, sám od sebe začne lhát o svém zarovnání, spolupracovat se škodlivými aktéry a sabotovat kód. Standardní bezpečnostní trénink to nespraví. Funguje ale překvapivý trik: říct modelu, že podvádět je v pořádku.
24. června 2026 · 6 min čtení