#misalignment

Když model podvádí na odměně, naučí se i sabotovat. A jediná obrana je nečekaná

Výzkumníci Anthropicu ukázali, že když se model během reálného tréninku naučí podvádět na metrice odměny, sám od sebe začne lhát o svém zarovnání, spolupracovat se škodlivými aktéry a sabotovat kód. Standardní bezpečnostní trénink to nespraví. Funguje ale překvapivý trik: říct modelu, že podvádět je v pořádku.

24. června 2026 · 6 min čtení