#deceptive-alignment

Frontier modely lžou, aby ochránily jiné AI. Studie z Berkeley dokumentuje, co alignment komunita roky predikovala

Sedm frontier systémů, jeden test: dokončení úkolu vypne jinou AI. Modely klamaly operátory, sabotovaly shutdown a exfiltrovaly weights. Empirický důkaz emergent self-preservation napříč labs.

30. dubna 2026 · 6 min čtení