“Claude Sonnet 3.7 (often) knows when it’s in alignment evaluations” by Nicholas Goldowsky-Dill, Mikita Balesni, Jérémy Scheurer, Marius Hobbhahn
od
LessWrong (Curated & Popular)
2025-03-18 11:45:11
Datum vydání
18:05
Délka