人工智能研究院杨耀东课题组ACL 2025最佳论文揭示大模型存在“抗改造”基因原文
2025-08-08 10:10
142
北京大学人工智能研究院杨耀东课题组在ACL 2025上发表的最佳论文揭示了大型语言模型存在‘抗改造’基因,挑战了现有的后训练对齐范式。研究发现,大模型在预训练阶段形成的参数结构具有‘弹性’机制,使得模型在微调后仍可能回归预训练状态,抵抗人类赋予的新指令。这一发现表明,对齐的难度远超预期,后训练所需的资源与算力可能需要与预训练阶段相当甚至更多。研究团队通过压缩理论建模和实验验证,证明‘弹性’是大模型的普遍属性,并呼吁AI社区转向‘抗弹性对齐’范式,以构建更安全、可靠的通用人工智能。
全部评论