北京大学人工智能研究院杨耀东课题组在ACL 2025上发表的最佳论文揭示了大型语言模型存在‘抗改造’基因，挑战了现有的后训练对齐范式。研究发现，大模型在预训练阶段形成的参数结构具有‘弹性’机制，使得模型在微调后仍可能回归预训练状态，抵抗人类赋予的新指令。这一发现表明，对齐的难度远超预期，后训练所需的资源与算力可能需要与预训练阶段相当甚至更多。研究团队通过压缩理论建模和实验验证，证明‘弹性’是大模型的普遍属性，并呼吁AI社区转向‘抗弹性对齐’范式，以构建更安全、可靠的通用人工智能。

人工智能研究院杨耀东课题组ACL 2025最佳论文揭示大模型存在“抗改造”基因
原文

2025-08-08 10:10

142

人工智能研究院杨耀东课题组ACL 2025最佳论文揭示大模型存在“抗改造”基因原文

相关文章

全部评论

人工智能研究院杨耀东课题组ACL 2025最佳论文揭示大模型存在“抗改造”基因
原文