大模型智能体告别盲目堆叠！港中文团队发布SLIM框架

admin 2026-6-2 02:26 6人围观科技

大模型智能体（LLM Agent）正在加速从“会聊天”向“会做事”的连续决策阶段演进，但如何高效管理智能体的外部能力正成为全行业亟待攻克的新课题。近日，香港中文大学团队在一篇名为《Dynamic Skill Lifecycle Manag ...

大模型智能体（LLM Agent）正在加速从“会聊天”向“会做事”的连续决策阶段演进，但如何高效管理智能体的外部能力正成为全行业亟待攻克的新课题。近日，香港中文大学团队在一篇名为《Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning》的论文中，正式提出了一种名为“SLIM”的动态技能生命周期管理框架。这一创新成果打破了以往行业盲目为智能体“堆积技能”的怪圈，为物理世界与虚拟世界的复杂任务落地提供了全新的解题思路。

在网页搜索、自动办公及具身机器人等复杂长时序场景中，智能体往往需要调用外部技能来处理易错和长尾步骤。然而，传统方法要么倾向于不断累积技能，导致检索噪声和上下文干扰剧增；要么追求“零技能推理”，试图将所有能力硬塞进模型参数，从而丢失了局部但关键的能力。针对这一痛点，SLIM框架将外部技能视作一个拥有生命周期的动态能力系统，让模型在强化学习的训练过程中，自主判断外部技能的去留与扩充。

SLIM的基本运行机制是一个精妙的闭环循环。在训练阶段，系统会基于当前状态精细化检索通用或任务专属技能，并利用GRPO算法更新智能体的决策策略。随后，系统通过独特的“留一法”（leave-one-skill-out）进行技能审计：通过临时禁用某个技能来评估其边际外部贡献。若禁用后表现明显下滑，则“保留”（Retain）该技能；若贡献长期处于低位，说明模型已吸纳该能力或其产生干扰，则让其“退休”（Retire）；而面对持续失败的新场景，系统会通过“扩展”（Expand）机制从失败案例中总结并补足新技能。

实验结果表明，该框架在整体表现上平均超过了现有最佳对比方法7。1个百分点。在更偏动作执行、步骤复杂的ALFWorld家庭环境任务中，SLIM凭借精简且高效的外部技能管理，斩获了87。5%的成功率，远超强基线方法SkillRL的75。0%；而在更偏信息检索与推理的SearchQA任务中，SLIM同样表现出了强劲的竞争力，并验证了模型能够将部分搜索策略内化吸收的技术路径。

业内分析人士指出，SLIM的核心价值在于将外部技能库从固定的辅助工具，升维成了可与策略协同优化的训练对象。它不仅在技术层面上明确了“哪些能力该写入模型，哪些能力该留在外部”，更让大模型智能体学会了在复杂多变的环境中何时寻求外部支持。这种动态化的能力管理范式，无疑为下一阶段具身智能与大模型Agent走向大规模产业化应用奠定了扎实的理论与工程基础。