腾讯AI还有什么暗牌

admin 2026-4-10 06:10 35人围观 AI

腾讯云上海峰会。MiniMax的Agent首席架构师阿岛讲了一个训练困境——大模型的强化学习撞上了沙箱瓶颈，十万级并发环境在K8S上根本跑不动。同一场峰会，汤道生丢出一句判断:「AI落地不只是一道算法题，更是一道工程题 ...

腾讯云上海峰会。MiniMax的Agent首席架构师阿岛讲了一个训练困境——大模型的强化学习撞上了沙箱瓶颈，十万级并发环境在K8S上根本跑不动。同一场峰会，汤道生丢出一句判断:「AI落地不只是一道算法题，更是一道工程题。」

一个是大模型公司技术同学的切肤之痛，一个是大厂掌门人的战略洞察。两个人从不同方向，撞进了同一件事——它不在任何产品发布清单上，藏在底层:十万级并发沙箱、百毫秒级启动、两群工程师在行业还没反应过来之前，悄悄把基础设施推到了下一个属于Agent的时代。

这才是那张名为「工程」的暗牌。

白板上的四个字

2022年初，MiniMax还没有这个名字。创始人闫俊杰在一间简陋办公室的白板上写下「下一代AI」。彼时GPT-3刚发布不久，ChatGPT要再等一年，「AGI」这个词还没几个人聊。四年后的2026年1月，MiniMax港交所上市，首日涨幅达到109%，市值突破1000亿港元。

但阿岛——缪宇航，公司内部都这么叫他——站在峰会台上翻出这张白板老照片时，讲的不是上市的事。

他反复说的是一个技术困境:模型训练的底层逻辑变了。模型不再是做完一道题就交卷——它得在真实环境里操作文件、写代码、调用工具、处理异常，每次试错都要一个独立运行环境。当需求膨胀到十万级并发，云计算的底层架构被撞出了裂缝。

K8S撑不住了

大模型过去靠经典强化学习变聪明——给个问题，生成回答，打分，更新参数。但到了2025年下半年，天花板肉眼可见了。模型在封闭环境里「做题」已经很强，一放到真实世界立刻大打折扣——没有持久状态，每次对话都是全新开始;只能写代码不能跑代码，缺少「写→跑→看→修」的自我验证循环;无法获取实时知识，也无法搭建真实的工作环境。

说到底，裸模型像一台空转的引擎，引擎本身不是汽车。MiniMax从M2.5版本开始押另一条路:Agentic RL（基于强化学习的智能体训练）——直接把模型扔进真实操作系统环境里干活。走通了，能力质变。但它需要全新的训练基础设施。

但是，以前我们可能只是让AI写一段话，或者处理一个简单的函数，但随着Agent的到来，我们现在要求AI去修理一辆正在跑的超级大卡车，或者是从头造出一台能用的iPhone。这意味着在Agent时代，模型面对的训练任务是地狱级的。

每个训练任务可能推演（Roll out）出上百条尝试路径(Trajectory)，每条路径都需要一个独立的沙箱环境。面对成千上万个用户请求(Query)，每个请求都要同时开启上百个沙箱并发运行。

阿岛说了句大实话:「一开始我们在K8S上跑。然后发现真的不行，并发完全起不来。」K8S——Kubernetes，现代云计算事实上的调度标准。但这套为微服务时代设计的系统，面对Agent训练动辄几万个沙箱同时拉起的场景，扛不住了。

腾讯云Agent Runtime产品副总经理于广游（Gary）捅破了一层窗户纸:「每一个大模型企业内部，训练沙箱基础设施面临两大困境。第一，它是CPU的，不是GPU的，所以很难发论文。第二，搞K8S那群人看到你竟然要拉master(指向K8S系统核心频繁索要资源)拉几千下几万下，把我拉垮了，第一反应是——你能不能不要拉这么多。」

这种高频、海量的调度需求，正是目前大模型落地工程中最隐形、也最头疼的「摩擦力」，它直接卡住了模型迭代的脖子。

偏偏MiniMax一个月发一个模型版本，国内可能唯一做到这个频率的，全球只有OpenAI保持类似节奏。算一笔账:Agentic RL训练时，GPU集群等沙箱启动的每一秒都在空转烧钱。十万个并发沙箱，启动要几分钟，累积等待可能吞掉数小时甚至数天的GPU算力。

沙箱慢一天，模型落后一天。「现在的竞争就是这么激烈。」