找回密码
 立即注册
搜索

腾讯AI还有什么暗牌

admin 2026-4-10 06:10 35人围观 AI

# AI
腾讯云上海峰会。MiniMax的Agent首席架构师阿岛讲了一个训练困境——大模型的强化学习撞上了沙箱瓶颈,十万级并发环境在K8S上根本跑不动。同一场峰会,汤道生丢出一句判断:「AI落地不只是一道算法题,更是一道工程题 ...
 腾讯云上海峰会。MiniMax的Agent首席架构师阿岛讲了一个训练困境——大模型的强化学习撞上了沙箱瓶颈,十万级并发环境在K8S上根本跑不动。同一场峰会,汤道生丢出一句判断:「AI落地不只是一道算法题,更是一道工程题。」

一个是大模型公司技术同学的切肤之痛,一个是大厂掌门人的战略洞察。两个人从不同方向,撞进了同一件事——它不在任何产品发布清单上,藏在底层:十万级并发沙箱、百毫秒级启动、两群工程师在行业还没反应过来之前,悄悄把基础设施推到了下一个属于Agent的时代。

这才是那张名为「工程」的暗牌。

白板上的四个字

2022年初,MiniMax还没有这个名字。创始人闫俊杰在一间简陋办公室的白板上写下「下一代AI」。彼时GPT-3刚发布不久,ChatGPT要再等一年,「AGI」这个词还没几个人聊。四年后的2026年1月,MiniMax港交所上市,首日涨幅达到109%,市值突破1000亿港元。

但阿岛——缪宇航,公司内部都这么叫他——站在峰会台上翻出这张白板老照片时,讲的不是上市的事。

他反复说的是一个技术困境:模型训练的底层逻辑变了。模型不再是做完一道题就交卷——它得在真实环境里操作文件、写代码、调用工具、处理异常,每次试错都要一个独立运行环境。当需求膨胀到十万级并发,云计算的底层架构被撞出了裂缝。

K8S撑不住了

大模型过去靠经典强化学习变聪明——给个问题,生成回答,打分,更新参数。但到了2025年下半年,天花板肉眼可见了。模型在封闭环境里「做题」已经很强,一放到真实世界立刻大打折扣——没有持久状态,每次对话都是全新开始;只能写代码不能跑代码,缺少「写→跑→看→修」的自我验证循环;无法获取实时知识,也无法搭建真实的工作环境。

说到底,裸模型像一台空转的引擎,引擎本身不是汽车。MiniMax从M2.5版本开始押另一条路:Agentic RL(基于强化学习的智能体训练)——直接把模型扔进真实操作系统环境里干活。走通了,能力质变。但它需要全新的训练基础设施。

但是,以前我们可能只是让AI写一段话,或者处理一个简单的函数,但随着Agent的到来,我们现在要求AI去修理一辆正在跑的超级大卡车,或者是从头造出一台能用的iPhone。这意味着在Agent时代,模型面对的训练任务是地狱级的。

每个训练任务可能推演(Roll out)出上百条尝试路径(Trajectory),每条路径都需要一个独立的沙箱环境。面对成千上万个用户请求(Query),每个请求都要同时开启上百个沙箱并发运行。

阿岛说了句大实话:「一开始我们在K8S上跑。然后发现真的不行,并发完全起不来。」K8S——Kubernetes,现代云计算事实上的调度标准。但这套为微服务时代设计的系统,面对Agent训练动辄几万个沙箱同时拉起的场景,扛不住了。

腾讯云Agent Runtime产品副总经理于广游(Gary)捅破了一层窗户纸:「每一个大模型企业内部,训练沙箱基础设施面临两大困境。第一,它是CPU的,不是GPU的,所以很难发论文。第二,搞K8S那群人看到你竟然要拉master(指向K8S系统核心频繁索要资源)拉几千下几万下,把我拉垮了,第一反应是——你能不能不要拉这么多。」

这种高频、海量的调度需求,正是目前大模型落地工程中最隐形、也最头疼的「摩擦力」,它直接卡住了模型迭代的脖子。

偏偏MiniMax一个月发一个模型版本,国内可能唯一做到这个频率的,全球只有OpenAI保持类似节奏。算一笔账:Agentic RL训练时,GPU集群等沙箱启动的每一秒都在空转烧钱。十万个并发沙箱,启动要几分钟,累积等待可能吞掉数小时甚至数天的GPU算力。

沙箱慢一天,模型落后一天。「现在的竞争就是这么激烈。」
精彩评论0
我有话说......
相关推荐