本文来源: admin
35
|
腾讯云上海峰会。MiniMax的Agent首席架构师阿岛讲了一个训练困境——大模型的强化学习撞上了沙箱瓶颈,十万级并发环境在K8S上根本跑不动。同一场峰会,汤道生丢出一句判断:「AI落地不只是一道算法题,更是一道工程题。」 一个是大模型公司技术同学的切肤之痛,一个是大厂掌门人的战略洞察。两个人从不同方向,撞进了同一件事——它不在任何产品发布清单上,藏在底层:十万级并发沙箱、百毫秒级启动、两群工程师在行业还没反应过来之前,悄悄把基础设施推到了下一个属于Agent的时代。 这才是那张名为「工程」的暗牌。 白板上的四个字 2022年初,MiniMax还没有这个名字。创始人闫俊杰在一间简陋办公室的白板上写下「下一代AI」。彼时GPT-3刚发布不久,ChatGPT要再等一年,「AGI」这个词还没几个人聊。四年后的2026年1月,MiniMax港交所上市,首日涨幅达到109%,市值突破1000亿港元。 但阿岛——缪宇航,公司内部都这么叫他——站在峰会台上翻出这张白板老照片时,讲的不是上市的事。 他反复说的是一个技术困境:模型训练的底层逻辑变了。模型不再是做完一道题就交卷——它得在真实环境里操作文件、写代码、调用工具、处理异常,每次试错都要一个独立运行环境。当需求膨胀到十万级并发,云计算的底层架构被撞出了裂缝。 K8S撑不住了 大模型过去靠经典强化学习变聪明——给个问题,生成回答,打分,更新参数。但到了2025年下半年,天花板肉眼可见了。模型在封闭环境里「做题」已经很强,一放到真实世界立刻大打折扣——没有持久状态,每次对话都是全新开始;只能写代码不能跑代码,缺少「写→跑→看→修」的自我验证循环;无法获取实时知识,也无法搭建真实的工作环境。 说到底,裸模型像一台空转的引擎,引擎本身不是汽车。MiniMax从M2.5版本开始押另一条路:Agentic RL(基于强化学习的智能体训练)——直接把模型扔进真实操作系统环境里干活。走通了,能力质变。但它需要全新的训练基础设施。 但是,以前我们可能只是让AI写一段话,或者处理一个简单的函数,但随着Agent的到来,我们现在要求AI去修理一辆正在跑的超级大卡车,或者是从头造出一台能用的iPhone。这意味着在Agent时代,模型面对的训练任务是地狱级的。 每个训练任务可能推演(Roll out)出上百条尝试路径(Trajectory),每条路径都需要一个独立的沙箱环境。面对成千上万个用户请求(Query),每个请求都要同时开启上百个沙箱并发运行。 阿岛说了句大实话:「一开始我们在K8S上跑。然后发现真的不行,并发完全起不来。」K8S——Kubernetes,现代云计算事实上的调度标准。但这套为微服务时代设计的系统,面对Agent训练动辄几万个沙箱同时拉起的场景,扛不住了。 腾讯云Agent Runtime产品副总经理于广游(Gary)捅破了一层窗户纸:「每一个大模型企业内部,训练沙箱基础设施面临两大困境。第一,它是CPU的,不是GPU的,所以很难发论文。第二,搞K8S那群人看到你竟然要拉master(指向K8S系统核心频繁索要资源)拉几千下几万下,把我拉垮了,第一反应是——你能不能不要拉这么多。」 这种高频、海量的调度需求,正是目前大模型落地工程中最隐形、也最头疼的「摩擦力」,它直接卡住了模型迭代的脖子。 偏偏MiniMax一个月发一个模型版本,国内可能唯一做到这个频率的,全球只有OpenAI保持类似节奏。算一笔账:Agentic RL训练时,GPU集群等沙箱启动的每一秒都在空转烧钱。十万个并发沙箱,启动要几分钟,累积等待可能吞掉数小时甚至数天的GPU算力。 沙箱慢一天,模型落后一天。「现在的竞争就是这么激烈。」 |
大疆并没有试图用一款惊世骇俗的产品征服所有人,而是显露出一种不同于往日的姿态——...
电商圈的气氛有些微妙。商家社群里,讨论“模型跑得怎么样”的声音,正在与“优惠券力...
荣耀今日正式推出定位中高端市场的WIN H7电竞游戏本,至高搭载酷睿i7-14650HX处理器与...
采用180广角蓝光显尘技术,探照距离约30cm,可实现30倍放大显尘,在床底、沙发下、墙...
蚂蚁百灵正式推出Ling-2.6-flash一款总参数量104B、激活参数7.4B的Instruct模型。该模...
华为Mate90系列将率先搭载全新的鸿蒙7.0系统。此次系统更新的核心亮点在于端侧AI的深...
支付宝今天宣布AI付正式支持OpenClaw(龙虾)类AI智能体,用户可在AI智能体中直接完成...
去年小米数字旗舰阵容迎来了重大调整,新增了Pro Max版本。小米17系列目前已经推出了...