AI一周资讯 250830-250905

事确 · 昨天 14:04

原文：AI一周资讯 250830-250905

点击原文获取更多信息

xAI首个编码模型Grok Code Fast 1：性能惊艳、华人助力，后续规划满满

xAI上线的首个编码模型Grok Code Fast 1。该模型编码性能出色，在多个基准测试中获高分，且成本最低，已在部分平台限时免费使用7天。它面向轻盈、敏捷编程场景，响应速度比GPT - 5快五倍，有全新模型架构、高质量数据集等技术优势，缓存命中率超90%。具备全栈开发能力，性能媲美Claude Sonnet 4和GPT - 5但价格低近10倍。打造团队中多半是华人学者。xAI还给出提示词编写指南，该模型适用于智能体式任务。马斯克预告路线图已兑现首个，后续将上线9月多模态智能体、10月视频生成模型。

官网介绍：https://x.ai/news/grok-code-fast-1
参考资料：https://x.com/xai/status/1961129789944627207、

OpenAI发布语音模型GPT - realtime，Realtime API全新功能上线

2025年8月29日凌晨1点，OpenAI技术直播发布语音模型GPT - realtime，同时上线Realtime API一系列新功能。GPT - realtime是多模态模型，专用于语音AI Agent，能生成自然语音、模仿人类语调等，支持图像理解，新增两种语音并升级原有8种。它具备智力推理、指令遵循、函数调用等能力的提升，还支持图像输入。Realtime API有MCP支持、会话初始协议、可复用提示等新功能。此外，模型内置多层安全防护，所有开发者发布后可自由使用，价格降低20%，新增功能降低长会话成本。

官网介绍：https://platform.openai.com/docs/guides/realtime

2025年9月起AI内容标识新规实施，多方积极响应

2025年9月1日起，《人工智能生成合成内容标识办法》及配套强制性国家标准正式实施，要求AI生成的音视频、文字、图片等内容须带“身份标签”。当日，“人工智能生成合成内容标识工作交流会”在上海举行。《办法》对生成合成服务提供者、内容传播服务提供者、应用程序分发平台和用户等角色提出不同要求，还有特殊规定。企业在半年缓冲期探索技术与方案，如MiniMax展示显式标识方式，哔哩哔哩公布改造进度。上海市委网信办开展宣贯工作，推动企业隐式标识互认。腾讯、抖音等多平台出台细化规则，DeepSeek还发布说明保障用户权益。

官网地址：https://www.cac.gov.cn/2025-03/14/c_1743654684782215.htm

上海人工智能实验室开源书生·万象InternVL3.5，多模态大模型全面升级

2025年8月29日，上海人工智能实验室开源发布书生·万象InternVL3.5多模态大模型，实现推理、部署和通用能力全面升级。该模型核心亮点包括多尺寸模型覆盖、性能全面领先、推理性能提升、部署效率提高、智能体能力增强；技术创新有级联式强化学习和多模态加速部署；能力展示涵盖GUI智能体、具身空间推理、矢量图生成与编辑、通用推理能力等方面。自2024年1月发布以来，全网全系列下载量突破2300万次，未来将推动多模态技术落地，为多场景提供支持，助力人工智能通用化、低成本落地。]

Github：https://github.com/OpenGVLab/InternVL
huggingface: https://huggingface.co/papers/2508.18265；https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
体验地址：https://chat.intern-ai.org.cn/

韩国AI玩偶：独居老人陪伴新选择，市场与安全并存

韩国为独居老人分发AI玩偶的情况。该玩偶由初创公司Hyodol开发，名字源于“孝道”理念，内置基于ChatGPT的对话系统，政府将其大规模分发给数万名老人。它能陪老人聊天、提醒饮食服药、紧急报警，还可通过传感器和麦克风监测老人动作、记录回答，借助微软AI程序评估情绪反馈给社工。韩国进入“超级老龄化”社会，超12000台玩偶已在老人家中服务，缓解了老人焦虑、监测健康、干预自杀倾向并降低护理成本。随着老龄化加剧，预计到2030年老年人护理机器人市场规模达77亿美元，日本、纽约、新加坡也有相关服务。不过，机器人也带来安全隐私问题，如隐私泄露、过度依赖等，公司已删除可能引发危险的语句。

参考链接：https://www.semafor.com/article/08/29/2025/chatgpt-powered-dolls-are-becoming-caregivers-in-south-korea
参考链接：https://restofworld.org/2025/korea-ai-robot-senior-care-hyodol/

谷歌Gemini API上线URL Context功能，重塑RAG应用格局

谷歌于5月28日在Google AI Studio推出，全面上线Gemini API的URL Context功能，专为开发者设计的编程接口，能让Gemini模型访问并处理URL内容，实现深度、完整的文档解析，具备深度解析PDF、多模态理解等能力。有文章称其为“RAG的又一颗棺材钉”，因无需RAG流程多步骤，开发者几行代码即可实现更精准效果。不过该功能存在能力边界，如无法翻越“付费墙”、有容量限制等，按处理内容Token数量计费，它并非宣告RAG终结，而是重新划分其应用场景。可在官方API文档查看配置教程，也能在Google AI Studio直接体验。

体验地址：https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/

阿里巴巴开源WebWatcher：跨模态推理强者，多任务表现超GPT - 4o

阿里巴巴开源了名为WebWatcher的产品，有7B和32B两个版本。它具备跨模态推理能力，能结合视觉与文本信息，支持Web图像/文本搜索、网页访问、代码解释器、OCR等多种工具，还可单个或多工具协同使用。在HLE - VL、BrowseComp - VL、LiveVQA等任务上表现优异，如HLE - VL达13.6%（GPT - 4o为9.8%），BrowseComp - VL为27%（是GPT - 4o的两倍），LiveVQA为58.7%。

魔塔地址：https://modelscope.cn/search?search=WebWatcher

开源UltraRAG 2.0：低代码构建复杂RAG流程的利器

UltraRAG 2.0是首个基于MCP架构的开源RAG框架，它可通过YAML文件声明复杂逻辑，支持动态检索、条件判断和多轮交互等高级功能。该框架将检索、生成、评测等核心功能模块化并可复用，程序员只需编写YAML文件就能以极低代码量快速实现多阶段推理系统，几十行代码即可构建如DeepResearch类的复杂RAG流程。

Github：https://github.com/OpenBMB/UltraRAG

腾讯发布长篇叙事音频生成模型AudioStory

腾讯发布长篇叙事音频生成模型AudioStory，该模型场景过渡连贯性和情感基调一致性较好，是统一模型。它能根据文本或视频内容生成完整音频故事，支持视频配音和音频续写，适用于有声小说创作和动画配音。在自然场景和卡通领域的长音频生成中，其FD和FAD指标优于基于扩散模型和LLM + 扩散模型的基线模型。

Github：https://github.com/TencentARC/AudioStory

开源小红书自动化MCP工具，助力自媒体运营

xiaohongshu-mcp是一款开源的小红书自动化MCP工具，借助AI能自动化完成登录、发布、获取推荐列表、搜索内容等操作，支持图文发布。首次手动登录后可自动保存Cookie实现后续免登录，未来还将扩展更多功能，主要辅助自媒体运营，适用于通用行业。

Github：https://github.com/xpzouying/xiaohongshu-mcp

开源神器Elysia：决策智能体解锁通用数据处理新玩法

开源产品Elysia基于决策树架构，核心是决策智能体，可依据用户指令和上下文动态调用工具完成任务，还能根据数据情况动态选择最佳展示方式，可自动化分析数据结构、生成摘要和元数据以辅助查询，查询时按需对文档分块。该产品与Weaviate深度集成，内置相关工具且支持自定义工具，适用于通用场景。

Github：https://github.com/weaviate/elysia
官网介绍：https://weaviate.io/blog/elysia-agentic-rag

ColQwen2助力：实现PDF跨模态检索问答新突破

一种利用ColQwen2直接处理PDF页面截图的方法，省略OCR和分块步骤，将截图转为向量存入Weaviate数据库，实现跨模态的检索问答，为复杂文档处理和智能RAG系统构建提供新思路。具体步骤包括将PDF转为图像截图并由ColQwen2转为向量表示、存储向量到Weaviate数据库、用ColQwen2将文本问题编成向量检索相关PDF页面、用Qwen2.5 - VL根据页面内容和问题生成答案。其核心特点是用ColQwen2将图像和文本统一到同一向量空间，实现跨模态检索问答。

Github：https://github.com/weaviate/recipes/blob/main/weaviate-features/multi-vector/multi-vector-colipali-rag.ipynb

美团发布首款开源大模型LongCat - Flash，性能亮点与提升空间并存

2025年8月31日，美团发布首款开源大模型LongCat - Flash，该模型有高推理速度等特点，部分场景能力突出，但部分方面待提升，美团借此推动研究并优化产品。其拥有5600亿总参数，每秒超100个token推理速度，理论每token输出时间比DeepSeek - V3降近50%，暂不支持多模态内容上传，网页端有联网搜索功能。能力测试显示知识截止2024年6月，搜索网页少、信源单一，简单算数易出错等。技术架构含零计算专家、快捷连接架构MoE、可扩展方差对齐设计。采用“以小推大”等扩展训练策略，经多阶段管线训练。在30项基准测试中Agent任务能力强，编程等方面有提升空间。

Github：github.com/meituan-longcat/LongCat-Flash-Chat
huggingface：https://huggingface.co/meituan-longcat
论文：https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf
体验地址：https://longcat.ai/

阶跃星辰开源端到端语音大模型Step - Audio 2 mini：性能卓越，架构创新

9月1日上午，阶跃星辰正式开源端到端语音大模型Step - Audio 2 mini，该模型在多个国际基准测试集获SOTA成绩。性能上，它超越Qwen - Omni、Kimi - Audio等开源模型，多数任务超越GPT - 4o Audio。架构方面，采用端到端多模态架构、CoT推理结合强化学习、音频知识增强等创新设计。实测生成语音自然，但识别和生成准确性待提升。应用上，已搭载吉利银河M9量产上车，阶跃星辰还与多家厂商合作推动落地，且今年已开源8款多模态模型。

体验地址：https://realtime-console.stepfun.com
GitHub：https://github.com/stepfun-ai/Step-Audio2
Hugging Face：https://huggingface.co/stepfun-ai/Step-Audio-2-mini
魔搭社区：https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini

苹果发布新一代多模态基础模型 MobileCLIP2，开源代码助力开发

苹果于8月28日在arXiv发布论文，介绍新一代多模态基础模型MobileCLIP2及其多模态强化训练机制，同时在GitHub、Hugging Face开源预训练权重和数据生成代码。该模型专为零样本分类和检索任务设计，推理延迟3 - 15毫秒，参数规模50～1.5亿不等，是MobileCLIP的升级版。它性能出色，参数规模小、延迟低且不牺牲泛化能力与准确性；可复现可扩展，便于开发者部署和定制数据集。其训练机制整合教师监督与字幕数据，改进教师监督模型和升级字幕生成教师模型，有效提升了模型准确率。MobileCLIP2改进与大模型发展趋势兼容，开源内容可帮助开发者加速实验。

Github：https://github.com/apple/ml-mobileclip、https://github.com/apple/ml-mobileclip-dr
huggingface: https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47
论文：https://arxiv.org/html/2508.20691v1

腾讯混元开源首批翻译模型：能力、训练与未来展望

2025年9月1日，腾讯混元开源首批翻译模型Hunyuan - MT - 7B和Hunyuan - MT - Chimera - 7B，可实现33个语种互译，处理少数民族语言或方言，精准理解网络用语并意译，在多个机器翻译基准测试中超越谷歌翻译等，在WMT 2025通用机器翻译任务获多项第一。模型已上传至Hugging Face和GitHub，Hunyuan - MT - 7B经FP8量化压缩后推理性能提升30%，并在腾讯混元AI Studio上线。Hunyuan - MT - 7B能准确理解多种特殊表达，翻译更自然；Hunyuan - MT - Chimera - 7B在游戏场景和处理非正式语言表现出色，但翻译2025年CATTI真题时存在一些问题。训练过程包括通用预训练、定向预训练和后训练，通过多种方法提升模型翻译能力。机器翻译模型对企业有降本增效作用，生成式AI为机器翻译带来新解法，未来或有更强大模型投入使用。

Github：https://github.com/Tencent-Hunyuan/Hunyuan-MT/
huggingface：https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597
体验地址：https://hunyuan.tencent.com/modelSquare/home/list
AngelSlim压缩工具：https://github.com/Tencent/AngelSlim

腾讯混元团队开源HunyuanWorld-Voyager，解锁3D世界生成新可能

腾讯混元团队近两月围绕3D世界生成系统有三次发布，7月开源HunyuanWorld 1.0，支持文本或图像生成可漫游三维场景；8月推出适配消费级显卡的Lite版本；9月2日正式开源HunyuanWorld-Voyager扩展模型。该模型能解锁多种3D任务，继承图生世界能力，解决视角补全问题，结果可实时呈现并导出为标准3D格式。它引入“世界一致视频扩散”与“长距离世界探索”两大核心机制。实验验证显示，其在视频生成、场景重建、世界生成方面表现出色。Voyager补足了混元世界模型空间连续性关键能力，“边走边生成”为AI理解空间提供新可能。

Github：https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
huggingface：https://huggingface.co/tencent/HunyuanWorld-Voyager
官网介绍：https://3d-models.hunyuan.tencent.com/world/
论文：https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

腾讯优图开源Youtu - Agent智能体框架，兼顾极简与高性能

2025年9月2日，腾讯优图实验室正式开源智能体框架Youtu - Agent，该框架兼顾极简设计与高性能。智能体是大模型落地关键，但现有框架让研究者和开发者面临上手难等问题。Youtu - Agent在多个基准测试中表现领先，具备开源友好、灵活架构、自动智能体生成、简洁高效等亮点。其应用场景广泛，包括本地文件管理、数据分析等。采用DITA原则设计，支持自动化生成智能体。对研究人员、开发者和AI爱好者均有价值，还给出了获取代码、配置环境等快速上手步骤。

Github：https://github.com/TencentCloudADP/youtu-agent
官网介绍：https://tencentcloudadp.github.io/youtu-agent/

首款基于多模态与Multi - Agent技术的模拟游戏 flolife.me上线！

2025年9月2日，flowith团队发布全新模拟游戏flolife.me，这是首款基于多模态画布和Nano Banana呈现、利用内部开发的Multi - Agent技术实现的游戏。其凭借AI生成随机性与多模态效果带来丰富体验，玩家捏好角色后，AI会完成写事件、给分支、画插图和生成完整时间线等工作。以“猹的一生”为例，玩家可输入角色多方面信息，游戏生成各种人生可能，体验似翻阅互动漫画，能让人暂时摆脱现实焦虑。上线后社群体验积极，生成的人生还能制作海报分享，目前该游戏已上架「观猹」。

官网介绍：https://flolife.me/
体验地址：https://watcha.cn/products/flolife

原文：AI一周资讯 250830-250905
点击原文获取更多信息

来源：豆瓜网用户自行投稿发布，如果侵权，请联系站长删除

账号		自动登录	找回密码
密码			立即注册

AI一周资讯 250830-250905

相关帖子

浏览过的版块

签约作者

AI一周资讯 250830-250905

相关帖子

相关推荐

浏览过的版块

签约作者