找回密码
 立即注册
首页 业界区 安全 AI一周资讯 250830-250905

AI一周资讯 250830-250905

事确 昨天 14:04
1.png

原文:AI一周资讯 250830-250905
点击原文获取更多信息
xAI首个编码模型Grok Code Fast 1:性能惊艳、华人助力,后续规划满满

xAI上线的首个编码模型Grok Code Fast 1。该模型编码性能出色,在多个基准测试中获高分,且成本最低,已在部分平台限时免费使用7天。它面向轻盈、敏捷编程场景,响应速度比GPT - 5快五倍,有全新模型架构、高质量数据集等技术优势,缓存命中率超90%。具备全栈开发能力,性能媲美Claude Sonnet 4和GPT - 5但价格低近10倍。打造团队中多半是华人学者。xAI还给出提示词编写指南,该模型适用于智能体式任务。马斯克预告路线图已兑现首个,后续将上线9月多模态智能体、10月视频生成模型。
2.png


  • 官网介绍:https://x.ai/news/grok-code-fast-1
  • 参考资料:https://x.com/xai/status/1961129789944627207、
OpenAI发布语音模型GPT - realtime,Realtime API全新功能上线

2025年8月29日凌晨1点,OpenAI技术直播发布语音模型GPT - realtime,同时上线Realtime API一系列新功能。GPT - realtime是多模态模型,专用于语音AI Agent,能生成自然语音、模仿人类语调等,支持图像理解,新增两种语音并升级原有8种。它具备智力推理、指令遵循、函数调用等能力的提升,还支持图像输入。Realtime API有MCP支持、会话初始协议、可复用提示等新功能。此外,模型内置多层安全防护,所有开发者发布后可自由使用,价格降低20%,新增功能降低长会话成本。

  • 官网介绍:https://platform.openai.com/docs/guides/realtime
2025年9月起AI内容标识新规实施,多方积极响应

2025年9月1日起,《人工智能生成合成内容标识办法》及配套强制性国家标准正式实施,要求AI生成的音视频、文字、图片等内容须带“身份标签”。当日,“人工智能生成合成内容标识工作交流会”在上海举行。《办法》对生成合成服务提供者、内容传播服务提供者、应用程序分发平台和用户等角色提出不同要求,还有特殊规定。企业在半年缓冲期探索技术与方案,如MiniMax展示显式标识方式,哔哩哔哩公布改造进度。上海市委网信办开展宣贯工作,推动企业隐式标识互认。腾讯、抖音等多平台出台细化规则,DeepSeek还发布说明保障用户权益。
3.png


  • 官网地址:https://www.cac.gov.cn/2025-03/14/c_1743654684782215.htm
上海人工智能实验室开源书生·万象InternVL3.5,多模态大模型全面升级

2025年8月29日,上海人工智能实验室开源发布书生·万象InternVL3.5多模态大模型,实现推理、部署和通用能力全面升级。该模型核心亮点包括多尺寸模型覆盖、性能全面领先、推理性能提升、部署效率提高、智能体能力增强;技术创新有级联式强化学习和多模态加速部署;能力展示涵盖GUI智能体、具身空间推理、矢量图生成与编辑、通用推理能力等方面。自2024年1月发布以来,全网全系列下载量突破2300万次,未来将推动多模态技术落地,为多场景提供支持,助力人工智能通用化、低成本落地。]

  • Github:https://github.com/OpenGVLab/InternVL
  • huggingface: https://huggingface.co/papers/2508.18265;https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
  • 体验地址:https://chat.intern-ai.org.cn/
韩国AI玩偶:独居老人陪伴新选择,市场与安全并存

韩国为独居老人分发AI玩偶的情况。该玩偶由初创公司Hyodol开发,名字源于“孝道”理念,内置基于ChatGPT的对话系统,政府将其大规模分发给数万名老人。它能陪老人聊天、提醒饮食服药、紧急报警,还可通过传感器和麦克风监测老人动作、记录回答,借助微软AI程序评估情绪反馈给社工。韩国进入“超级老龄化”社会,超12000台玩偶已在老人家中服务,缓解了老人焦虑、监测健康、干预自杀倾向并降低护理成本。随着老龄化加剧,预计到2030年老年人护理机器人市场规模达77亿美元,日本、纽约、新加坡也有相关服务。不过,机器人也带来安全隐私问题,如隐私泄露、过度依赖等,公司已删除可能引发危险的语句。
4.webp


  • 参考链接:https://www.semafor.com/article/08/29/2025/chatgpt-powered-dolls-are-becoming-caregivers-in-south-korea
  • 参考链接:https://restofworld.org/2025/korea-ai-robot-senior-care-hyodol/
谷歌Gemini API上线URL Context功能,重塑RAG应用格局

谷歌于5月28日在Google AI Studio推出,全面上线Gemini API的URL Context功能,专为开发者设计的编程接口,能让Gemini模型访问并处理URL内容,实现深度、完整的文档解析,具备深度解析PDF、多模态理解等能力。有文章称其为“RAG的又一颗棺材钉”,因无需RAG流程多步骤,开发者几行代码即可实现更精准效果。不过该功能存在能力边界,如无法翻越“付费墙”、有容量限制等,按处理内容Token数量计费,它并非宣告RAG终结,而是重新划分其应用场景。可在官方API文档查看配置教程,也能在Google AI Studio直接体验。

  • 体验地址:https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/
阿里巴巴开源WebWatcher:跨模态推理强者,多任务表现超GPT - 4o

阿里巴巴开源了名为WebWatcher的产品,有7B和32B两个版本。它具备跨模态推理能力,能结合视觉与文本信息,支持Web图像/文本搜索、网页访问、代码解释器、OCR等多种工具,还可单个或多工具协同使用。在HLE - VL、BrowseComp - VL、LiveVQA等任务上表现优异,如HLE - VL达13.6%(GPT - 4o为9.8%),BrowseComp - VL为27%(是GPT - 4o的两倍),LiveVQA为58.7%。

  • 魔塔地址:https://modelscope.cn/search?search=WebWatcher
开源UltraRAG 2.0:低代码构建复杂RAG流程的利器

UltraRAG 2.0是首个基于MCP架构的开源RAG框架,它可通过YAML文件声明复杂逻辑,支持动态检索、条件判断和多轮交互等高级功能。该框架将检索、生成、评测等核心功能模块化并可复用,程序员只需编写YAML文件就能以极低代码量快速实现多阶段推理系统,几十行代码即可构建如DeepResearch类的复杂RAG流程。
5.png


  • Github:https://github.com/OpenBMB/UltraRAG
腾讯发布长篇叙事音频生成模型AudioStory

腾讯发布长篇叙事音频生成模型AudioStory,该模型场景过渡连贯性和情感基调一致性较好,是统一模型。它能根据文本或视频内容生成完整音频故事,支持视频配音和音频续写,适用于有声小说创作和动画配音。在自然场景和卡通领域的长音频生成中,其FD和FAD指标优于基于扩散模型和LLM + 扩散模型的基线模型。
6.webp


  • Github:https://github.com/TencentARC/AudioStory
开源小红书自动化MCP工具,助力自媒体运营

xiaohongshu-mcp是一款开源的小红书自动化MCP工具,借助AI能自动化完成登录、发布、获取推荐列表、搜索内容等操作,支持图文发布。首次手动登录后可自动保存Cookie实现后续免登录,未来还将扩展更多功能,主要辅助自媒体运营,适用于通用行业。

  • Github:https://github.com/xpzouying/xiaohongshu-mcp
开源神器Elysia:决策智能体解锁通用数据处理新玩法

开源产品Elysia基于决策树架构,核心是决策智能体,可依据用户指令和上下文动态调用工具完成任务,还能根据数据情况动态选择最佳展示方式,可自动化分析数据结构、生成摘要和元数据以辅助查询,查询时按需对文档分块。该产品与Weaviate深度集成,内置相关工具且支持自定义工具,适用于通用场景。

  • Github:https://github.com/weaviate/elysia
  • 官网介绍:https://weaviate.io/blog/elysia-agentic-rag
ColQwen2助力:实现PDF跨模态检索问答新突破

一种利用ColQwen2直接处理PDF页面截图的方法,省略OCR和分块步骤,将截图转为向量存入Weaviate数据库,实现跨模态的检索问答,为复杂文档处理和智能RAG系统构建提供新思路。具体步骤包括将PDF转为图像截图并由ColQwen2转为向量表示、存储向量到Weaviate数据库、用ColQwen2将文本问题编成向量检索相关PDF页面、用Qwen2.5 - VL根据页面内容和问题生成答案。其核心特点是用ColQwen2将图像和文本统一到同一向量空间,实现跨模态检索问答。
7.webp


  • Github:https://github.com/weaviate/recipes/blob/main/weaviate-features/multi-vector/multi-vector-colipali-rag.ipynb
美团发布首款开源大模型LongCat - Flash,性能亮点与提升空间并存

2025年8月31日,美团发布首款开源大模型LongCat - Flash,该模型有高推理速度等特点,部分场景能力突出,但部分方面待提升,美团借此推动研究并优化产品。其拥有5600亿总参数,每秒超100个token推理速度,理论每token输出时间比DeepSeek - V3降近50%,暂不支持多模态内容上传,网页端有联网搜索功能。能力测试显示知识截止2024年6月,搜索网页少、信源单一,简单算数易出错等。技术架构含零计算专家、快捷连接架构MoE、可扩展方差对齐设计。采用“以小推大”等扩展训练策略,经多阶段管线训练。在30项基准测试中Agent任务能力强,编程等方面有提升空间。
8.png


  • Github:github.com/meituan-longcat/LongCat-Flash-Chat
  • huggingface:https://huggingface.co/meituan-longcat
  • 论文:https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf
  • 体验地址:https://longcat.ai/
阶跃星辰开源端到端语音大模型Step - Audio 2 mini:性能卓越,架构创新

9月1日上午,阶跃星辰正式开源端到端语音大模型Step - Audio 2 mini,该模型在多个国际基准测试集获SOTA成绩。性能上,它超越Qwen - Omni、Kimi - Audio等开源模型,多数任务超越GPT - 4o Audio。架构方面,采用端到端多模态架构、CoT推理结合强化学习、音频知识增强等创新设计。实测生成语音自然,但识别和生成准确性待提升。应用上,已搭载吉利银河M9量产上车,阶跃星辰还与多家厂商合作推动落地,且今年已开源8款多模态模型。
9.webp


  • 体验地址:https://realtime-console.stepfun.com
  • GitHub:https://github.com/stepfun-ai/Step-Audio2
  • Hugging Face:https://huggingface.co/stepfun-ai/Step-Audio-2-mini
  • 魔搭社区:https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini
苹果发布新一代多模态基础模型 MobileCLIP2,开源代码助力开发

苹果于8月28日在arXiv发布论文,介绍新一代多模态基础模型MobileCLIP2及其多模态强化训练机制,同时在GitHub、Hugging Face开源预训练权重和数据生成代码。该模型专为零样本分类和检索任务设计,推理延迟3 - 15毫秒,参数规模50~1.5亿不等,是MobileCLIP的升级版。它性能出色,参数规模小、延迟低且不牺牲泛化能力与准确性;可复现可扩展,便于开发者部署和定制数据集。其训练机制整合教师监督与字幕数据,改进教师监督模型和升级字幕生成教师模型,有效提升了模型准确率。MobileCLIP2改进与大模型发展趋势兼容,开源内容可帮助开发者加速实验。

  • Github:https://github.com/apple/ml-mobileclip、https://github.com/apple/ml-mobileclip-dr
  • huggingface: https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47
  • 论文:https://arxiv.org/html/2508.20691v1
腾讯混元开源首批翻译模型:能力、训练与未来展望

2025年9月1日,腾讯混元开源首批翻译模型Hunyuan - MT - 7B和Hunyuan - MT - Chimera - 7B,可实现33个语种互译,处理少数民族语言或方言,精准理解网络用语并意译,在多个机器翻译基准测试中超越谷歌翻译等,在WMT 2025通用机器翻译任务获多项第一。模型已上传至Hugging Face和GitHub,Hunyuan - MT - 7B经FP8量化压缩后推理性能提升30%,并在腾讯混元AI Studio上线。Hunyuan - MT - 7B能准确理解多种特殊表达,翻译更自然;Hunyuan - MT - Chimera - 7B在游戏场景和处理非正式语言表现出色,但翻译2025年CATTI真题时存在一些问题。训练过程包括通用预训练、定向预训练和后训练,通过多种方法提升模型翻译能力。机器翻译模型对企业有降本增效作用,生成式AI为机器翻译带来新解法,未来或有更强大模型投入使用。
10.png


  • Github:https://github.com/Tencent-Hunyuan/Hunyuan-MT/
  • huggingface:https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597
  • 体验地址:https://hunyuan.tencent.com/modelSquare/home/list
  • AngelSlim压缩工具:https://github.com/Tencent/AngelSlim
腾讯混元团队开源HunyuanWorld-Voyager,解锁3D世界生成新可能

腾讯混元团队近两月围绕3D世界生成系统有三次发布,7月开源HunyuanWorld 1.0,支持文本或图像生成可漫游三维场景;8月推出适配消费级显卡的Lite版本;9月2日正式开源HunyuanWorld-Voyager扩展模型。该模型能解锁多种3D任务,继承图生世界能力,解决视角补全问题,结果可实时呈现并导出为标准3D格式。它引入“世界一致视频扩散”与“长距离世界探索”两大核心机制。实验验证显示,其在视频生成、场景重建、世界生成方面表现出色。Voyager补足了混元世界模型空间连续性关键能力,“边走边生成”为AI理解空间提供新可能。
11.png


  • Github:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
  • huggingface:https://huggingface.co/tencent/HunyuanWorld-Voyager
  • 官网介绍:https://3d-models.hunyuan.tencent.com/world/
  • 论文:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
腾讯优图开源Youtu - Agent智能体框架,兼顾极简与高性能

2025年9月2日,腾讯优图实验室正式开源智能体框架Youtu - Agent,该框架兼顾极简设计与高性能。智能体是大模型落地关键,但现有框架让研究者和开发者面临上手难等问题。Youtu - Agent在多个基准测试中表现领先,具备开源友好、灵活架构、自动智能体生成、简洁高效等亮点。其应用场景广泛,包括本地文件管理、数据分析等。采用DITA原则设计,支持自动化生成智能体。对研究人员、开发者和AI爱好者均有价值,还给出了获取代码、配置环境等快速上手步骤。
12.png


  • Github:https://github.com/TencentCloudADP/youtu-agent
  • 官网介绍:https://tencentcloudadp.github.io/youtu-agent/
首款基于多模态与Multi - Agent技术的模拟游戏 flolife.me上线!

2025年9月2日,flowith团队发布全新模拟游戏flolife.me,这是首款基于多模态画布和Nano Banana呈现、利用内部开发的Multi - Agent技术实现的游戏。其凭借AI生成随机性与多模态效果带来丰富体验,玩家捏好角色后,AI会完成写事件、给分支、画插图和生成完整时间线等工作。以“猹的一生”为例,玩家可输入角色多方面信息,游戏生成各种人生可能,体验似翻阅互动漫画,能让人暂时摆脱现实焦虑。上线后社群体验积极,生成的人生还能制作海报分享,目前该游戏已上架「观猹」。

  • 官网介绍:https://flolife.me/
  • 体验地址:https://watcha.cn/products/flolife
原文:AI一周资讯 250830-250905
点击原文获取更多信息

来源:豆瓜网用户自行投稿发布,如果侵权,请联系站长删除

相关推荐

您需要登录后才可以回帖 登录 | 立即注册