找回密码
 立即注册
搜索

vivo 想让手机学会“看懂”这个世界

admin 2026-4-11 04:59 32人围观 深度

# 深度
在博鳌亚洲论坛举办前夕,OpenClaw引发了一场全球养虾狂欢,AI在屏幕那端自主执行指令的画面,让不少人在此前没有接触过AI的用户认为科幻照进了现实。在这个背景下,vivo总裁、首席运营官兼中央研究院院长胡柏山提出 ...
 在博鳌亚洲论坛举办前夕,OpenClaw引发了一场全球养虾狂欢,AI在屏幕那端自主执行指令的画面,让不少人在此前没有接触过AI的用户认为科幻照进了现实。

在这个背景下,vivo总裁、首席运营官兼中央研究院院长胡柏山提出了一个不太一样的问题:AI现在能干很多事,但它对真实世界的感知,几乎为零。他在演讲里用了一个比喻:“没有感知能力,AI就像是困在黑屋子里的大师,算力再强,也看不见咫尺之外的世界。”

这句话是这次博鳌vivo传递的核心信号的起点,也是理解vivo接下来所有动作的前提。



演唱会神器、旅拍神器——但这只是开始

在很长一段时间里,vivo给外界留下的强烈印象有几个关键场景:在演唱会上配合增距镜轻松拍到台上歌手清晰的表情;旅行途中的随手拍,颜色和光影都舒服得像胶片。这些标签不是没有道理,vivo在影像上耕耘了很多年,这是真实的产品积累换来的口碑。

但在本届博鳌论坛期间,胡柏山聊的东西,已经超越了“出片好不好”的范畴。

他在演讲里放了两个故事。

一个是宝哥,九年前意外失明,去年带着导盲犬阿尔法,靠一台vivo手机环游中国。vivo的AI功能帮他“看见”了每一个人的样子。在南澳的渔船上,手机告诉他:“面前是你的朋友章喜德,他双臂交叉,面带微笑,穿着一件深色长袖。”

另一个是诺子,因视觉神经损伤失明的美院学生,最大的愿望是去冰岛感受世界的尽头。去年她如愿了,站在冰河湖旁,手机帮她描述:“湖面漂浮着冰块,游客在拍照,远处有海鸟飞过。”

如果这两个故事放在发布会PPT里,很容易被当成情感包装。但放在胡柏山对影像的整体判断里,它们指向的是同一件事:影像技术真正的上限,不是把照片拍得更好看,而是让机器能够真正“读懂”它所看到的物理世界。

这种落差本身就是个有意思的信号:一家长期凭“影像手机”圈粉的公司,现在想用“影像”讲一个完全不同的故事。

AI有一个没人愿意承认的短板

过去这两年,AI的进展快得有点让人应接不暇。写作、代码、绘图、视频,一个接一个地被攻克,而最近爆火的“龙虾”甚至可以接管你的电脑帮你完成一些复杂繁琐的工作,于是用户慢慢形成了一种印象:AI好像什么都会了。

但有一件事,目前的AI其实做得很差:那就是感知真实世界。

不是“看不见”,现在的大模型基本都有视觉能力,你把一张照片发给它,它能告诉你图里有什么。但“读懂一张图”和“感知物理世界”之间,差着一个本质的台阶。前者是被动接收,后者是主动理解——理解光线、空间、位置关系,甚至理解一个人当下的状态和情绪。

用胡柏山的说法来理解这个差距,会更直白一些:当今的AI是“数字世界里的大师”,它在那个世界里能创作、能推理、能给人提建议。但它没有办法直接作用于物理世界,更没有办法改变它。它就像一个博览群书、足不出户的人——知识量惊人,但没有真正“出过门”。

这个短板,目前没有哪家公司完全解决了。但它是一道必须过的关:如果AI永远只活在屏幕里,所谓的“通用人工智能”就始终是一句空话。

让AI真正走进物理世界,需要一套感知系统。而感知系统的核心,是影像。

影像在做的事,不单单“记录”,更是“感知”

在会上,胡柏山提到了一件内部的事:vivo今年正式成立了一个新的一条“长技术赛道”:感知赛道。

这个措辞值得停留一下。在vivo的内部语言里,“长赛道”往往意味着天花板足够高、值得持续十年投入的方向。比如影像就是一条已经被验证的长赛道。现在感知被提升到同等级别,说明vivo的判断是:这条路至少要走十年,而且它的意义不止于手机。

影像技术在过去几年里一直是手机厂商的核心战场,但几乎所有人的叙事框架都停在同一个层面:主摄传感器更大、进光量更多、长焦对焦更快速、夜景更亮。这些进步是真实的,只是它们的目的地一直是“拍出更好的照片”。

vivo现在想改变的,是这个目的地本身。

感知系统做的事情不是“拍下来”,而是“读明白”:读懂光影,读懂空间,读懂场景里发生了什么,甚至读懂人的情绪状态。

这件事的重要性在于:这恰好是AI走出数字世界、落地物理世界所缺少的那一环。图像感知加上声音感知,构成了AI理解物理世界的基本能力。没有这套感知能力,AI再聪明,也只是屏幕后面那个很会打字的助手。

胡柏山表示:未来模型会越来越同质化,开源的速度越来越快,大家之间的差距越来越小。但感知系统不一样,因为它采集的是真实物理世界的场景数据,而每个品牌的用户群体不同、使用场景不同,积累下来的场景数据就会不同,这个差异是不可复制的。

他举了特斯拉FSD的例子:特斯拉的辅助驾驶模型可以公开,但它的道路数据不会公开。模型有可能被追上,而场景数据才是真正的护城河。

把影像从“记录工具”升级为“感知系统”,这也让vivo在影像上的长期投入,有了一个新的解释框架——不只是为了让照片更好看,而是在为AI打地基。
精彩评论0
我有话说......
相关推荐