vivo 想让手机学会“看懂”这个世界

admin 2026-4-11 04:59 32人围观深度

在博鳌亚洲论坛举办前夕，OpenClaw引发了一场全球养虾狂欢，AI在屏幕那端自主执行指令的画面，让不少人在此前没有接触过AI的用户认为科幻照进了现实。在这个背景下，vivo总裁、首席运营官兼中央研究院院长胡柏山提出 ...

在博鳌亚洲论坛举办前夕，OpenClaw引发了一场全球养虾狂欢，AI在屏幕那端自主执行指令的画面，让不少人在此前没有接触过AI的用户认为科幻照进了现实。

在这个背景下，vivo总裁、首席运营官兼中央研究院院长胡柏山提出了一个不太一样的问题:AI现在能干很多事，但它对真实世界的感知，几乎为零。他在演讲里用了一个比喻:“没有感知能力，AI就像是困在黑屋子里的大师，算力再强，也看不见咫尺之外的世界。”

这句话是这次博鳌vivo传递的核心信号的起点，也是理解vivo接下来所有动作的前提。

演唱会神器、旅拍神器——但这只是开始

在很长一段时间里，vivo给外界留下的强烈印象有几个关键场景:在演唱会上配合增距镜轻松拍到台上歌手清晰的表情;旅行途中的随手拍，颜色和光影都舒服得像胶片。这些标签不是没有道理，vivo在影像上耕耘了很多年，这是真实的产品积累换来的口碑。

但在本届博鳌论坛期间，胡柏山聊的东西，已经超越了“出片好不好”的范畴。

他在演讲里放了两个故事。

一个是宝哥，九年前意外失明，去年带着导盲犬阿尔法，靠一台vivo手机环游中国。vivo的AI功能帮他“看见”了每一个人的样子。在南澳的渔船上，手机告诉他:“面前是你的朋友章喜德，他双臂交叉，面带微笑，穿着一件深色长袖。”

另一个是诺子，因视觉神经损伤失明的美院学生，最大的愿望是去冰岛感受世界的尽头。去年她如愿了，站在冰河湖旁，手机帮她描述:“湖面漂浮着冰块，游客在拍照，远处有海鸟飞过。”

如果这两个故事放在发布会PPT里，很容易被当成情感包装。但放在胡柏山对影像的整体判断里，它们指向的是同一件事:影像技术真正的上限，不是把照片拍得更好看，而是让机器能够真正“读懂”它所看到的物理世界。

这种落差本身就是个有意思的信号:一家长期凭“影像手机”圈粉的公司，现在想用“影像”讲一个完全不同的故事。

AI有一个没人愿意承认的短板

过去这两年，AI的进展快得有点让人应接不暇。写作、代码、绘图、视频，一个接一个地被攻克，而最近爆火的“龙虾”甚至可以接管你的电脑帮你完成一些复杂繁琐的工作，于是用户慢慢形成了一种印象:AI好像什么都会了。

但有一件事，目前的AI其实做得很差:那就是感知真实世界。

不是“看不见”，现在的大模型基本都有视觉能力，你把一张照片发给它，它能告诉你图里有什么。但“读懂一张图”和“感知物理世界”之间，差着一个本质的台阶。前者是被动接收，后者是主动理解——理解光线、空间、位置关系，甚至理解一个人当下的状态和情绪。

用胡柏山的说法来理解这个差距，会更直白一些:当今的AI是“数字世界里的大师”，它在那个世界里能创作、能推理、能给人提建议。但它没有办法直接作用于物理世界，更没有办法改变它。它就像一个博览群书、足不出户的人——知识量惊人，但没有真正“出过门”。

这个短板，目前没有哪家公司完全解决了。但它是一道必须过的关:如果AI永远只活在屏幕里，所谓的“通用人工智能”就始终是一句空话。

让AI真正走进物理世界，需要一套感知系统。而感知系统的核心，是影像。

影像在做的事，不单单“记录”，更是“感知”

在会上，胡柏山提到了一件内部的事:vivo今年正式成立了一个新的一条“长技术赛道”:感知赛道。

这个措辞值得停留一下。在vivo的内部语言里，“长赛道”往往意味着天花板足够高、值得持续十年投入的方向。比如影像就是一条已经被验证的长赛道。现在感知被提升到同等级别，说明vivo的判断是:这条路至少要走十年，而且它的意义不止于手机。

影像技术在过去几年里一直是手机厂商的核心战场，但几乎所有人的叙事框架都停在同一个层面:主摄传感器更大、进光量更多、长焦对焦更快速、夜景更亮。这些进步是真实的，只是它们的目的地一直是“拍出更好的照片”。

vivo现在想改变的，是这个目的地本身。

感知系统做的事情不是“拍下来”，而是“读明白”:读懂光影，读懂空间，读懂场景里发生了什么，甚至读懂人的情绪状态。

这件事的重要性在于:这恰好是AI走出数字世界、落地物理世界所缺少的那一环。图像感知加上声音感知，构成了AI理解物理世界的基本能力。没有这套感知能力，AI再聪明，也只是屏幕后面那个很会打字的助手。

胡柏山表示:未来模型会越来越同质化，开源的速度越来越快，大家之间的差距越来越小。但感知系统不一样，因为它采集的是真实物理世界的场景数据，而每个品牌的用户群体不同、使用场景不同，积累下来的场景数据就会不同，这个差异是不可复制的。

他举了特斯拉FSD的例子:特斯拉的辅助驾驶模型可以公开，但它的道路数据不会公开。模型有可能被追上，而场景数据才是真正的护城河。

把影像从“记录工具”升级为“感知系统”，这也让vivo在影像上的长期投入，有了一个新的解释框架——不只是为了让照片更好看，而是在为AI打地基。