阿里云峰会的几个隐秘信号_互联网

阿里云峰会的几个隐秘信号

锦缎

2026-05-22 09:19:58

还记得五月初，AI评测里出现了两款神秘国模A和B吗？

这是开发者toyama nao发布的测试结果。这款极限分数超越了Gemini 3.1 Pro和Claude Opus 4.6的国模A，一时间众说纷纭。

如今，随着2026年阿里云峰会主论坛的开幕，国模A的真实身份也得以浮出水面：阿里云正式发布了新一代旗舰模型Qwen3.7-Max。

不过，这次峰会与以往最大的区别在于，主角不再是参数规模、上下文长度和聊天体验的炫技，而是一个清晰且激进的方向：All in智能体。

与其称之为一场发布会，不如说这是一场阿里与所有AI用户的一次技术探讨。

CTO李飞飞在主论坛演讲中直言：云的价值，正在从规模化管理和运营算力，进入规模化管理和运营智力。

3月正式接手林俊旸离职后留下的Qwen的周靖人则更加直白：大模型已经从“人类价值对齐”转向“任务对齐”。

短短的两句话，对应的是长远的目标规划：阿里的AI战略正在拆除模型、算力、安全、应用之间的边界，将它们重构为Agent体系下的标准化组件。

本文将以一个开发者的视角，来拆解这场峰会透露出来的隐秘信号。

一切皆为Agent组件

如果说过去两年，大模型公司的竞争焦点是“谁的模型更强”，那么从这次峰会来看，阿里给出的答案是：模型只是起点，而Agent只是目前能看到的终点。这不是一句口号，而是实打实地反映在了两个方面。

一方面，模型正在被重新定义：在Agent中，模型不能只是大脑，还要成为智能中枢。

Qwen3.7-Max的定位很清晰，它是面向智能体时代的新一代旗舰模型，官方宣传的核心能力也全部围绕着Agent展开：

长周期自主执行：模型在长达35小时、超过1000次工具调用的内核优化实验中，能够持续推理且保持能力不退化；

跨框架泛化：模型无论部署在Claude Code、OpenClaw还是自家的Qwen Code，性能表现相对稳定；

原生工具调用：模型支持MCP集成和多智能体协作，可以直接操控办公软件、云服务甚至更高形态（具身智能）的物理机器人。

这就是新一代模型最大的转变，不再是孤立的“大脑”，而是被设计成Agent的中央处理器。这也符合Agent设计的核心要求——必须能规划、调用工具、反思、纠错并适应各种运行环境。

从官方公布的评测数据来看，Qwen3.7-Max的基准测试结果已经接近Anthropic的上一代旗舰模型Claude Opus 4.6和国内模型顶尖水平。当然，这些多是阿里自报的成绩，且在部分编程基准测试中仍然与Claude Opus 4.6存在几个百分点的差距。

结合Artificial Analysis的第三方测试结果，Qwen3.7-Max智能水平位列全球第五，编程能力位列全球第七，二者均为国内第一。代理能力则略逊于小米和智谱，但差距只在毫厘之间。

另一方面，云基础设施正在被重构：从AI原生云，演进为Agent原生云。

李飞飞在演讲中提出了两个值得行业关注的关键概念：AI Native Cloud（AI原生云）和Agent Native Cloud（智能体原生云）。这两个概念之间并非是字面意义上的包含关系：

AI原生云要做的是生产token，通过预训练、后训练和推理的全链路优化（比如KV Cache命中率超过90%），让token足够便宜和高效。

Agent原生云要做的是把token变成action，为智能体提供运行时沙箱、编排、治理、安全、记忆、数据平面六个方向的支撑。

这两个概念的提出，间接地否定了以DAU、token消耗量、DAA等诸多中间变量作为衡量Agent产出价值唯一标准的观点。与此同时，这也是一个十分务实的想法。毕竟，与其过早地关注如何评判Agent的价值，不如先搞清楚Agent该如何发挥价值。

更加值得关注的是，李飞飞当场宣布阿里云旗下所有的云产品将在今年完成控制面改造，实现Agent应用所需的“Skill化”、“MCP化”和“CLI化”，智能体将会替代人类成为云产品的第一用户。未来企业调用OSS存储、PolarDB数据库和DataWorks数据平台这些产品，不再需要人工点击控制台或是编写脚本，而是全部由Agent自然语言驱动。

从上述两个方面的变动可以清晰地看出，阿里已经一改往日全面覆盖的策略，转而完全将Agent作为设计原点，模型、硬件、安全框架和存储都不再是独立的产品线，而是都将成为Agent体系下的插件。

从程序员的角度来看，这完美符合类似操作系统设计开发的哲学：Agent是应用程序，底层基础设施提供标准化的API和运行时。

企业级市场明确定为主战场

纵观主论坛的发布内容，尽管没有白纸黑字地写出来，但阿里云的服务中心已经明显偏向企业级客户。若是程序员中的个体户，甚至会在聆听中产生一种陌生感。

这不是个人偏见。李飞飞在峰会上花费大量篇幅讲的“六大挑战”、“六大解决方案”，里面涵盖的沙箱隔离、身份认证（Token Vault）到任务级安全管控，无一例外都是企业IT部门最关心的非功能性问题。

相比于国内外竞争对手往往在发布会上大多提及个人开发者和小型开发团队的重要性，阿里想要做的是快速凭借已有基础抢占企业市场。深层原因有三个：

一是付费意愿与场景复杂度。

消费级AI助手的付费率有限，这在今年二月的“下千问喝奶茶”的活动中已经得以体现，只有企业才愿意为“节省一个开发团队”或“自动化合规流程”支付高额订阅费，哪怕最终落地结果可能与预想存在一定差距。

在周靖人的演讲中，有一个极其容易被忽视的细节：Qwen3.7深度参与了35小时的自主优化芯片内核过程。如果其能力足已取代资深工程师的加班时间，商业价值已经不言而喻。

二是阿里云的既有生态优势。

作为中国最大的云服务商，阿里云已有数百万企业客户作为基础。这些客户数年来持续使用RDS、OSS、MaxCompute等产品，数据和使用习惯的积累早已潜移默化地转变为了极高的迁移成本。

从技术角度看，将Agent无缝嵌入现有的云产品，也比从零打造一个B端App更容易形成商业闭环。

三是安全和治理才是定价权的来源。

抛开国外几家顶尖模型不谈，将目光放在国内，AI能力投影到智能体上逐渐同质化已经是不争的事实。从OpenRouter的调用量来看，能够决定个体开发者或小型开发团队选择的唯一因素就是价格，限时免费模型的调用量几乎全部能够霸榜一周甚至更久。

然而对于企业来说，真正影响采购决策的问题在于：是否敢让Agent自动操作生产数据库？阿里云推出的Agent安全中心、Agent ID Guard、AI安全护栏2.0等产品，直接把安全问题抬到了明面上，本质上就是在给企业级的冒险行为提供保险。换句话说，在安全治理上建立标准，等同于现阶段更高的议价能力。

阿里的战略，其实就是用智能体提升效率，加上用安全体系降低风险。李飞飞口中的“六大挑战”，与其说是技术问题，不如说是企业采购清单上的必选项。

Vibe Coding的演进形态：Vision Coding

从技术本质上说，Vibe Coding是Agent最早期、最初级的一种形态，但历经几个月的发展和尝试，Vibe Coding成为了最成功、最具备商业化价值也最成熟的形态。

但这种被各大AI公司定位为“造福全人类”的技术，呈现出了极端的两极分化。程序员们和研究者们早已经沉浸于Vibe Coding带来的便利，然而真正愿意使用各种Agent执行任务的人还是少之又少。一个冰冷的现实就摆在眼前：大部分人与AI的交互，仍然是在那个网页的对话框中。

在这次阿里云峰会中，有一个词让人眼前一亮：Vision Coding。

学术界目前没有明确定义，因此用一个现场演示的demo来说明更为贴切：用户给AI上传了一段视频，画面中是一个白板，用户在上面用马克笔歪七扭八地绘制了几个方框，指着上面的方框说“当我点击这里时”，指着下面的方框说“这里应该显示风景图片”。随后，AI就生成了布局一致的网页界面。

听上去令人惊奇，然而这并不是这次发布会才刚刚推出的新功能。Demo中的AI主角，是此前阿里在3月推出的Qwen3.5 Omni。或许这不是第一款能够实现上述功能的AI产品，但Vision Coding这个词是第一次正式出现。

同样是给非专业人士提供的编程技术，Vision Coding与Vibe Coding存在本质上的区别：

Vibe Coding非常依赖用户用自然语言精准地描述需求。哪怕是迄今为止最强大的模型Claude Opus 4.7和GPT-5.5，也绕不过这一关。如果用户说“给我做个酷炫的3D效果网页”，结果往往是不可控的，若是远比网页复杂的项目，更是“到处是惊吓”。表面上说的是“零门槛”，其实门槛在于表达能力。

Vision Coding允许用户用草图+动作指点+模糊口语来与AI进行交互。在这个交互过程中，用户无需担心自己的表达是否精确，“这边再大一点”、“那个按钮挪到这里”这种产品经理提出的、让程序员最头疼的指令，AI可以照单全收。模型同时理解视觉布局、空间关系和模糊意图，门槛才能降到“会说话、会画简笔画，就能开发”。

从我个人的角度来看，Vision Coding是Vibe Coding一种更高级、更普惠也更具备使用价值的形态。这种真正提升开发效能的演进，背后其实是多模态融合的质变：阿里的视觉Agent不仅能“看懂界面”，还能“操作界面”，最后“生成界面”，这种视觉-行动闭环在国内处于领先地位，远比基准测试的分数更为宝贵。

当然，盲目的技术乐观主义不可取，Vision Coding也绝对不会是“零门槛开发”、“人人都是程序员”的最终技术形态。然而，多模态是实现Agent的基础功能，这个判断是不会错的。现实世界的信息天然就是高维度、多模态的，财报=文本+表格，会议=语音+PPT，环境=视觉+触觉，放弃多模态，Agent永远只能活在纯文本的虚拟世界之中。

结语

最后，作为开源行业的领头羊，阿里仍然在开源生态上投入明显。Qwen3.6模型开源后下载量已经超过3000万次，衍生模型也达到了1200个以上。

事实上，百炼平台扮演的角色已经在发生变化：原先，它是模型API的网关；如今，它需要成为Agent的开发、部署、运行的一体化平台。

这就类似于苹果的Appstore，模型是iOS，Skills是App，Agent则是用户场景。阿里云提供了基础设施和安全审核，而第三方开发者可以售卖自己的Agent服务。如果这个生态模式能够跑通，阿里也可以顺理成章地从“卖算力”转向“卖Agent解决方案”。然而，商业模式能否彻底升级，极大程度上取决于基础模型的能力。

我猜你没看过这个！

不欠(兄弟)人情，企业经营贷款，最高可借1000万元！[玫瑰][嘴唇]

查看详情

回顾整场峰会，阿里云释放出了清晰的信号：摆脱单纯的“云服务商+大模型公司”，试图成为智能体时代的基础设施构建者。

这并非领先的判断，而是所有国内AI公司的共识。想要从国内领先跨越到国际领先，取决于下一代模型是否能够真正缩小与Claude和GPT的差距，以及Agent生态能否吸引到足够多的第三方开发者。要实现这些目标，阿里或许还有很长的路要走。

然而，面对未来AI该何去何从，阿里给出的答案值得肯定：以Agent为唯一核心、企业市场为先、多模态不可放弃。

AI不再是云上的一个附加功能，而是云本身正在被AI重写。

Agent，就是那个执笔者。这场重写，也才刚刚开始。

上一篇：为什么科技大厂开始招哲学毕业生？

下一篇：GEO大爆炸时代，品牌都在怎么做AI营销