视频会议龙头跨界夺冠：Zoom 用联邦式 AI 改写全球最难考试纪录-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

多年来，谁家大模型最强几乎被谷歌、OpenAI 和 Anthropic 等团队承包。然而，上周视频会议巨头 Zoom 抛出重磅：其 AI 系统在被称为“人类最后的考试”（Humanity’s Last Exam，HLE）的顶级测评中拿到 48.1%，刷新世界纪录，超越此前由谷歌 Gemini3Pro 保持的 45.8%。

会议开会

不卷大模型练“阵法”：联邦式 AI 路线

面对“非底层模型厂商如何反超模型巨头”的疑问，Zoom 首席技术官、前微软 AI 负责人黄学东（Xuedong Huang）给出了另一条路。Zoom 并不是砸钱自训万亿参数模型，而是打造出一套精巧的“联邦式人工智能方法”:

Z 评分器（Z-Scorer）：可把它看作系统的“指挥官”，实时为来自 OpenAI、Google、Anthropic 等多家模型的输出打分，比对后挑出特定任务下的最优答案。
探索-验证-联合策略：这是一套智能体（Agent）工作流，让多路 AI 先各自探索，再相互质疑与校验，最后把更可靠的推理结论整合起来。
流量控制器：简单说，就是一个很聪明的“调度中心”。通过集成协作而非自研大模型，拿到“超过单一模型上限”的综合表现。

争议四起：是真创新还是“蹭分”？

这一成绩在开发者社区立刻引发分歧。以工程师 Max Rumpf 为代表的批评者认为，Zoom 只是通过 API 把别家成果“套壳”过来，在对实际用户作用有限的基准里刷分，等同拿别人干的活去博声量，技术贡献不大。

但另一派观察者如开发者朱宏成则主张，在 AI 评测中要想拔尖，“模型联邦”是关键。这就像数据竞赛平台 Kaggle 的冠军常靠模型集成而不是单打独斗。这种策略在商业上也很聪明：既省下昂贵算力，又能在不同供应商间灵活切换，避免被一家锁定。

从榜单到落地：AI Companion3.0 的真刀真枪

黄学东把此次突破视为 Zoom 路线的有力验证。对 Zoom 的 3 亿用户而言，更重要的较量将发生在即将上线的 AI Companion3.0 上。虽然在涉及高等数学与哲学的 HLE 中拿到 48.1% 代表了机器智能的前沿，但用户更关心的是：当数亿人用它做会议总结、提炼行动项时，这个“联邦大脑”是否真的能比单一模型更省时、更准确。