视频会议龙头跨界夺冠:Zoom 用联邦式 AI 改写全球最难考试纪录

 多年来,谁家大模型最强几乎被谷歌、OpenAI 和 Anthropic 等团队承包。然而,上周视频会议巨头 Zoom 抛出重磅:其 AI 系统在被称为“人类最后的考试”(Humanity’s Last Exam,HLE)的顶级测评中拿到 48.1%,刷新世界纪录,超越此前由谷歌 Gemini3Pro 保持的 45.8%。

会议 开会

不卷大模型练“阵法”:联邦式 AI 路线

面对“非底层模型厂商如何反超模型巨头”的疑问,Zoom 首席技术官、前微软 AI 负责人黄学东(Xuedong Huang)给出了另一条路。Zoom 并不是砸钱自训万亿参数模型,而是打造出一套精巧的“联邦式人工智能方法”:

  • Z 评分器(Z-Scorer):可把它看作系统的“指挥官”,实时为来自 OpenAI、Google、Anthropic 等多家模型的输出打分,比对后挑出特定任务下的最优答案。

  • 探索-验证-联合策略:这是一套智能体(Agent)工作流,让多路 AI 先各自探索,再相互质疑与校验,最后把更可靠的推理结论整合起来。

  • 流量控制器:简单说,就是一个很聪明的“调度中心”。通过集成协作而非自研大模型,拿到“超过单一模型上限”的综合表现。

争议四起:是真创新还是“蹭分”?

这一成绩在开发者社区立刻引发分歧。以工程师 Max Rumpf 为代表的批评者认为,Zoom 只是通过 API 把别家成果“套壳”过来,在对实际用户作用有限的基准里刷分,等同拿别人干的活去博声量,技术贡献不大。

但另一派观察者如开发者朱宏成则主张,在 AI 评测中要想拔尖,“模型联邦”是关键。这就像数据竞赛平台 Kaggle 的冠军常靠模型集成而不是单打独斗。这种策略在商业上也很聪明:既省下昂贵算力,又能在不同供应商间灵活切换,避免被一家锁定。

从榜单到落地:AI Companion3.0 的真刀真枪

黄学东把此次突破视为 Zoom 路线的有力验证。对 Zoom 的 3 亿用户而言,更重要的较量将发生在即将上线的 AI Companion3.0 上。虽然在涉及高等数学与哲学的 HLE 中拿到 48.1% 代表了机器智能的前沿,但用户更关心的是:当数亿人用它做会议总结、提炼行动项时,这个“联邦大脑”是否真的能比单一模型更省时、更准确。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享