视频会议大厂跨界夺冠:Zoom 凭联邦式 AI 改写全球最难 AI 测试纪录

 多年来,通用大模型的“武林盟主”几乎被谷歌、OpenAI、Anthropic 等实验室把持。不过,上周视频会议巨头 Zoom 抛出重磅消息:其 AI 系统在被称为“人类最后的考试”(Humanity’s Last Exam,HLE)的顶级评测中拿到 48.1% 的分数,刷新全球纪录,超过此前谷歌 Gemini 3 Pro 的 45.8%。

会议 开会

不堆参数打“组合拳”:联邦式 AI 之路

针对“非底层模型厂商如何反超模型巨头”的质疑,Zoom 首席技术官、前微软 AI 负责人黄学东(Xuedong Huang)给出了截然不同的思路。Zoom 并未砸钱训练自家的万亿参数大模型,而是打造了一套精妙的“联邦式人工智能方法”

  • Z 评分器(Z-Scorer):充当系统的核心大脑,实时评估来自 OpenAI、Google、Anthropic 等多家模型的回答,为具体任务挑出最优解法。

  • 探索-验证-联合策略:通过一套智能体(Agent)工作流,让多个 AI 系统“辩论协作”,相互挑战并修正推理,逐步完善结果。

  • 流量控制器:可以理解为一个非常聪明的 AI“调度中心”,以集成而非自研的方式,把不同模型的优势拼合起来,实现“超越单一模型上限”的表现。

争议四起:是真创新还是“借力取巧”?

这一成绩在开发者圈引发热议。工程师 Max Rumpf 等批评者认为,Zoom 不过是通过 API 调用别人的模型,在意义有限的基准测试里“刷分”,这种“拿他人成果来镀金”的做法缺乏真正技术含量。

但另一派观察者如开发者朱宏成则主张,想在 AI 评估中脱颖而出,走“模型联邦”几乎是必然选择。就像数据竞赛平台 Kaggle 的冠军常靠模型集成而非单枪匹马。这种策略在商业上也很聪明:既省下高昂算力成本,又能在不同供应商间灵活切换,避免被单一厂商锁定。

从榜单到落地:AI Companion3.0 的真刀真枪

黄学东把这次突破视为 Zoom 战略的验证。对 Zoom 的 3 亿用户来说,更关键的对决会发生在即将上线的 AI Companion3.0。尽管 48.1% 在涉及高数与哲学的 HLE 中代表了机器智能的前沿,但用户真正关心的是:当数亿人用它来总结会议、提取行动项时,这套“联邦大脑”是否真的比用一个模型更省时、更准确。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享