多年来,谁家大模型最强几乎被谷歌、OpenAI 和 Anthropic 等团队承包。然而,上周视频会议巨头 Zoom 抛出重磅:其 AI 系统在被称为“人类最后的考试”(Humanity’s Last Exam,HLE)的顶级测评中拿到 48.1%,刷新世界纪录,超越此前由谷歌 Gemini3Pro 保持的 45.8%。

不卷大模型练“阵法”:联邦式 AI 路线
面对“非底层模型厂商如何反超模型巨头”的疑问,Zoom 首席技术官、前微软 AI 负责人黄学东(Xuedong Huang)给出了另一条路。Zoom 并不是砸钱自训万亿参数模型,而是打造出一套精巧的“联邦式人工智能方法”:
-
Z 评分器(Z-Scorer):可把它看作系统的“指挥官”,实时为来自 OpenAI、Google、Anthropic 等多家模型的输出打分,比对后挑出特定任务下的最优答案。
-
探索-验证-联合策略:这是一套智能体(Agent)工作流,让多路 AI 先各自探索,再相互质疑与校验,最后把更可靠的推理结论整合起来。
-
流量控制器:简单说,就是一个很聪明的“调度中心”。通过集成协作而非自研大模型,拿到“超过单一模型上限”的综合表现。
争议四起:是真创新还是“蹭分”?
这一成绩在开发者社区立刻引发分歧。以工程师 Max Rumpf 为代表的批评者认为,Zoom 只是通过 API 把别家成果“套壳”过来,在对实际用户作用有限的基准里刷分,等同拿别人干的活去博声量,技术贡献不大。
但另一派观察者如开发者朱宏成则主张,在 AI 评测中要想拔尖,“模型联邦”是关键。这就像数据竞赛平台 Kaggle 的冠军常靠模型集成而不是单打独斗。这种策略在商业上也很聪明:既省下昂贵算力,又能在不同供应商间灵活切换,避免被一家锁定。
从榜单到落地:AI Companion3.0 的真刀真枪
黄学东把此次突破视为 Zoom 路线的有力验证。对 Zoom 的 3 亿用户而言,更重要的较量将发生在即将上线的 AI Companion3.0 上。虽然在涉及高等数学与哲学的 HLE 中拿到 48.1% 代表了机器智能的前沿,但用户更关心的是:当数亿人用它做会议总结、提炼行动项时,这个“联邦大脑”是否真的能比单一模型更省时、更准确。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?