不比跑分比“靠谱”：xAI 推出 Grok 4.20，幻觉率降至行业新低-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

不比跑分比“靠谱”：xAI 推出 Grok 4.20，幻觉率降至行业新低

拥抱AI，AIGC最佳实践者

429

当各大 AI 厂商一味加料、厮杀跑分巅峰之时，马斯克旗下 xAI 选择换个思路，直面模型“一本正经瞎编”的老问题。今天，xAI 正式发布 Grok4.20Beta。即便在绝对智力榜单上与顶级队伍尚有差距，但它在“诚实度”这一关键维度上，直接刷新了行业纪录。

按照 Artificial Analysis 的最新测试，Grok4.20 在推理模式下的智力指数拿到 48 分，低于和（两者均为 57），但在事实可靠性方面的表现相当抢眼：

最低幻觉率：在 AA Omniscience 测试中，Grok4.20 实现了 78% 的“非幻觉率”，创下迄今为止的最高纪录。
知之为知之：面对无从作答的问题，模型不再习惯性“编细节”，而是更倾向于直接承认“不知道”。这种“坦诚”对严肃办公与研究场景尤为关键。

技术架构：三管齐下的 API 组合

为覆盖不同层级与场景，xAI 同步推出三类 API：

推理模式（Reasoning）：以牺牲速度换取更深入的逻辑思考，是本次降低幻觉的核心所在。

标准模式（Non-reasoning）：面向日常对话与高效响应。

多智能体模式（Multi-agent）：支持多实例协作，处理更复杂的任务链。

市场策略：更高配同价位

在产品力之外，Grok4.20 的商业策略同样激进：

海量上下文：支持最高 200万 token 的上下文窗口，可一次吞下整本书或大规模代码库。
价格优势：定价为每百万 token 2 至 6 美元，不仅比前代 Grok4 更亲民，也在当前西方主流模型中极具竞争力。

Grok4.20 的推出，意味着 xAI 的路线有所调整——不再一味追逐通往 AGI 的总分排名，而是精准切入“企业级可靠性”的核心痛点。正如测评机构所言，若其他模型致力于当“无所不知的先知”，那 Grok4.20 则努力扮演“绝不编造的助手”。

对于那些对数据准确性要求极高的用户而言，Grok4.20 有望成为 OpenAI 和谷歌之外的第三个重量级选择。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐