学术界的“反幻觉利器”：OpenScholar 发布，引用准确度堪比人类专家-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

面向学术场景中 AI 常见的“胡编文献”难题，华盛顿大学与艾伦人工智能研究所（AI2）的研究团队给出了突破性方案——发布开源模型OpenScholar。该模型在整合前沿研究方面表现突出，不仅显著提升引用准确率，其生成内容也被超过一半的人类专家所偏爱。

一直以来，哪怕是 GPT-4o 这类顶尖模型，在学术引用处理上也会出现高达 78% 至 90% 的“幻觉”。为破解这一痛点，OpenScholar 走出新路径，打造了覆盖 4500 万篇论文的超大检索库。借助检索增强生成（RAG），它能即时查阅最新发表的文献，并按标准化的引用格式作答，从而彻底告别“一本正经地胡扯”的窘境。

在严格的 ScholarQABench 基准测试与专家双盲评审中，OpenScholar 的表现相当亮眼。结果显示，在 51% 的测试案例里，科学家更倾向于选用 OpenScholar 的回答而不是人类专家撰写的内容。若将它的引用机制与 GPT-4o 结合，专家偏好率更是飙升至 70%。

目前，OpenScholar 的代码、数据集与演示版本均已对外开放，既为科研人员提供了强有力的工具，也为构建透明、可信的学术 AI 生态树立了新标杆。团队表示，后续将持续迭代，推出支持多步骤检索与信息聚合的新模型，进一步赋能科学研究。