腾讯再发力!finLLM-Eval 让金融大模型评测更精准,远离数据幻觉

在人工智能飞速发展的大背景下,金融行业对数据的准确与安全提出了更严的要求。腾讯近日宣布开源评测工具 finLLM-Eval,专为大模型在金融场景的使用而打造。该工具在业内首次引入“无 GroundTruth”的金融数据准确性评测方案,补齐了市场在金融大模型评测上的空白,旨在推动 AI 在高风险、高标准的金融业务中安全落地。

finLLM-Eval 由多项能力构成,其中“逻辑一致性与事实准确性”评测尤为突出。工具不仅提供完整工程代码和示例评测集,也支持用户自建评测集,可自动输出模型表现的细致信息。用户可获得包含总分、错误点分布、千字幻觉率等在内的完整评测报告,帮助全面把握模型的真实能力。

同时,finLLM-Eval 还具备端到端的金融数据准确性对比模块。这个技术方案的最大亮点是:即使没有 GroundTruth,也能基于真实用户问答自动抽取金融事实三要素——“标的 × 时间 × 指标”,并通过内部金融数据库完成验证,大幅减少人工标注工作。

更进一步,finLLM-Eval 引入了 AgentAsJudger 自动化评测机制。全流程无需人工干预,AI Agent 能自动提取事实点与逻辑链,并与相关内容或金融数据库比对,评判准确率超过 96%。这一创新既提高评测效率,也确保结果更可靠。

展望未来,团队将持续迭代 finLLM-Eval,逐步支持非金融指标的数据核验与结果归因等能力,助力金融科技不断升级与完善。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享