腾讯再发力！finLLM-Eval 让金融大模型评测更精准，远离数据幻觉-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

在人工智能飞速发展的大背景下，金融行业对数据的准确与安全提出了更严的要求。腾讯近日宣布开源评测工具 finLLM-Eval，专为大模型在金融场景的使用而打造。该工具在业内首次引入“无 GroundTruth”的金融数据准确性评测方案，补齐了市场在金融大模型评测上的空白，旨在推动 AI 在高风险、高标准的金融业务中安全落地。

finLLM-Eval 由多项能力构成，其中“逻辑一致性与事实准确性”评测尤为突出。工具不仅提供完整工程代码和示例评测集，也支持用户自建评测集，可自动输出模型表现的细致信息。用户可获得包含总分、错误点分布、千字幻觉率等在内的完整评测报告，帮助全面把握模型的真实能力。

同时，finLLM-Eval 还具备端到端的金融数据准确性对比模块。这个技术方案的最大亮点是：即使没有 GroundTruth，也能基于真实用户问答自动抽取金融事实三要素——“标的 × 时间 × 指标”，并通过内部金融数据库完成验证，大幅减少人工标注工作。

更进一步，finLLM-Eval 引入了 AgentAsJudger 自动化评测机制。全流程无需人工干预，AI Agent 能自动提取事实点与逻辑链，并与相关内容或金融数据库比对，评判准确率超过 96%。这一创新既提高评测效率，也确保结果更可靠。

展望未来，团队将持续迭代 finLLM-Eval，逐步支持非金融指标的数据核验与结果归因等能力，助力金融科技不断升级与完善。