腾讯发布重磅工具：finLLM-Eval 助力金融大模型精准评测，远离数据幻觉！-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

伴随人工智能快速演进，金融行业对数据的准确性与安全性提出了更严苛的标准。腾讯近日宣布开源 finLLM-Eval，这是一款为金融场景下大模型应用打造的评测工具。该工具在业内首次采用无 GroundTruth 的金融数据准确性评测方法，弥补了当前市场在大模型金融评测上的空白，旨在推动 AI 在高风险、高要求的金融领域安全落地。

finLLM-Eval 集成多项核心能力，其中以逻辑一致性与事实准确性评测模块最为突出。该模块不仅提供完整的工程代码与示例评测集，也支持用户自建评测集，可自动生成模型表现的详细结果。用户能拿到包含总分、错误点分布、千字幻觉率等维度的完整报告，便于全面理解模型的真实表现。

同时，finLLM-Eval 还提供端到端的金融数据准确性对比模块。该方案的最大亮点是：在没有 GroundTruth 的场景中，能基于真实用户问答自动抽取金融事实三要素——“标的 × 时间 × 指标”，并联动内部金融数据库进行校验，从而免去繁琐的人工作标。

更进一步，finLLM-Eval 引入 AgentAsJudger 自动化评测机制。全流程无需人工介入，AI Agent 可自动提取事实点与逻辑链，并与相关材料或金融数据库比对，准确率可达 96% 以上。这一创新既提升评测效率，也确保结果更可靠。

展望后续，项目团队将持续迭代 finLLM-Eval，并逐步支持非金融指标的数据核验与结果归因等能力，持续助推金融科技的发展与完善。