伴随人工智能快速演进,金融行业对数据的准确性与安全性提出了更严苛的标准。腾讯近日宣布开源 finLLM-Eval,这是一款为金融场景下大模型应用打造的评测工具。该工具在业内首次采用无 GroundTruth 的金融数据准确性评测方法,弥补了当前市场在大模型金融评测上的空白,旨在推动 AI 在高风险、高要求的金融领域安全落地。
finLLM-Eval 集成多项核心能力,其中以逻辑一致性与事实准确性评测模块最为突出。该模块不仅提供完整的工程代码与示例评测集,也支持用户自建评测集,可自动生成模型表现的详细结果。用户能拿到包含总分、错误点分布、千字幻觉率等维度的完整报告,便于全面理解模型的真实表现。
同时,finLLM-Eval 还提供端到端的金融数据准确性对比模块。该方案的最大亮点是:在没有 GroundTruth 的场景中,能基于真实用户问答自动抽取金融事实三要素——“标的 × 时间 × 指标”,并联动内部金融数据库进行校验,从而免去繁琐的人工作标。
更进一步,finLLM-Eval 引入 AgentAsJudger 自动化评测机制。全流程无需人工介入,AI Agent 可自动提取事实点与逻辑链,并与相关材料或金融数据库比对,准确率可达 96% 以上。这一创新既提升评测效率,也确保结果更可靠。
展望后续,项目团队将持续迭代 finLLM-Eval,并逐步支持非金融指标的数据核验与结果归因等能力,持续助推金融科技的发展与完善。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?