连夺全球榜首逾两月,蚂蚁数科开源数据智能体核心技术

12月13日,在第二届CCF中国数据大会上,蚂蚁数科宣布将其数据智能体关键技术 Agentar SQL 全面开源,包含论文、代码、模型与使用手册。借助这项技术,非技术背景的用户也能用自然语言完成业务数据的查询与分析,为企业数智化打造更精准、可用的智能分析底座。

首批释放的是实时文本转结构化查询语言(Text-to-SQL)框架,为开发者提供可即用的数据查询方案,提升自然语言与数据库检索的交互效率。到2026年,蚂蚁数科还将逐步开源数据库理解与挖掘、行业知识挖掘以及实时多轮交互等技术框架,覆盖从意图理解、业务理解到数据理解的全链路能力。

据悉,在某头部城商行的试运营中,Agentar SQL 多个工具的平均查询准确率超过92%,相较传统方案提升超过3倍。

1765776642269.jpg

今年9月25日,基于该技术的蚂蚁数科数据分析智能体 Agentar-Scale-SQL 登上全球最具权威的自然语言转结构化查询语言(NL2SQL)评测基准 BIRD-SQL 榜首,超越 Google 等诸多国内外厂商。目前,该智能体仍在执行准确率排行榜以及执行效率榜保持双榜第一,已连续领跑两个多月。

BIRD-SQL 要求 AI 模型将自然语言查询转换为 SQL,并能在真实且复杂的大规模生产级数据库中稳定执行。其数据集覆盖金融、电力、医疗等37个真实行业场景,总量33GB,包含超过1万条高复杂度查询任务,被视为全球最难的 NL2SQL 测试之一。

1765776695307(1).jpg

研究机构预测:到2025年,全球商业智能市场规模将达474.8亿;中国商业智能与分析软件市场同年将达12亿。预计到2028年,中国商业智能软件市场规模将达到17.9亿美元,未来5年年复合增长率(CAGR)为12.7%,将成为企业构建智能技术的重要且必要的投资方向。

当前,国内企业在使用商业智能与分析产品上的深度参差不齐,多集中于报表、驾驶舱、仪表板、数据大屏等可视化与基础分析。如何在保证准确性的同时提升在真实生产环境中的可用性,被认为是 NL2SQL 规模化落地的共性挑战。

蚂蚁数科 AI 技术负责人章鹏表示,NL2SQL 落地面临四大挑战:理解口语化且多义的人类表达、融入庞大的行业专业知识、解析复杂的数据库结构与关联,以及生成严谨无误的复杂 SQL。这些挑战意味着,仅做模型“套壳”远不足以满足企业级对可靠性与准确性的要求。

例如在金融场景,往往需要结合复杂业务规则与多重条件筛选,才能进行有效的产品数据分析;在业务管理中,非专业的数据分析人员用口语提问时,系统需要正确理解行业术语与询问意图,并与数据库字段精准匹配,才能产出真实可靠的结果。

他补充道,BIRD-SQL 主要评测 SQL 的复杂度生成能力(在线扩展Online Scaling),但要让 NL2SQL 乃至数据智能体真正产业可用,必须搭建更完整的能力栈。除在线扩展外,还应包括:

1. 离线扩展(Offline Scaling):对数据库进行深入理解与知识结构化。

2. 人机交互(Human Interaction):智能体能识别自身不确定性,主动向用户澄清意图,实现可解释、可纠错的协作。

3. 自我进化(Self Evolution):借助“记忆”优化、工具(如 UDF)的创建与复用等“免调优”机制,让智能体能从错误中学习、持续提升,减少对海量标注数据与专家调优的依赖。

蚂蚁数科将分阶段开源上述更完整的能力模块,例如用于数据库理解的 Agentar Profiling-SQL、面向免调优进化的 Agentar TuningFree-SQL 等。首期在线扩展框架 Agentar-Scale-SQL 的开源内容已在 arXiv、GitHub、ModelScope 与 Hugging Face 等平台发布,并迅速获得开发者关注。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享