霸榜全球两月有余,蚂蚁数科开源数据智能体核心技术

12月13日,在第二届CCF中国数据大会上,蚂蚁数科宣布将其数据智能体关键技术Agentar SQL的论文、代码、模型与使用指南全套开源。这项技术让非专业人士也能用日常语言完成商业数据查询与分析,为企业数智化提供更精准、好用的智能数据分析底座。

首批开源的是实时文本转结构化查询语言(Text-to-SQL)框架,为开发者提供开箱即用的数据查询方案,提升文本与数据库之间的交互效率。到2026年,蚂蚁数科还将陆续开源数据库理解与挖掘、行业知识挖掘、实时多轮交互等技术框架,覆盖从意图理解、业务理解到数据理解的全链路能力。

据悉,在某头部城商行试运营期间,蚂蚁数科Agentar SQL多款工具的平均查询准确率超过92%,相比传统方案提升超3倍。

1765776642269.jpg

今年9月25日,基于该技术的蚂蚁数科数据分析智能体Agentar-Scale-SQL登顶全球最具权威的自然语言转结构化查询语言(NL2SQL)评测基准BIRD-SQL,超越Google等多家国内外厂商。目前,该智能体在执行准确率榜与执行效率榜保持双榜第一,已连续领跑两个多月。

BIRD-SQL要求AI模型把自然语言查询转换为SQL,并可在真实而复杂的大规模生产级数据库中稳定执行。其数据集覆盖金融、电力、医疗等37个真实行业场景,总量33GB,包含一万余条高复杂度查询任务,被认为是全球最难的NL2SQL测试之一。

1765776695307(1).jpg

研究机构预计,2025年全球商业智能市场规模将达474.8亿。中国商业智能与分析软件市场规模2025年约12亿。到2028年,中国商业智能软件市场规模有望达到17.9亿美元,未来5年年复合增长率(CAGR)为12.7%,将成为企业构建智能技术的重要且必要的投资方向。

目前,国内企业对商业智能与分析产品的使用深度差异较大,多数仍集中在报表、驾驶舱、仪表板、数据大屏等可视化与基础分析需求。如何在保证准确性的前提下,提升真实生产环境中的可用性,被普遍认为是NL2SQL在产业中实现规模化落地的共同挑战。

蚂蚁数科AI技术负责人章鹏指出,NL2SQL在实际落地面临四大挑战:理解口语化且多义的人类表达、融入庞大的行业专业知识、解析复杂的数据库结构与关联,以及生成精准无误的复杂SQL语句。这意味着,简单给模型“套壳”远不足以满足企业级场景对可靠性与准确性的要求。

例如,在金融领域,业务人员往往需要结合复杂业务规则并采用多条件组合查询,才能有效完成产品数据分析;在日常管理中,非专业数据分析人员用口语化方式提问,系统需要在后台正确理解行业术语与提问意图,并与数据库字段精准匹配,才能产出真实且准确的结果。

章鹏强调,BIRD-SQL主要评测的是SQL复杂度的生成能力(在线扩展Online Scaling)。但要让NL2SQL乃至数据智能体真正可用,必须建设更完整的能力栈。除了在线扩展,还需包含:

1. 离线扩展(Offline Scaling):对数据库进行深度理解,并将知识结构化。

2. 人机交互(Human Interaction):智能体识别自身不确定性,主动向用户澄清意图,实现可解释、可纠错的协作。

3. 自我进化(Self Evolution):通过“记忆”优化、工具(如UDF)创建与复用等“免调优”方式,让智能体能从错误中学习、持续提升,降低对大量标注数据和专家调优的依赖。

蚂蚁数科计划逐步将这些更完整的能力模块持续开源,如理解数据库的Agentar Profiling-SQL、实现免调优进化的Agentar TuningFree-SQL等。首期在线扩展框架Agentar-Scale-SQL已在arXiv、GitHub、ModelScope及Hugging Face等平台发布,并迅速获得开发者关注。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享