近日,阿里云飞天实验室自研的数据分析智能体“析言 XiYan-SQL”,在全球权威的 SQL 诊断基准 BIRD-CRITIC(亦称 SWE-SQL)上发挥亮眼,一举登顶全部开放榜,力压多家海内外顶尖团队,改写 SQL 诊断与修复的行业纪录。

BIRD-CRITIC 基准由学术界联合 Google Cloud 推出,核心问题是“大语言模型能否解决真实数据库场景的用户问题”。题库把企业里常见的数据库报错、性能瓶颈与查询诉求整理为任务,覆盖 MySQL、PostgreSQL、SQL Server、Oracle 等主流数据库。题目既有基础查询,也包含插入、更新、删除等更复杂的操作,还设计了许多模型未见过的新情境,整体难度明显高于传统的“自然语言生成 SQL”测试。
在此次评测中,析言 XiYan-SQL 分别在 BIRD-CRITIC-1.0-Open、BIRD-CRITIC-PG 与 BIRD-CRITIC-Flash 三大榜单拿到第一,并在跨方言鲁棒性、复杂 SQL 处理、真实问题修复率以及分布外泛化等多个维度获得了权威验证。
在技术上,析言 XiYan-SQL 采用相关模式筛选(Schema Filter)、多生成器集成(Multi-Generator Ensemble)、候选重组与最优选择(Selection with Candidate Reorganization)等创新方法,既保证 SQL 生成质量,又兼顾可执行性与可维护性。即便面对脏数据、异构模式和跨方言差异等真实系统挑战,也能提供高可用的诊断与修复方案。
目前,基于 XiYan-SQL 打造的生成式商业智能(GBI)产品“析言”已在阿里云百炼平台上线,提供 SQL 生成与诊断服务。
划重点:
🔍 析言 XiYan-SQL 在 BIRD-CRITIC 评测中夺得第一,领先多支顶尖队伍。
📊 覆盖多种主流数据库,整体难度高于传统文本转 SQL 测试。
💻 相关技术与模型已开源,欢迎开发者体验与共建。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?