阿里云析言 XiYan-SQL 夺冠登顶,拿下全球 SQL 诊断评测第一!

近日,阿里云飞天实验室自研的数据分析智能体“析言 XiYan-SQL”,在全球权威的 SQL 诊断基准 BIRD-CRITIC(亦称 SWE-SQL)上发挥亮眼,一举登顶全部开放榜,力压多家海内外顶尖团队,改写 SQL 诊断与修复的行业纪录。

image.png

BIRD-CRITIC 基准由学术界联合 Google Cloud 推出,核心问题是“大语言模型能否解决真实数据库场景的用户问题”。题库把企业里常见的数据库报错、性能瓶颈与查询诉求整理为任务,覆盖 MySQL、PostgreSQL、SQL Server、Oracle 等主流数据库。题目既有基础查询,也包含插入、更新、删除等更复杂的操作,还设计了许多模型未见过的新情境,整体难度明显高于传统的“自然语言生成 SQL”测试。

在此次评测中,析言 XiYan-SQL 分别在 BIRD-CRITIC-1.0-Open、BIRD-CRITIC-PG 与 BIRD-CRITIC-Flash 三大榜单拿到第一,并在跨方言鲁棒性、复杂 SQL 处理、真实问题修复率以及分布外泛化等多个维度获得了权威验证。

在技术上,析言 XiYan-SQL 采用相关模式筛选(Schema Filter)、多生成器集成(Multi-Generator Ensemble)、候选重组与最优选择(Selection with Candidate Reorganization)等创新方法,既保证 SQL 生成质量,又兼顾可执行性与可维护性。即便面对脏数据、异构模式和跨方言差异等真实系统挑战,也能提供高可用的诊断与修复方案。

目前,基于 XiYan-SQL 打造的生成式商业智能(GBI)产品“析言”已在阿里云百炼平台上线,提供 SQL 生成与诊断服务。

划重点:

🔍 析言 XiYan-SQL 在 BIRD-CRITIC 评测中夺得第一,领先多支顶尖队伍。

📊 覆盖多种主流数据库,整体难度高于传统文本转 SQL 测试。

💻 相关技术与模型已开源,欢迎开发者体验与共建。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享