北京程序员通宵“扫雷”：苹果论文曝三成基准标签出错，ICLR稿件紧急更正-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

北京程序员通宵“扫雷”：苹果论文曝三成基准标签出错，ICLR稿件紧急更正

拥抱AI，AIGC最佳实践者

455

ICLR2025一审刚结束，苹果一篇宣称“小模型能压过GPT‑5”的视觉推理论文就被当场“揭短”。阶跃星辰研究员雷扬（Lei Yang）在复现中发现：官方代码竟把图片输入漏了；补上后准确率不升反降。随后他抽查了20道题，竟有6道Ground Truth标签不对——粗算整套GT错误率接近30%。

雷扬在GitHub提交issue，只得到两句回复就被关帖，遂写长文提醒审稿人。帖子迅速发酵，作者团队次日承认“数据生成流程有问题”，并火速上传修正版基准，承诺重跑实验、更新结果。此事在学界引发热议：在大模型时代，若过度依赖自动生成数据而缺少人工质检，即便是大厂也可能“翻车”。雷扬建议同行：“复现前先用小样本做个‘体检’，别让错误GT白白耗算力、熬通宵。”

参考资料：https://x.com/diyerxx/status/1994042370376032701

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐