北京程序员通宵“扫雷”:苹果论文曝三成基准标签出错,ICLR稿件紧急更正

ICLR2025一审刚结束,苹果一篇宣称“小模型能压过GPT‑5”的视觉推理论文就被当场“揭短”。阶跃星辰研究员雷扬(Lei Yang)在复现中发现:官方代码竟把图片输入漏了;补上后准确率不升反降。随后他抽查了20道题,竟有6道Ground Truth标签不对——粗算整套GT错误率接近30%。

image.png

雷扬在GitHub提交issue,只得到两句回复就被关帖,遂写长文提醒审稿人。帖子迅速发酵,作者团队次日承认“数据生成流程有问题”,并火速上传修正版基准,承诺重跑实验、更新结果。此事在学界引发热议:在大模型时代,若过度依赖自动生成数据而缺少人工质检,即便是大厂也可能“翻车”。雷扬建议同行:“复现前先用小样本做个‘体检’,别让错误GT白白耗算力、熬通宵。”

参考资料:https://x.com/diyerxx/status/1994042370376032701

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享