周四,劳德研究所(Loud Institute)发布首轮“弹弓(Slingshot)”人工智能资助计划,目标是“推动人工智能的科研与应用”。该计划为研究者提供传统高校难以比拟的资源——包括资金、算力以及产品与工程支持——以加速AI研究与成果落地。作为交换,入选者需产出可实际转化的结果,如初创公司、开源项目或其他类型的研究产出。
首批共有 15个项目入选,重点对准当前人工智能领域最具挑战的话题之一——AI评估体系。其中不少项目已在业界具备知名度,如命令行编码基准工具 Terminal Bench,以及长期聚焦通用人工智能(AGI)能力评测的 ARC-AGI 项目最新迭代。

同时,多支团队正尝试以全新视角破解评测瓶颈。加州理工学院与德克萨斯大学奥斯汀分校联合推进的 Formula Code,旨在评估AI代理在优化既有代码时的表现;哥伦比亚大学团队推出的 BizBench,则为“白领AI代理”构建综合测试标准,关注AI在商务与决策任务中的真实能力。此外,还有项目探索强化学习与模型压缩的新路径,以建立更通用、更易扩展的评估框架。
另一个看点是,SWE-Bench 联合创始人 John Boda Yang 也加入了本轮计划,并将牵头新项目 CodeClash。该项目借鉴 SWE-Bench 的成功经验,计划通过动态、竞赛式机制来评测AI的编程与代码能力。
在接受 TechCrunch 采访时,Yang 表示:“我相信,持续借助第三方核心基准开展开放评测,是推动整个行业前进的关键。但我也担忧,如果未来评测体系被少数公司掌控,研究的开放性与可比性恐将受到影响。”
借助“弹弓”计划,劳德研究所正尝试为学术界与产业界搭建新的桥梁,让前沿AI研究更快走向实际应用。此举被视为当下AI评估体系重塑的重要一步。

















用户38505528 1个月前0
粘贴不了啊用户12648782 2个月前0
用法杂不对呢?yfarer 2个月前0
草稿id无法下载,是什么问题?