苹果新论文刷屏!特调版 Qwen3-Coder,UI 生成竟干翻 GPT-5?

谁说“小体量模型”拼不过“大块头”?最近,苹果UICoder团队发布了一篇在 AI 圈引发热议的研究论文,展示了他们如何在开源模型基础上进行“深度改造”,在特定任务上实现对最新一代顶尖大模型的反超。

这一次,苹果盯上的,是开发者普遍头疼的 UI(界面)开发。

现在的 AI 写功能代码很强,但一到界面设计就明显拉胯。根本原因在于:传统的“人类反馈强化学习”(RLHF)太粗略。过去 AI 学习设计时,听到的更多只是“这个界面不行”,可模型既不知道问题出在哪儿,也搞不清该往哪个方向改。

为了让 AI 也有“在线审美”,苹果请来了 21 位资深设计“外援”。

这些拥有 2–30 年经验的设计大佬,不再只是简单打个分,而是直接参与实战:写详细点评、画修改草图、动手改代码。苹果团队基于此收集了 1460 条带有清晰思路和具体建议的专家标注,并用它们训练了一个专门的奖励模型。

接下来出现的结果相当炸裂:微调后的 Qwen3-Coder 竟然跑在了 GPT-5 前面。

实验表明,只利用 181 条高质量“草图式反馈”进行微调,这个参数并不算庞大的模型,在 App 界面生成能力上,直接把GPT-5比了下去。这个现象再次说明,在训练 AI 时,专业、精准、成体系的“小而精”反馈,比海量但粗糙的普通数据更有威力。

这项研究还戳破了一个略扎心的事实:审美真的非常主观。

研究发现,普通用户和专业设计师在判断一个界面好不好看时,观点重合率只有 49.2%,基本和掷硬币差不多。但一旦设计师通过“画草图”的方式明确给出修改方向,这种一致率立刻飙升到 76.1%。这意味着,未来的 AI 设计工具,不再只是模糊揣测你的喜好,而是能真正听懂你用“画面”表达的需求。

如果苹果真的把这套技术整合进 Xcode,“一句话生成精致 App 界面”的场景,或许已经不再是遥远的想象。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享