近期,GPT Image2凭借极为亮眼的生成效果在社交平台迅速出圈。随着项目走红,这支一向低调的幕后团队也开始被关注。据悉,核心成员仅有13人,却在短短4个月内把底层架构彻底重做。尽管研究负责人陈博远并未公开具体技术路线,但他将新模型称为“图像领域的GPT”,预示着通用能力正迎来跃升。
作为团队的灵魂人物,陈博远的成长经历颇具传奇。他在攻读博士期间提出过“Diffusion Forcing”等新范式,并曾在Google参与开发后来被Gemini2.0采用的指令微调技术。有趣的是,他在高中参加科研营时还不会写Python。加入OpenAI后,他不仅负责GPT图像模型的全部训练工作,也是Sora视频生成团队的核心成员。在演示中,他通过生成能精准呈现中、韩、孟加拉语等多语种文字的海报,展示了模型优秀的语言与排版能力。

除了文字渲染,GPT Image2在世界知识理解与指令跟随方面也达到了新高度。由中科大博士Jianfeng Wang负责的模块,解决了图像生成长期存在的痛点——例如,以往模型画的时钟常常固定在10:10,而新模型已经能够准确理解任意时间点,并执行复杂的空间布局指令。他表示,这正在缩小用户创作意图与最终输出之间的鸿沟。
在生产力工具方向,来自浙大竺可桢学院的Yuguang Yang展示了将长篇论文一键转为高质量PPT与信息图的能力。这得益于团队在多模态理解、MoE(混合专家模型)架构以及长程引导技术上的深度融合。
从最初的DALL-E到如今的GPT Image2,这支平均年龄不高、背景多元的团队(包含多位2025年刚毕业的博士)完成了从“能画”到“画得准”的跨越。目前,成员们纷纷把社交头像换成极简的日系贴纸风格。这种带点自嘲的趣味,或许正是这群信奉“涌现式研究”的年轻人改变世界的独特方式。
用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?