GitHub日前表示,将自2026年4月24日起调整代码库政策,开始利用用户与产品的交互数据来训练其AI模型。 涉及范围包括Copilot Free、Pro及Pro+用户,采集内容涵盖模型输入与输出、代码片段、上下文信息、仓库结构以及聊天交互记录等。
GitHub首席产品官Mario Rodriguez称,引入这类交互数据是为提升代码建议的准确性与安全性,并表示微软在内部数据上的预先测试已显著提高了建议被接受的比例。需要注意的是,该策略采用默认加入机制,受影响的用户需在隐私设置中手动关闭相关选项才能退出,这也引发了开发者圈对私有仓库定义与数据归属的广泛讨论。

目前,受合同约束的Copilot Business、Enterprise用户以及教育版用户暂不受此变更影响。GitHub在说明中强调,这一做法与Anthropic、JetBrains及微软等厂商的通行做法一致。然而,将私有仓库代码纳入训练集,实际上在挑战传统对“私有”概念的边界,即便GitHub表示其目的是优化开发流程。
从行业来看,随着优质公域代码数据日渐稀缺,头部AI厂商正加速转向挖掘私有交互等“深层数据”,以获取模型性能提升。这一政策变化不仅意味着GitHub正从开源托管平台进一步倾向于闭环AI训练生态,也预示着AI开发者工具领域正进入数据合规与模型演进博弈的新阶段。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?