GitHub将用Copilot数据训练AI模型并与微软共享
创始人
2026-04-03 08:33:45
0

GitHub正式宣布将使用用户数据来训练其人工智能模型。

本周GitHub宣布,将使用GitHub Copilot用户的交互数据(包括输入、输出、代码片段和相关上下文)来训练和改进其AI模型。GitHub首席产品官Mario Rodriguez在博客文章中公布了这一消息。

此次更新从4月24日开始生效,适用于所有Copilot免费版、专业版和专业增强版用户,但用户可以选择退出。GitHub在周三发给Copilot用户的邮件中解释了退出方法:"进入GitHub账户设置;选择Copilot;选择是否允许您的数据用于AI模型训练。"

如果您之前已经选择不让GitHub收集您的交互数据用于产品改进(即禁用了"启用或禁用提示和建议收集"设置),这些偏好设置将继续有效,您可以跳过此步骤。

Copilot商业版和企业版用户无需担心,他们不会受到此次更新的影响。

数据共享范围扩大

重要的是,如果您不选择退出,不仅GitHub会访问您的交互数据,其关联公司也会获得访问权限。

正如GitHub指出的,这包括"我们企业家族中的公司,包括微软"。根据GitHub在周三发布的隐私声明和条款条件更新,这些关联公司"现在可以将共享数据用于其他目的,包括开发和改进人工智能和机器学习技术,但需遵守适用法律和各自的隐私承诺"。

该平台表示,这些权限不会扩展到第三方AI模型提供商或其他独立服务提供商。但正如其在常见问题解答和相关讨论中澄清的:"我们也可能聘请服务提供商代表我们协助进行模型训练,但需遵守合同义务,仅将数据用于向GitHub提供服务。"

如果您不选择退出,究竟会向GitHub及其关联公司提供什么数据?

GitHub公告中的清单涵盖了七种类型的交互数据,包括:"您接受或修改的输出";"发送给GitHub Copilot的输入";"光标位置周围的代码上下文";"您编写的注释和文档";"文件名、存储库结构和导航模式";以及"与Copilot功能的交互(聊天、内联建议等)"。

不包括在模型训练中的是来自Copilot商业版、企业版或企业拥有的存储库的交互数据,也不包括"您的问题、讨论或静态私有存储库中的内容"。

在其公告中,GitHub特别强调了这个"静态"说明,指出此次更新"确实会在您积极使用Copilot时处理来自私有存储库的代码"。

当被问及交互数据保留多长时间以及用户是否可以查看或删除这些数据时,GitHub表示保留期因使用情况而异,指出它可能会保留输入、输出、代码片段和相关上下文长达五年,但通常时间会更短。

改进AI模型的目标

在公告博客文章中,Rodriguez提醒读者,GitHub使用公开可用数据和代码样本构建了其原始模型。在过去一年中,该平台表示已将微软员工的交互数据纳入其中,实现了"有意义的改进,包括多种语言的接受率提高"。

现在,GitHub希望通过将用户交互数据纳入训练来看到类似的收益,希望帮助其模型更好地理解开发工作流程,提供更准确、安全的代码模式建议,并及早发现错误。

但从Reddit和Hacker News上开发者社区的初步反应来看,并非所有人都相信这次更新对所有用户都有同等的好处。

一个常见的抱怨是用户必须选择退出,而不是选择加入;还有人说GitHub提供了相互矛盾的退出说明,使操作变得不必要地困难。

还有其他人批评GitHub使用个人用户数据但不使用企业数据的做法,正如Hacker News上一位评论者写道:

"您描述的个人/企业不对称是B2B SaaS的标准做法。Slack、Notion和Figma都在企业数据处理协议中包含了机器学习训练例外条款,而免费用户没有这些保护。GitHub在这里没有做任何不寻常的事情——他们只是在处理代码,这感觉比文档或消息更敏感,因为您可能真的在个人账户上处理雇主的知识产权。"

在其常见问题解答和相关讨论中,GitHub通过承认与商业版和企业版客户有协议禁止Copilot交互数据用于模型训练来解释这种差异,并再次强调个人用户可以随时选择退出。

其他开发者批评声音较小,认为GitHub在透明度方面比其他公司更诚实:"说实话,我很欣赏他们为此添加了通知横幅。大多数公司会尽可能悄悄地做这件事,"一位Reddit用户写道。

GitHub为其决定将个人用户交互数据纳入模型训练进行了辩护,称这符合既定的行业惯例,并且"将为所有用户改善模型性能"。GitHub表示,目前用户数量已超过2600万。随着如此多的开发者使用GitHub Copilot,现在可用于AI模型训练的数据量之大可能会导致模型改进速度加快。

"我们相信AI辅助开发的未来取决于来自开发者的真实世界交互数据,"Rodriguez在公司公告文章中肯定地说。

Q&A

Q1:GitHub Copilot数据训练新政策什么时候开始实施?

A:此次更新从4月24日开始生效,适用于所有Copilot免费版、专业版和专业增强版用户,但用户可以选择退出。Copilot商业版和企业版用户不受此次更新影响。

Q2:如何选择退出GitHub Copilot数据训练?

A:用户需要进入GitHub账户设置,选择Copilot,然后选择是否允许数据用于AI模型训练。如果之前已经禁用了"启用或禁用提示和建议收集"设置,这些偏好设置将继续有效。

Q3:GitHub会收集哪些类型的用户数据用于训练?

A:GitHub会收集七种类型的交互数据,包括用户接受或修改的输出、发送给Copilot的输入、光标位置周围的代码上下文、用户编写的注释和文档、文件名和存储库结构、导航模式,以及与Copilot功能的交互等。

相关内容

热门资讯

古巴政府宣布赦免超2000名囚... 当地时间4月2日,古巴政府宣布赦免2010名囚犯。古方强调,此举是基于人道主义考量的主权决定,综合考...
霍尔木兹海峡博弈背后:“扼喉战... 澎湃新闻记者 黄粤涵随着美国总统特朗普展现想从中东“抽身”的姿态,以及伊朗加强对霍尔木兹海峡的“利用...
浙江宣传:县委书记“6秒发言”... 近日,一位县委书记在当地“州长杯”足球赛闭幕式上的发言走红网络,从走上台、开口发言到回到原位,全程仅...
以项目建设提升发展质量 在郑州航空港区,郑州国际大宗商品交易中心(一期)项目正以“一天一个样”的速度拔节生长,建成后将成为国...
“花生之都”的百亿生意经 4月2日,正阳鲁花浓香花生油有限公司生产车间里,颗颗圆润饱满的“正阳花生”,经过智能蒸炒、精准榨油、...
我国登记使用商品条码的消费品总... 记者今天(3日)在中国物品编码中心了解到,目前,我国登记使用商品条码的消费品总量达2.4亿多种,我国...
山河同念 法护丰碑 清明节前夕,郑州市郑东新区康平小学组织师生代表到郑州烈士陵园缅怀先烈。 河南日报全媒体记者 聂冬晗 ...
省科技奖提名“指挥棒”如何发力 近日,河南省科学院“行者二号”机器人走进焦作市山阳区塔南路小学,与小朋友互动,灵活完成挥手、行走等动...
雄商高铁(河南段)调度“心脏”... 河南日报讯 (全媒体记者 郭北晨 通讯员 张勋勇)4月1日,记者从中国铁路郑州局集团有限公司获悉,因...
特朗普发炸桥视频施压 伊朗外长... 美国总统特朗普2日在社交媒体发布视频,称空袭炸毁伊朗“最大桥梁”,施压伊朗与美国“达成协议”。伊朗外...