OpenAI指责DeepSeek侵权,然而实际上可能侵权的是OpenAI自己

最近,AI 领域可谓是风波不断。国产大模型DeepSeek横空出世,直接追平甚至超越了ChatGPT的人工智能水平。

然而就在不久前,OpenAI 宣称发现了 DeepSeek 利用他们的模型进行训练的证据,甚至还提及了 DeepSeek “蒸馏” OpenAI 模型的迹象,这一指控瞬间引发了科技界的激烈讨论。

对DeepSeek"莫须有"的指控

OpenAI 的具体指控是,DeepSeek 使用了一种名为 “知识蒸馏” 的技术,利用 OpenAI 的大模型输出,提升自己较小模型的性能。

在 OpenAI 看来,这种做法若未经许可,就违反了他们的服务条款。毕竟,OpenAI 的服务条款明确规定,任何人使用其 API 时,不能利用输出数据训练对 OpenAI 造成竞争威胁的模型。

微软作为 OpenAI 的技术合作伙伴及最大投资者,也加入了这场质疑,微软的安全团队声称发现了 DeepSeek 用于复制 OpenAI 模型的 “蒸馏” 技术证据,还怀疑 DeepSeek 在去年秋天调用了 OpenAI 的 API,导致数据泄露。

此外,特朗普的 AI 事务主管 David Sacks 也公开表达对 DeepSeek 的担忧,称有 “确凿证据” 表明 DeepSeek 利用 OpenAI 模型输出数据发展自己技术。

Anthropic 的 CEO Dario Amodei 虽觉得 DeepSeek 威胁不大,但在发表的长文中间接支持了对 DeepSeek 的质疑,建议加强对中国芯片出口限制。

真正侵权的却可能是OpenAI自己

OpenAI 并未对自己的指控拿出具体证据。而DeepSeek团队在最新模型R1的技术报告中明确表示使用的是开源模型进行数据蒸馏和微调(DeepSeek-R1-Distill models are fine-tuned based on open-source models, using samples generated by DeepSeek-R1),通过强化学习和独特的训练策略实现了高性能。

具体来说,DeepSeek R1的蒸馏模型是基于Qwen和Llama这两个系列的架构创建的。而这两个模型分别是阿里和META的开源模型。

DeepSeek 仅用少量资源就达到了与 GPT-4等OpenAI的最新模型相当的能力,这一成就恰恰展示了其技术创新能力。OpenAI 的指责看起来更像是失败者的沿街叫骂和无能狂怒。

颇具讽刺意味的是,深入分析后不难发现真正可能存在知识产权侵权问题的或许是 OpenAI 自己。OpenAI 在数据收集方面,尤其是利用爬虫技术训练人工智能模型时,遭遇了诸多争议。

OpenAI 通过网络爬虫 GPTBot 抓取互联网上的公开信息用于模型训练,这一行为本身在技术社区并不少见,但 OpenAI 的做法却备受关注。因为它涉及到从未经明确许可的网站抓取内容,而这些内容很可能受到版权保护。而且使用爬取数据训练商用模型这一做法也有问题。

尽管 OpenAI 声称 GPTBot 会遵守付费墙规则,不抓取付费信息,也不收集个人身份数据,可这并不能完全消除公众对其数据收集方法的担忧。

在合理使用方面,OpenAI 早就陷入了争论的漩涡。根据美国《版权法》第 107 条,合理使用允许在特定情况下,如批评、评论、新闻报道、教学等目的,无需著作权人授权即可使用受版权保护的作品。但 OpenAI 的产品,像 ChatGPT Plus 这种付费产品,明显是商业用途,这就使得情况变得复杂起来。

当 AI 公司使用内容是出于商业目的而非非营利教育目的时,想要主张合理使用就困难得多。而且,法院判断合理使用时,还会考虑新作品是否构成转换性使用,也就是是否增加了新的表达或意义,以及这种使用对原作品市场价值的影响。

2023年,《纽约时报》在内的多家媒体机构起诉 OpenAI,称该公司未经授权使用他们的文章来训练 ChatGPT 和其他 AI 模型,直接侵犯了版权。加拿大的五家主流媒体公司也提起类似诉讼,指控 OpenAI 数据抓取和版权侵权。就拿《纽约时报》的诉讼来说,他们指出 OpenAI 未经许可使用了其大量文章来训练人工智能模型,并且这些内容被包含在多个产品中,OpenAI 的 GPT-2 和 GPT-3 模型训练数据集中也有《纽约时报》的高质量内容。

从 2023 年 12 月《纽约时报》起诉,到 OpenAI 称诉讼毫无根据,再到 OpenAI 要求驳回部分诉讼请求,双方你来我往,还有多家媒体加入集体诉讼行列,这一系列事件都反映出内容所有者对自身知识产权被不当使用的强烈不满。

OpenAI爬虫和滥用数据进行模型训练的问题

2024年7月9日,美国约翰·霍普金斯大学公布了对“ChatGPT之母”、时任OpenAI首席技术官米拉·穆拉蒂(Mira Murati)的采访视频。采访时间是6月10日,访谈中,穆拉蒂提到OpenAI的数据来源包括"公开数据、与出版商的合作数据以及支付人力标注的特定数据"。

这里她所谓的"公开数据"实际上就是全球互联网的内容。OpenAI利用网络爬虫,爬取了大量互联网数据然后用来商用。但是并没有为这些数据进行付费甚至都没有向这些数据的所有者进行通知。

值得注意的是,允许抓取和允许利用抓取的数据训练商用人工智能是两回事。即使OpenAI合理抓取了网站数据,也不意味着他们得到了网站数据所有者对他们可以拿这些数据训练收费模型的许可。

更值得警惕的是,OpenAI的爬虫甚至会忽略robots.txt规则进行内容爬取。

Mozilla的工程师Dennis Schubert曾经在在处理一个名为diaspora的项目中,发现网站的负载异常高、运行缓慢。查看流量日志后,他发现占总流量24.6%的278万条请求来自GPTBot。而这一问题不仅影响到小型站点,连知名网站也频繁遭到这些AI爬虫的“攻击”。

Schubert的帖子引起了广泛关注,许多开发者纷纷分享自己的经历。他们发现,使用robots.txt文件来阻止这类爬虫似乎变得形同虚设。一名开发者甚至评论道,爬虫的请求频率比他能够接受的要高出十倍。

OpenAI本身并不像它的名字一样是一家“开放”组织,而是一家向用户收费的闭源AI商业组织。在没有数据所有人许可的情况下,用爬虫抓取公开网站的内容,进而用来训练自己的闭源商业模型,无论在商业道德还是法律上,都是极有问题的。

站务

全部专栏