OpenAI再次面临诉讼。
3月16日,大英百科全书公司及其旗下的韦氏词典,正式对OpenAI提起诉讼。
核心指控是,OpenAI的ChatGPT进行了大规模的版权侵权。
与其他原告相比,大英百科的诉状准备更为充分:它同时针对训练数据抓取、模型记忆输出、RAG实时检索三个环节提出指控,并追加了《兰纳姆法》下的商标侵权主张。
这被认为是AI版权诉讼史上,首次有原告试图对整个生成式AI的内容生产链路发起全面挑战。
GPT-4被指能逐字默写大英百科内容
据媒体报道,大英百科在诉状中直接点名GPT-4,指控该模型已经记忆并存储了大量其享有版权的材料,能够在用户提示下输出近乎逐字逐句的复制内容。
诉状强调,这并非近似,而是直接的“逐字复制”。
这一指控有其技术背景。斯坦福大学和耶鲁大学的研究团队曾进行实验,成功从主流大语言模型中提取出《哈利·波特》系列小说的原文,最高提取率可达96%。

这表明,训练数据中的大量版权内容,确实可能以某种形式被编码存储在模型的参数权重中,并在特定条件下被几乎原样还原。
大英百科拥有的版权内容体量庞大。其旗下拥有近10万篇在线文章、百科条目及词典释义,内容覆盖科学、历史、文学等几乎所有主要知识领域。
这些内容由专业编辑和学科专家历经数十年编撰而成。在互联网时代之前,这套知识体系曾是权威的标准索引。
而OpenAI的行为,被指一直在法律灰色地带运作。
实时检索内容也可能构成侵权?
此前,行业争论多集中于“使用版权内容训练模型是否构成侵权”。
大英百科此次的指控更进一步,分为三个层次:
第一层:未经许可,抓取其近10万篇版权内容用于大语言模型的训练。
第二层:ChatGPT在生成回答时,直接输出了大英百科内容的完整或部分逐字复制品,构成直接侵权。
第三层(最具争议):OpenAI在ChatGPT的“检索增强生成”(RAG)工作流中,使用了大英百科的文章。
RAG是ChatGPT等模型实时扫描外部数据库以获取最新信息的机制。

大英百科认为,即便其内容未被用于训练,但只要在实时检索环节被调用,同样构成侵权。
这一主张若被法院支持,将意味着无论静态训练还是动态检索,未经授权使用版权内容都可能需承担责任。
此外,诉状还包括第四条指控:违反《兰纳姆法》的商标侵权。
大英百科指出,ChatGPT有时会产生“幻觉”(编造事实),却将这些错误信息归因于大英百科,制造了后者生成错误内容的假象。
这不仅涉嫌侵权,更让大英百科的品牌信誉为OpenAI的错误“买单”,可能危及公众获取高质量、可信赖在线信息的能力。
核心争议:全球司法判决不一
“使用版权内容训练AI是否侵权”是本案核心,也是全球司法界争论最激烈的问题之一,目前各国判决存在分歧。
德国慕尼黑法院在GEMA诉OpenAI案中认定:GPT-4和GPT-4o的模型权重中嵌入了受版权保护的歌词,这构成了版权意义上的复制,原告可主张禁令和赔偿。

模型权重是AI在训练中学到的数值参数。慕尼黑法院的观点是,只要能从这些参数中还原出受保护作品,就足以构成侵权。
然而,英国高等法院在Getty Images诉Stability AI案中得出了相反结论。

法院认为,AI模型本身并非侵权副本,因为其权重并不包含也不复制版权作品本身,而只是存储了从数据中学到的规律性模式。
在美国,Anthropic曾在另一起版权诉讼中说服联邦法官William Alsup,主张将内容用作训练数据具有足够的“转化性”,可能适用“合理使用”原则。
但Alsup法官同时认定,Anthropic通过非法下载而非付费获取数百万本书籍的行为构成违法,此案最终以1.5亿美元达成集体和解。
大英百科诉OpenAI案在纽约提起,适用美国联邦法律。目前,美国尚未有确立性的先例明确判定使用版权内容训练大语言模型是否侵权,每起案件的结果在很大程度上仍取决于审理法官的具体认定。
如果法院最终支持“实时检索也构成侵权”的观点,其对整个AI行业的影响将远超任何一起单纯的训练数据纠纷。
起诉Perplexity:一场“热身”诉讼?
此次并非大英百科首次就此类问题发起诉讼。
早在2025年9月,大英百科就对AI搜索公司Perplexity提起了类似的版权和商标侵权诉讼,该案目前仍在审理中。

Perplexity是一家以RAG技术为核心的产品逻辑的AI搜索公司。
分析认为,大英百科选择先起诉Perplexity,可能意在通过此案进行“法律预演”,摸清针对RAG环节侵权指控的司法可行性,再将成熟的诉讼策略应用于对OpenAI的诉讼中。
与此同时,AI行业的版权战场正全面升温。
《纽约时报》、Ziff Davis出版集团、美国及加拿大十余家报纸已先后起诉OpenAI。

The Intercept和《美国新闻与世界报道》等媒体也已加入原告行列。
据专门追踪AI版权诉讼的网站ChatGPT Is Eating The World统计,此次诉讼已是针对OpenAI的第63起版权相关诉讼。
对于媒体的置评请求,OpenAI未予回应。
权威的困境:从维基百科到ChatGPT
跳出诉讼细节,一些更深层的背景值得关注。
大英百科全书创立于1768年,是英语世界历史最悠久的百科全书品牌,象征着数百年的人类知识整理传统。
当这样一个机构站上AI版权诉讼的原告席,其传递的信号是明确的:传统的知识权威正试图通过法律手段,在由AI主导的新生态中重新划定自己的边界。
大英百科曾是纸质时代的绝对知识权威,但在互联网时代,其地位被维基百科等开放平台极大冲击。

此后,它转型为数字订阅平台,依靠内容的可信度与专业性重新站稳脚跟。
如今,ChatGPT的出现构成了新的威胁——这种威胁并非来自一个更好的百科全书,而是来自一个使用其内容训练、却未向其支付任何费用的生成式模型。
诉状中的一句话点明了冲突的本质:ChatGPT通过生成替代出版商原有内容的回答,分流了本应属于出版商的流量。
这是商业模式的正面冲突。关于RAG实时检索是否侵权的指控,目前尚无定论。
但如果未来有法院认可这一逻辑,整个AI行业的实时检索技术管道都可能需要重新谈判授权。所有依赖“联网搜索+AI生成”模式的公司都将面临类似挑战。
这家拥有250年历史的知识权威,正试图通过一纸诉状,为AI的扩张划定一条法律边界。
这条边界最终将画在哪里?答案或许在2026年揭晓。
参考资料
- Reuters: Encyclopedia Britannica sues OpenAI over AI training
- TechCrunch: Merriam-Webster, Encyclopedia Britannica sue OpenAI
- The Decoder: Encyclopedia Britannica sues OpenAI for training on nearly 100,000 articles without permission
- Gizmodo: Encyclopedia Britannica Sues OpenAI Over AI Training Data
- Bloomberg Law: Britannica, Merriam-Webster Accuse OpenAI of Copying Their Works
- 起诉书原文: Encyclopedia_Britannica_Inc-v-OpenAI-COMPLAINT-Mar-13-2026.pdf
- AOL: Encyclopedia Britannica sues OpenAI over alleged copyright infringement
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26974


