生成式人工智能的出现,使 " 版权素材能否用于大模型训练 " 成为法律与产业的核心争议之一。无论是美国正在审理的 Andersen v. Stability AI、New York Times v. OpenAI,还是英国、欧盟范围内的类似讨论,焦点都在于:当大模型在训练中使用了大规模版权作品时,这是否属于合理使用(fair use)?
法院在初步判决和意见中普遍强调 " 市场替代 "(market substitution)的重要性。换言之,如果 AI 的产出直接替代了原作品在市场上的功能和价值,那么合理使用的抗辩就难以成立。
然而,争议并不止于直接替代。一个更具挑战性的问题是:即便 AI 本身的训练过程并未导致市场上出现与原作 " 一一对应 " 的替代,但通过开放模型接口、为第三方提供服务等,AI 可能间接稀释版权作品的市场需求,或者逐渐成为与人类创作者并行的竞争者。因此,这种 " 间接市场替代 " 是否也应纳入合理使用判断的考量?如果是,版权方与技术方如何寻求平衡呢?
@ 一、" 可转化性 " 不再重要?
美国《版权法》第 107 条规定了合理使用的四个因素:
1. 使用的目的和性质;
2. 受保护作品的性质;
3. 所用作品在整体中所占的数量和实质性;
4. 使用对潜在市场或作品价值的影响。
在美国的 " 合理使用 " 分析里,转化性(transformative use) 是一个关键考量点。如果使用只是单纯复制(比如 A 书的翻印本),那几乎肯定不是合理使用,如果使用把原作品变成了一个新的东西,有新的目的、新的意义或表达,那就可能被认定是合理使用。
但在大模型的场景里,模型会把成千上万的文字、图片 " 喂 " 进去,建立统计关系(词的共现概率、画面的组合模式)。这一步需要先复制原作品,才能让算法学到规律。训练完成后,模型不会逐字逐句保留原作品,而是形成一种 " 概率空间 " 或 " 参数分布 "。生成的内容通常是新的组合,不是原作品的直接再现。
所以,争议就在于,训练行为本身是不是有 " 新的目的和意义 "?
支持的观点认为训练不是为了取代原作品,而是为了 " 学习语言或图像的规律 ",这种目的和原作品的 " 表达 " 不同,所以算是转化性的;反对者认为训练只是 " 规模化复制 ",并没有产生直接的新作品或新表达,而是在借用原作品的全部内容来提炼规律,这种使用方式和原作品的市场功能高度相关,不够 " 转化 "。
为什么会出现这种分歧?因为 " 转化性 " 的判断历来都带有很强的价值取向,在 Google Books 案(扫描书籍供搜索、展示片段),法院认为这是高度转化性,因为目的完全不同:原作品是用来读的,Google 是用来 " 检索 " 的。
但在大模型训练里,版权方会说:原作品是用来 " 表达思想 / 创作 " 的,大模型训练后也能 " 创作 ",所以目的并没有真正改变,只是换了实现方式。
从技术角度,大模型确实没有把作品逐字逐句记住,而是抽取成了 " 参数化的知识 " ——这是一种统计层面的 " 转化 "。但从法律角度,法院要看的不只是技术,而是 " 这种使用是否给了作品新的意义或社会价值 ",换句话说,技术上的转化 ≠ 法律上的转化,技术上,训练让作品变成了概率分布,但法律上法院要判断:这是否是 " 不同的目的、不同的市场角色 ",以及是否对原作品市场造成冲击。
@ 二、" 市场替代 " 才是关键
可见 " 可转化性 " 作为认定标准,在大模型训练的场景下存在很大争议,越来越多的司法实践显示,第四因素——即 " 市场替代效应 " ——往往起到决定性作用。
例如,在 Authors Guild v. Google(Google Books 案)中,法院认为谷歌对书籍的扫描和索引并未直接替代书籍的市场功能,反而提升了检索和可读性,因此判定合理使用成立。而在近期关于生成式 AI 的初步意见中,法官往往紧盯一个问题:AI 的输出是否可能被消费者视为原作品的替代品? 如果答案是肯定的,合理使用就会摇摇欲坠。例如 Thomson Reuters v. Ross Intelligence 一案中,Ross Intelligence 提供的是一种法律研究工具,其系统并不生成原创内容,而是在用户提问时检索并展示司法意见。这虽然不是生成式 AI,但其合理使用争议集中在 " 是否抢夺原平台(Westlaw)功能和市场 "。
法官指出 Ross 的工具是 " 意图与 Westlaw 竞争,作为市场替代品 "("meant to compete with Westlaw by developing a market substitute"),即使中间步骤中使用数据进行处理,但关键在于最终产品的功能与价值是否取代了原作品的平台。所以法院认为,Ross 的使用损害了原作品的市场价值,因此拒绝适用合理使用抗辩。
由此可见,法院的基本逻辑是:版权保护的核心目的在于激励创作,而这种激励的经济基础是作者的市场回报。如果新技术的使用方式直接夺走了这一市场,合理使用就难以成立。
@ 三、新问题:间接市场替代的复杂性
市场替代看似有足够充分的理由和价值,但仍然存在一个衍生问题,即生成式 AI 的市场影响并非总是直观的 " 复制—替代 "。更多情况下,它体现为一种渐进的、结构性的 " 间接替代 " 或 " 市场稀释 "。这主要表现为以下几类情形:
1. 平台开放后的外溢效应
大模型往往通过 API、插件等方式向第三方开放。当无数开发者利用同一模型生成内容时,原作品的市场需求可能被整体削弱。例如,一家图片公司可能发现,尽管 AI 并未一对一复制其作品,但市场客户不再需要订购图库服务,而是直接调用 AI 生成 " 风格相似 " 的作品。
2. 技术能力的替代性
AI 在经过大规模版权作品训练后,其产出水平可能接近专业创作者。即便单次输出并非 " 复制 ",但 AI 的存在本身意味着:市场对人类创作者的需求被削弱。换句话说,AI 并不是替代某一部作品,而是替代了 " 整个市场的创作劳动 "。
3. 长期稀释效应
版权保护的价值不仅体现在短期收益,还包括作品在市场上长期维持的独特性和稀缺性。如果 AI 在持续训练和应用中不断吸收这些作品,原作的市场价值可能逐渐被稀释,最终削弱版权激励。
这类间接市场替代在法律上很难被清晰界定:它并非立刻、直接的市场损害,而是一种潜在的、长期的经济冲击。
@ 四、法律应对上的困境
为什么法院至今仍以 " 直接市场替代 " 为核心,而对 " 间接替代 " 态度谨慎?原因主要有三:
1. 可预见性与可操作性
司法判断必须有可操作的标准。直接替代容易通过市场证据(如销量下降、订阅流失)来证明,而间接替代往往难以量化。如果法院过于扩张 " 市场替代 " 的范围,可能导致任何潜在竞争都被视为侵权,从而冻结技术发展。
2. 技术发展与版权激励的平衡
从公共政策角度看,法院普遍倾向于保护技术创新。在缺乏立法明确指引的情况下,法院通常不会贸然认定 AI 的 " 潜在威胁 " 构成对版权市场的侵害。
3. 责任归属问题
间接替代往往涉及复杂的因果链条:是 AI 公司本身的责任,还是第三方开发者、终端用户的使用方式导致的替代?在责任归属难以厘清的情况下,法院更倾向于在 " 直接市场损害 " 范围内裁判。
@ 五、短期难被接受的解决方案
既然法院在实务中难以直接解决间接替代问题,那是否意味着版权方只能承受这一代价?答案未必如此。以下几个思路值得考虑:
1. 法律制度上的 " 分层解决 "
与其试图在 " 合理使用 " 一刀切中解决所有问题,不如采取分层处理方式:
训练阶段:更接近合理使用,强调技术发展与创新自由。
生成与商业化阶段:加强版权控制。例如,当模型输出与特定作品高度相似时,需建立责任归属和补偿机制。
这种 " 训练宽松—应用严格 " 的模式,既保持了技术发展的空间,又回应了版权市场的担忧。
2. 建立市场化的许可与补偿机制
实践中,完全阻止 AI 使用版权作品并不现实。一个更可行的路径是通过集体管理、版权数据库、许可平台,建立类似于音乐行业的 " 版税分成模式 "。AI 企业可以支付合理的训练使用费,版权方则通过数据集登记和追踪获得收益。
3. 强化透明度与可追溯性
间接替代之所以难以解决,很大程度上源于训练过程和数据使用的不透明。如果 AI 公司能够提供可验证的训练数据来源、输出追踪机制,版权方就能更清晰地识别是否存在 " 市场稀释 ",并据此进行谈判或索取补偿。
@ 六、结论
合理使用与市场替代的判断,正处于大模型时代的法律前沿。当前法院仍主要聚焦于 " 直接替代 ",这是出于司法可操作性和技术政策平衡的考虑。但随着 AI 对版权市场的影响日益加深,间接市场替代与稀释效应将不可避免地进入法律与实务的视野。
解决这一困境的关键,不在于扩大或缩小合理使用的边界,而在于构建一个兼顾创新激励与版权收益的制度框架。具体而言,应当采取 " 训练环节宽容、应用环节严格 "" 市场化补偿 + 技术透明 " 的复合路径。这样,既不会因过度保护而扼杀技术发展,也不会因纵容 AI 而侵蚀版权激励的根基,除非有一天 AI 不再需要人类的新语料,否则就必须考虑通过赋予创作者最大的激励从而实现 AI 技术的可持续发展。