AI大模型版权问题 为何各国逐渐倾向"豁免"?

AI百科5个月前更新 快创云
81 0

  摘要

  本文探讨了AI大模型训练中的版权问题,分析了大模型训练阶段涉及的版权利用行为以及存在的侵权风险。同时,介绍了各国在大模型版权问题上逐渐倾向“豁免”的趋势,并对欧盟、日本和美国的豁免机制进行了介绍和分析。

  大模型训练阶段的版权问题备受关注,存在侵权风险。传统的授权许可模式在AI时代失灵,存在规模过大、主体不明、机制困难等问题。欧盟、日本和美国等国家已经开始探索大模型训练责任豁免机制,为促进AI产业发展提供了借鉴。

  AIGC大模型的快速崛起,在重塑内容行业创作逻辑、赋能人们工作生活的同时,也引发了版权制度层面一系列新的挑战。相较于AI生成内容的版权属性和权利分配,大模型训练阶段究竟涉及哪些版权利用行为,这一过程可能存在哪些侵权风险,以及如何借鉴域外既有探索,从产业发展角度搭建科学的大模型训练责任豁免机制,更为各界所关注。在全球各国纷纷发力AIGC领域的大背景下,迫切需要对于上述议题加以研究、探讨,以减少技术进步和产业发展面临的不确定性。

  问题提出:大模型训练中的版权争议备受关注

  这是探讨大模型版权所有问题的起点。一方面,大模型训练问题存在于生成式人工智能生命周期的伊始,如不能妥善解决,AIGC大模型的研发便始终处于侵权不确定状态。从行业实践和技术原理来看,目前各类生成式人工智能利用海量内容数据进行模型训练的方法大致可抽象为如下两步:

  第一步,通过购买数据库、公开爬取等方式获得海量内容数据,进行一定形式的转换之后,存储在相关服务器之中;第二步,对内容数据进行分析处理,以发现一定的模式、趋势以及相关性并转变为大模型参数,供后续内容生成时调取使用。

  另一方面,当下生成式人工智能领域的版权纠纷大都聚焦于模型训练阶段未经授权的版权利用行为。据不完全统计,自2022年11月至2023年10月,仅美国加州北区法院便已经受理了10起版权人起诉Stability AI、Open AI、Meta、Alphabet等AIGC研发企业未经授权利用版权作品进行模型训练的案件。2023年6月,国内在网络教培行业也曾发生过未经授权利用第三方平台作品数据进行大模型训练导致的纷争。

  传统“授权许可模式”在AI时代的失灵

  第一,授权的基础不明确,授予的是版权法上的何种权利有待论证。表面看AIGC模型训练行为类似于自然人阅读文字作品、欣赏美术作品后的“思考、吸收、再创作的行为”,这和既有的版权专有权利无法具体对应。[1]需要注意的是,模型对于作品艺术风格的学习模仿并不是版权法上规制的问题,艺术风格应当允许公众自由使用,这关系到表达自由与创意经济的发展。即便将这一行为纳入版权规制范畴,也存在版权人行权的现实困难。原因在于,AIGC模型训练行为本质上是一种机器内部的非外显性作品利用行为,版权人存在发现模型侵权、举证模型侵权以及侵权内容比对等方面的判定困境。

  第二,授权的可行性存疑,存在规模过大、主体不明、机制困难等系列问题。AIGC模型训练涉及的作品数量众多、来源各异、权属不同,若采用事先授权许可的方式:一方面,需要精准地将受保护的作品从海量数据中进行分离、提取;另一方面,再找到每一部版权作品对应的权利人与之协商授权,并支付价格不一的授权费用。这一过程漫长复杂且极难落地操作。

  第三,授权的意义待评估,可能产生“过度拟合”“寒蝉效应”“模型偏见”等负面效应。实践中,具有讽刺结果的是,任何限制模型训练内容规模与可用性的举措都可能产生意想不到的问题,即增加模型简单输出被训练作品复制内容的概率。此外,高昂的授权许可费用和侵权风险的不确定性将可能直接带来人工智能技术和产业发展的“寒蝉效应”,并产生因数据规模不足和数据质量不高引发的“模型偏见”等不良后果。[2]

  责任聚焦:大模型训练涉及哪些版权规制行为?

  从AIGC模型训练阶段的技术流程和基本原理来看,当我们谈及这一阶段的版权问题时,实际上讨论的是如何从版权法角度看待“作品获取”“作品存储”与“作品分析”这三个行为。目前,整体来看只有“作品存储”行为可以纳入版权法“复制权”规制范畴,而更为核心的“作品分析”行为能否受到版权法规制仍值得探讨。

  如何从版权法角度看待“作品获取”行为?在“作品获取”阶段,需要关注内容数据获取合法性的问题,包括对数据库内容、网络公开内容等的获取是否合法,是否存在破坏计算机信息系统、违反数据爬取保护措施、违反API端口协议等行为。之所以对于模型训练阶段的版权问题探讨将“作品获取”行为和“作品存储”行为加以区分是因为后续伴随技术模式的发展存在通过“云端计算”“联邦学习”等方式在不存储数据的情况下便可以通过对内容数据的接触获取而直接进行模型训练的可能。从版权法角度看,“获取作品”或者说对于作品的接触类似线上浏览网页和线下阅读书籍只接触不存在后续的传播利用大概率并不会触发版权侵权责任。这一阶段的核心版权问题主要涉及是否存在破坏作品“技术保护措施”的行为。根据我国《著作权法》规定违反保护作品技术措施的规定亦构成侵权即使在满足“合理使用制度”的情况下使用作品但需要规避技术措施才可以获得该作品如果此种规避并不符合《著作权法》第50条关于避开技术措施的豁免规定则可以在认定满足合理使用的基础上同时认定构成违反技术措施而承担侵权责任。[3] ‍‍如何从版权法角度看待“作品存储”行为?应当说在模型训练阶段对于内容数据的储存行为落入到版权法上“复制权”的规制范畴没有过多疑问。但值得注意伴随内容生产和传播领域新技术的应用也需要我们思考是否存在过度孤立看待“复制权”的问题。因为“复制”往往仅是依附于“作品主要利用行为”的准备行为而已若不存在复制之后的发行广播信息网络传播等版权法规制的作品利用行为侵权损害实际上无从谈起版权人也无从发现自身作品是否被利用。时至今日是否应为信息技术和商业模式的演进预留出一定的“复制自由”,类似于“避风港制度”诞生之际创设的“缓存自由”一般有待进一步探讨。[4]在最高人民法院2013年十大知识产权案件——“王莘(棉棉)诉谷歌公司等图书搜索案”中核心争议便是在后续对于图书片段“信息网络传播行为”构成合理使用的情况下前期的“复制行为”是否构成单独的侵权(北京一中院观点)或者可以被后续合理使用行为所吸收(北京高院观点)。具体来看在“谷歌图书馆案”一审中北京一中院提出了在早期“文本与数据挖掘”案件中之所以需要单独认定“复制行为”的原因:一方面以“使用”为目的而对作品进行复制从实际损害来看虽然不会使公众获得这一复制件但使得复制者在无需购买合法复制件的情况下即可使用这一作品这会影响到合法复制件的销售;另一方面从潜在损害来看侵权危险通常来源于他人以“传播作品”(如发行广播信息网络传播等)为目的而进行的复制行为。但从当下AIGC模型训练来看对标上述逻辑分析:一方面只要获取被训练内容数据的方式合法实际损害这个问题便无需过度关注;另一方面潜在损害也存在疑问因为模型训练涉及的内容处理分析行为本身能否构成版权法规制的行为进而对版权人带来损害仍存在一定争议下文会详细论述。如何从版权法角度看待“作品处理”行为?模型内部的内容分析处理行为对应版权法上的何种权利存在疑问且理论界和实务界目前尚未有明确结论。有观点认为“作品处理”行为落入版权法中“改编权”的规制范畴但所谓的改编权是指改编既有作品形成新作品的行为然而对作品数据进行分析处理并生成包含一定模式趋势以及相关性的参数这一过程不涉及新作品的形成明显难以契合“改编权”的要求。也有观点表示由于现行《著作权法》缺乏具体权利对应“作品处理”行为可以通过“权利兜底条款”加以规制。还有观点认为上述行为不属于版权规制的权利范畴。从目前广泛应用的AIGC产品模型来看模型训练阶段的“作品处理”行为大致有两类:一类是“文生图”领域比如Stable Diffusion模型通过对既有图像内容的分析处理获得思想层面的艺术风格感觉灵感等作为模型参数加以存储;另一类是“文生文”领域比如GPT模型是在统计学“自回归原理”下不断学习海量在先作品中不同文字之间排列组合的概率和规律然后内化为自身的模型参数。版权法遵循“思想表达二分法”的基本逻辑强调“不保护自然人的思想只保护自然人对于思想的外在表达”。对于第一类“作品处理”行为本质上仅是对作品思想层面艺术风格等的分析学习故而这一行为作用的对象不属于版权法保护的客体行为本身便也不属于版权法可以规制的权利范畴。对于第二类“作品处理”行为对于作品仅仅是进行统计学意义上文字组合概率的学习不是为了使用和展示作品中的表达性内容因此亦不属于版权法意义上的作品利用行为。域外观察:加速探索大模型训练责任豁免机制本轮AIGC变革始于2022年11月底ChatGPT的发布至今不足1年时间各国版权立法尚未能做出针对性的调整但在此前弱人工智能阶段一些国家为促进本国AI产业发展已经进行了版权立法改革探索以豁免AIGC平台在模型训练阶段的版权责任目前来看大致可分为三类:一是欧盟“文本与数据挖掘”模式;二是日本的“非欣赏性作品利用”模式;三是美国的“四要素分析法+转换性使用”模式。欧盟“文本与数据挖掘”模式早在2016年9月欧盟委员会提出修改版权法以适应数字经济发展之初,“文本与数据挖掘”(Text Data Mining)便构成了此次修法的重点。欧盟指出新技术能够对数字形式的信息进行自动计算分析例如文本声音图像或数据。文本和数据挖掘使处理大量信息成为可能以便获得新知识和发现新趋势但文本与数据挖掘往往涉及大量受版权保护的内容为了消除相关主体面临的法律不确定性实现对创新的激励应当给予这一行为对作品或其他客体的复制和提取以责任限制或例外。由此在2019年3月26日最终通过的《单一数字市场版权指令》中欧盟便在第二章:使例外和限制适应数字和跨境环境的措施下创设了第3条以科学研究为目的的文本和数据挖掘和第4条不限制目的的文本和数据挖掘具体内容如下图:

AI大模型版权问题 为何各国逐渐倾向
AI大模型版权问题 为何各国逐渐倾向

整体来看目前绝大多数AIGC模型训练阶段的作品利用行为隶属于商业利用领域仅适用第4条规定的“不限制目的的文本和数据挖掘”责任豁免情形该规定对于“文本与数据挖掘”采取的是类似于默示许可+‘opt-out’的机制有三点问题需要注意:第一该条规定豁免的核心是“文本与数据挖掘”过程中的“作品复制行为”。欧盟在《单一数字市场版权指令》“立法背景”中指出为了文本和数据挖掘而进行的复制和提取(“提取”针对的是数据库权利中对标作品的“复制”)需要在合法访问的作品或其他客体上进行特别是当为了技术流程而进行的复制或提取不符合关于临时复制(即避风港制度对应的缓存行为)的现有责任豁免条件时。由此来看本文在第二部分关于“模型训练阶段版权侵权风险解构”的分析结论未经版权人授权的模型训练行为法律层面明显的侵权风险只涉及复制权能够得到欧盟修法逻辑的验证第二该条规定豁免的要件是对于被训练作品和其他内容的获取是合法的”。欧盟指出这种例外或限制只应适用于被豁免主体合法访问作品或其他内容的情况包括已在网上向公众公开以及权利人未以适当方式保留这一权利的情形而在此前由于大量有价值文本的数据库通常是收费的因而文本与数据挖掘的例外情形并未在实质上减轻行为人获得许可的负担但在本轮以ChatGPT等为代表的生成式人工智能场景下模型训练涉及的内容大部分来源于CC(Common Crawl)、维基百科等网络公开数据由此可以获得的责任豁免价值得以凸显第三该条规定豁免的前提是“权利人未以适当方式保留文本与数据挖掘的权利”。欧盟强调权利人应当能够采取措施确保对于文本与数据挖掘的权利保留得到尊重根据《单一数字市场版权指令》“立法背景”的说明以适当方式保留权利可以做如下理解:对于已经在网上公开提供的内容应该只考虑通过使用机器可读手段保留这些权利包括相关的反爬等技术保护措施;在线下对于实体出版物的扫描利用等情况下可以通过合同约定或声明等其他方式保留简单来说只要权利人未事先通过技术等方式保留自身权利或者向模型训练平台发出专门通知明确表示自己的作品内容不允许被训练原则上便可以给予豁免日本非欣赏性利用模式 2018年日本对《著作权法》进行了修改在第30条第4款设置了新的合理使用条款——不以欣赏作品原有价值为目的的利用”。根据日本文化厅的解读此次修改整体上扩大了对于著作权的限制其目的是鼓励创新迎接以人工智能物联网和大数据为代表的第四次产业革命。[5]值得注意的是新一轮的日本《著作权法》修正案已于2023年5月17日通过参议院表决并未对第30条第4款进行修改这一定程度上也表明了立法者认为该条能够涵摄本轮生成式人工智能带来的版权制度挑战依据该条规定AIGC模型训练阶段的版权利用行为可以适用不以欣赏作品原有价值为目的的责任豁免符合该条列举出的用于信息分析的情形和兜底性在电子计算机信息处理过程中对作品表达所进行的不被人类感知和识别的使用情形两项要求因此只要符合相关要求大概率可以受到第30条第4款的责任豁免对于日本《著作权法》“不以欣赏作品原有价值为目的利用的责任豁免可以从以下几个方面把握适用的关键第一该规定本质上对应的是作品的非表达型利用与其说是侵权责任的豁免不如说是对版权法中一类非侵权行为的明确本条款列举的具体情形对应的是不以欣赏作品原有价值为目的利用实际涉及的是对于作品的信息分析以及机器内部的加工处理都不是为了向公众传播被利用作品的表达性内容也即不属于版权法意义上的作品使用行为第二该规定豁免的行为类型并不限于“作品存储行为而是必要范围内任何利用作品的手段由此可以避免AIGC模型训练阶段对于各类具体行为属性认定带来的纷争例如“作品处理行为是否受到《著作权法》权利范畴的规制”。一定程度上可以说日本不以欣赏作品原有价值为目的利用责任豁免模式给予了模型训练研发方更明确的行为预期第三该规定存在适用上的限制条件即但因作品的种类用途及利用方式等原因不当损害著作权人利益的不在此限前文已述从目前AIGC模型内容生成模式来看该规定所豁免的行为并不落入既有版权的专有权利规制范畴因此并不会与权利人正常行使权利产生明显冲突此外因为该规定本质上是对于在先作品的非表达型利用以及对于思想层面风格感觉的学习所以也不会对既有作品的传播市场产生明显替代效应2023年5月日本政府公开了自身对于AIGC领域态度不会对AIGC模型训练中使用的内容加以保护日本文部科学大臣长冈惠子(Keiko Nagaoka)表示日本法律不会保护AIGC中使用的所有受版权的材料也即允许AIGC对作品的利用无论是出于非营利或商业目的无论是复制还是复制以外的行为这在一定程度验证了日本《著作权法》第30条第4款不以欣赏作品原有价值为目的的责任豁免能够适用于当下的AIGC活动美国四要素分析+转换性使用模式 2023年5月17日美国国会召开交互中的人工智能与版权法听证会美国版权局前总法律顾问Sy Damle表示:“任何强制要求AI付费许可尝试要么会使美国AI行业破产消除我们在国际舞台上的竞争力;要么会驱使这些头部AI公司离开这个国家。”美国之所以成为全球AI产业的研发中心很大原因依赖于其灵活多变的合理使用条款相信其依然可以适用于AIGC产品这些产品从数十亿的训练数据中提取抽象的概念和模式(concepts and patterns)并创造出不同于且不侵犯既有作品的全新内容美国《著作权法》以例示列举+一般要件的方式对合理使用制度进行了规定具有高度灵活性第107条规定任何特定案件中判断对作品的利用是否属于合理使用时应考虑的因素包括:使用的目的与性质;该作品的性质;使用部分占被利用作品的质与量的比例;该使用对作品的潜在市场或价值所产生的影响这被称为合理使用认定四要素标准。“商业性质的使用最早被排斥在美国合理使用的范畴无偿使用他人作品牟利被认为有违公平正义的一般原则但在随后的司法实践中美国法院从四要素标准中的使用目的与性质慢慢延伸出了转换性使用规则”。由此商业性质的使用不再是合理使用认定的关键重要问题是考察新作品的转换性程度例如在备受关注的谷歌图书馆案中美国联邦第二巡回上诉法院认为谷歌将数字化后的图书存放于服务器供用户以检索有限文字片段的方式发现所需图书不构成对原有图书购买市场的替代符合转换性使用的要求目前美国行政和司法侧尚未对AIGC产品模型训练中能否适用四要素标准给予倾向性意见但值得注意的是同样采纳合理使用四要素分析法的以色列已经表示机器学习可以获得责任豁免在2023年1月以色列司法部发布专门意见支持将受版权的材料用于机器学习以色列《著作权法》第19节关于合理使用的规定是以美国《著作权法》第107条为蓝本这一定程度说明四要素分析法的制度框架可以囊括AI模型的训练但以色列司法部表示相关责任豁免不适用于完全以某个特定作者的作品进行机器训练因为这会产生明显的市场替代效应同时该意见指出责任豁免仅适用于模型训练阶段而不涵盖内容输出阶段因为可能存在直接输出侵权内容的情形规则探讨:大模型训练能否获得责任豁免从各国立法实践来看通过权利限制与例外制度给予生成式人工智能研发平台在模型训练阶段一定的责任豁免是一种发展趋势目前来看我国现行《著作权法》尚未能对这一问题加以有效回应需要从三步检验法立法标准出发思考创设新的责任豁免机制的正当性既有合理使用制度无法涵盖大模型我国《著作权法》第二十四条规定了合理使用(可以不经权利人许可不向其支付报酬)的具体情形涉及AIGC模型的规则大致包括个人使用适当引用学习研究使用等个人使用适用目的存在严格限制而目前AIGC产品最终落脚于对不特定主体的商业性服务难以与之契合;适当引用适用前提是介绍评论说明某一作品或说明某一问题在商业化应用上显然难以归于此类;科学研究对作品的利用限定在学校课堂教学或者科学研究同时还强调仅能少量复制而AIGC产品大量复制与利用的现状无法满足该项要求虽然2021年修订后的《著作权法》增加了合理使用的兜底条款但兜底条款是一个半开放的内容规定——法律行政法规规定的其他情形无法在司法实践中由法院结合一般要件根据具体案情直接适用因此能否适用合理使用的豁免仍有待后续相关立法的修订加以明确此外我国《著作权法》对于法定许可的规定较为分散主要包括期刊转载文艺团体表演录音唱片制作录音制品广播电台和电视台制作广播和电视节目四大类与模型训练差异甚大难以匹配适用三步检验法是判断责任豁免的关键从制度目标来看除保护权利人之外还需要服务于促进全社会文化知识的分享内容传播技术的进步等更高层级的公共利益所以《伯尔尼公约》、TRIPs协定以及《世界知识产权组织条约》均允许成员国对规定限制和例外但都强调例外规定需要满足三步检验标准第一步只能在特殊情况下做出是原则性规定目的是防止对权利的限制过于泛化而损害权利人利益核心的判定标准仍是第二步与作品的正常利用不相冲突和第三步没有不合理的损害权利人利益三步检验法也是各国设立限制与例外规则所应当遵循的立法标准如若将纳入我国版法中权利限制与例外体系也应符合这一要求在三步检验法中第一步仅在特殊情况下做出仅是原则性规定目的是防止对权利的限制过于泛化而损害权利人利益核心的判定标准仍是第二步与作品的正常利用不相冲突和第三步没有不合理的损害权利人利益两步判断标准都具有高度抽象性目前来看立法司法和理论层面都未能达成统一共识此外这两步判断标准实际也难以完全区分实践中影响作品的正常利用亦会导致权利人

© 版权声明

相关文章