欧盟发布人工智能训练数据模板
发布时间:2025-09-17 10:08 文章来源:中国保护知识产权网 阅读:
从2025年8月开始,欧盟委员会将要求通用人工智能模型的提供者公开用于训练这些模型的内容摘要。
这个根据《人工智能法案》第53条提出的要求旨在增强透明度,并协助人们根据欧盟的法律(特别是有关版权的法律)下保障权利。2025年7月24日,欧盟委员会发布了外界期待已久的强制性人工智能训练数据模板,其中明确规定了人们应该如何构建这些摘要以及应包含哪些信息。此举意味着相关机构在人工智能开发者记录其训练数据来源时将会进行重大的监管干预。然而,权利持有人的实际价值,特别是在许可版权作品的背景下,仍然难以确定。
上述模板涵盖了广泛的数据类别,其中包括公开可用的数据集、私人数据集、抓取的网络内容、用户数据和合成数据。提供者需要披露数据的来源和性质,以及涉及相关内容的一般性描述。然而,该模板并未要求披露用于训练人工智能模型的具体数据或作品的细节信息。这表明这些摘要的目的是要从整体上提供透明度,而不是在细节上提供精准度。
平衡透明度与商业秘密
委员会表示,在保护商业秘密和机密商业信息的同时,当事人也必须提供足够的透明度,以使具有合法利益的相关方能够行使其在欧盟法律下的权利。根据数据的来源,数据训练摘要可能需要不同的信息细化程度。值得注意的是,权利持有人未进行商业授权的私人数据集以及从第三方获得的数据集,仅在公众已知或以一般方式进行描述时才需列出。因此,上述模板明确允许提供者在信息较为商业敏感时保留详细信息。
此外,委员会还建议提供者本着诚信,自愿的原则提供超出最低标准的额外细节,或提供一种“基于请求”的机制,从而使权利持有者可以询问他们的活动领域是否被包含在此类抓取活动中。但是,这两者都应是可选的。提供者在法律上没有义务满足这样的请求,同时也没有义务对此进行回应。
版权和许可挑战
《数字化单一市场版权指令》(CDSM)第4条允许权利持有人可以选择不让其受版权保护的内容用于文本和数据挖掘。然而,权利持有人有可能会对上述模板感到不满,因为这种人工训练数据摘要并不需要披露所使用数据的具体信息,如此一来,权利持有人根本无法了解到他们的内容是否已被涵盖在内。此外,尽管该模板要求开发者披露他们到底遵循了哪些程序来确定权利持有人并根据CDSM第4条选择退出,但是这套体系并没有提供可用来验证这些退出请求是否已被正确识别或遵守的机制。同时,其也没有要求开发者披露应如何过滤这些抓取的材料以将保留作品排除在外。
摘要的一般特性还有另一个含义,即它无法协助权利持有人就其用于人工智能数据训练的作品进行个别的许可安排。因此,该模板似乎更有利于与大型出版商和中介达成许可交易。这与人们有关“人工智能提供者将会继续寻求来自主要内容聚合商或集体管理组织的大宗许可证,而不是直接与创作者进行谈判”的预期是一致的。
人工智能办公室的监督范围和跨司法管辖区的影响
人工智能办公室将有权核实模板是否已正确填写。然而,该办公室不会逐件评估或检查特定内容是否已用于通用人工智能模型的训练。此外,人工智能办公室还明确表示,它不会就个别的版权争议作出裁决。任何此类指控仍会受各国法律和法院的管辖,而举证责任也将会落在权利持有人身上,即证明其内容被他人使用并且其权利也受到侵犯。显然,这为人们提出了一个有关“在维护权利时,训练数据摘要能在何种程度上用作一种实用工具”的重要问题。
与此同时,还需要指出的是,通过强制公开那些能够展现训练数据类别和来源的信息,欧盟可能在不经意间为在诸如美国等司法管辖区中的提供者带来了一定的法律风险,在这些地方,人工智能训练的公平使用抗辩程序仍存在着争议。随着时间的推移,这可能会使一些开发者不愿在欧盟推出模型,特别是在他们认为声誉损失风险或诉讼风险已超出监管可带来的好处的情况下。
结语
此次模板的发布还是值得认可的,因为这是一次认真的尝试,旨在应对人工智能训练中的透明度问题。目前还没有其他主要的司法管辖区引入了相同的义务。这个监管模型是否有效或可持续,很大程度上将取决于其实施情况、人工智能提供者是否愿意进行更详细的信息披露,以及随着时间的推移司法解释能否同步发展等。
目前,权利持有者会逐步了解人工智能系统的构建过程。但是,对于那些寻求确定和许可特定作品的人来说,当前的模板可能无法满足其预期。尽管这是一个整体架构上的进步,但在实践中仍然存在着显著的空白地带。此类涉及透明度的机制的有效性可能并不在于上述摘要的发布,而在于这些摘要是否可以用于支持合法的许可和权利保障工作。(编译自www.mondaq.com)
翻译:刘鹏 校对:王丹