我们需要为人工智能制定智能的知识产权法律
过去被认为是边缘领域和猜测对象的人工智能,如今已成为一场关于革命性技术变革带来的希望与恐惧的激烈、甚至“火烧眉毛”的全面冲突。围绕这些已能在某些领域超越人类能力的智能系统及其监管,存在着深刻的不确定性。做出正确选择,以保护或控制这一技术,是使人们对人工智能在科学、医学和整体生活改善方面带来的益处的希望,能战胜持续存在的末日恐惧的唯一途径。在过去的这一年中,像OpenAI的ChatGPT这样的AI聊天机器人被公众引入,引发了过度的警告。这些警告范围广泛,包括纽约州参议院多数党领袖查克·舒默所说的,AI将“彻底改变工作场所、教室,甚至我们生活的各个角落”,也有俄罗斯总统普京所说的:“谁能在这项技术领域中领先,谁就会成为世界的主宰。”这些恐惧还包括来自行业领袖关于无约束AI可能带来严重后果的警告。应对这些问题的立法努力已经开始。6月14日,欧洲议会投票通过了一项新的《人工智能法案》,此前他们对欧盟委员会提出的69页提案进行了771项修正。该法案要求像ChatGPT这样的“生成式”人工智能系统实施一系列保护措施和披露义务,包括使用“潜意识操纵技术”或“利用特定群体的年龄、身体或精神残疾等脆弱性”的系统,以及避免对健康、安全、基本权利、环境、民主和法治造成“可预见的风险”。目前全球的一个紧迫问题是,用于训练人工智能系统的数据是否需要获得作者或表演者们的同意,他们也在寻求对其作品的署名权和补偿。一些政府已经为文本和数据挖掘制定了特殊的版权例外条款,以更容易地收集和使用信息用于AI训练。这些例外允许部分系统使用他人拥有的在线文本、图像和其他作品进行训练。这些例外条款最近遭到了反对,特别是来自版权持有者和更广泛反对者的批评,他们希望减缓或削弱相关服务。这些争议与最近几个月关于AI风险的大量报道中提出的种种问题交织在一起,包括AI可能带来的偏见、社会操控、收入与就业损失、虚假信息、欺诈等风险,甚至还有关于“人类终结”的灾难性预测。最近在美国的版权听证会上,作者、艺术家和表演者们提出了一个共同的观点,即AI训练数据应该遵循“三个C”原则:同意(consent)、署名(credit)和补偿(compensation)。每一个C都有其自身的实际挑战,与一些国家最支持的最有利的文本和数据挖掘例外条款相冲突。各国在训练数据相关知识产权方面的方法多种多样,且仍在不断演变。美国正在处理多起诉讼,以确定版权法中的合理使用例外适用范围有多大。2019年欧盟发布的数字单一市场版权指令中包含了文本和数据挖掘的例外条款,包括为研究和文化机构提供的强制性例外,同时保留版权持有者阻止其作品用于商业服务的权利。2022年,英国提出了一个适用于商业用途的广泛例外,但这项例外今年早些时候被搁置了。2021年,新加坡在版权法中为计算数据分析设定了一个例外,适用于文本和数据挖掘、数据分析和机器学习。新加坡的例外要求合法访问数据,但不能被合同覆盖。中国也发布了声明,表明其将排除“侵犯知识产权的内容”作为训练数据。在斯坦福大学DigiChina项目4月的一篇文章中,乔治城大学安全与新兴技术中心的海伦·托纳描述了这种情况,“颇为模糊,因为大多数被训练数据的版权状态——通常是从各种在线来源大规模抓取的——并不清晰。”许多国家并没有针对文本和数据挖掘的特定例外,但仍未明确表态。印度官员表示目前他们尚未准备规范人工智能,但与许多其他国家一样,印度也渴望支持国内产业。随着法律和规章的出现,应注意避免“一刀切”的方法,即适用于音乐或艺术作品的规则也适用于用于医学研究和开发的科学论文和数据。之前关于数据库的立法努力说明了谨慎的必要性。在20世纪90年代,曾有人提出将从数据库中提取信息自动赋予权利的建议,包括统计信息和其他不受版权保护的元素。一个例子是世界知识产权组织(WIPO)于1996年提出的条约。在美国,一个由学者、图书馆、业余家谱学家和公众利益团体组成的多元化联盟反对该条约提案。然而,更关键的反对来自美国公司,如彭博、邓白氏和STATS等,它们认为数据库条约既不必要又繁琐,因为这会增加获取和提供客户所需数据的许可负担,在某些情况下甚至会形成不必要的垄断。1996年,世界知识产权组织的数据库条约在外交会议上失败,随后美国也未能出台相关法律,但欧盟则通过了关于数据库法律保护的指令。自那以后,美国在数据库投资方面经历了大量增长,而欧盟则试图通过法院判决削弱其指令。2005年,其内部评估发现,“这一工具对数据库的生产没有可证实的影响。”现实的考量也带来了另一个警示。大型语言模型中数据的规模难以想象。最初发布的Stable Diffusion图像生成器需要训练23亿张图像。GPT-2,即生成ChatGPT模型的早期版本,训练数据为40GB。随后的GPT-3版本训练数据达到45TB,规模超过前者1000倍。面对有关数据使用被起诉的诉讼,OpenAI尚未公开披露用于训练最新版本GPT-4的数据集的具体大小。即使对于简单的项目,清除版权授权也可能很困难,而对于非常大型的项目或平台,就连弄清楚谁拥有这些权利都几乎不可能,尤其是在实际操作中需要定位元数据并评估作者或表演者与出版商之间的合同。在科学领域,获得使用版权作品的许可可能会赋予科学论文出版商巨大的权力,决定哪些公司可以使用相关数据,尽管大多数作者并未获得报酬。谁拥有什么数据,这是关键问题。一个音乐录音的版权持有者可以选择退出数据库,但如果因为许可纠纷而将一篇重要的科学论文排除在外,那又是另一回事了。当AI用于医院和基因治疗时,你真的希望从训练数据库中排除相关信息吗?除了同意,另外两个C,即署名和补偿,也有其自身的挑战,这目前已经在高成本的版权或专利侵权诉讼中得到体现。但人们也可以设想在艺术或生物医学研究中的某些数据集和使用场景中,一个管理良好的AI项目能够实施利益共享,例如为成功生物医学产品提供开源红利。在某些情况下,用于训练AI的数据可以去中心化,并辅以多项安全措施。这些措施包括实施隐私保护、避免不必要的垄断控制,并使用目前正在为某些科学数据构建的“数据空间”方法。所有这些都提出了一个明显的挑战,即任何分配给训练数据的知识产权:这些权利本质上是国家层面的,而人工智能服务发展的竞争却是全球性的。只要有电力和互联网接入,AI程序可以在任何地方运行,不需要庞大的员工或专门的实验室。在那些对数据获取和使用施加昂贵或不切实际义务的国家中运营的公司,将与那些在更自由环境中运营的实体竞争。如果还有人像普京一样思考AI的未来,这值得深思。这是一篇观点和分析文章,作者表达的观点不一定代表《科学美国人》的立场。
查看全文
作者最近更新
-
我们进化的历史可以教会我们人工智能的未来scientific2023-11-11
-
“ChatGPT检测器”以前所未有的准确率识别人工智能生成的论文scientific2023-11-11
-
人工智能需要规则,但谁将拥有制定规则的权力?scientific2023-11-07
评论0条评论