元数据“水印”可能是ChatGPT剽窃担忧的解决方案
ChatGPT 是 OpenAI 开发的一种强大的自然语言人工智能工具,正日益成为成千上万名开发人员、作家和学生的日常工作中不可或缺的一部分。自去年11月底发布以来,该聊天机器人被部署在各种用途中,其输出质量之高引发了人们对开发识别使用该工具生成文本的方法的呼吁。工程师们认为,一种元数据“水印”可能是减少大规模虚假信息传播、抄袭行为以及该工具在钓鱼攻击中被滥用风险的一种方法。ChatGPT 能够撰写长篇内容、编写代码并回答复杂问题,拥有数百万的每日用户。(照片:Iryna Imago/Shutterstock)就像照片中可能会包含摄影师的信息,或者由 OpenAI 的 DALL-E 2 工具生成的图像一样,元数据中将包含一个标记,用于指示文本是否由人工智能撰写,以及如果是的话,有多少内容来自自动化生成。人工智能在写作文中的使用被称为“AIgiarism”——即由人工智能辅助的剽窃行为,一旦被发现,将被视为严重的剽窃行为。OpenAI 自己的条款要求用户在发布内容时标明人工智能的使用情况,但尽管许多学术研究已经指出了多起疑似由人工智能生成的论文案例,要证明某篇文章确实是由机器撰写的仍然是困难的。在德克萨斯大学发表讲话时,OpenAI 研究员 Scott Aaronson 表示,他的团队正在研究多种解决方案,包括对 ChatGPT 所选择的词语进行微调,这种方式对读者来说不会明显察觉,但对于寻找生成文本迹象的工具来说却是可以检测到的。在一篇博客文章中总结他的演讲时,Aaronson 表示目标是让将 ChatGPT 的输出冒充为人类写作变得更加困难,解释说这些“特征”可以被大学目前使用的剽窃检测工具整合进去。他表示,这也将有助于识别“大规模生成的宣传内容——你懂的,例如向每个博客推送看似相关但支持俄罗斯入侵乌克兰的评论,而莫斯科甚至不需要一个满员的网络水军。或者模仿某人的写作风格来对他们进行指控。” ChatGPT 原型水印工具 OpenAI 已经有一个水印方案的可用原型,据 Aaronson 说,“似乎效果还不错”。他的博客指出,只需几百个“词元”——或一段文本——就可以合理地判断出文本是否来自 GPT-3,这是 ChatGPT 所基于的大型语言 AI 模型。Aaronson 在他的博客中写道,GPT 还不是写论文的黄金标准,但随着每个新版本的发布,它正在不断改进。它面临的最大问题是生成大量看似准确但实际上明显错误的答案。但这一点正在改善,其生成真实引用的能力也在提高。 我们的合作伙伴内容 如何为下一次网络攻击做好持续的准备 采用 B2B2C 模式使制造商能够更贴近消费者 技术与创新可推动物流行业的后疫情复苏 “如果你提交了 GPT 生成的论文,我认为在大多数课程中至少会得一个 B,”他写道,“虽然我不鼓励你们中任何一个人这么做,但我们可以预见,一个世界各地的学生至少会强烈地被诱惑使用文本模型来撰写他们的学期论文。” 查看所有通讯 登录我们的通讯 数据、洞察和分析将发送给您 由 Tech Monitor 团队提供 登录这里 他表示,GPT-3 已经被用于撰写广告文案、新闻稿,甚至在“图书市场低端”的某种公式化类型小说中撰写完整的长篇小说。你只需说“给我几个段落描述这种场景”,它就能完成,随着模型的不断完善,这种用途还将增加。“我认为 GPT 已经是个相当不错的诗人了。DALL-E 也已经是个相当出色的艺术家了,”Aaronson 说道。“它们在一些高中和大学级别的数学问题上仍然存在困难,但它们正在逐步进步。可以想象,也许在五年内,像我这样的人会使用这些工具作为研究助手——至少在我们论文中证明引理时会用上。这看起来非常有可能。” Aaronson 在 OpenAI 的主要工作是确保教师和其他人能够通过统计水印输出的方式来识别内容是否来自 GPT,并寻找确保在“真实世界”中使用时能够被轻易识别的方法。“当你考虑到 GPT 的恶意用途时,其中大多数都需要以某种方式隐藏 GPT 的参与,在这种情况下,水印功能就能同时攻击大多数滥用行为,”他写道。 操控 GPT 中的“词元字符串” 到目前为止,他们发现实现这一点的最好方法是操控 GPT 模型中每个输入和输出所组成的“词元字符串”。这些词元字符串用于表示词语、标点符号以及词语的一部分。GPT 总共有10万个词元,并且它会不断生成下一个词元的概率分布。它根据这个分布选择一个词元,并包含一个称为“温度”的参数,如果该参数不为零,那么下一个词元的选择就会有一定的随机性。这正是你每次输入同一个提示时,都能得到不同输出的原因。 为了对输出进行水印处理,Aaronson 和他的团队研究了使用一种加密函数伪随机地选择下一个词元,而不是真正随机地选择。这个密钥只有 OpenAI 才知道,并且对最终用户不可见。伪随机函数会生成一个分数,即在一系列词元中特定值的总和,如果你知道这个分数和密钥,你就可以判断它很可能是由 GPT 生成的。另一种方法,他说在未来的高风险应用场景中可能也是必要的,是将所有输出存储在一个大型数据库中,当存在争议时,可以进行查询,但这会带来“严重的隐私问题”,包括你如何证明一段文字不是 GPT 生成的,而不暴露人们是如何使用 AI 的。 由 OpenAI 工程师 Hendrik Kirchner 开发的一种使用水印功能的工具已经建立,只要内容包含几百个词元,也就是一段文本,该工具就能检测出其是否由 GPT 生成。“原则上,你可以甚至对一个长文本进行分析,确定哪些部分很可能来自 GPT,哪些部分则不是,”Aaronson 说。即使用户重新排列句子的顺序或删除几个词,水印信号依然存在,因为它依赖于对全文所有词元的计算,而不是随机的句子,这意味着它“对这类干预具有很强的鲁棒性”。 该团队还在研究更好的方法,以在 DALL-E 生成的图像中添加水印,这些水印不直接包含在图像内部,而是体现在更广泛的概念层面,即 AI 在生成图像之前产生的一种“CLIP 表示”。“但我们还不知道这种方法是否能成功。” 阅读更多:ChatGPT 解释它如何帮助 CIOs 完成他们的工作 本文主题:人工智能,OpenAI
查看全文
作者最近更新
评论0条评论