与Werner Herzog的无尽对话可以教会我们关于AI的知识
在网站"Infinite Conversation"上,德国导演维尔纳·赫尔佐格和斯洛文尼亚哲学家斯拉沃伊·齐泽克正在进行一场公开的天南地北的对话。他们的对话之所以引人入胜,其中一个原因在于这两位知识分子在说英语时都有独特的口音,更不必说他们选择词汇时那种偏爱古怪表达的倾向了。但他们之间还有一个共同点:这两人的声音都是深度伪造的,他们以独特口音说出的那些话语,是由人工智能生成的。我构建这场对话是一种警示。随着一种被称为“机器学习”的技术不断取得进步,深度伪造技术——那些极其逼真却虚假的图像、视频或语音——变得越来越容易制作,其质量也高得惊人。与此同时,语言生成型人工智能可以快速且低成本地大量生成文本。结合这两项技术,它们所能做到的不只是构建一场无限的对话,还足以将我们淹没在虚假信息的海洋中。机器学习是一种人工智能技术,它通过大量数据来“训练”算法,以在重复执行某项任务时逐步提升表现。这项技术正处于飞速发展的阶段,正在将整个信息科技行业推向新的高度,包括语音合成——那些能生成人类可理解语言的系统。作为一个对人类与机器之间交界地带感兴趣的人,我一直觉得这是一种非常迷人的应用。因此,当几年前机器学习技术的突破性进展让语音合成和语音克隆技术取得了巨大飞跃(此前多年的发展主要是缓慢、渐进式的改进)时,我立即注意到了这一点。Infinite Conversation的创意源于我偶然发现了一个出色的语音合成程序Coqui TTS。许多数字领域项目都是从发现某种此前未被广泛认知的软件库或开源程序开始的。当我自己发现了这个工具包,看到其有一个活跃的用户社区和丰富的文档资源时,我意识到,我已经拥有了克隆著名声音所需的所有要素。作为一个欣赏维尔纳·赫尔佐格作品、个性和世界观的人,我一直被他的声音和说话方式所吸引。我并不是唯一一个这样的人,流行文化已经将赫尔佐格变成了一种卡通式人物:他曾在《辛普森一家》《瑞克和莫蒂》《马达加斯加企鹅》等节目中有客串或合作。因此,当我开始考虑要复制谁的声音时,赫尔佐格无疑是最佳人选——尤其是考虑到我必须长时间听这个声音。几乎不可能厌倦于听到他那干练又带有浓厚德国口音的讲话方式,这种语气所展现出的庄重和威严让人无法忽视。为赫尔佐格的声音构建训练数据集是整个流程中最简单的一部分。他有大量访谈、旁白和有声书作品,单是这些内容就提供了数百小时的录音,可以作为机器学习模型的训练材料——在本例中,我是在一个已有模型基础上进行微调。机器学习算法的输出通常会通过“训练周期(epochs)”逐渐提升表现,每个周期都会让神经网络使用全部训练数据进行一次学习。算法可以在每个周期结束时采样生成结果,供研究者回顾,以评估模型的进展。当我听到赫尔佐格合成声音在每个训练周期后逐渐变得越来越好时,这种感觉就像是目睹一种隐喻意义上的诞生,他的声音在数字世界中逐步鲜活起来。当我已经拥有了一个令人满意的赫尔佐格声音后,我开始构建第二个声音,并直觉地选择了斯拉沃伊·齐泽克。与赫尔佐格一样,齐泽克也有着有趣且古怪的口音,他在思想界有着重要的存在,并与电影界有联系。此外,他某种程度上也是一位大众明星,这得益于他的辩论热情和有时引发争议的观点。当时,我还没有想好这个项目最终的形式会是什么样子——但当我被语音克隆过程的简便与顺畅所震惊时,我知道这应该是一种警告,给那些愿意倾听的人。深度伪造技术已经变得过于逼真,也过于容易制作了;就在本月,微软宣布推出一种名为VALL-E的新语音合成工具,研究人员声称,该工具仅需三秒钟的录音,就能模仿任何人的声音。我们即将面临一场信任危机,而我们对此却毫无准备。为了强调这种技术制造大量虚假信息的能力,我决定采用“无限对话”这一形式。我只需要一个经过微调的大语言模型——分别基于两位参与者的文字材料进行训练——以及一个简单的程序来控制对话的来回进行,使对话的流程自然且可信。从根本上说,语言模型的功能在于根据已有的词序列预测下一个词。通过微调语言模型,可以模拟一个人通常会表达的风格和概念,前提是拥有该人大量的对话记录。我决定使用目前市面上领先的商业语言模型之一。就在这时,我才真正意识到,现在只需要比听一遍对话还要短的时间,就可以生成包括声音在内的完整虚假对话。这让我自然地想到了这个项目的名称:Infinite Conversation(无限对话)。经过几个月的工作后,我在去年十月将这个项目发布到了网上。从2月11日起,“无限对话”也将作为旧金山“Misalignment Museum”艺术展览的一部分展出。当所有要素最终就位后,我惊讶地意识到一件自己在项目开始时未曾预料到的事情。就像他们真实生活中的人物那样,我的赫尔佐格和齐泽克聊天机器人经常围绕哲学和美学等话题展开对话。由于这些话题本身具有深奥性,听者可以暂时忽略模型偶尔生成的无意义内容。例如,AI版的齐泽克对阿尔弗雷德·希区柯克的看法会在天才与讽刺操纵者之间来回变换;在另一个矛盾之处,真实的赫尔佐格以厌恶鸡类闻名,但他的AI模仿者有时却会带着同情谈论这些家禽。由于后现代哲学本身就常显得模糊不清,齐泽克本人也承认这一点,因此“无限对话”中缺乏清晰度的内容可以被解读为深奥的模棱两可,而不是荒谬的矛盾。这或许正是促使该项目取得成功的重要因素。截至目前,已有数百位“无限对话”的访客听过超过一个小时的对话,一些人甚至聆听了更长时间。正如我在网站上所提到的,我希望访客们不要过于认真地去听聊天机器人说了什么,而是意识到这项技术及其后果;如果这种由AI生成的对话听起来还蛮可信的,那么想象一下那些听起来像真人播报的虚假演讲吧,它们可能被用来损害政治人物的声誉、欺骗商界领袖,或者仅仅是为了让人们被听起来真实可信的假新闻分散注意力。但事情也有积极的一面。一些“无限对话”的访客表示,他们将赫尔佐格和齐泽克那令人放松的声音用作白噪音来帮助入睡。这种新技术的用途,是我可以欣然接受的。这是一篇观点与分析类文章,作者表达的观点并不一定代表《科学美国人》(Scientific American)的观点。
查看全文
作者最近更新
-
我们进化的历史可以教会我们人工智能的未来scientific2023-11-11
-
“ChatGPT检测器”以前所未有的准确率识别人工智能生成的论文scientific2023-11-11
-
人工智能需要规则,但谁将拥有制定规则的权力?scientific2023-11-07
评论0条评论