微软最新的VALL-E人工智能可以从三秒钟的音频剪辑中克隆出你的声音
微软最新进入人工智能领域的方式是推出VALL-E,这是一种基于transformer的文本转语音模型,只需3秒的语音样本即可“重建任何人的声音”。网络安全专家表示,如果没有适当的安全措施,它可能会被用于更逼真的网络钓鱼攻击和传播虚假信息。VALL-E模型是在6万小时的语音数据上训练而成的,仅需3秒的语音样本即可生成新的声音。(照片由微软提供)除了将生成新声音的训练时间大大缩短,VALL-E还能比其他模型生成更自然的语音,因为它保留了原始样本的语调、魅力和风格。这些特性可以在编写文本转语音脚本时灵活应用。有了这些功能,只需录制3秒的语音,无论是通过电话、面对面交流,甚至从播客中获取,模型即可合成该声音来表达任何句子。微软表示,VALL-E的性能已经提高到如此程度,以至于你很难分辨听到的是真实声音还是合成声音。 公司情报 查看所有报告 查看所有数据洞察 与用于训练DALL-E 2和GPT-3的大型生成式AI模型类似,开发者为系统输入了大量数据以构建工具。他们在训练模型时使用了6万小时的语音数据,其中大部分来自通过Teams应用程序录制的内容。VALL-E可以用于游戏和金融科技领域。目前,VALL-E的代码尚未向公众开放,仅发布了使用该工具生成的示例音频文件。此外,目前还不清楚微软是否会将VALL-E作为公共访问或商业工具发布。 AI公司Tovie.ai的首席执行官Joshua Kaiser告诉Tech Monitor,该模型的架构设计允许用户在使用更少数据的情况下完成更多任务,这对那些想要创建语音合成但缺乏足够数据以提升性能的组织来说至关重要。“我们认为,这将使许多行业受益——从零售、金融科技到游戏——因为这些行业已经在采用语音接口,并且可以简化整个流程。”他说。 Gartner杰出副总裁分析师Arun Chandrasekaran表示,VALL-E最大的优势在于其潜在的可扩展性。它在“零样本”或“少样本”场景中同样有效,即在缺乏特定领域训练数据的情况下也能发挥作用。“此外,如果这些模型能以云服务的形式提供,将比传统方法减少模型部署所需的时间和精力。”Chandrasekaran说。 来自我们的合作伙伴: 科技领袖如何降低能耗并实现效率目标 Hexaware如何将企业社会责任置于其身份和使命的核心 如何为下一次网络攻击做好持续准备 Chandrasekaran解释说,这项技术在现实世界中有多种应用案例,包括“语音编辑(可以修正某个单词或句子)、为不同场景定制语音、交互式虚拟学习,以及客户服务自动化”。 订阅所有通讯 加入我们的通讯 数据、洞察和分析将直接送达您身边 由Tech Monitor团队提供 在这里订阅 该技术也伴随着一定的风险,包括伪造语音识别系统或模仿特定说话人或名人,这可能导致虚假信息的迅速传播。这或许就是微软在发布该技术背后的代码或API方面进展缓慢的原因,而OpenAI等公司已经像GPT-3和DALL-E 2一样将代码和API公开。这样可以让利用真实声音进行网络钓鱼攻击,或通过YouTube视频或播客传播虚假新闻变得更加容易。 VALL-E的伪造风险 伪造可能包括允许网络犯罪分子进入使用语音指纹作为密码的银行或其他安全系统,尽管许多系统都有机制可以检测是实时语音还是录音。它还可能被用于网络钓鱼诈骗,例如从电话通话中截取一段简短的语音样本,再用该样本创建新的语音模型,从而更容易地诱骗他人透露密码,例如冒充公司财务经理。 Check Point Software的安全工程师Muhammad Yahya Patel表示,新技术如VALL-E的发展不应令人恐惧,但我们仍应对此类系统保持一定的谨慎。他说:“虽然VALL-E有一定的优势,但随着该文本转语音模型日益成熟并融入我们的日常生活,它可能会在网络安全方面带来一些令人担忧的后果。‘如果从过去一年我们学到什么,那就是网络犯罪分子会利用任何机会来诱骗不知情的受害者交出密码或银行账户信息。’语音钓鱼(vishing)是威胁行为者广泛使用的一种方法,因为这些活动的成功率很高。”他说,这项新技术可能会让网络犯罪分子更上一层楼,并引入个性化元素,比如让他们模仿亲人声音。“这将让任何人更难区分来自信任者的请求和恶意网络犯罪分子的请求。”“同样,随着越来越多银行开始使用语音验证来授权交易,很容易看出威胁行为者可以轻松针对个人账户进行攻击,只需要很少的努力。我们需要理解黑客利用新技术的这些机会,并采取必要的防范措施,以免为时已晚。” Tech Monitor已经就微软计划如何减轻VALL-E潜在滥用问题向微软寻求评论。 更多阅读:中国已实施全球最严格的深度伪造法规 本文主题:人工智能、微软
查看全文
作者最近更新
评论0条评论