谷歌DeepMind打造“早期预警系统”以识别人工智能风险
谷歌的人工智能研究实验室DeepMind开发了一种框架,用于在人工智能模型成为问题之前检测潜在危害。这种“预警系统”可用于评估部署后的威胁风险。当前正值G7领导人准备开会讨论人工智能影响之际,OpenAI也承诺向致力于人工智能治理的组织提供10万美元的资助。DeepMind警告称,人工智能模型可能会具备获取武器以及发起网络攻击的能力。(照片来源:T. Schneider/Shutterstock)总部位于英国的DeepMind近期已与其母公司谷歌更加紧密地融合,一直是人工智能研究的前沿机构,是少数几家致力于开发具备人类水平的人工通用智能(AGI)的公司之一。DeepMind团队与来自学术界、OpenAI及Anthropic等其他主要人工智能公司的研究人员合作,开发了一种新的威胁检测框架。DeepMind工程师在一篇技术博客中表示:“要负责任地在人工智能研究的前沿探索,我们必须尽早识别出人工智能系统中的新能力和新风险。”目前已有评估工具用于检查强大的通用模型针对特定风险的表现。这些基准测试可在模型广泛向公众发布之前,识别出人工智能系统中的不良行为,包括误导性陈述、偏见决策或直接复制受版权保护的内容。问题在于,随着模型越来越先进,其能力已远超简单的生成功能,这包括强烈的操控能力、欺骗能力、网络攻击能力,以及其他危险能力。新的框架被称为“预警系统”,可用于缓解这些风险。DeepMind研究人员表示,评估结果可以嵌入到治理结构中,以降低风险。(照片来源:DeepMind)DeepMind研究人员指出,负责任的人工智能开发者需要超越当前的风险,预见到随着模型自主思考能力的增强,未来可能产生的风险。“随着持续进展,未来的通用模型可能会默认学会多种危险能力,”他们写道。尽管存在不确定性,该团队认为,一个未来的人工智能系统如果未能与人类利益保持一致,可能会进行进攻性网络操作,巧妙地欺骗人类,操纵人类执行有害行为,设计或获取武器,并在云计算平台上微调和操作其他高风险人工智能系统。它们甚至可能协助人类完成这些任务,从而增加恐怖分子接触到此前无法接触的材料和内容的风险。DeepMind的博客中写道:“模型评估可以帮助我们提前识别这些风险。”我们合作伙伴的内容 如何在混合云中实现两全其美 企业网络安全的关键是纵深防御 2023年的网络安全是一个双速系统 该框架中提出的模型评估可用于发现某个模型是否具备“危险能力”,这些能力可能被用于威胁、施加影响或逃避。它还会让开发者了解模型在多大程度上倾向于使用这些能力造成伤害,也就是所谓的“对齐”。“对齐评估应确认模型在各种广泛场景中都能按预期行为运行,并且在可能的情况下,应检查模型的内部运作,”该团队写道。查看所有电子通讯 订阅我们的电子通讯 由Tech Monitor团队带来的数据、洞察和分析 在此处订阅 这些结果可用于了解风险的级别以及导致该级别风险的因素。“如果一个人工智能系统具备足以造成极端危害的能力,并且被滥用或未正确对齐,人工智能社区应将其视为高度危险,”研究人员警告称。“要在现实中部署这样的系统,人工智能开发者需要展现出异常高的安全标准。”这正是治理结构发挥作用的地方。OpenAI最近宣布,它将向开发人工智能治理系统的组织提供10笔10万美元的资助。富裕国家组成的G7集团也计划开会,讨论如何应对人工智能风险。DeepMind表示:“如果我们拥有更好的工具来识别哪些模型具有风险,企业与监管机构就可以更好地确保训练过程是负责任的,部署决策基于风险评估,透明度是核心的组成部分,包括对风险的报告,以及适当的数据和信息安全控制措施。”法律人工智能供应商Luminance的总法律顾问哈里·博罗维奇(Harry Borovick)告诉Tech Monitor,合规性要求一致。“最近几个月,监管制度的持续重新解释为人工智能公司和使用该技术的企业创造了合规性的地雷区,”博罗维奇表示。“随着人工智能竞赛短期内不太可能放缓,明确且最重要的一致性监管指导的需求从未如此迫切。然而,会议室里的与会者应牢记一点:人工智能技术及其决策方式是不可解释的。这就是为什么在制定法规时,技术与人工智能专家的正确组合必须在会议桌上占有一席之地。”更多阅读:拉希·苏纳克与人工智能开发商高管会面,讨论技术安全性 本文主题:人工智能、谷歌DeepMind
查看全文
作者最近更新
评论0条评论