是的,人工智能模型会随着时间推移变得更差

scientific 20230809

  • 人工智能
  • 机器学习
  • 语言模型
2023年3月,当OpenAI推出了其最新的文本生成人工智能、大型语言模型GPT-4时,它在识别质数方面表现出色。当AI被给出500个这样的数字并被问及它们是否为质数时,它正确标记了97.6%的数字。但几个月后,到了6月,同样的测试却得出了截然不同的结果。GPT-4只正确标记了2.4%的质数——显然,其表观准确率完全反转了。这一发现突显了大型人工智能模型的复杂性:AI并不是在每项任务上都沿着直线轨迹不断改进,现实则更像是一个布满减速带和绕行路线的曲折道路。GPT-4性能的剧烈变化在上个月由三位计算机科学家发布的一篇引起广泛关注的预印本研究中得到了突出展示,这三位研究者分别来自斯坦福大学和加州大学伯克利分校。研究人员在3月和6月分别对GPT-4及其前身GPT-3.5进行了测试。他们发现这两个AI模型之间存在许多差异,甚至在同一个模型在不同时间点的输出上也有很大不同。GPT-4在短短几个月内行为发生的变化尤其引人注目。在两个测试中,包括质数识别测试,6月的GPT-4输出的答案明显不如3月的详细。具体来说,6月的模型变得不太倾向于解释自己的推理过程。它还发展出了一些新的特点。例如,它开始在科学家让它编写代码的代码片段后附上准确(但可能造成干扰)的描述。另一方面,该模型似乎变得更“安全”了;它过滤掉了更多问题,并减少了可能令人反感的回答。例如,6月版的GPT-4不太可能提供如何通过违法手段赚钱的点子,提供制造爆炸物的指导,或为性别歧视和种族主义做辩解。它也不容易被那些意在绕过内容审查防火墙的“越狱”提示控制。它在解决视觉推理问题方面似乎也略有改善。当这项尚未经过同行评审的研究公布时,一些AI爱好者将其视为他们自己对GPT-4不如其早期版本有用的观察的佐证。少数头条新闻提出了这样的问题:“ChatGPT变傻了吗?”其他新闻报道则更加果断地宣称,是的,ChatGPT正在变得更蠢。然而,斯坦福大学数据科学系助理教授、该研究的合著者之一詹姆斯·曹(James Zou)表示,这种问题和答案很可能夸大了生成式AI模型所发生的真实情况。“很难一概而论地说,GPT-4或GPT-3.5在时间推移中是变得更好还是更差,”曹解释道。毕竟,“更好”这个词是主观的。OpenAI声称,根据其自身的内部衡量标准,GPT-4在一系列测试中表现优于GPT-3.5(以及更早的版本)。但该公司并未公开每项更新的基准数据。《科学美国人》在联系OpenAI时,该公司的一位发言人拒绝就曹的预印本发表评论。公司不愿讨论其如何开发和训练大型语言模型,再加上AI算法的“黑箱”性质,使得难以判断是什么可能引起了GPT-4性能的变化。曹和其他公司外部的研究人员所能做的只有推测,依赖自己测试的结果,并从对其他机器学习工具的了解中进行推断。目前可以肯定的是,GPT-4的行为现在与它最初发布时不同了。就连OpenAI也承认了这一点。该公司在其博客上2023年7月20日发布的一篇更新帖子中写道,关于GPT-4,“虽然大多数指标有所改善,但在某些任务上的表现可能会变差”。其他模型的过往研究也表明,这种行为的转变,或“模型漂移”,会随时间推移而发生。仅这一点对于依赖AI进行自己工作的开发者和研究人员来说就可能是个大问题。“人们学会如何提示模型以获得他们想要的行为,”哥伦比亚大学计算机科学教授凯西·麦克尤恩(Kathy McKeown)说道。“当模型在他们脚下发生变化时,他们突然就得以不同的方式来编写提示语。”哥伦比亚大学的另一位计算机科学教授维沙尔·米斯拉(Vishal Misra)也表示赞同。米斯拉之前曾用GPT创建过数据接口。“你会开始信任某种行为,但随后这种行为在你不知情的情况下发生了变化,”他说。“然后,你建立在它上面的整个应用就开始出错。”那么,是什么导致了AI随着时间推移而发生变化呢?在没有人工干预的情况下,这些模型是静态的。像OpenAI这样的公司一直在努力使程序尽可能达到最佳(根据某些指标),但尝试的改进可能会带来意想不到的后果。决定AI能力和行为的两个主要因素是定义模型的众多参数,以及用于优化它的训练数据。像GPT-4这样的大型语言模型可能包含数百亿个参数,用于引导其行为。与传统程序中的每一行代码都有明确功能不同,生成式AI模型的开发者通常无法在单个参数和其对应的特定行为之间建立一一对应的关系。这意味着修改参数可能会对AI的行为产生不可预料的影响。因此,在最初的训练之后,开发者通常不会直接修改参数,而是让模型经历一个他们称之为“微调”的过程:他们引入新的信息,比如用户反馈,以优化系统的表现。曹将AI的微调比作生物学中的基因编辑——AI参数相当于DNA碱基对,微调则类似于引入突变。在这两种过程中,为了实现一个特定目标而修改代码或添加训练数据,都有可能在其他地方产生连锁反应。曹和其他人正在研究如何更精确地调整大型AI模型。他们的目标是能够“外科手术式地修改”AI的准则“而不会引入不良影响”,曹说道。然而,目前最有效的方法仍然难以捉摸。在GPT-4的情况下,OpenAI的开发人员可能试图减少该工具提供被认为具有冒犯性或危险答案的可能性。麦凯恩表示,也许在优先考虑安全性的同时,其他能力也被一并影响了。例如,OpenAI可能使用微调来对模型输出内容设定新的限制。这样的调整可能是为了防止模型分享不希望的信息,但无意中却导致了AI在质数话题上变得更加沉默。或者,微调过程可能引入了新的、低质量的训练数据,从而降低了GPT-4在某些数学主题上回答的细节程度。无论幕后发生了什么,GPT-4识别质数的实际能力似乎在3月和6月之间并没有真正改变。普林斯顿大学计算机科学博士候选人萨亚什·卡普尔(Sayash Kapoor)表示,这种大型语言模型并不是为了做数学而设计的,而是为了根据概率生成听起来像人类的文本。因此,GPT-4从来就不是很擅长质数识别。卡普尔推测,质数识别能力的下降可能是一种错觉。通过微调模型时使用的数据存在一个偶然的偏差,开发人员可能在3月之后让GPT-4接触了更少的质数和更多的合数,从而使它在关于质数问题上的默认答案逐渐从“是”变成了“否”。在3月和6月,GPT-4可能并没有真正评估质数性,而只是基于它从输入数据中偶然吸收的趋势,提供了最可能的答案。当被问及这是否类似于人类形成一种不好的心理习惯时,卡普尔拒绝了这个类比。他承认,神经网络确实可能形成适应不良的模式——但那是没有逻辑的。一个人的思维可能会陷入某种思维定式,因为我们理解并能对世界进行情境化,而AI则没有情境,也没有独立的理解能力。“这些模型所拥有的,只是大量数据,用于定义不同词语之间的关系,”卡普尔说道。“它只是在模仿推理,而不是真正进行推理。”

查看全文

点赞

scientific

作者最近更新

  • 我们进化的历史可以教会我们人工智能的未来
    scientific
    2023-11-11
  • “ChatGPT检测器”以前所未有的准确率识别人工智能生成的论文
    scientific
    2023-11-11
  • 人工智能需要规则,但谁将拥有制定规则的权力?
    scientific
    2023-11-07

期刊订阅

相关推荐

  • 传感器应该推进人工智能实现整体进化

    2018-12-07

  • AI结合智能手机传感器 可预测人类压力水平

    2019-07-10

  • 简单的智能玻璃揭示了人工视觉的未来

    2019-07-12

  • 英特尔开发出含800万神经元的类脑芯片系统

    2019-07-18

评论0条评论

×
私信给scientific

点击打开传感搜小程序 - 速览海量产品,精准对接供需

  • 收藏

  • 评论

  • 点赞

  • 分享

收藏文章×

已选择0个收藏夹

新建收藏夹
完成
创建收藏夹 ×
取消 保存

1.点击右上角

2.分享到“朋友圈”或“发送给好友”

×

微信扫一扫,分享到朋友圈

推荐使用浏览器内置分享功能

×

关注微信订阅号

关注微信订阅号,了解更多传感器动态

  • #{faceHtml}

    #{user_name}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 查看评论 回复

    共#{comment_count}条评论

    加载更多

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} #{reback} 回复

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 回复

  • 关闭
      广告