人工通用智能并不像你想象的那样即将到来
对普通大众而言,人工智能领域似乎正取得巨大进展。根据新闻稿以及一些夸张的媒体报道,OpenAI的DALL-E 2似乎可以从任何文字中生成惊人的图像;另一款OpenAI系统GPT-3几乎能谈论任何话题;而DeepMind于5月发布的系统Gato,似乎在面对公司所能抛出的所有任务时都表现良好。DeepMind的一位高管甚至夸口说,在追求具备人类智能灵活性与创造力的人工通用智能(AGI)的征程中,“游戏已经结束了!” 而埃隆·马斯克最近表示,如果到2029年我们仍未拥有AGI,他会感到惊讶。别被这些表象误导。机器可能终有一天会与人一样聪明,甚至比人更聪明,但“游戏”远未结束。要让机器真正理解并推理周围世界,还有大量工作要做。我们现在真正需要的,是少一些炫耀,多一些基础研究。诚然,人工智能在某些方面确实取得了进展——合成图像越来越逼真,语音识别在嘈杂环境中也能奏效——但我们距离能够真正理解文章和视频含义,或应对意外障碍和中断的通用型、人类级人工智能,仍相距甚远。我们仍然被困在学术科学家(包括我自己)多年来指出的相同挑战上:让AI变得可靠,并使其能够应对非常规情况。以近期备受赞誉的Gato为例,这个所谓的“通才”系统曾对一张投掷棒球的投手图像进行描述,却给出了三个不同的答案:“一个棒球运动员在棒球场上投球”、“一个男人在棒球场上向投手投掷棒球”以及“一个棒球运动员击球,而捕手则在比赛中跪在地上”。第一个答案是正确的,但其他两个答案却出现了图像中并未显示的其他球员的幻觉。这个系统无法分辨图像中真实存在的内容,而只是基于相似图像的典型场景进行猜测。任何棒球爱好者都能看出,这显然是一个刚投出球的投手,而不是相反的情况——尽管我们知道击球手和捕手应该在附近,但他们显然并未出现在图中。图片说明:来自纽约的蓝人(Bluesguy)/Flickr。 “一个棒球运动员在棒球场上投球。” “一个男人在棒球场上向投手投掷棒球。” “一个棒球运动员击球,而捕球手则在比赛中跪在地上。” 同样,DALL-E 2无法区分红色立方体在蓝色立方体上,还是蓝色立方体在红色立方体上。5月发布的更新版本甚至无法区分宇航员骑马和马骑宇航员的区别。图片说明:来自Chitwan Saharia等人的论文《Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding》。预印本发布于2022年5月23日在线。 当像DALL-E这样的系统出错时,结果可能只是让人发笑,但其他AI系统的错误却会造成严重问题。再举一个例子,一辆自动驾驶的特斯拉最近直接驶向一位在路中间举着停车标志的人类工人,直到人工司机介入才减慢速度。系统能够识别人类(因为他们出现在训练数据中)和通常位置的停车标志(同样因为他们出现在训练图像中),但当两者以不寻常的组合出现时,它却无法减慢速度,因为停车标志被放在了一个新且不寻常的位置。不幸的是,这些系统仍无法实现可靠性,并在面对新情况时挣扎不前,这种情况往往被埋没在细节说明中。Gato在DeepMind报告的所有任务中表现良好,但很少能与其它同期系统媲美。GPT-3常常生成流畅的文本,但在基本的算术上仍然困难重重,而且由于对现实的理解极其有限,它会生成诸如“一些专家认为吃袜子有助于大脑从冥想后的改变状态中恢复过来”之类的句子,而实际上没有任何专家说过类似的话。粗略浏览最近的新闻头条,并不会让你知道这些问题是存在的。 这里还有一个次要情节:目前最大的AI研究团队不再出现在曾以同行评审为王道的学术界,而是出现在公司。而公司与大学不同,它们没有公平竞争的动机。它们不再将引人注目的新论文提交给学术界审查,而是选择通过新闻稿发布,吸引记者,绕过同行评审过程。我们只知道公司希望我们知道的内容。在软件行业,这种策略有一个专门的术语:演示软件(demoware),即专为演示而设计的软件,不一定适用于现实世界。这类软件常常演变为“虚拟软件”(vaporware):为了震慑竞争对手而高调宣布,但从未真正发布。不过,鸡终究还是会回到鸡窝的。冷聚变听起来不错,但你仍然无法在商场里买到。AI领域的代价可能是期望值的寒冬。太多产品,比如无人驾驶汽车、自动放射科医生和万能数字助手,都被演示、宣传,却从未真正交付。目前,投资资金仍然源源不断地涌入承诺之中(谁不愿意拥有自动驾驶汽车呢?),但如果可靠性和处理异常情况的核心问题没有解决,投资将干涸。我们将剩下强大的深度伪造图像,巨大的网络产生大量碳排放,以及在机器翻译、语音识别和目标识别方面的坚实进展,但除此之外,对所有过早炒作的回报却少之又少。深度学习确实提升了机器从数据中识别模式的能力,但它有三个主要缺陷:它所学习的模式讽刺性地是表面的而非概念性的;它的结果难以解释;而且难以在记忆和推理等其他处理过程中使用。正如哈佛计算机科学家Les Valiant所指出的:“未来的核心挑战是统一……学习和推理的形成方法。” 如果你甚至不真正理解“停车标志”是什么,就无法处理一个人拿着停车标志的情况。目前,我们被困在一种“局部最优”状态中:公司追求基准指标,而非基础理念,他们只在现有技术上做出微小改进,而不是停下来提出更根本的问题。我们需要的不是那些追求炫酷媒体演示的工程师,而是更多人去提出基本的问题,思考如何构建既能学习又能推理的系统。相反,当前的工程实践远远领先于科学技能,他们更努力地使用尚未完全理解的工具,而不是去开发新工具和更清晰的理论基础。这就是为什么基础研究仍然至关重要。令人伤心的是,AI研究界的一部分人(比如那些高喊“游戏结束”的人)甚至没有意识到这一点。 设想一下,如果某个外星人只通过观察地面上的阴影来研究人类所有互动,它注意到某些阴影比其他阴影更大,所有阴影在夜晚消失,甚至可能注意到阴影在某些周期性的时间段内反复变大和变小——但它从未抬头看看太阳,也未认识到头顶上那个三维世界。现在,是时候让人工智能研究者们抬起头了。我们不能仅靠公关来“解决AI”。本文为评论和分析文章,作者的观点不一定代表《科学美国人》杂志的立场。
查看全文
作者最近更新
-
我们进化的历史可以教会我们人工智能的未来scientific2023-11-11
-
“ChatGPT检测器”以前所未有的准确率识别人工智能生成的论文scientific2023-11-11
-
人工智能需要规则,但谁将拥有制定规则的权力?scientific2023-11-07
评论0条评论