ChatGPT在软件相关问题上的回答有一半以上是错误的

techmonitor 20230810

根据普渡大学的一项新研究，ChatGPT对软件工程相关问题的回答中，超过一半是错误的。研究人员还发现，34%的用户更倾向于接受ChatGPT针对编程问题生成的答案，而不是Stack Overflow上由人类用户提供的答案，尽管这些由AI生成的答案包含错误。一位专家告诉《Tech Monitor》，如果程序员继续依赖ChatGPT来解决编码问题，他们个人的职业声誉将面临风险。ChatGPT能够用多种语言编写代码，包括Python和Java。（图片来源：Iryna Imago/Shutterstock）OpenAI于2022年11月推出了其聊天机器人，最初基于GPT-3大语言模型。此后，它推出了一个付费版本，允许用户访问GPT-4、代码解释功能以及第三方插件。该模型的基础模型也被用来为微软的GitHub代码助手Copilot提供支持，该助手被广泛使用。普渡大学的研究是首次全面分析ChatGPT对网络上常见问题的回答特点和可用性。研究团队让平台回答了517个之前发布在Stack Overflow上的问题，并且这些提问有已知的正确答案。今年早些时候，随着ChatGPT的迅速流行，Stack Overflow禁止了由AI生成的回答。当时，它描述了ChatGPT的回答“表面上看起来不错，但始终不准确”。Stack Overflow的一位发言人当时解释说：“由ChatGPT和其他生成式AI技术生成的回答对网站及其用户造成重大伤害，特别是那些正在提问并希望获得正确答案的用户。” 自第一次发布以来，OpenAI逐步改进了该平台及其底层模型，特别是通过GPT-4，但它仍然并非总是准确。Stack Overflow此后也开始接受AI，但仅作为内容分类的一种方式，而不是用来回答问题。这项新研究发现，一半的回答错误是因为ChatGPT未能正确理解问题的概念。“即使它能理解问题，它也无法展示出对解决问题方法的理解，”作者写道。“它通常关注了问题的错误部分，或者提出了一些高层次的解决方案，而没有完全理解问题的细节。”研究人员发现，ChatGPT的推理能力也有限，这导致它在没有思考结果的情况下，生成了各种解决方案、代码和公式。用户倾向于接受ChatGPT关于软件问题的回答。OpenAI随后为ChatGPT增加了一个代码解释器，允许AI在沙盒中运行生成的代码以检查错误并评估输出质量。这样，它能够验证最终回答，进行修改，并提供更准确的解决方案。然而，这一功能目前仍处于测试阶段，仅对ChatGPT Plus订阅用户开放。尽管有明显的缺点，而且77%的回答比人类贡献的更冗长，许多用户仍依赖ChatGPT来回答他们的代码问题。“由于ChatGPT的回答更加全面，语言表达也更清晰，39.34%的情况下用户仍倾向于选择它。”作者表示。“我们的研究结果表明，我们需要对ChatGPT中的错误进行仔细检查和纠正，同时也要提高用户对其表面上看似正确但可能存在问题的回答所带来风险的认识。” 合作伙伴内容 AI将为食品与饮料行业打造更具韧性的未来保险企业必须利用数据合作，以实现其商业潜力技术团队正在推动公共部门的可持续发展议程 IT情报公司Doherty Associates的企业架构主管欧文·莫里斯（Owen Morris）告诉《Tech Monitor》，在使用像ChatGPT这样的平台之前，用户应始终考虑使用AI所带来的诸多好处，以及可能存在的缺点。“像ChatGPT这样的工具是基于它们所训练的数据提供洞察的（包括网络爬虫和其他来源），它们会保留自身的偏见，因此人类的参与对于确保准确性和增加价值仍然至关重要，”莫里斯表示。“重要的是要记住充分利用你的团队，让他们贡献自己的专业知识和数据，以增强模型的适用性。” 查看所有简讯注册我们的简讯数据、洞察和分析直接送达你由《Tech Monitor》团队提供点击此处注册他警告说，如果没有人类的监督来对ChatGPT关于软件问题的回答进行背景分析和批判性评估，那么“你将有很大风险将不正确或有害的信息引入工作中，影响其质量，并更广泛地损害你的职业声誉。” 阅读更多：到明年，Gartner预测大多数AI训练数据可能是合成的本文主题：AI，ChatGPT，Stack Overflow

查看全文

techmonitor

作者最近更新

ChatGPT在软件相关问题上的回答有一半以上是错误的

techmonitor

期刊订阅

传感器应该推进人工智能实现整体进化

AI结合智能手机传感器 可预测人类压力水平

简单的智能玻璃揭示了人工视觉的未来

英特尔开发出含800万神经元的类脑芯片系统

AI结合智能手机传感器可预测人类压力水平