为什么日本正在打造自己的ChatGPT版本

scientific 20230920

日本正在研发自己的ChatGPT版本——这是由美国公司OpenAI开发的人工智能（AI）聊天机器人，自一年前推出以来风靡全球。日本政府和大型科技公司如NEC、富士通和软银正投入数亿美元，开发基于大型语言模型（LLMs）技术的AI系统，这些系统使用日语，而非英文版本的翻译。“当前的开放LLMs，例如GPT，在英语方面表现出色，但由于字母系统差异、数据有限等其他因素，它们在日语方面往往不尽人意。”日本东北大学自然语言处理专家樱木健介（Keisuke Sakaguchi）表示。LLMs通常利用大量来自公开来源的数据，学习自然语言和文章的模式。它们被训练成根据一段文字中前文的词汇预测下一个词。ChatGPT前一版模型GPT-3的训练数据绝大多数都是英文的。ChatGPT出人意料的类人对话能力，既让研究者惊叹，也让他们担忧。有些人认为它可能成为节省人力的工具，而另一些人则担心它可能被用于伪造科学论文或数据。在日本，人们担心以其他语言数据训练的AI系统无法真正理解日本的语言和文化的复杂性。日语句子结构与英语完全不同，因此ChatGPT必须将日语查询翻译成英语，寻找答案后再将其翻译回日语。英语只有26个字母，而日语书写系统包括两套各48个基本字符，加上2136个常用汉字（kanji）。大多数汉字有两到多个读音，还有5万个左右使用频率较低的汉字。鉴于这种复杂性，ChatGPT在日语处理上偶尔出现失误并不令人意外。樱木表示：“ChatGPT有时会生成大多数人从未见过的极为罕见的汉字，产生一些奇怪的未知词汇。”文化规范要使LLMs真正有用且具有商业价值，它们需要准确反映文化和语言习惯。例如，如果ChatGPT被要求用日语写一封求职电子邮件，它可能会省略一些常见的礼貌用语，显得像是英语翻译成日语。为了评估LLMs对日本文化的敏感程度，一组研究人员推出了“乐途”（Rakuda），这是一个针对LLMs在回答日本主题开放性问题时表现的排名系统。Rakuda的共同创始人萨姆·帕萨格里亚（Sam Passaglia）和同事们曾要求ChatGPT比较标准提示下答案的流畅性和文化适配性。他们的排名工具基于一项6月发布的预印本研究，该研究显示GPT-4与人类评审者的意见一致率高达87%。目前最好的开源日语LLM在Rakuda排名中位列第四，而排名第一的无疑是GPT-4——这或许并不令人意外，毕竟GPT-4也是该排名的评判标准。东京大学研究日语模型的物理学家帕萨格里亚表示：“确实，日本LLM正在进步，但它们与GPT-4仍有很大差距。”但他认为，从理论上讲，日本的LLM未来完全有可能匹敌甚至超越GPT-4。“这在技术上并非不可逾越，而是资源投入的问题。”为了开发一个日语LLM，日本启动了一项大型项目，使用世界上最快的超级计算机之一“富岳”（Fugaku）进行训练，主要输入为日语数据。该项目由东京工业大学、东北大学、富士通以及政府资助的研究机构RIKEN共同支持，预计明年发布。该LLM将像其他开源LLM一样向所有用户开放代码，与GPT-4等专有模型不同。参与该项目的樱木表示，研究团队希望该模型至少拥有300亿个参数——这些数值会影响输出结果，并可作为衡量模型大小的指标。然而，富岳LLM可能会被规模更大的模型取代。日本文部科学省正在资助开发一个专为科研需求定制的日本AI程序，该程序将通过学习已发表的研究成果生成科学假设，加快目标识别过程。该模型的初始参数数量可能为1000亿个，约为GPT-3的一半多一些，未来将逐步扩展。RIKEN生物系统动力学研究中心副主任台地正表示，希望“大幅加快科学研究周期，拓展研究空间”。该LLM的开发成本预计至少为300亿日元（约合2.04亿美元），计划于2031年公开发布。扩大能力其他日本公司也已开始商业化，或计划商业化其LLM技术。超级计算机制造商NEC自5月起开始使用基于日语的生成式AI，并声称其可以将内部报告的创建时间缩短50%，内部软件源代码的编写时间缩短80%。7月，该公司开始向客户提供定制化的生成式AI服务。NEC数据科学实验室的高级首席研究员山田正史表示，该技术可以应用于“从金融、交通物流、分销到制造业等多个行业”。他还补充说，研究人员可以利用它来编写代码、辅助撰写和编辑论文，以及调查现有发表论文等任务。日本电信公司软银（SoftBank）正在投资约200亿日元，开发基于日语训练的生成式AI，并计划明年推出自己的LLM。拥有4000万用户、并与OpenAI投资者微软有合作关系的软银表示，其目标是帮助公司数字化业务并提高生产力。软银预计该LLM将被大学、研究机构和其他组织使用。与此同时，日本研究人员希望一个精确、高效且本土研发的AI聊天机器人能够加速科学进步，缩小日本与世界其他国家之间的差距。东京庆应大学医学院的医疗技术研究员木下翔太（Shotaro Kinoshita）表示：“如果能制作出准确的ChatGPT日语版，预计将对希望学习日语或研究日本的人带来更好的成果。”他补充道：“这可能会对国际联合研究产生积极影响。”本文经授权转载，最初于2023年9月14日发表。

查看全文

scientific

作者最近更新

我们进化的历史可以教会我们人工智能的未来

scientific

2023-11-11
“ChatGPT检测器”以前所未有的准确率识别人工智能生成的论文

scientific

2023-11-11
人工智能需要规则，但谁将拥有制定规则的权力？

scientific

2023-11-07

为什么日本正在打造自己的ChatGPT版本

scientific

期刊订阅

传感器应该推进人工智能实现整体进化

华为首款AI音箱：可通过HiLink开放协议控制19个家电品类

本田将在CES展出自动驾驶作业车和机器人新品

日本新研究：人工智能或能提前一周预测台风