为什么日本正在打造自己的ChatGPT版本

scientific 20230920

  • 人工智能
  • 大语言模型
  • 日本
日本正在研发自己的ChatGPT版本——这是由美国公司OpenAI开发的人工智能(AI)聊天机器人,自一年前推出以来风靡全球。日本政府和大型科技公司如NEC、富士通和软银正投入数亿美元,开发基于大型语言模型(LLMs)技术的AI系统,这些系统使用日语,而非英文版本的翻译。“当前的开放LLMs,例如GPT,在英语方面表现出色,但由于字母系统差异、数据有限等其他因素,它们在日语方面往往不尽人意。”日本东北大学自然语言处理专家樱木健介(Keisuke Sakaguchi)表示。LLMs通常利用大量来自公开来源的数据,学习自然语言和文章的模式。它们被训练成根据一段文字中前文的词汇预测下一个词。ChatGPT前一版模型GPT-3的训练数据绝大多数都是英文的。ChatGPT出人意料的类人对话能力,既让研究者惊叹,也让他们担忧。有些人认为它可能成为节省人力的工具,而另一些人则担心它可能被用于伪造科学论文或数据。在日本,人们担心以其他语言数据训练的AI系统无法真正理解日本的语言和文化的复杂性。日语句子结构与英语完全不同,因此ChatGPT必须将日语查询翻译成英语,寻找答案后再将其翻译回日语。英语只有26个字母,而日语书写系统包括两套各48个基本字符,加上2136个常用汉字(kanji)。大多数汉字有两到多个读音,还有5万个左右使用频率较低的汉字。鉴于这种复杂性,ChatGPT在日语处理上偶尔出现失误并不令人意外。樱木表示:“ChatGPT有时会生成大多数人从未见过的极为罕见的汉字,产生一些奇怪的未知词汇。”文化规范要使LLMs真正有用且具有商业价值,它们需要准确反映文化和语言习惯。例如,如果ChatGPT被要求用日语写一封求职电子邮件,它可能会省略一些常见的礼貌用语,显得像是英语翻译成日语。为了评估LLMs对日本文化的敏感程度,一组研究人员推出了“乐途”(Rakuda),这是一个针对LLMs在回答日本主题开放性问题时表现的排名系统。Rakuda的共同创始人萨姆·帕萨格里亚(Sam Passaglia)和同事们曾要求ChatGPT比较标准提示下答案的流畅性和文化适配性。他们的排名工具基于一项6月发布的预印本研究,该研究显示GPT-4与人类评审者的意见一致率高达87%。目前最好的开源日语LLM在Rakuda排名中位列第四,而排名第一的无疑是GPT-4——这或许并不令人意外,毕竟GPT-4也是该排名的评判标准。东京大学研究日语模型的物理学家帕萨格里亚表示:“确实,日本LLM正在进步,但它们与GPT-4仍有很大差距。”但他认为,从理论上讲,日本的LLM未来完全有可能匹敌甚至超越GPT-4。“这在技术上并非不可逾越,而是资源投入的问题。”为了开发一个日语LLM,日本启动了一项大型项目,使用世界上最快的超级计算机之一“富岳”(Fugaku)进行训练,主要输入为日语数据。该项目由东京工业大学、东北大学、富士通以及政府资助的研究机构RIKEN共同支持,预计明年发布。该LLM将像其他开源LLM一样向所有用户开放代码,与GPT-4等专有模型不同。参与该项目的樱木表示,研究团队希望该模型至少拥有300亿个参数——这些数值会影响输出结果,并可作为衡量模型大小的指标。然而,富岳LLM可能会被规模更大的模型取代。日本文部科学省正在资助开发一个专为科研需求定制的日本AI程序,该程序将通过学习已发表的研究成果生成科学假设,加快目标识别过程。该模型的初始参数数量可能为1000亿个,约为GPT-3的一半多一些,未来将逐步扩展。RIKEN生物系统动力学研究中心副主任台地正表示,希望“大幅加快科学研究周期,拓展研究空间”。该LLM的开发成本预计至少为300亿日元(约合2.04亿美元),计划于2031年公开发布。扩大能力其他日本公司也已开始商业化,或计划商业化其LLM技术。超级计算机制造商NEC自5月起开始使用基于日语的生成式AI,并声称其可以将内部报告的创建时间缩短50%,内部软件源代码的编写时间缩短80%。7月,该公司开始向客户提供定制化的生成式AI服务。NEC数据科学实验室的高级首席研究员山田正史表示,该技术可以应用于“从金融、交通物流、分销到制造业等多个行业”。他还补充说,研究人员可以利用它来编写代码、辅助撰写和编辑论文,以及调查现有发表论文等任务。日本电信公司软银(SoftBank)正在投资约200亿日元,开发基于日语训练的生成式AI,并计划明年推出自己的LLM。拥有4000万用户、并与OpenAI投资者微软有合作关系的软银表示,其目标是帮助公司数字化业务并提高生产力。软银预计该LLM将被大学、研究机构和其他组织使用。与此同时,日本研究人员希望一个精确、高效且本土研发的AI聊天机器人能够加速科学进步,缩小日本与世界其他国家之间的差距。东京庆应大学医学院的医疗技术研究员木下翔太(Shotaro Kinoshita)表示:“如果能制作出准确的ChatGPT日语版,预计将对希望学习日语或研究日本的人带来更好的成果。”他补充道:“这可能会对国际联合研究产生积极影响。”本文经授权转载,最初于2023年9月14日发表。

查看全文

点赞

scientific

作者最近更新

  • 我们进化的历史可以教会我们人工智能的未来
    scientific
    2023-11-11
  • “ChatGPT检测器”以前所未有的准确率识别人工智能生成的论文
    scientific
    2023-11-11
  • 人工智能需要规则,但谁将拥有制定规则的权力?
    scientific
    2023-11-07

期刊订阅

相关推荐

  • 传感器应该推进人工智能实现整体进化

    2018-12-07

  • 华为首款AI音箱:可通过HiLink开放协议控制19个家电品类

    2020-02-21

  • 本田将在CES展出自动驾驶作业车和机器人新品

    2018-12-14

  • 日本新研究:人工智能或能提前一周预测台风

    2019-01-08

评论0条评论

×
私信给scientific

点击打开传感搜小程序 - 速览海量产品,精准对接供需

  • 收藏

  • 评论

  • 点赞

  • 分享

收藏文章×

已选择0个收藏夹

新建收藏夹
完成
创建收藏夹 ×
取消 保存

1.点击右上角

2.分享到“朋友圈”或“发送给好友”

×

微信扫一扫,分享到朋友圈

推荐使用浏览器内置分享功能

×

关注微信订阅号

关注微信订阅号,了解更多传感器动态

  • #{faceHtml}

    #{user_name}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 查看评论 回复

    共#{comment_count}条评论

    加载更多

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} #{reback} 回复

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 回复

  • 关闭
      广告