哪些公司正在开发LLMs和ChatGPT替代品?
目前,大型科技公司正纷纷试图复制ChatGPT的成功。ChatGPT是由OpenAI利用其GPT-3大型语言模型开发的生成式人工智能聊天机器人。正如以往的潜在颠覆性技术(如基于云的软件即服务SaaS平台或区块链技术)一样,无论是大型公司还是初创企业,都在积极推出大型语言模型(LLM)和ChatGPT的替代品,生怕落后于潮流。尽管其中许多项目会取得成功——有的面向大众市场,有的则专注于特定领域——但随着市场逐渐整合,也有许多项目很可能会失败。那么,哪些公司具备实力挑战OpenAI呢?Meta推出了自己的大型语言模型LLaMA。(图片由Shutterstock/Koshiro K提供) **目录** 具备大型语言模型项目的公司 - Google – LaMDA - AI21 – Jurassic-2 - Anthropic – Claude - 百度 – ERNIE 3.0 - Nvidia – DGX AI - DeepMind – Chinchilla - Meta – LLaMA **具备大型语言模型项目的公司** **Google – LaMDA** Google的LaMDA是除了GPT-3之外,最受主流媒体关注的大型语言模型。不过,它引起关注的原因却与GPT-3略有不同。早在2022年底ChatGPT成为全国媒体报道焦点之前,LaMDA就因Google工程师Blake Lemoine声称其“具有意识”而引发争议,尽管后来被证明这一说法是错误的。实际上,LaMDA与主要竞争对手运作方式类似,但其参数量为1370亿,少于用于训练ChatGPT的GPT-3.5的1750亿参数。此外,LaMDA也是Google聊天机器人Bard的基础,Bard目前正在与精选用户进行搜索测试。然而,Bard的起步并不顺利,因为在发布活动中它出现了一个事实性错误。**AI21 – Jurassic-2** 以色列初创公司AI21尽管不如其竞争对手OpenAI知名,但它在市场中仍是一个有力的挑战者。该公司于2021年创建了参数量与GPT-3.5相近(1780亿对1750亿)的大型语言模型Jurassic-2,并具备定制化功能。2023年3月,AI21推出了Jurassic-2的优化版本,相较之前更注重性能而非规模。据AI21称,Jurassic-2的最小版本甚至在性能上超过了其前身的最大版本。此外,该模型还将包含语法校正API和文本分割功能。**订阅我们的所有新闻通讯** 注册我们的新闻通讯 由《科技观察》团队为您送上数据、洞察与分析 立即注册 使用AI21 Studio的用户可以仅用50至100个训练样本来训练自己的大型语言模型版本,并可用于独家使用。AI21还部署了Jurassic-1和Jurassic-2,用以支持其聊天机器人WordTune Spices,该机器人作为ChatGPT的替代品,其优势在于使用实时数据检索并引用来源。鉴于大型语言模型聊天机器人在事实错误和抄袭方面存在风险,这一功能在竞争日益激烈的市场中具有显著优势。**Anthropic – Claude** Anthropic由前OpenAI员工创立,正在迅速崛起,成为其“准前辈”的有力竞争对手。这家公司推出了自己的大型语言模型Claude,其ChatGPT替代产品宣称采用所谓的“宪法AI”(Constitutional AI)。实际上,该模型的设计原则是根据编程的准则(即其“宪法”)进行操作,而不同于ChatGPT,后者则禁止回答某些争议性或危险的问题。Google对Anthropic的投资金额达3亿美元,以换取公司10%的股份,这与微软对OpenAI的投资模式相似。**百度 – ERNIE 3.0** 百度——中国的“Google”——正通过重金投入人工智能来对抗长期竞争对手腾讯。百度团队已将ERINE 3.0大型语言模型扩展为新版本ERINE 3.0 Titan。其前一版本仅有100亿参数,而Titan基于PaddlePaddle平台运行,参数量达到2600亿。Titan的开发者声称,这是“迄今最大的密集预训练模型”,并在自然语言处理(NLP)任务中的表现优于现有最先进模型。**Nvidia – DGX AI** 软硬件供应商Nvidia目前是ChatGPT运行的核心,据估计,有大约10000块Nvidia GPU被用于训练该聊天机器人,未来预计还会有30000块用于训练。然而,这种格局可能会发生变化。2023年2月,Nvidia CEO黄仁勋宣布,公司计划通过云端提供其DGX AI超级计算机。该AI超级计算机目前已通过Oracle云基础设施和微软Azure提供,其容量足以让客户训练自己的大型语言模型。随着谷歌和微软等公司寻找训练所需的GPU,Nvidia也从中获得了财务上的提升。**DeepMind – Chinchilla** 英国人工智能公司DeepMind(Alphabet子公司)以其AlphaGo程序而闻名,现在正在大力投入大型语言模型的研究与开发。DeepMind迭代了多种大型语言模型,包括Gopher、Chinchilla以及结合外部数据库的RETRO系统。这种实验正在推动更精准、更节能的大型语言模型发展。例如,Chinchilla的参数量仅为700亿,虽然远低于其他模型的两倍、三倍甚至更多,但其在某些任务上却能超越更大的Gopher模型。同理,拥有75亿参数的RETRO,其外部数据库也使其在某些任务上能胜过大规模模型。**Meta – LLaMA** Meta并未满足于仅专注于元宇宙,它还通过LLaMA模型进入了大型语言模型领域。尽管扎克伯格的公司尚未推出公开的ChatGPT替代产品,但相关产品正在开发中。与许多其他模型不同,这个650亿参数的模型已开源(但需申请),旨在促进知识共享和众包式漏洞修复。然而,仅在推出一周后,4Chan网站泄露了该模型的下载文件,引发了人们对这种无限制访问可能被用于网络钓鱼和其他网络犯罪活动的担忧。**进一步阅读:** GPT-4将如何被监管
查看全文
作者最近更新
评论0条评论