“多模式”GPT-4对企业意味着什么?

techmonitor 20230311

自从OpenAI在2020年6月推出GPT-3以来，关于其下一代大型语言模型GPT-4的规模、性能和能力的传闻就层出不穷。随着ChatGPT的意外成功，这一趋势更加明显。最新的传闻来自德国的微软，称该工具将能够分析并生成不仅仅是文本的内容。这将允许用户将组织结构图转换为文本报告，或从视频中创建情绪板（mood board）。OpenAI于2020年推出了GPT-3，并于去年发布了改进版本GPT-3.5。（图片由Laylistique/Shutterstock提供）微软是OpenAI的重要合作伙伴，自2019年以来已投资数十亿美元，并在其众多产品中使用了OpenAI的模型。在德国的一场活动上，微软德国技术与创新负责人安德烈亚斯·布劳恩（Andreas Braun）表示，GPT-4将在下周发布，并“将具备多模态模型，这将带来全新的可能性，例如视频处理”。据传该模型的规模可能与1750亿参数的GPT-3相当或更小，因为优化和效率提升工作取得了进展。如果属实，OpenAI将追随Meta的LLaMA模型和AI21 Labs的Jurassic-2所开启的趋势。长期流传的“GPT-4将拥有超过100万亿个参数”的传言已被OpenAI创始人萨姆·阿尔特曼（Sam Altman）驳斥。如果，正如布劳恩所说，OpenAI下一代旗舰大型语言模型具备多模态能力，这可能将成为一场革命性的技术，因为它将能够分析并生成视频、图像，甚至可能处理音频。它可用于生成多媒体输出，并从各种媒体形式中获取输入。多模态模型并不是什么新鲜事物。OpenAI自身的DALL·E就是一种多模态人工智能，它同时基于文本和图像进行训练，可以生成文本到图像或图像到图像的内容。CLIP是另一种由OpenAI开发的模型，旨在将视觉概念与语言联系起来。它通过最大化输入之间的相似性进行训练，能够进行图像分类、目标检测和图像检索。CLIP也可用于零样本学习，即在没有先前训练或示例的情况下执行任务。微软本身也在探索多模态AI模型，并于本月早些时候发布了Kosmos-1的详细信息，这是一种能够从文本和图像中提取数据的模型。多模态AI：多媒体输入与输出。除了GPT-4将大大优于非常成功的GPT-3及其临时继任者GPT-3.5（这是原始模型的微调版本）之外，几乎没有关于该模型的具体信息被公开。微软德国的评论暗示了多模态功能，这可能包括接受图像或视频输入，甚至生成电影。人工智能语音公司Vixen Labs的首席执行官詹姆斯·普尔特（James Poulter）表示，前者是最有可能的。“如果GPT-4以这种方式具备多模态功能，它将开启大量新用例。例如，可以总结长篇音频和视频，如播客和纪录片，或从大量照片数据库中提取含义和模式，并提供关于它们内容的解答。” 我们的合作伙伴内容：如何解决环境、社会和治理（ESG），打造一个更好、更可持续的企业赋能财务领导者成为变革的推动者时尚产业为何必须利用技术实现供应链可视化许多大型大型语言模型（LLM）提供商都在探索如何将其模型与知识图谱、生成式AI模型和多模态输出集成，但Poulter表示：“OpenAI在ChatGPT和GPT-3.5的采用速度上远远领先，因此在企业界和消费者信任方面处于领先地位。”订阅所有通讯注册我们的通讯，数据、洞察和分析直达您手中由《科技观察》团队提供点击此处注册人工智能开发者米哈尔·斯坦斯拉韦克（Michal Stanislawek）预测，多媒体输入最可能的用例之一是语音识别或自动音频/视频转录。这将建立在最近发布的Whisper API之上，该API可以快速将语音转录为文本，并生成合成语音。“我希望这也意味着可以发送图片，甚至视频，并基于其内容继续对话，”他说。“多模态将彻底改变人们使用AI的方式，以及它能够支持哪些新的用例。许多公司也将基于此建立。”斯坦斯拉韦克补充道，并举了例子，例如为体育比赛提供多语言合成评论员、总结实时会议和活动，以及分析图表以提取更多信息。GPT-4会是真正多模态的吗？对话式人工智能专家凯恩·西姆斯（Kane Simms）表示同意，并补充说输入的多模态比输出更有可能，但如果输出是多模态的，那将“进入有趣的领域”，这可能意味着从图像和音频文件生成视频，或从视频中创建“情绪板”。然而，法尔茅斯大学电子竞技学院的高级讲师马克·勒斯特兰奇（Mark L’Estrange）告诉《科技观察》，它不太可能在字面意义上成为真正意义上的多模态，因为这需要更多的开发和计算能力。“多模态意味着你可以给它语音提示，上传图片，给予任何输入，它都能理解，并根据上下文生成任何你想要的内容，”他说，并补充道：“目前，我们的框架还很分散。”他预测这种真正意义上的多模态终将到来，并将其称为“全模态”，在这种情况下，通过一系列输入和提示，你可以生成一个游戏原型，然后由人类通过输入和才能将其扩展为完整的游戏。“人类的输入是创造独特游戏、展现独特愿景以及从AI中选择合适输出的关键。因此，以前需要40到50人团队完成的工作，现在可能只需要20人就能完成。”即使GPT-4只具备部分多模态功能，例如接受简单图像输入并生成文本报告，对于企业来说也将意义重大。它将允许经理上传不同软件选项的性能指标图表，让AI生成完整报告；或者CEO发送组织结构图，让AI建议优化和改进以实现最佳表现。了解更多：OpenAI的ChatGPT正在引发全球人工智能的焦虑本文涉及的主题：人工智能，微软，OpenAI

查看全文

techmonitor

作者最近更新

“多模式”GPT-4对企业意味着什么?

techmonitor

期刊订阅

传感器应该推进人工智能实现整体进化

华为首款AI音箱：可通过HiLink开放协议控制19个家电品类

本田将在CES展出自动驾驶作业车和机器人新品

日本新研究：人工智能或能提前一周预测台风