什么是大语言模型(LLM)?
插图:© IoT For All --> 想象一下,你可以像跟朋友聊天一样,与你的电脑或手机交谈。你可以提问,开玩笑,讨论各种话题。听起来像是科幻小说吗?实际上,大型语言模型正在做这件事。像OpenAI的GPT-4、Google的PaLM 2或者Meta的LLaMA这样的大型语言模型,是一种人工智能,旨在根据接收到的提示生成类似人类的文本。我们来看看大型语言模型的组成部分,以及我们如何开始与这种技术进行对话。“像OpenAI的GPT-4、Google的PaLM 2或Meta的LLaMA这样的大型语言模型,是一种人工智能,旨在根据接收到的提示生成类似人类的文本。”大型语言模型的组件模型架构:这指的是人工智能模型的基本设计。例如,GPT-4基于Transformer架构,这是一种使用自注意力机制的神经网络设计。训练:这个过程包括让模型接触一个庞大的数据集(通常来自互联网),并优化其参数以预测句子中的下一个词。通过这一过程,模型可以学习语法、关于世界的事实,甚至推理。模型大小:模型的“大型”指的是它学习和保存信息的能力,它直接与模型所拥有的参数数量(基本计算单元)有关。大型模型可以拥有数十亿甚至数万亿个参数,这使它们能够生成更细微、更符合上下文的文本。模仿与理解:大型语言模型的主要功能是通过预测下一个词来回答问题和进行对话。例如,如果你对我说“从前有”,你可能会接着说“一个时间”。这就是大型语言模型所做的工作。如果你觉得这听起来像是一项简单的任务,请考虑以下内容:英语目前有超过17万个单词,在任何给定的上下文中,其中很多都可能是下一个词的合理选择。这些模型必须通过考虑语法规则、上下文,甚至文化细微差别来学习哪个词最有可能出现。需要记住的是,尽管这些模型功能强大,但它们实际上并不理解它们生成的内容。这就像一只鹦鹉,可以完美地模仿人类的语言,却不理解它在说什么。这些模型也没有情感、信念或欲望。它们也可能会产生不准确的内容。大型语言模型的一个应用是代码补全。例如,GitHub Copilot通过在代码编写时建议行或代码块的补全来协助软件开发人员。它通过OpenAI的Codex来实现这一点。以下是由GPT-4编写的二叉树深度优先搜索(DFS)的简单Python实现:代码补全你知道一个大型语言模型 _____ 是什么吗?大型语言模型因ChatGPT而吸引了全世界,每天都有新的应用出现。大型语言模型是我们迄今为止与计算机进行真实对话最接近的技术。它们是一种令人着迷的技术,使我们能够以全新的方式与机器互动。然而,像所有技术一样,它们也有局限性。因此,请有策略地使用它们,看看你能创造什么价值。分享分享电子邮件人工智能自动化机器学习 --> 人工智能自动化机器学习
查看全文
作者最近更新
-
Edge and IoT Predictions For 2024iotforall2023-12-22
评论0条评论