自然语言处理:计算机如何学习语言

iotforall 20230720

  • 人工智能
  • 机器学习
  • 自然语言处理
插图:© IoT For All --> 你可能不太记得学习第一种语言时的许多细节,因为那时你可能年纪尚小。然而,你一定知道这过程包括学习字母表、元音、阅读书籍,以及与成人进行语言互动。如果你最近才学会一门新语言,这一过程在你的脑海中应该还很清晰。这与计算机程序学习理解和与人类语言互动的方式非常相似。这个过程被称为“自然语言处理”,在计算机能够“说话”之前,需要经历几个步骤。“如果你最近才学会一门新语言,这一过程在你的脑海中应该还很清晰。这与计算机程序学习理解和与人类语言互动的方式非常相似。”自然语言处理 让我们来看看在计算机能够理解和互动之前必须完成的步骤:数据收集 为了让计算机理解人类语言,它首先必须接触来自各种来源的大量数据,例如书籍、文章和社交媒体。随着在线数据的迅速增长,互联网已经成为训练计算机模型的庞大数据库。许多公司也开始利用这一数据库,谷歌最近更新了其隐私政策,明确指出他们可以使用任何在线数据来构建其人工智能模型。像谷歌的人工智能模型一样,我们也会利用互联网继续学习语言。即使是成年人,也会不断学习新词汇,特别是更口语化的词汇。(我最近才了解了“rizz”和“dupe”。)标记化 标记化是一种将单词或单词的一部分转换为数字/向量的方法,这些数字/向量被称为嵌入式表示,是单词的有意义表现形式。例如,在英语中,像“I run track and field after school”这样的句子可能会被标记为:“I”、“run”、“track”、“and”、“field”、“after”、“school”、“。”。这样,计算机可以逐个处理单词和标点,从而更容易理解。单词嵌入也可以相互比较,以生成理解。例如,“house”的向量会接近“home”,但远离“office”。一个学习英语的人也会以类似的方式分解句子“I run track and field after school”。第一个词会让他们了解到主语;第二个词会让他们了解到正在进行的动作;第三、四、五个词会让他们了解到这个动作的名称;第六和第七个词则会提供时间和地点的信息。数据清洗和处理 除了进行标记化之外,文本数据还会通过删除不必要的字符、标点和信息进行清洗。通常,这包括将文本统一为小写、删除像“and”和“the”这类没有太多语义的停用词,并将单词还原为基本形式。因此,以上面的句子为例,处理后的文本可能看起来像“run”、“track”、“field”和“school”。标注和标记 用于训练人工智能模型的大部分数据并未经过标注——因为这是一个资源密集型且耗时的任务——因此大多数模型以无监督的方式进行学习。然而,在某些情况下,在初步训练之后,数据会由人类进行标注。在这种情况下,人类标注者会仔细阅读文本,并添加标签或注释,以表明与词语和短语相关的含义、情感或意图。这有助于计算机理解句子的含义。我们上面提到的句子是很客观的。一个人类标注者可能会因此将其标记为中性,因为使用到的词语没有明显的感情色彩。如果我们把句子修改为“我放学后对参加田径运动感到兴奋”,一个标注者可能会将“兴奋”标注为正面情感,从而教会计算机从“兴奋”及其同义词中提取这种含义。生成式人工智能最著名的例子之一,OpenAI的ChatGPT,就曾使用人类标注者去浏览成千上万的文本片段,以标注有毒语言的例子,从而使ChatGPT能够基于这些标签进行训练,并避免在与用户互动时使用这些语言。(然而,这样一个看似良好的举措也引发了一些争议,因为OpenAI将这项工作外包给了肯尼亚的工作人员,他们每小时的工资还不到2美元,而这份工作使他们接触到了大量血腥和暴力的文本。)训练 在文本数据经过收集、清洗和标注之后,就可以将其输入到计算机模型中。计算机将学习语言模式、单词之间的关系以及这些单词的含义。部署与反馈 训练好的模型最终可以被部署用于执行语言翻译或聊天机器人的互动等任务。用户与模型的互动会被用来确保模型能够持续学习语言的新知识。终身学习过程 正如人类一样,自然语言处理对计算机模型而言也是一个终身学习的过程。在计算机模型能够以我们熟悉的Alexa、Siri、Bixby和Google Assistant那种方式与人类互动之前,必须发生许多复杂的处理过程。推文分享分享电子邮件 人工智能自动化数据分析机器学习 --> 人工智能自动化数据分析机器学习

查看全文

点赞

iotforall

作者最近更新

  • How to Implement Device Convergence for Sigfox & LoRaWAN
    iotforall
    2023-12-22
  • Edge and IoT Predictions For 2024
    iotforall
    2023-12-22
  • IoT Device Security Challenges: Calling for Consumer Vigilance
    iotforall
    2023-12-20

期刊订阅

相关推荐

  • 传感器应该推进人工智能实现整体进化

    2018-12-07

  • AI结合智能手机传感器 可预测人类压力水平

    2019-07-10

  • 简单的智能玻璃揭示了人工视觉的未来

    2019-07-12

  • 英特尔开发出含800万神经元的类脑芯片系统

    2019-07-18

评论0条评论

×
私信给iotforall

点击打开传感搜小程序 - 速览海量产品,精准对接供需

  • 收藏

  • 评论

  • 点赞

  • 分享

收藏文章×

已选择0个收藏夹

新建收藏夹
完成
创建收藏夹 ×
取消 保存

1.点击右上角

2.分享到“朋友圈”或“发送给好友”

×

微信扫一扫,分享到朋友圈

推荐使用浏览器内置分享功能

×

关注微信订阅号

关注微信订阅号,了解更多传感器动态

  • #{faceHtml}

    #{user_name}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 查看评论 回复

    共#{comment_count}条评论

    加载更多

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} #{reback} 回复

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 回复

  • 关闭
      广告