多模态AI系统能在文本中直接创建图像

控制工程小咖 20210318

  • 人工智能
  • 自然语言处理
  • 图像生成
1月5日,人工智能(AI)研究组织OpenAI重磅推出了最新的语言模型DALL·E和图像识别系统CLIP。

  1月5日,人工智能(AI)研究组织OpenAI重磅推出了最新的语言模型DALL·E和图像识别系统CLIP。

  这两个模型是OpenAI第三代语言生成器的一个分支。两种神经网络都旨在生成能够理解图像和相关文本的模型。OpenAI希望这些升级后的语言模型能够以接近人类解释世界的方式来解读图像。

  2020年5月,OpenAI发布了迄今为止全球规模最大的预训练语言模型GPT-3。GPT-3具有1750亿参数,训练所用的数据量达到45TB。对于所有任务,应用GPT-3无需进行任何梯度更新或微调,仅需要与模型文本交互为其指定任务和展示少量演示即可使其完成任务。

  GPT-3在许多自然语言处理数据集上均具有出色的性能,包括翻译、问答和文本填空任务,还包括一些需要即时推理或领域适应的任务等,已在很多实际任务上大幅接近人类水平。

  新发布的语言模型DALL·E,是GPT-3的120亿参数版本,可以按照自然语言文字描述直接生成对应图片!

  这个新系统的名称DALL·E,来源于艺术家萨尔瓦多·达利(Salvador Dali)和皮克斯的机器人英雄瓦力(WALL-E)的结合。新系统展示了“为一系列广泛的概念”创造图像的能力,可从文字标题直接创建图像以表达概念。通过从文本描述而不是标签数据生成图像,可以为模型提供了更多有关含义的上下文。

  开发人员将DALL·E称为“转换语言模型”(transformer language model),能够将文本和图像作为单个数据流接收。这种训练程序使得DALL·E不仅可以从零开始生成图像,而且还可以重新生成现有图像的任何矩形区域…….以一种与文本提示一致的方式。

  这种语言模型能够反映人类语言的微妙之处,包括 "将不同的想法结合起来合成物体的能力"。例如,在DALL·E模型中输入“牛油果形状的扶手椅”,它就可以生成这样的图片:




  DALL·E还扩展了被称为“零样本推理”(zero-shotreasoning)的GPT-3功能,这是一种强大的常识性机器学习形式。DALL·E将这一功能扩展到了视觉领域,并且在以正确的方式提示时能够执行多种图像到图像的翻译任务。




  图像识别系统CLIP的通用性比当前针对单个任务的系统更好,可以用网上公开的文字图像配对数据集来训练。CLIP系统可用于对比语言-图像预训练,通过从网络图像中收集的自然语言监督学习视觉概念。OpenAI表示CLIP的工作方式是提供要识别的视觉类别的名称。

  当将其应用于图像分类基准时,可以指示模型执行一系列基准,而无需针对每个测试进行优化。OpenAI表示:“通过不直接针对基准进行优化,我们证明它变得更具代表性。” CLIP方法可将“稳健性差距”缩小多达75%。



  OpenAI 联合创始人、首席科学家 Ilya Sutskever认为,人工智能的长期目标是构建多模态神经网络,即AI能够学习不同模态之间的概念(文本和视觉领域为主),从而更好地理解世界,而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

  未来,我们将拥有同时理解文本和图像的模型。人工智能将能够更好地理解语言,因为它可以看到单词和句子的含义。

声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请与我们联系,我们将及时更正、删除,谢谢。

查看全文

点赞

控制工程小咖

作者最近更新

  • 艾里逊变速箱成为徐工新型全地面起重机独家供应商
    控制工程小咖
    2022-10-26
  • 深石零碳科技COO纪文轩:中国存量建筑绿色转型加速,要考虑两大因素
    控制工程小咖
    2022-10-26
  • 美国发布2022版《国家先进制造业国家》
    控制工程小咖
    2022-10-26

期刊订阅

相关推荐

  • 传感器应该推进人工智能实现整体进化

    2018-12-07

  • 华为首款AI音箱:可通过HiLink开放协议控制19个家电品类

    2020-02-21

  • 本田将在CES展出自动驾驶作业车和机器人新品

    2018-12-14

  • 日本新研究:人工智能或能提前一周预测台风

    2019-01-08

评论0条评论

×
私信给控制工程小咖

点击打开传感搜小程序 - 速览海量产品,精准对接供需

  • 收藏

  • 评论

  • 点赞

  • 分享

收藏文章×

已选择0个收藏夹

新建收藏夹
完成
创建收藏夹 ×
取消 保存

1.点击右上角

2.分享到“朋友圈”或“发送给好友”

×

微信扫一扫,分享到朋友圈

推荐使用浏览器内置分享功能

×

关注微信订阅号

关注微信订阅号,了解更多传感器动态

  • #{faceHtml}

    #{user_name}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 查看评论 回复

    共#{comment_count}条评论

    加载更多

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} #{reback} 回复

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 回复

  • 关闭
      广告