您的个人信息可能正在被用来训练生成式人工智能模型

scientific 20231020

  • 人工智能
  • 数据隐私
艺术家和作家对生成式人工智能系统感到义愤填膺,这是可以理解的。这些机器学习模型之所以能生成图像和文本,是因为它们经过了大量真实人类创作作品的训练,其中许多作品仍受版权保护。如今,包括OpenAI、Meta和Stability AI在内的主要AI开发公司正面临多项诉讼。这些法律诉讼也得到了独立分析的支持;例如,8月,《大西洋月刊》报道指出,Meta在其大型语言模型(LLM)的训练中部分使用了一组名为Books3的数据,其中包含超过17万本盗版和受版权保护的书籍。而这些模型的训练数据集还包括书籍以外的内容。在争相打造和训练更大AI模型的过程中,开发者们已经扫过了大部分可搜索的互联网内容。这不仅可能侵犯版权,而且威胁到数以亿计在互联网上分享信息的人的隐私。这也意味着所谓的中立模型可能是在存在偏见的数据上训练而成的。由于企业缺乏透明度,很难搞清楚公司具体是从哪里获得它们的训练数据——但《科学美国人》采访了一些AI专家,他们对这些数据的来源有一些总体认识。AI训练数据从哪里来?为了打造大型生成式AI模型,开发者们转向公共互联网。但华盛顿大学的计算语言学和语言技术研究员艾米丽·M·本德(Emily M. Bender)指出:“你不可能去一个地方下载整个互联网。”相反,开发者们通过自动化工具来收集和提取互联网上的数据,从而构建他们的训练集。网络“爬虫”在链接之间穿梭,为数据库索引信息的位置,而网络“抓取器”则下载并提取相同的信息。机器学习研究员杰西·多奇(Jesse Dodge)来自非营利组织AI研究所,他表示像谷歌母公司Alphabet这样的资金雄厚的公司,由于已有为其搜索引擎构建网络爬虫的经验,可以自行使用这些工具。其他公司则使用现有的资源,如Common Crawl,它曾为OpenAI的GPT-3提供数据,或像LAION这样的数据库,它收录了图片及其配文的链接。Common Crawl和LAION均未回应采访请求。想要使用LAION作为AI资源的公司(据多奇说,它曾是图像生成器Stable Diffusion的训练集的一部分)可以遵循这些链接,但必须自己下载内容。网络爬虫和抓取器可以轻松访问几乎所有不设登录页的地方,不包括设为私人状态的社交媒体资料。但多奇指出,如果数据在搜索引擎中或无需登录网站即可查看(如公共LinkedIn资料),仍可能被“吸”走。他补充说,还有一些内容绝对会被这些网络抓取程序收录,包括博客、个人网页和公司网站。这包括流行图片共享网站Flickr、在线市场、选民登记数据库、政府网页、维基百科、Reddit、研究数据库、新闻媒体和学术机构。此外,还有盗版内容合集和网络档案,它们通常包含已经从原始位置删除的数据。而且抓取数据库并不会消失。多奇指出:“即使2018年从一个公共网站抓取了文本,即使该网站或帖子已被删除,它仍然会被永久保存。”芝加哥大学的计算机科学家本·赵(Ben Zhao)说,有些数据爬虫和抓取工具甚至可以通过伪装成付费账户来绕过付费墙(包括科学美国人网站的付费墙)。“你可能会惊讶于这些爬虫和模型训练者为了获取更多数据会走多远,”赵说。根据《华盛顿邮报》和AI研究所的联合分析,Google的C4数据库(用于训练Google的LLM T5和Meta的LLaMA)中,付费新闻网站是排名靠前的数据来源之一。网络抓取器还可以收集令人惊讶的、来源不明的个人信息。赵指出,有一个特别醒目的例子,一位艺术家发现自己的私人诊断医学图像被包含在LAION数据库中。Ars Technica的报道证实了这位艺术家的说法,并指出相同数据集也包含数千人的医疗记录照片。我们无法确切知道这些图像为何被包含在LAION中,但赵指出,数据可能被误放,隐私设置通常也很宽松,泄露和入侵也很常见。那些原本不打算公之于众的信息,却经常出现在公共互联网上。除了这些网络抓取的数据,AI公司也可能有意地将其他来源(包括他们自己的内部数据)纳入模型训练中。OpenAI会根据用户与聊天机器人互动的数据微调其模型。Meta表示其最新的AI部分是基于公开的Facebook和Instagram帖子进行训练的。据埃隆·马斯克(Elon Musk)称,社交媒体平台X(原名Twitter)计划对其用户的内容做同样的事。亚马逊也表示,它将使用客户与Alexa对话中的语音数据训练其新的LLM。但除了这些公开信息外,公司最近几个月越来越避谈有关其数据集的细节。尽管Meta在其关于第一版LLaMA的技术论文中提供了一般的数据分解情况,但几个月后发布的LLaMA 2包含的信息远少。谷歌在其最近发布的PaLM2 AI模型中也没有明确说明其数据来源,除了提到PaLM2使用了比原始PaLM版本更多的数据进行训练。OpenAI则表示,由于竞争是主要顾虑,它不会透露GPT-4的训练数据集或训练方法的任何细节。为什么可疑的训练数据是个问题?AI模型可能会原封不动地再现用于训练它们的材料,包括敏感的个人数据和受版权保护的作品。许多广泛使用的生成式AI模型都设有阻止它们分享个人识别信息的机制,但研究人员一再证明,这些限制是可以绕过的。对于创意工作者而言,即使AI输出的内容不构成抄袭,赵表示,它们仍可能通过模仿特定艺术家独特的视觉技巧来侵占付费机会。但如果没有关于数据来源的透明度,很难将此类输出归因于AI的训练;毕竟,AI可能只是偶然“幻想”出这些有问题的内容。纽约大学的数据记者梅瑞狄斯·布鲁萨尔(Meredith Broussard)指出,训练数据缺乏透明度还引发了与数据偏见相关的严重问题。“我们都知道互联网上有精彩的内容,也有极其有毒的内容,”她说。例如,Common Crawl等数据集就包括白人至上主义网站和仇恨言论。即使来源不那么极端,其中的内容也可能促进刻板印象。此外,网络上还有大量色情内容。因此,布鲁萨尔指出,AI图像生成器往往会产生女性的性化图像。“输入有偏见,输出就有偏见,”她说。本德对此表示赞同,并指出偏见甚至更深入——深入到谁能在互联网上发布内容本身。“这将导致数据偏向富裕阶层、偏向西方社会、偏向特定年龄群体等,”她说。网络骚扰还通过迫使边缘群体离开某些网络空间,加剧了问题。本德指出,这意味着从互联网上抓取的数据无法代表现实世界的全部多样性。本德表示,很难理解一个如此依赖偏见数据的技术的价值和适当应用,特别是如果公司不坦率说明潜在的偏见来源。你能保护你的数据不被AI使用吗?不幸的是,目前几乎没有实质性地将数据排除在AI模型之外的选项。赵和他的同事开发了一种名为Glaze的工具,可以用来使图像对AI模型“不可读”。但研究人员只能在一小部分AI图像生成器上测试该工具的有效性,其用途有限。例如,它只能保护那些此前未在互联网上发布过的图像。其他内容可能已经被网络抓取工具吸走并纳入训练数据集。至于文本,目前还没有类似的工具。网站所有者可以在网站上插入数字标记,指示网络爬虫和抓取器不要收集网站数据,赵表示。但是否遵守这些指示则取决于抓取器的开发者。在加利福尼亚州和少数其他州,最近通过的数字隐私法赋予消费者请求公司删除其数据的权利。在欧盟,人们也有数据删除权。然而,斯坦福大学的隐私与数据研究员金·金(Jennifer King)指出,AI公司通常以无法证明数据来源为由,甚至直接忽视这些请求,来对抗此类请求。即使公司尊重这些请求并将你的信息从训练集中删除,赵指出,也没有明确的策略让AI模型“遗忘”它之前吸收的内容。多奇表示,要想真正将这些AI模型中所有的版权或潜在敏感信息删除,就必须有效地从头开始重新训练AI,这成本可能高达数千万美元。目前,尚无重大AI政策或法律裁决要求科技公司采取此类行动——这意味着他们没有动力回到画板重新开始。

查看全文

点赞

scientific

作者最近更新

  • 我们进化的历史可以教会我们人工智能的未来
    scientific
    2023-11-11
  • “ChatGPT检测器”以前所未有的准确率识别人工智能生成的论文
    scientific
    2023-11-11
  • 人工智能需要规则,但谁将拥有制定规则的权力?
    scientific
    2023-11-07

期刊订阅

相关推荐

  • 传感器应该推进人工智能实现整体进化

    2018-12-07

  • 华为首款AI音箱:可通过HiLink开放协议控制19个家电品类

    2020-02-21

  • 本田将在CES展出自动驾驶作业车和机器人新品

    2018-12-14

  • 日本新研究:人工智能或能提前一周预测台风

    2019-01-08

评论0条评论

×
私信给scientific

点击打开传感搜小程序 - 速览海量产品,精准对接供需

  • 收藏

  • 评论

  • 点赞

  • 分享

收藏文章×

已选择0个收藏夹

新建收藏夹
完成
创建收藏夹 ×
取消 保存

1.点击右上角

2.分享到“朋友圈”或“发送给好友”

×

微信扫一扫,分享到朋友圈

推荐使用浏览器内置分享功能

×

关注微信订阅号

关注微信订阅号,了解更多传感器动态

  • #{faceHtml}

    #{user_name}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 查看评论 回复

    共#{comment_count}条评论

    加载更多

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} #{reback} 回复

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 回复

  • 关闭
      广告