算法正在做出重要决策。可能会出什么问题呢?
我们是否真的能信任算法为我们做决定?以往研究表明这些程序会强化社会上有害的偏见,但问题远不止于此。最近一项研究显示,设计用于检测某人违反政策规则的机器学习系统(例如违反着装规定),其判断的严格或宽松程度取决于人类标注训练数据时看似微小的差异。尽管存在众所周知的缺陷,算法已用于推荐公司录用哪些人、哪些患者获得医疗优先权、保释金的设定、观看哪些电视节目和电影、贷款、租赁和大学录取审批,以及将哪些任务分配给零工劳动者等重要决策。这类自动化系统通过承诺加速决策、减少积压、进行更客观评估和节省成本,正在以惊人的速度和范围被广泛采用。然而实际上,新闻报道和研究已显示这些算法容易犯一些令人警觉的错误。它们的决定可能对人们的生活造成不良且长期的后果。这个问题的一个方面在一项最新研究中得到了突出,这项研究发表在今年春季的《科学进展》杂志上。在研究中,研究人员训练样例算法系统自动判断某项规则是否被违反。例如,其中一个机器学习程序分析了人们的照片,以判断其着装是否违反了办公室的着装规定,另一个则判断学校食堂的餐食是否符合标准。然而,每个样例程序都有两个版本,由人类程序员以略有不同的方式为每个版本的训练图像打上了标签。在机器学习中,算法在训练过程中使用这些标签来学习如何分类其他类似数据。在着装规定模型中,其中一个违规条件是“短裤或短裙”。该模型的第一个版本使用了由人类标注者按照相关规则描述的照片进行训练,例如他们会直接指出某张图片是否包含“短裙”——基于这个描述,研究人员随后将这张照片标记为规则违规。而在另一个版本中,研究人员向标注者说明了着装规定政策,并直接要求他们查看照片并判断哪些着装违反了规定。然后根据这一判断对照片进行相应标记以用于训练。虽然两个版本的自动化决策系统都基于相同规则,但它们得出了不同的判断:以描述性数据训练的版本做出了更加严厉的判决,更倾向于认定某件服装或餐食违反了规定。“所以如果你用描述性标签重新构建违规标签,就会得到更高的预测违规率,从而做出更严厉的决定,”研究合著者、麻省理工学院的博士生阿帕娜·巴拉戈帕兰说。这些差异可以归因于人类标注者,他们如果被要求描述图像或判断图像是否违反了规定时,会以不同的方式为训练数据打标签。例如,研究中的一个模型被训练用于管理在线论坛的评论。其训练数据由标注者以描述性方式(例如指出某段文字是否包含“关于种族、性取向、性别、宗教或其他敏感个人特征的负面评论”)或以判断性方式(例如指出某段文字是否违反了论坛禁止此类负面评论的规定)标注。标注者更倾向于描述某段文字是否包含关于这些主题的负面评论,而不是判定其是否违反了规定——可能因为他们认为在不同条件下他们的标注会产生不同的后果。研究人员指出,描述性错误只是对世界的错误描述,而判断性错误可能会影响另一个人。研究的标注者在模糊的描述性事实上也存在分歧。例如,基于短裤短裙判断着装规定时,“短”这个词显然具有主观性——而这样的标签会直接影响机器学习系统做出的决策。当模型仅凭事实的有无来推断规则违规时,它们就无法容纳模糊空间或深思熟虑。而当它们直接从人类学习时,就会纳入标注者的人类灵活性。“这为一个常常不仔细审查标注实践就使用数据集的领域敲响了警钟,并强调了在自动化决策系统中,尤其是在遵守社会规则至关重要的情境中,谨慎的必要性,”合著者、麻省理工学院的计算机科学家马兹耶·格哈塞米和巴拉戈帕兰的导师说。最近的这项研究突显了训练数据以意想不到的方式如何使决策算法产生偏差——除了已知的训练数据偏见问题之外。例如,在2020年的一次会议上,研究人员发现印度新德里的一套预测性警务系统使用的数据对移民社区和少数群体存在偏见,可能导致对这些社区的监控不成比例地增加。“算法系统基本上是根据过去数据推断出下一个答案。因此,它们根本无法想象一个不同的未来,”阿里·阿尔卡提布说,他曾任职于旧金山大学应用数据伦理中心,是人机交互领域的研究员,但并未参与2020年论文或这项新研究。“过去的官方记录可能无法反映当今的价值观,这意味着将其转化为训练数据会使得远离种族主义和其他历史性不公变得困难。”此外,当算法没有考虑到训练数据以外的新情况时,它们也会做出错误的决定。这也会对边缘群体造成伤害,因为这些群体在数据集中往往代表性不足。例如,自2017年起,一些LGBTQ+的YouTube创作者表示,当他们的视频标题包含“跨性别”等词语时,他们的视频就会被隐藏或取消广告收益。YouTube使用算法来判断哪些视频违反了其内容指南,而该公司(被谷歌拥有)表示,它在2017年改善了该系统,以更好地避免意外过滤,并随后否认“跨性别”等词语是触发其算法限制视频的原因。“我们的系统在评估视频的广告收益或受限模式时,有时会误解语境和细微差别。这就是为什么我们鼓励创作者在认为我们出错时提出申诉,”谷歌发言人通过电子邮件对《科学美国人》表示。“当我们犯了错误时,我们会采取补救措施,并常常进行根本原因分析,以确定需要做出哪些系统性改变来提高准确性。”算法还可能在它们依赖替代变量而不是实际要判断的信息时出错。2019年的一项研究发现,美国广泛使用的一种医疗计划入学决策算法,将与黑人患者具有相同健康状况的白人患者分配了更高的评分,从而给予白人患者更多的关注和资源。该算法使用过去的医疗费用,而不是实际疾病,作为医疗需求的替代变量——而平均来看,白人患者花费的费用更高。“将替代变量与我们想要预测的内容匹配……是至关重要的,”巴拉戈帕兰说。开发或使用自动决策系统的人在未来一段时间内可能不得不面对这些问题。“无论有多少数据,无论你控制世界多少,世界本身的复杂性实在太大,”阿尔卡提布说。人权观察的一份最新报告展示了约旦政府实施的一个世界银行资助的扶贫项目如何使用有缺陷的自动化分配算法来决定哪些家庭获得现金补助。该算法根据收入、家庭开支和就业历史等信息评估家庭的贫困程度。但现实生活是复杂的,不符合精确标准的家庭即使有困难也可能被排除在外。例如,如果一个家庭拥有汽车——这通常是获得工作、运输水和柴火的必需品——他们获得援助的可能性会比没有汽车的类似家庭低,并且如果车辆不到五年,家庭就会被拒绝,据报告称。决策算法难以处理这些现实中的细微差别,这可能导致它们无意间造成伤害。实施塔卡福尔计划的约旦国家援助基金在截稿前未回应采访请求。研究人员正在研究各种防止这些问题的方法。“应该将证明自动决策系统无害的举证责任转移给开发者,而不是使用者,”普林斯顿大学研究算法偏见的博士生安吉莉娜·王说。研究人员和从业者呼吁对这些算法有更高的透明度,例如它们使用了哪些数据,这些数据是如何收集的,模型的使用场景是什么,以及算法性能应该怎样评估。一些研究人员认为,与其在算法对个人生活造成影响后再进行纠正,不如给人们申诉算法决定的机会。“如果我知道我正被一个机器学习算法评判,我可能会想知道该模型是否是以特定方式对与我相似的人群进行训练的,”巴拉戈帕兰说。其他人呼吁制定更严格的法规,以对算法制造者对其系统输出结果负责。“但问责只有在某人拥有实际调查这些系统并有能力抵抗算法的权力时才有意义,”阿尔卡提布说。“非常有必要不要相信这些系统比你自己更了解你自己。”
查看全文
作者最近更新
-
我们进化的历史可以教会我们人工智能的未来scientific2023-11-11
-
“ChatGPT检测器”以前所未有的准确率识别人工智能生成的论文scientific2023-11-11
-
人工智能需要规则,但谁将拥有制定规则的权力?scientific2023-11-07
评论0条评论