Algorithmic Fairness/zh
| Article | |
|---|---|
| Topic area | Machine Learning Ethics |
| Prerequisites | Machine Learning, Supervised Learning, Classification |
概述
算法公平性研究如何设计、评估和修改自动化决策系统,以确保其输出不会对个人或人口群体产生系统性的、不合理的不利影响。该领域处于机器学习、统计学、法律和道德哲学的交叉地带,随着预测模型在贷款、招聘、刑事司法、医疗保健和内容审核中的部署,已成为核心关切。该领域提供了分类器或评分规则"公平"含义的形式化定义、用于衡量与这些定义偏离程度的定量指标,以及减少这些偏离的算法干预措施。
其动机既是经验性的,也是规范性的。对已部署模型的审计反复表明,基于历史数据训练的系统可能复制或放大数据中存在的差异模式:面部识别模型对深色皮肤女性的错误率显著更高;再犯风险评分对相同真实风险的黑人被告产生的假阳性多于白人被告;简历筛选器降低了女子学院毕业生的权重。算法公平性提出两个截然不同的问题。第一,描述性地:我们如何检测和量化此类差异?第二,规范性地:哪些差异是不公正的,应当采取何种应对措施?第一个问题主要可以用统计学回答;第二个问题则是不可化约的规范性问题且存在争议。
不公平的来源
模型输出中的差异源于多种、往往相互叠加的来源。历史偏差被编码在标签本身之中:如果过去的招聘决策存在偏差,那么一个训练用于预测"此人是否会被录用"的模型会学习复现该偏差,即使没有将受保护属性用作特征。表示偏差产生于子群体相对于模型将作用的总体被欠采样的情形,因此学习到的函数在数据稀疏处准确性较低。测量偏差发生在所选目标是底层兴趣构念的有缺陷代理时,例如,当各社区的警务强度不同时,使用逮捕率作为犯罪行为的代理。
聚合偏差出现在单个模型被拟合到实际为混合体的总体之上,使系数反映出对任何子群体都不甚契合的折中。评估偏差发生于用以宣告模型"良好"的基准本身不具代表性时。最后,部署偏差出现于模型的实际使用条件与其训练或评估条件不同时,例如人类有选择地推翻低风险预测但听从高风险预测。这些来源没有一种能通过从特征集中移除受保护属性来解决,因为相关的代理变量(邮政编码、姓名、浏览历史)通常仍然存在。
群体公平性定义
大多数定量工作集中于群体公平性:对比受保护群体 $ A \in \{0, 1\} $ 之间结果的统计奇偶性属性。设 $ Y \in \{0, 1\} $ 表示真实标签,$ \hat{Y} $ 表示模型预测。文献中主要存在三大类。
人口奇偶性(也称为统计奇偶性或独立性)要求预测与受保护属性相互独立: $ {\displaystyle P(\hat{Y} = 1 \mid A = 0) = P(\hat{Y} = 1 \mid A = 1).} $ 其放松形式——差异性影响比——以容忍度替代相等性,例如美国平等就业机会委员会的"五分之四规则"。
均等几率(分离性)要求各群体之间的真阳性率和假阳性率相等: $ {\displaystyle P(\hat{Y} = 1 \mid Y = y, A = 0) = P(\hat{Y} = 1 \mid Y = y, A = 1) \quad \text{for } y \in \{0, 1\}.} $ 机会均等是其放松形式,仅要求真阳性率相等。
群体内校准(充分性)要求在以模型分数 $ S $ 为条件时,结果与受保护属性相互独立: $ {\displaystyle P(Y = 1 \mid S = s, A = 0) = P(Y = 1 \mid S = s, A = 1) \quad \text{for all } s.} $ 当"百分之七十的风险"对两个群体而言在经验上意味着相同的内容时,该分数在群体内具有良好的校准性。
个体公平性
一种互补的传统认为群体统计过于粗糙,公平性应在个体层面发挥约束作用。Dwork 及其同事提出的经典表述是"相似的个体应受到相似的对待":对于个体上特定于任务的度量 $ d $ 和输出分布上的度量 $ D $, $ {\displaystyle D(M(x), M(x')) \leq L \cdot d(x, x'),} $ 其中 $ M $ 为模型,$ L $ 为利普希茨常数。该利普希茨条件的理论吸引力被指定 $ d $ 的困难所抵消:该度量必须编码个体间哪些差异在道德上对决策具有相关性,而这恰恰是有争议的问题。在实践中,个体公平性常通过反事实公平性来近似,后者询问若对受保护属性及其在因果模型中的后继进行干预,预测是否会发生改变。
不可能性结果
一组著名的结果表明,主要的群体公平性标准除退化情形外彼此不相容。如果群体间的基础率不同,$ P(Y = 1 \mid A = 0) \neq P(Y = 1 \mid A = 1) $,那么没有任何非平凡的分类器能够同时满足群体内的校准和均等几率。该结果的不同版本见于 Chouldechova 对 COMPAS 再犯工具的分析,以及 Kleinberg、Mullainathan 和 Raghavan 更广泛的固有权衡定理之中。[1][2] 其含义是设计者必须选择强制执行哪一性质,因为只要群体在其底层结果率上存在差异,强制执行其中之一就会违反其他性质。
该结果既被解读为一种技术奇观,也被解读为一种根本性约束。它并未表明公平分类不可能;它表明"公平性"并非单一之物,而"该模型是公平的"之类的陈述必须相对于出于特定理由所选择的特定标准而言。
缓解技术
算法干预通常按其在流水线中的作用位置进行分组。预处理方法对训练数据进行重新加权或变换,以减少受保护属性与标签之间习得的相关性;重加权、公平表示和差异性影响消除器都属于此类。过程内方法修改训练目标本身,添加公平性正则化项或将公平性标准作为约束施加;对抗性去偏训练一个对手从模型表示中预测受保护属性,并训练主模型以挫败该对手。后处理方法保持已训练的评分器不变,调整特定于群体的决策阈值以满足所选标准;Hardt、Price 和 Srebro 关于均等几率的构造是经典范例。[3]
流水线中的每个位置都涉及权衡取舍。预处理在下游模型之间具有可移植性,但会丢失对预测可能有用的信息。过程内方法能够产生最佳的精度-公平性前沿,但需要重新训练。后处理方法成本低且可审计,但要求在决策时获取受保护属性,这本身可能不合法或不可取。
局限性与批评
算法公平性的形式化框架在多个方面受到批评。最基本的批评是,统计奇偶性标准将受保护属性视为固定的、可观察的类别,而实际上种族、性别和残疾是社会建构的、依语境而行的、并以不稳定的方式被测量。一种更具结构性的批评指出,任何在将预测任务本身视为既定的前提下比较各群体结果的标准,都将搁置预测任务是否应当存在这一更宏大的问题;例如,"公平的"审前羁押评分可能依然加剧大规模羁押。
该领域还因过度聚焦于具有两个受保护群体的二元分类而受到批评,忽视了交叉性子群体(在该情形下最坏情况下的差异通常比任何单一维度分析所揭示的更糟)、回归、排序以及生成模型。近期关于多重校准和多重精度的工作将校准推广到丰富的重叠子群体集合,而大型语言模型中的公平性已成为一个独立的研究领域。
与相关领域的关系
算法公平性与隐私、鲁棒性和可解释性相邻但不同。差分隐私对对手可从模型输出中学到的内容给出形式化保证,并可以与公平性发生非平凡的相互作用:为隐私而加入的噪声可能不成比例地降低小子群体的精度。对分布偏移的鲁棒性与之相关,因为公平性可重新表述为由受保护属性所定义的各子总体之间性能的均等性。可解释性常被援引为通向公平性的路径——透明的模型可被审计——但透明性对公平的结果而言既非必要也非充分。
参考文献
- ↑ Chouldechova, A. Fair prediction with disparate impact: a study of bias in recidivism prediction instruments, Big Data, 2017.
- ↑ Template:Cite arxiv
- ↑ Template:Cite arxiv