Bias in Machine Learning/zh
| Article | |
|---|---|
| Topic area | Machine Learning |
| Prerequisites | Supervised Learning, Loss Function, Generalization |
概述
在机器学习中,偏差指的是系统性误差:学习得到的模型的预测以一致的、非随机的方式偏离真实值。该术语涵盖两个相关但不同的概念。第一个是统计意义上的:学习算法的预测与其试图恢复的目标函数之间的期望差距,通过在不同样本上的假设性重新训练来衡量。第二个是社会意义上的:模型在不同群体之间表现不均、编码刻板印象,或放大其训练数据中存在的历史不平等。这两种含义共享一种共同结构——它们都描述不会因收集更多同类数据而消失的误差——但它们使用不同的工具进行研究,并出于不同的关切。
偏差不可避免。每个学习算法都会编码关于哪些函数更可能出现、哪些特征重要、以及样本应如何加权的假设;正是这种归纳偏置使得泛化成为可能。因此,实际问题并非如何消除偏差,而是如何选择、衡量并披露它。本文梳理了构成这一主题框架的统计分解、内置于常见模型族中的归纳偏置、扭曲监督学习的数据偏差和标注偏差、由此在下游产生的算法偏差和社会偏差,以及用于诊断和缓解每种偏差的技术。
偏差-方差分解
对于以 $ y = f(x) + \varepsilon $ 为目标、以 $ \hat{f} $ 为学习得到的预测器的平方误差回归,点 $ x $ 处的期望误差分解为
$ {\displaystyle \mathbb{E}\bigl[(y - \hat{f}(x))^2\bigr] = \underbrace{\bigl(\mathbb{E}[\hat{f}(x)] - f(x)\bigr)^2}_{\text{Bias}^2} + \underbrace{\mathbb{E}\bigl[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2\bigr]}_{\text{Variance}} + \sigma^2,} $
其中期望是在从同一分布中抽取的训练集上取得的,$ \sigma^2 $ 是不可约噪声。偏差衡量平均学习模型与真实值的距离;方差衡量单个模型在该平均值附近波动的程度。高偏差是欠拟合的标志——假设类过于受限,无法捕获 $ f $。高方差是过拟合的标志——该类足够灵活,会去追逐噪声。
经典的偏差-方差权衡认为,减少其中一个往往会增大另一个,模型容量是控制旋钮。这一图景对低容量的经典模型而言是清晰的,但只能部分刻画现代过参数化网络,其中双重下降现象表明,测试误差越过插值阈值后还会再次下降。偏差-方差框架仍是正确的出发点,但对深度模型而言并非完整图景。
归纳偏置
每个算法都偏好某些假设而非其他——若无这种偏好,任何有限的训练集都无法挑出唯一的函数。这种偏好称为归纳偏置,正是它使泛化成为可能。例子包括 $ k $-最近邻的平滑性假设、线性回归的线性性、卷积神经网络的局部性与平移等变性、图神经网络的置换等变性,以及循环模型的近因衰减。架构选择、正则项、先验、优化器几何,乃至训练数据的顺序,都会有所贡献。
强归纳偏置会在与偏置一致的任务上提升样本效率,而在不一致的任务上有损效率。现代深度学习向更弱的结构性先验和更大数据集的转向——最明显的是在许多领域中Transformer取代了卷积和递归——是一种有意的权衡:先验更少有用,转而以更多数据和算力来弥补。
数据集与标注偏差
统计学习理论假设训练分布与部署分布一致。实际中这很少成立,这种差距常被称为数据偏差。常见形式包括:
- 选择偏差。训练样本是从感兴趣的总体中非均匀抽取的。问卷不应答、自愿加入式数据收集和便利抽样都会产生这种偏差。
- 抽样偏差。某些子群相对于部署时的频率被系统性地过度或不足代表。
- 幸存者偏差。只观察到坚持留在数据集中的实体;失败者缺席。
- 报告与测量偏差。记录的标签反映的是被测量或被主动报告的内容,而非潜在构念——例如,登记的犯罪与警力强度相关,而非与犯罪本身相关。
- 标签噪声与标注者偏差。人类标注者意见不一致、遵循不一致的指南,或带入自己的假设;汇聚可能掩盖系统性的分歧。
- 历史偏差。即使一个完全抽样、完全标注的数据集,也可能编码用户不希望延续的世界中的模式,例如历史上的招聘或信贷决策。
- 分布偏移。协变量偏移、标签偏移和概念漂移描述了违反 i.i.d. 假设的训练-部署间变化。
这些是数据流水线的属性,而非优化器的属性,因此无法通过训练更久或扩大模型来修复。它们表现为对数据所代表不足的人群作出过于自信的错误预测。
算法偏差与社会偏见
当一个用有偏差数据训练的模型被部署到具有重大后果的场景中——信贷、招聘、医疗、内容审核、搜索排序——统计上的不对称就变成了社会上的不对称。一个被广泛引用的例子是COMPAS累犯风险工具,研究发现其在某基准数据集上对黑人被告分配的假阳性率高于白人被告。类似的不对等也已在商业人脸识别错误率、临床决策支持以及广告投放中被记录。
研究者通过诸如人口统计奇偶性(各群体正预测率相等)、均等几率(各群体真阳性率与假阳性率均相等)以及校准(预测概率与各群体内实际比率相符)等群体公平性准则来形式化这些关切。一个基础性的不可能性结果表明,除退化情形外,当各群体基率不同时,没有任何单一分类器能同时满足校准与均等几率。[1][2] 因此,在各种公平性定义之间进行选择是一种价值判断,而非纯粹的技术决定。
两个紧密相关的问题是捷径学习——模型抓住了在训练中恰好与标签相关的虚假特征,例如图像背景或医院特定的像素伪影——以及偏差放大,其中模型的预测比训练分布更加倾斜,因为对多数类作出自信预测能最有效地最小化损失。
诊断
诊断偏差需要超越聚合的准确率进行考察。常见做法:
- 在按敏感属性、地域、时间或输入特征定义的子群上对指标进行切片。
- 比较错误率,而不仅仅是准确率,因为基率较低的类别可能在整体高准确率下掩盖失败。
- 使用反事实扰动——改变姓名、性别词或口音,检查预测是否发生变化。
- 对敏感属性进行表征探测;移除某属性后探测精度仍高,表明该属性以间接方式被编码。
- 检查每个群体的校准曲线,而非仅看整体。
- 直接审计训练语料:词元频率、人群覆盖度、各切片的标签比例。
更困难的诊断问题是未知的未知:审计者未曾想到要切片的子群或场景。诸如模型卡、数据手册和外部红队演练等工具可以将其暴露出来,但没有任何流程是完备的。
缓解
缓解策略通常按照其在流水线中的介入位置进行分类:
- 预处理作用于数据:重加权、重采样、扩充代表不足的子群、移除或转换敏感特征,以及合成平衡样本。便宜且模块化,但有限——因为模型仍可能从相关特征中恢复出受保护属性。
- 过程中处理修改损失函数或约束:对抗式去偏、带公平性约束的优化、朝向错误率均等的正则化,或不变性惩罚以阻止表征编码受保护属性。
- 后处理调整输出:按群体校准的阈值、带拒绝选项的分类,或将分数变换为均衡所选指标的形式。
对于社会偏见,技术性缓解是必要但不充分的。它必须与部署期监控、对受影响用户的申诉机制以及治理——包括不部署的选项——相结合。对于偏差-方差意义上的统计偏差,缓解方式则不同:增加容量、添加特征,或放松正则化,以方差为代价降低偏差。
比较与局限
统计偏差与社会偏见在非正式使用中常被混淆,但它们回答的是不同的问题。统计偏差问的是:随着样本增大,平均模型是否收敛于真实函数;社会偏见问的是:被部署的模型是否对人们一视同仁。一个模型可以在统计上无偏却在社会上有害(它忠实地复现了不公正的现状),也可以在某个所选指标上社会公平却在统计上不一致。对其中一个的缓解可能加重另一个:强制均等几率可能降低校准;通过强正则化来降低方差可能进一步固化多数群体的模式。
当前文献的重要局限:大多数公平性指标预设了可观测、准确且稳定的离散敏感属性,而事实往往并非如此。因果框架有望弥补部分缺口,但要求强且常常无法验证的假设。最后,公平性准则局限于单次决策;系统层面的效应——如预测与未来训练数据之间的反馈回路——不会被任何按预测计算的指标所捕获。