Bias in Machine Learning/es

Article
Topic area	Machine Learning
Prerequisites	Supervised Learning, Loss Function, Generalization

This page is a translated version of the page Bias in Machine Learning and the translation is 100% complete.

Other languages:

English
Español
中文

Visión general

En aprendizaje automático, el sesgo se refiere al error sistemático: las predicciones de un modelo aprendido se desvían de la verdad de forma constante y no aleatoria. El término abarca dos ideas relacionadas pero distintas. La primera es estadística: la diferencia esperada entre las predicciones de un algoritmo de aprendizaje y la función objetivo que intenta recuperar, medida sobre reentrenamientos hipotéticos en muestras distintas. La segunda es social: un modelo que se comporta de forma desigual entre grupos, codifica estereotipos o amplifica las desigualdades históricas presentes en sus datos de entrenamiento. Ambos sentidos comparten una estructura común — describen errores que no desaparecen al recopilar más datos del mismo tipo —, pero se estudian con herramientas distintas y responden a preocupaciones distintas.

El sesgo es inevitable. Todo algoritmo de aprendizaje codifica supuestos sobre qué funciones son probables, qué características importan y cómo deben ponderarse los ejemplos; este es el sesgo inductivo que permite siquiera que ocurra la generalización. La cuestión práctica no es, por tanto, cómo eliminar el sesgo, sino cómo elegirlo, medirlo y declararlo. Este artículo examina la descomposición estadística que enmarca el tema, los sesgos inductivos integrados en las familias de modelos comunes, los sesgos de datos y de etiquetado que distorsionan el aprendizaje supervisado, los sesgos algorítmicos y sociales que surgen aguas abajo, y las técnicas utilizadas para diagnosticar y mitigar cada uno.

La descomposición sesgo-varianza

Para regresión con error cuadrático con objetivo $y = f(x) + \varepsilon$ y predictor aprendido $\hat{f}$ , el error esperado en un punto $$ x $$ se descompone como

$\mathbb{E}\bigl[(y - \hat{f}(x))^2\bigr] = \underbrace{\bigl(\mathbb{E}[\hat{f}(x)] - f(x)\bigr)^2}_{\text{Bias}^2} + \underbrace{\mathbb{E}\bigl[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2\bigr]}_{\text{Variance}} + \sigma^2,$

donde la esperanza se toma sobre conjuntos de entrenamiento extraídos de la misma distribución y $\sigma^2$ es ruido irreducible. El sesgo mide cuánto se aleja el modelo aprendido promedio de la verdad; la varianza mide cuánto fluctúa un modelo individual alrededor de ese promedio. Un sesgo alto es la firma del infraajuste — la clase de hipótesis es demasiado restrictiva para capturar $$ f $$ . Una varianza alta es la firma del sobreajuste — la clase es lo bastante flexible como para perseguir el ruido.

El compromiso clásico sesgo-varianza sostiene que reducir uno tiende a aumentar el otro, con la capacidad del modelo como palanca. Esta imagen es clara para los modelos clásicos de baja capacidad pero solo captura parcialmente las redes sobreparametrizadas modernas, donde el fenómeno del doble descenso muestra que el error de prueba puede volver a caer una vez superado el umbral de interpolación. El marco sesgo-varianza sigue siendo el punto de partida correcto, pero no es toda la historia para los modelos profundos.

Sesgo inductivo

Todo algoritmo prefiere unas hipótesis a otras — sin tal preferencia, ningún conjunto de entrenamiento finito podría seleccionar una sola función. Esta preferencia se denomina sesgo inductivo y es lo que hace posible la generalización. Algunos ejemplos incluyen el supuesto de suavidad de los $$ k $$ -vecinos más cercanos, la linealidad de la regresión lineal, la localidad y la equivariancia traslacional de las redes neuronales convolucionales, la equivariancia ante permutaciones de las redes neuronales sobre grafos y el decaimiento por recencia de los modelos recurrentes. Las elecciones arquitectónicas, los regularizadores, los priors, la geometría del optimizador e incluso el orden de los datos de entrenamiento contribuyen todos.

Los sesgos inductivos fuertes mejoran la eficiencia muestral en tareas alineadas con el sesgo y la perjudican en aquellas que no lo están. El cambio en el aprendizaje profundo moderno hacia priors estructurales más débiles y conjuntos de datos más grandes — más visiblemente en los transformadores reemplazando las convoluciones y la recurrencia en muchos dominios — es un compromiso deliberado: menos prior útil, más datos y cómputo para compensar.

Sesgos de datos y de etiquetado

La teoría del aprendizaje estadístico supone que la distribución de entrenamiento coincide con la distribución de despliegue. En la práctica rara vez ocurre, y la brecha suele llamarse sesgo de datos. Las formas comunes incluyen:

Sesgo de selección. La muestra de entrenamiento se extrae de forma no uniforme de la población de interés. La no respuesta a encuestas, la recopilación de datos por adhesión y el muestreo por conveniencia lo producen.
Sesgo de muestreo. Algunos subgrupos están sistemáticamente sobre o subrepresentados respecto a las frecuencias de despliegue.
Sesgo de supervivencia. Solo se observan las entidades que persistieron en el conjunto de datos; los fracasos están ausentes.
Sesgo de reporte y de medición. Las etiquetas registradas reflejan lo que se midió o se ofreció voluntariamente más que el constructo subyacente — por ejemplo, el delito registrado se correlaciona con la intensidad de la vigilancia policial, no con el delito en sí.
Ruido en las etiquetas y sesgo del anotador. Los etiquetadores humanos discrepan, siguen pautas inconsistentes o aportan sus propios supuestos; la agregación puede ocultar desacuerdos sistemáticos.
Sesgo histórico. Incluso un conjunto de datos perfectamente muestreado y perfectamente etiquetado puede codificar patrones de un mundo que el usuario no quiere perpetuar, como decisiones históricas de contratación o de concesión de créditos.
Cambio de distribución. El cambio de covariables, el cambio de etiqueta y la deriva de concepto describen cambios entre entrenamiento y despliegue que violan el supuesto i.i.d.

Estas son propiedades de la canalización de datos, no del optimizador, por lo que no pueden corregirse entrenando más tiempo o escalando el modelo. Se manifiestan como predicciones confiadamente erróneas en las poblaciones que los datos subrepresentan.

Sesgo algorítmico y social

Cuando un modelo entrenado con datos sesgados se despliega en un entorno consecuente — crédito, contratación, salud, moderación de contenidos, ranking de búsqueda — las asimetrías estadísticas se vuelven sociales. Un ejemplo ampliamente citado es la herramienta COMPAS de riesgo de reincidencia, sobre la cual la investigación encontró que asignaba tasas de falsos positivos más altas a acusados afroamericanos que a acusados blancos en un conjunto de datos de referencia. Se han documentado disparidades similares en las tasas de error del reconocimiento facial comercial, en sistemas de apoyo a la decisión clínica y en la entrega de anuncios.

Los investigadores formalizan estas preocupaciones a través de criterios de equidad de grupo como la paridad demográfica (tasas positivas iguales entre grupos), las probabilidades equilibradas (tasas iguales de verdaderos positivos y falsos positivos) y la calibración (la probabilidad predicha coincide con la tasa real dentro de cada grupo). Un resultado de imposibilidad fundamental muestra que, salvo en casos degenerados, ningún clasificador único puede satisfacer simultáneamente la calibración y las probabilidades equilibradas cuando las tasas base difieren entre grupos.^[1]^[2] Elegir entre las definiciones de equidad es por tanto un juicio de valor, no una decisión puramente técnica.

Dos problemas estrechamente relacionados son el aprendizaje por atajos — el modelo se aferra a características espurias que casualmente correlacionan con la etiqueta en el entrenamiento, como el fondo de la imagen o artefactos de píxeles específicos de un hospital — y la amplificación del sesgo, donde las predicciones del modelo están más sesgadas que la distribución de entrenamiento porque las predicciones confiadas sobre la clase mayoritaria minimizan la pérdida de la forma más eficiente.

Diagnóstico

Diagnosticar el sesgo requiere mirar más allá de la precisión agregada. Prácticas comunes:

Desglosar las métricas por subgrupos definidos por atributos sensibles, geografía, tiempo o características de entrada.
Comparar tasas de error, no solo precisión, ya que las clases con baja tasa base pueden ocultar el fallo bajo una alta precisión global.
Usar perturbaciones contrafácticas — cambiar un nombre, un token de género o un acento y comprobar si las predicciones se mueven.
Sondear las representaciones para atributos sensibles; una alta precisión de sondeo sobre un atributo eliminado sugiere que está codificado de forma indirecta.
Inspeccionar las curvas de calibración por grupo, no solo a nivel global.
Auditar directamente el corpus de entrenamiento: frecuencias de tokens, cobertura demográfica, tasas de etiquetas por segmento.

El problema diagnóstico más difícil son las incógnitas desconocidas: subgrupos o contextos en los que el auditor no pensó al desglosar. Existen herramientas como las fichas de modelo, las hojas de datos y los ejercicios externos de red-teaming para sacarlos a la luz, pero ningún procedimiento es exhaustivo.

Mitigación

Las estrategias de mitigación suelen agruparse según dónde intervienen en la canalización:

Preprocesamiento actúa sobre los datos: reponderar, remuestrear, aumentar subgrupos subrepresentados, eliminar o transformar características sensibles, y sintetizar ejemplos balanceados. Es barato y modular pero limitado, porque el modelo aún puede recuperar el atributo protegido a partir de características correlacionadas.
Procesamiento modifica la función de pérdida o las restricciones: desensesgo adversarial, optimización con restricciones de equidad, regularización hacia la igualdad de tasas de error, o penalizaciones de invariancia que desalientan que la representación codifique el atributo protegido.
Postprocesamiento ajusta la salida: umbrales calibrados específicos por grupo, clasificación con opción de rechazo, o transformaciones de puntuación que igualan una métrica elegida.

Para el sesgo social, la mitigación técnica es necesaria pero no suficiente. Debe ir acompañada de monitoreo en tiempo de despliegue, mecanismos de recurso para los usuarios afectados y gobernanza — incluida la opción de no desplegar. Para el sesgo estadístico en el sentido sesgo-varianza, la mitigación se ve diferente: aumentar la capacidad, añadir características o relajar la regularización para reducir el sesgo a costa de la varianza.

Comparaciones y limitaciones

El sesgo estadístico y el sesgo social a menudo se confunden en el uso informal pero responden a preguntas distintas. El sesgo estadístico pregunta si el modelo promedio converge a la función verdadera a medida que crece la muestra; el sesgo social pregunta si un modelo desplegado trata a las personas de manera equitativa. Un modelo puede ser estadísticamente insesgado y socialmente dañino (reproduce fielmente un statu quo injusto), o socialmente justo según una métrica elegida y a la vez estadísticamente inconsistente. Las mitigaciones de uno pueden empeorar el otro: imponer probabilidades equilibradas puede reducir la calibración; reducir la varianza mediante una regularización fuerte puede consolidar los patrones del grupo mayoritario.

Limitaciones importantes de la literatura actual: la mayoría de las métricas de equidad presuponen atributos sensibles discretos que sean observables, precisos y estables, lo cual a menudo no es cierto. Los marcos causales prometen abordar algunas de estas brechas pero requieren supuestos fuertes y, con frecuencia, no comprobables. Por último, los criterios de equidad son locales a una decisión única; los efectos a nivel de sistema, como los bucles de retroalimentación entre las predicciones y los futuros datos de entrenamiento, no son capturados por ninguna métrica por predicción.

Referencias

↑ Chouldechova, A. Fair prediction with disparate impact: A study of bias in recidivism prediction instruments. Big Data, 2017.
↑ Kleinberg, J., Mullainathan, S., Raghavan, M. Inherent Trade-Offs in the Fair Determination of Risk Scores. ITCS, 2017.

[1] Chouldechova, A. Fair prediction with disparate impact: A study of bias in recidivism prediction instruments. Big Data, 2017.

[2] Kleinberg, J., Mullainathan, S., Raghavan, M. Inherent Trade-Offs in the Fair Determination of Risk Scores. ITCS, 2017.

[1]

[2]