Algorithmic Fairness/es
| Article | |
|---|---|
| Topic area | Machine Learning Ethics |
| Prerequisites | Machine Learning, Supervised Learning, Classification |
Resumen
La equidad algorítmica es el estudio de cómo diseñar, evaluar y modificar sistemas de decisión automatizados para que sus resultados no produzcan desventajas sistemáticas e injustificadas para individuos o grupos demográficos. Se sitúa en la intersección del aprendizaje automático, la estadística, el derecho y la filosofía moral, y se ha convertido en una preocupación central a medida que los modelos predictivos se despliegan en préstamos, contratación, justicia penal, atención sanitaria y moderación de contenidos. El campo proporciona definiciones formales de lo que significa que un clasificador o regla de puntuación sea "justo", métricas cuantitativas para medir las desviaciones respecto a esas definiciones, e intervenciones algorítmicas para reducirlas.
La motivación es tanto empírica como normativa. Las auditorías de modelos desplegados han mostrado repetidamente que los sistemas entrenados con datos históricos pueden replicar o amplificar los patrones de disparidad presentes en los datos: un modelo de reconocimiento facial con tasas de error notablemente más altas en mujeres de piel oscura, una puntuación de riesgo de reincidencia que produce más falsos positivos para acusados negros que para acusados blancos con el mismo riesgo real, un filtro de currículos que penaliza a las graduadas de universidades para mujeres. La equidad algorítmica plantea dos preguntas distintas. Primero, descriptivamente: ¿cómo detectamos y cuantificamos tales disparidades? Segundo, prescriptivamente: ¿qué disparidades son injustas y qué debe hacerse al respecto? La primera pregunta admite respuestas mayormente estadísticas; la segunda es irreduciblemente normativa y disputada.
Fuentes de la inequidad
Las disparidades en los resultados de los modelos surgen de múltiples fuentes, a menudo combinadas. El sesgo histórico está codificado en las propias etiquetas: si las decisiones de contratación pasadas estuvieron sesgadas, un modelo entrenado para predecir "¿sería contratada esta persona?" aprende a reproducir ese sesgo incluso cuando ningún atributo protegido se utiliza como característica. El sesgo de representación surge cuando los subgrupos están submuestreados respecto a la población sobre la que actuará el modelo, de modo que la función aprendida es menos precisa donde los datos son escasos. El sesgo de medición se produce cuando un objetivo elegido es un proxy defectuoso del constructo subyacente de interés, por ejemplo, usar las tasas de detención como proxy de la comisión de delitos cuando la intensidad policial difiere entre vecindarios.
El sesgo de agregación aparece cuando un único modelo se ajusta a una población que es en realidad una mezcla, de modo que los coeficientes reflejan un compromiso que no se ajusta bien a ningún subgrupo. El sesgo de evaluación surge cuando el conjunto de referencia usado para declarar que un modelo es "bueno" es a su vez no representativo. Finalmente, el sesgo de despliegue emerge cuando el uso operativo de un modelo difiere de las condiciones bajo las cuales fue entrenado o evaluado, por ejemplo cuando los humanos anulan selectivamente las predicciones de bajo riesgo pero se ciñen a las de alto riesgo. Ninguna de estas fuentes se resuelve eliminando el atributo protegido del conjunto de características, ya que los proxies correlacionados (código postal, nombre, historial de navegación) suelen permanecer.
Definiciones de equidad de grupo
La mayor parte del trabajo cuantitativo se concentra en la equidad de grupo: propiedades de paridad estadística que comparan los resultados entre grupos protegidos $ A \in \{0, 1\} $. Sea $ Y \in \{0, 1\} $ la etiqueta verdadera y $ \hat{Y} $ la predicción del modelo. Tres familias dominan la literatura.
La paridad demográfica (también llamada paridad estadística o independencia) exige que la predicción sea independiente del atributo protegido: $ {\displaystyle P(\hat{Y} = 1 \mid A = 0) = P(\hat{Y} = 1 \mid A = 1).} $ Una relajación, el cociente de impacto dispar, sustituye la igualdad por una tolerancia como la "regla de los cuatro quintos" de la Comisión para la Igualdad de Oportunidades en el Empleo de los EE. UU.
Las probabilidades igualadas (separación) exigen que las tasas de verdaderos positivos y de falsos positivos sean iguales entre grupos: $ {\displaystyle P(\hat{Y} = 1 \mid Y = y, A = 0) = P(\hat{Y} = 1 \mid Y = y, A = 1) \quad \text{for } y \in \{0, 1\}.} $ La igualdad de oportunidades es la relajación que exige solo la igualdad de las tasas de verdaderos positivos.
La calibración dentro de los grupos (suficiencia) requiere que, condicionada a la puntuación del modelo $ S $, la salida sea independiente del atributo protegido: $ {\displaystyle P(Y = 1 \mid S = s, A = 0) = P(Y = 1 \mid S = s, A = 1) \quad \text{for all } s.} $ Una puntuación está bien calibrada dentro de los grupos cuando "riesgo del 70 por ciento" significa empíricamente lo mismo para ambos grupos.
Equidad individual
Una tradición complementaria sostiene que las estadísticas grupales son demasiado gruesas y que la equidad debe regir a nivel de los individuos. La formulación canónica, debida a Dwork y colaboradores, es que "individuos similares deben recibir un trato similar": para una métrica $ d $ específica de la tarea sobre los individuos y una métrica $ D $ sobre las distribuciones de salida, $ {\displaystyle D(M(x), M(x')) \leq L \cdot d(x, x'),} $ donde $ M $ es el modelo y $ L $ una constante de Lipschitz. El atractivo teórico de esta condición de Lipschitz se ve compensado por la dificultad de especificar $ d $: la métrica debe codificar qué diferencias entre individuos son moralmente relevantes para la decisión, que es precisamente la cuestión disputada. En la práctica, la equidad individual se aproxima a menudo mediante la equidad contrafactual, que pregunta si una predicción cambiaría si se interviniera sobre el atributo protegido y sus descendientes en un modelo causal.
Resultados de imposibilidad
Un célebre conjunto de resultados muestra que los principales criterios de equidad de grupo son mutuamente incompatibles salvo en casos degenerados. Si las tasas base difieren entre grupos, $ P(Y = 1 \mid A = 0) \neq P(Y = 1 \mid A = 1) $, entonces ningún clasificador no trivial puede satisfacer simultáneamente la calibración dentro de los grupos y las probabilidades igualadas. Versiones de este resultado aparecen en el análisis de Chouldechova de la herramienta de reincidencia COMPAS y en el teorema más amplio de compromisos inherentes de Kleinberg, Mullainathan y Raghavan.[1][2] La implicación es que el diseñador debe elegir qué propiedad imponer, ya que imponer una violará las otras siempre que las poblaciones difieran en sus tasas de resultado subyacentes.
Este resultado se ha leído tanto como una curiosidad técnica como una restricción fundamental. No dice que la clasificación justa sea imposible; dice que la "equidad" no es una sola cosa, y que afirmaciones como "el modelo es justo" deben relativizarse a un criterio específico elegido por razones específicas.
Técnicas de mitigación
Las intervenciones algorítmicas suelen agruparse según el lugar del pipeline en el que actúan. Los métodos de preprocesamiento reponderan o transforman los datos de entrenamiento de manera que se reduzcan las correlaciones aprendidas entre los atributos protegidos y las etiquetas; el repesado, las representaciones justas y el eliminador de impacto dispar pertenecen a esta clase. Los métodos de procesamiento interno modifican el propio objetivo de entrenamiento, añadiendo un regularizador de equidad o imponiendo el criterio de equidad como restricción; el despolarizado adversarial entrena a un adversario para predecir el atributo protegido a partir de las representaciones del modelo y al modelo principal para vencerlo. Los métodos de posprocesamiento dejan intacto el clasificador entrenado y ajustan umbrales de decisión específicos por grupo para satisfacer un criterio elegido; la construcción de Hardt, Price y Srebro para las probabilidades igualadas es el ejemplo canónico.[3]
Cada ubicación en el pipeline conlleva compromisos. El preprocesamiento es portable entre modelos posteriores, pero pierde información que puede ser útil para la predicción. El procesamiento interno puede producir la mejor frontera entre precisión y equidad, pero requiere reentrenamiento. El posprocesamiento es barato y auditable, pero requiere el atributo protegido en el momento de la decisión, lo cual puede ser en sí mismo ilegal o indeseable.
Limitaciones y críticas
El aparato formal de la equidad algorítmica ha sido criticado en varios ejes. La crítica más básica es que los criterios de paridad estadística tratan al atributo protegido como una categoría fija y observable, cuando en realidad la raza, el género y la discapacidad están construidas socialmente, se actúan contextualmente y se miden de manera inestable. Una crítica más estructural señala que cualquier criterio que compare resultados entre grupos tomando como dada la propia tarea de predicción dejará intacta la pregunta más amplia sobre si la tarea de predicción debería existir; un puntaje "justo" para la detención preventiva, por ejemplo, puede aún consolidar la detención masiva.
También se ha criticado al campo por su excesivo enfoque en la clasificación binaria con dos grupos protegidos, descuidando los subgrupos interseccionales (donde las disparidades en el peor caso suelen ser peores que las que sugiere cualquier análisis de un único eje), la regresión, la ordenación y los modelos generativos. El trabajo reciente sobre multi-calibración y multi-precisión generaliza la calibración a un rico conjunto de subgrupos superpuestos, y la equidad en los grandes modelos de lenguaje ha emergido como un dominio por derecho propio.
Relación con campos afines
La equidad algorítmica es contigua pero distinta de la privacidad, la robustez y la interpretabilidad. La privacidad diferencial otorga garantías formales sobre lo que un adversario puede aprender de las salidas de un modelo, y puede interactuar de manera no trivial con la equidad: el ruido añadido por privacidad puede degradar desproporcionadamente la precisión para subgrupos pequeños. La robustez frente al cambio de distribución está relacionada porque la equidad puede reformularse como paridad de rendimiento entre subpoblaciones definidas por el atributo protegido. La interpretabilidad se invoca a menudo como vía hacia la equidad — un modelo transparente es auditable — pero la transparencia no es ni necesaria ni suficiente para resultados justos.
Referencias
- ↑ Chouldechova, A. Fair prediction with disparate impact: a study of bias in recidivism prediction instruments, Big Data, 2017.
- ↑ Template:Cite arxiv
- ↑ Template:Cite arxiv