Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts/es

    From Marovi AI
    Other languages:
    SummarySource
    Research Paper
    Authors Jiaqi Ma; Zhe Zhao; Xinyang Yi; Jilin Chen; Lichan Hong; Ed H. Chi
    Year 2018
    Venue Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '18)
    Topic area Machine Learning
    Difficulty Research
    Source View paper
    PDF Download PDF

    Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts es un artículo de 2018 de Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong y Ed H. Chi, publicado en las Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '18). El trabajo propone la arquitectura Multi-gate Mixture-of-Experts (MMoE), en la que un banco compartido de subredes expertas se combina por tarea mediante una red de compuertas softmax independiente, permitiendo que una única red neuronal multitarea modele de manera flexible las relaciones entre tareas sin aumentar sustancialmente el número de parámetros. MMoE se convirtió en una técnica fundamental en el aprendizaje multitarea industrial y se utiliza ampliamente en sistemas de recomendación a gran escala, incluidos los de YouTube, donde se le atribuye la mejora del AUC offline y de las métricas en vivo de interacción y satisfacción.

    Resumen

    El aprendizaje multitarea con redes neuronales busca entrenar un único modelo que prediga conjuntamente varios objetivos relacionados — por ejemplo, tanto si un usuario verá un elemento recomendado como si le gustará después. Compartir representaciones entre tareas promete una mayor eficiencia muestral y un efecto regularizador, pero, en la práctica, la calidad de predicción de la arquitectura dominante Shared-Bottom es muy sensible a la relación entre tareas: cuando las tareas compiten por capacidad en el tronco compartido, los gradientes entran en conflicto y el entrenamiento conjunto puede rendir peor que modelos por tarea. Soluciones anteriores —como las redes L2-Constrained, las redes Cross-Stitch y las redes multitarea con factorización tensorial— sustituyen el reparto rígido por restricciones suaves, pero típicamente añaden muchos parámetros específicos por tarea y pierden la eficiencia en inferencia que motiva los modelos multitarea en producción.

    MMoE sustituye el tronco compartido único por un banco de redes expertas feed-forward y dota a cada tarea de su propia red de compuertas. Las compuertas son funciones lineales con softmax sobre la entrada que producen pesos de mezcla por ejemplo sobre los expertos; cada tarea consume así su propia combinación, condicionada por la entrada, del mismo conjunto de expertos. Cuando las tareas son similares, las compuertas convergen sobre expertos solapados y se benefician de las representaciones compartidas; cuando las tareas entran en conflicto, las compuertas aprenden a enrutar a expertos disjuntos y el modelo recupera el comportamiento de modelos separados — todo ello sin tocar el banco de expertos en sí.

    Los autores validan MMoE en tres escenarios de realismo creciente: un benchmark de regresión sintético con correlación entre tareas controlable, el benchmark de clasificación binaria UCI Census-income y un sistema de recomendación de contenidos de Google entrenado sobre decenas de miles de millones de eventos de retroalimentación de usuario. En los tres, MMoE iguala o supera a las líneas base previas con reparto suave, conservando al mismo tiempo el perfil computacional ligero de un modelo Shared-Bottom.

    Contribuciones principales

    • La arquitectura Multi-gate Mixture-of-Experts (MMoE) para redes neuronales multitarea: un banco compartido de redes expertas combinado por tarea mediante una compuerta softmax específica de cada tarea sobre la entrada.
    • Un estudio sintético controlado de la relación entre tareas basado en regresión sinusoidal, en el que la similitud coseno de los vectores de pesos sirve como sustituto ajustable de la correlación de Pearson de las etiquetas, aislando cómo se comportan los modelos multitarea cuando dicha relación se degrada.
    • Un análisis de entrenabilidad que muestra que MMoE no sólo alcanza una mejor pérdida media que las líneas base Shared-Bottom y One-gate MoE (OMoE), sino que también exhibe una varianza marcadamente menor frente a inicializaciones aleatorias — es decir, es más difícil caer en mínimos locales de mala calidad.
    • Resultados de benchmark sobre el conjunto UCI Census-income que igualan o superan a las líneas base multitarea L2-Constrained, Cross-Stitch y Tensor-Factorization bajo presupuestos de parámetros equivalentes.
    • Evidencia a escala de producción procedente de un sistema de recomendación de Google: MMoE mejora el AUC de interacción y el R² offline frente a un modelo Shared-Bottom en producción, y obtiene ganancias estadísticamente significativas tanto en interacción como en satisfacción en métricas en vivo, sin inflar el coste de servicio.

    Métodos

    Sea $ K $ el número de tareas. El modelo multitarea Shared-Bottom estándar consiste en un único codificador compartido $ f $ y una torre $ h_k $ por tarea:

    $ y_k = h_k(f(x)). $

    MMoE reemplaza el codificador único $ f $ por un banco de $ n $ redes expertas $ f_1, \ldots, f_n $ e introduce una red de compuertas softmax $ g^k $ para cada tarea:

    $ y_k = h_k\!\left(\sum_{i=1}^{n} g^k(x)_i\, f_i(x)\right),\qquad g^k(x) = \mathrm{softmax}(W_{g_k}\, x), $

    donde $ W_{g_k} \in \mathbb{R}^{n \times d} $ es una matriz entrenable por tarea. Cada experto es un MLP feed-forward con activaciones ReLU; las compuertas se mantienen deliberadamente ligeras de modo que la sobrecarga en parámetros respecto a un Shared-Bottom de ancho de experto comparable resulta despreciable. Se incluye una línea base One-gate MoE (OMoE) — en la que todas las tareas comparten una única compuerta — para aislar la contribución del compuerteo por tarea de la propia estructura MoE.

    Para el estudio sintético, se generan dos etiquetas de regresión a partir de vectores de pesos $ w_1, w_2 $ con similitud coseno controlada $ p $:

    $ w_1 = c\, u_1,\qquad w_2 = c\!\left(p\, u_1 + \sqrt{1 - p^2}\, u_2\right), $

    con $ u_1 \perp u_2 $, y etiquetas generadas mediante una mezcla no lineal de funciones sinusoidales de $ w_k^T x $ más ruido gaussiano. La similitud coseno $ p $ sirve como sustituto controlable de la correlación de Pearson empírica entre las etiquetas, proporcionando un eje limpio sobre el que variar la relación entre tareas.

    En el benchmark Census-income se construyen dos pares de tareas a partir de características demográficas (ingresos vs. estado civil; nivel educativo vs. estado civil). En el sistema de recomendación de producción, dos tareas de clasificación binaria — una señal relacionada con la interacción y otra relacionada con la satisfacción — se entrenan conjuntamente sobre decenas de miles de millones de eventos de retroalimentación de usuario, ajustando todas las líneas base con una búsqueda de hiperparámetros por proceso gaussiano y un mismo presupuesto máximo de 2048 unidades ocultas por capa.

    Resultados

    En el benchmark sintético, MMoE reduce la brecha entre los regímenes de alta y baja correlación mucho más que OMoE o Shared-Bottom, y los domina en pérdida media a lo largo de 200 ejecuciones independientes en cada nivel de correlación. La línea base OMoE, al carecer de compuertas por tarea, se degrada bruscamente cuando la correlación entre tareas decrece — confirmando que el compuerteo por tarea es la pieza clave del diseño. Un histograma de entrenabilidad muestra además que Shared-Bottom sufre una larga cola de mínimos locales de mala calidad, mientras que MMoE concentra sus resultados cerca de la mejor pérdida alcanzable.

    Sobre UCI Census-income, MMoE alcanza el AUC medio más alto en la tarea principal en ambos grupos (ingresos/estado civil y nivel educativo/estado civil), superando por poco a L2-Constrained y Cross-Stitch y muy por encima de Tensor-Factorization, que colapsa bajo baja relación entre tareas. El modelo monotarea conserva una pequeña ventaja en la tarea auxiliar de estado civil porque está hiperajustado para ella, mientras que los modelos multitarea sólo se ajustan para la tarea principal.

    En el sistema de recomendación de contenidos de Google, MMoE produce el AUC y R² de interacción más altos en cada checkpoint de entrenamiento (2M, 4M y 6M pasos). L2-Constrained y Cross-Stitch quedan por debajo incluso de Shared-Bottom porque su número de parámetros se aproximadamente duplica, dejándolos con poca regularización. Los tests A/B en vivo muestran que MMoE mejora la interacción en +0,25% y la satisfacción en +2,65% sobre el modelo Shared-Bottom de producción, ambos significativos al 95% — y, lo que es crucial, sin sobrecoste de servicio medible, ya que el reparto de expertos preserva la ventaja de eficiencia de Shared-Bottom.

    Impacto

    MMoE se convirtió en una de las arquitecturas multitarea más adoptadas en el aprendizaje automático industrial, en particular en recomendación, ranking y publicidad a gran escala. El diseño influyó en trabajos posteriores sobre aprendizaje multitarea con compuertas, incluidos Customized Gate Control (CGC) y Progressive Layered Extraction (PLE), e informa la familia más amplia de Sparsely-gated mixture-of-experts y arquitecturas de cómputo condicional que escalan el número de parámetros sin escalar los FLOPs por ejemplo. Su intuición central — que las compuertas por tarea, condicionadas por la entrada, sobre un banco de expertos compartido pueden desacoplar el conflicto entre tareas de los beneficios de las representaciones compartidas — se ha trasladado a los diseños MoE de la era transformer empleados en los grandes modelos de lenguaje modernos. El artículo se cita también con frecuencia como evidencia de que los mecanismos de compuerteo mejoran la entrenabilidad en redes profundas no convexas, complementando hallazgos análogos para las unidades recurrentes con compuertas.

    Véase también

    Referencias

    1. Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, and Ed H. Chi. 2018. Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '18). ACM, New York, NY, USA, 1930–1939. https://doi.org/10.1145/3219819.3220007
    2. Robert A. Jacobs, Michael I. Jordan, Steven J. Nowlan, and Geoffrey E. Hinton. 1991. Adaptive mixtures of local experts. Neural Computation 3, 1, 79–87.
    3. Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. 2017. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv:1701.06538.
    4. Rich Caruana. 1998. Multitask learning. In Learning to learn. Springer, 95–133.
    5. Ishan Misra, Abhinav Shrivastava, Abhinav Gupta, and Martial Hebert. 2016. Cross-stitch networks for multi-task learning. In CVPR. 3994–4003.
    6. Long Duong, Trevor Cohn, Steven Bird, and Paul Cook. 2015. Low Resource Dependency Parsing: Cross-lingual Parameter Sharing in a Neural Network Parser. In ACL (2). 845–850.
    7. Yongxin Yang and Timothy Hospedales. 2016. Deep multi-task representation learning: A tensor factorisation approach. arXiv:1605.06391.
    8. Paul Covington, Jay Adams, and Emre Sargin. 2016. Deep neural networks for YouTube recommendations. In RecSys. ACM, 191–198.