MTGR: Industrial-Scale Generative Recommendation Framework in Meituan/es

Research Paper
Authors	Ruidong Han; Bin Yin; Shangyu Chen; He Jiang; Fei Jiang; Xiang Li; Chi Ma; Mincong Huang; Xiaoguang Li; Chunzhen Jing; Yueming Han; Menglei Zhou; Lei Yu; Chuan Liu; Wei Lin
Year	2025
Topic area	NLP
Difficulty	Research
arXiv	2505.18654
PDF	Download PDF

Other languages:

English
Español
中文

SummarySource

MTGR: Industrial-Scale Generative Recommendation Framework in Meituan es un artículo de 2025 de Ruidong Han, Bin Yin y colegas de Meituan que introduce un modelo de ranking que unifica las fortalezas de los Deep Learning Recommendation Models (DLRM) y los Generative Recommendation Models (GRM). MTGR se basa en la arquitectura transformer HSTU pero, a diferencia de los recomendadores generativos previos, conserva las cross features hechas a mano de las que dependen los DLRM, y reorganiza los datos usuario-candidato en una única secuencia compartida de modo que el escalado del cómputo no escala linealmente con el número de candidatos. Los autores reportan un aumento de 65× en FLOPs forward por muestra sobre una línea base DLRM madura, junto con una ganancia del +1,22% en volumen de conversión y del +1,31% en click-through rate, y han desplegado el modelo en el tráfico principal de la plataforma de comida a domicilio de Meituan.

Visión general

Los recomendadores industriales suelen enfrentar una tensión entre expresividad y costo. Los DLRM ingieren features cuidadosamente diseñadas — perfil de usuario, secuencias de comportamiento, features de candidato y, en especial, cross features que codifican interacciones usuario-ítem — pero su costo de inferencia crece aproximadamente de forma lineal con el número de candidatos por solicitud, lo que limita cuánto se puede escalar el modelo.

Los GRM lo reemplazan por un transformer sobre comportamiento de usuario tokenizado entrenado con next-token prediction, logrando una escalabilidad favorable pero forzando la eliminación de las cross features, lo que los autores encontraron que degrada severamente la calidad del ranking incluso con grandes cantidades de parámetros.

MTGR resuelve la tensión tratando al usuario como un contexto compartido entre todos los candidatos de una solicitud, empaquetando features de usuario, dos tipos de secuencias de comportamiento y features por candidato (con las cross features adheridas a los tokens de candidato) en una única secuencia de tokens consumida por una pila de bloques HSTU bajo una máscara de atención personalizada. Como el usuario se codifica una vez por solicitud y no una vez por candidato, el costo de hacer crecer el transformer se amortiza sobre muchos candidatos y la inferencia escala de forma sub-lineal en el número de candidatos. La puntuación discriminativa sobre los tokens de candidato preserva entonces el objetivo de ranking familiar para los profesionales del DLRM.

Contribuciones clave

Una arquitectura híbrida de escalado que conserva todas las features de entrada del DLRM — incluidas las cross features — heredando al mismo tiempo la escalabilidad estilo GRM de HSTU, al reformular la recomendación como puntuación discriminativa sobre una secuencia agregada por usuario y tokenizada en lugar de next-token prediction.
Group-Layer Normalization (GLN), una variante de layer normalization que normaliza los tokens dentro de cada grupo semántico (usuario, comportamiento histórico, comportamiento en tiempo real, candidato) por separado, de modo que dominios de features heterogéneos puedan compartir una única pila de atención.
Una máscara de atención dinámica de tres reglas que distingue contexto estático, interacciones causales en tiempo real y visibilidad solo a sí mismo para los candidatos, evitando filtraciones temporales de información entre candidatos y acciones recientes del usuario dentro de la misma muestra de entrenamiento.
Agregación de muestras a nivel de usuario que comprime todos los candidatos de una solicitud (o ventana de entrenamiento) en una sola pasada forward, reduciendo las muestras de entrenamiento de O(candidatos) a O(usuarios) y dando un costo de inferencia sub-lineal en el número de candidatos.
Una pila de entrenamiento basada en TorchRec con embeddings sobre dynamic hash tables, deduplicación de IDs en dos etapas, fusión automática de tablas, batch size dinámico por GPU para balanceo de carga, entrenamiento en precisión mixta bf16 y un kernel de atención CUTLASS; en conjunto producen un throughput 1,6×–2,4× mayor que TorchRec estándar y buena escalabilidad por encima de 100 GPUs.

Métodos

Para una solicitud con $$ K $$ candidatos, el DLRM tradicional expande los datos en $$ K $$ muestras independientes $\mathbb{D}_i = [\mathbf{U}, \vec{\mathbf{S}}, \vec{\mathbf{R}}, \mathbf{C}_i, \mathbf{I}_i]$ , donde $\mathbf{U}$ es el perfil de usuario, $\vec{\mathbf{S}}$ la secuencia de comportamiento de largo plazo, $\vec{\mathbf{R}}$ las interacciones recientes en tiempo real, $\mathbf{C}_i$ las cross features entre el usuario y el candidato $$ i $$ , e $\mathbf{I}_i$ las propias features del candidato. Tras el embedding por feature, target attention resume $\vec{\mathbf{S}}$ contra $\mathbf{I}_i$ y un MLP produce un logit por candidato.

MTGR reorganiza los datos de modo que el usuario aparece una vez por solicitud y las cross features se adhieren a los tokens de candidato:

\mathbb{D} = [\mathbf{U}, \vec{\mathbf{S}}, \vec{\mathbf{R}}, [\mathbf{C}, \mathbf{I}]_1, \ldots, [\mathbf{C}, \mathbf{I}]_K]

Cada feature escalar de $\mathbf{U}$ se convierte en un token de dimensión $d_{\text{model}}$ ; cada ítem de $\vec{\mathbf{S}}$ y $\vec{\mathbf{R}}$ se convierte en un token mediante embedding y MLP; cada candidato es un token cuyo embedding fusiona sus features de identidad con las cross features específicas del usuario. El flujo completo de tokens se alimenta a través de $$ L $$ bloques HSTU apilados. Dentro de un bloque, la entrada $\mathbf{X}$ se normaliza con Group-Layer Normalization, se proyecta a cuatro cabezas $\mathbf{Q}, \mathbf{K}, \mathbf{V}, \mathbf{U}$ , y se actualiza mediante

\tilde{\mathbf{V}} = \frac{\text{silu}(\mathbf{K}^T \mathbf{Q})}{N_{\mathbf{U}} + N_{\vec{\mathbf{S}}} + N_{\vec{\mathbf{R}}} + N_{\mathbf{I}}} \mathbf{M} \mathbf{V}

\mathbf{X} \leftarrow \text{MLP}(\text{GroupLN}(\tilde{\mathbf{V}} \odot \mathbf{U})) + \mathbf{X}

La máscara personalizada $\mathbf{M}$ impone tres reglas: la secuencia estática ( $\mathbf{U}$ y $\vec{\mathbf{S}}$ ) es visible para todos los tokens; los tokens de la secuencia dinámica $\vec{\mathbf{R}}$ son causales — solo visibles para tokens cronológicamente posteriores a ellos mismos, incluidos candidatos que ocurrieron después de un evento dado en tiempo real; los tokens de candidato son visibles solo a sí mismos, de modo que candidatos dentro de la misma solicitud no pueden filtrar señal entre sí. Esto elimina la fuga temporal que un mask causal ingenuo introduciría cuando interacciones en tiempo real y exposiciones de candidatos se agregan en la misma ventana.

Group-Layer Normalization, en contraste con un único layer norm compartido, calcula estadísticas dentro de cada dominio (usuario, comportamiento de largo plazo, comportamiento en tiempo real, candidato) por separado. Como estos dominios viven en espacios semánticos distintos y tienen distinto número de features, compartir una normalización entre ellos colapsa sus distribuciones y debilita la señal de atención; el estudio de ablación muestra que GLN es aproximadamente tan impactante como añadir varios bloques HSTU.

El framework de entrenamiento abandona TensorFlow en favor de PyTorch con TorchRec. Las tablas de embedding usan un diseño desacoplado basado en hash — un índice compacto de clave a puntero más una estructura de valores separada — que permite la inserción y desalojo en tiempo real de IDs sparse sin pre-asignar capacidad. La búsqueda de embeddings entre dispositivos se acelera mediante deduplicación de IDs en dos etapas y fusión automática de tablas. Las longitudes de secuencia de usuario de cola larga se manejan con batch size dinámico por GPU y reponderación de gradientes. Tres flujos en pipeline (copy, dispatch, compute) solapan I/O, lookup de embeddings y cómputo forward/backward, y se utiliza un kernel de atención basado en CUTLASS similar a FlashAttention junto con precisión mixta bf16.

Resultados

En un dataset de ranking de Meituan de 10 días con 0,21 mil millones de usuarios, 4,3 millones de ítems, 23,7 mil millones de exposiciones y abundantes cross features, MTGR se compara con varias familias de escalado DLRM — DNN, MoE, Wukong, MultiEmbed y UserTower — combinadas con recuperación de secuencias estilo SIM o modelado end-to-end completo de la secuencia. La línea base DLRM más fuerte es UserTower-SIM. Incluso MTGR-small (3 bloques HSTU, $d_{\text{model}} = 512$ , 5,47 GFLOPs/ejemplo) la supera en AUC y GAUC tanto para CTR como para CTCVR, y MTGR-medium (5 bloques, $d_{\text{model}} = 768$ ) y MTGR-large (15 bloques, $d_{\text{model}} = 768$ , 55,76 GFLOPs/ejemplo) extienden la ganancia de forma monótona, con la mejora en CTCVR GAUC siguiendo una relación aproximadamente de ley de potencia respecto a la complejidad computacional.

Las ablaciones muestran que eliminar Group-Layer Normalization o el dynamic masking cuesta aproximadamente tanto rendimiento como la diferencia entre MTGR-small y MTGR-medium, y eliminar las cross features borra por completo la ventaja de MTGR-large sobre DLRM, confirmando que la principal ganancia del diseño consiste en alimentar cross features a un transformer escalable y no solo en el transformer en sí. Los barridos de escalabilidad a lo largo de tres ejes independientes — el número de bloques HSTU, la dimensión del modelo $d_{\text{model}}$ y la longitud de la secuencia de entrada — todos producen mejoras suaves de ley de potencia en CTCVR GAUC.

En una prueba A/B online de seis meses contra un modelo UserTower-SIM que había sido entrenado de forma continua durante dos años, MTGR-large entregó +0,0153 CTR GAUC, +0,0288 CTCVR GAUC, +1,90% PV_CTR y +1,02% UV_CTCVR — según el cómputo de Meituan, la mayor ganancia individual de ranking en casi dos años — con costo de entrenamiento sin cambios y costo de inferencia 12% menor, este último gracias al escalado sub-lineal de la inferencia respecto al número de candidatos. Notablemente, el modelo MTGR usó solo seis meses de datos de entrenamiento, mientras que la línea base DLRM se había actualizado de manera continua durante dos años, lo que sugiere que más datos de entrenamiento deberían ampliar aún más el margen.

Impacto

MTGR es uno de los primeros despliegues industriales reportados que vuelve compatible la arquitectura generativa estilo HSTU con los pipelines ricos en cross features que impulsan a la mayoría de los rankers en producción, abordando un obstáculo clave que había limitado a los recomendadores generativos a benchmarks públicos pobres en features. Al mostrar que las leyes de escalado se cumplen para modelos de ranking cuando se preserva la riqueza de la entrada, el trabajo refuerza el argumento de que la recomendación puede seguir la misma trayectoria impulsada por cómputo que el lenguaje y la visión.

En la práctica, el sistema corre sobre el tráfico principal de Meituan, la mayor plataforma de comida a domicilio del mundo, sirviendo a cientos de millones de usuarios; las decisiones de framework liberadas — TorchRec con dynamic hash tables, normalización por grupo y dynamic masking — proporcionan una referencia concreta para otros equipos industriales que migran de stacks estilo DLRM a ranking basado en transformer.

Los autores cierran esbozando un camino hacia modelos fundacionales multi-escenario para recomendación, en los cuales un único backbone estilo MTGR podría compartirse entre múltiples superficies de negocio, reflejando la forma en que los large language models se reutilizan a través de tareas downstream.

Véase también

Referencias

Han, R., Yin, B., Chen, S., Jiang, H., Jiang, F., Li, X., Ma, C., Huang, M., Li, X., Jing, C., Han, Y., Zhou, M., Yu, L., Liu, C., y Lin, W. (2025). MTGR: Industrial-Scale Generative Recommendation Framework in Meituan. arXiv:2505.18654.
Zhai, J. et al. (2024). Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations (HSTU).
Deng, J. et al. (2025). OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment. arXiv:2502.18965.
Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models.
Dao, T. et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness.
Ivchenko, D. et al. (2022). TorchRec: a PyTorch Domain Library for Recommendation Systems.
Pi, Q. et al. (2020). Search-Based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction (SIM).
Zhang, B. et al. (2024). Wukong: Towards a Scaling Law for Large-Scale Recommendation.
Guo, X. et al. (2023). On the Embedding Collapse when Scaling up Recommendation Models.