Other languages:

MTGR: Industrial-Scale Generative Recommendation Framework in Meituan

Research Paper
Authors	Ruidong Han; Bin Yin; Shangyu Chen; He Jiang; Fei Jiang; Xiang Li; Chi Ma; Mincong Huang; Xiaoguang Li; Chunzhen Jing; Yueming Han; Menglei Zhou; Lei Yu; Chuan Liu; Wei Lin
Year	2025
Topic area	NLP
Difficulty	Research
arXiv	2505.18654
PDF	Download PDF

Ruidong Han MeituanBeijingChina hanruidong@meituan.com , Bin Yin MeituanBeijingChina yinbin05@meituan.com , Shangyu Chen MeituanBeijingChina chenshangyu03@meituan.com , He Jiang MeituanBeijingChina jianghe06@meituan.com , Fei Jiang MeituanBeijingChina jiangfei05@meituan.com , Xiang Li MeituanBeijingChina lixiang245@meituan.com , Chi Ma MeituanBeijingChina machi04@meituan.com , Mincong Huang MeituanBeijingChina huangmincong@meituan.com , Xiaoguang Li MeituanBeijingChina lixiaoguang12@meituan.com , Chunzhen Jing MeituanBeijingChina jingchunzhen@meituan.com , Yueming Han MeituanBeijingChina hanyueming02@meituan.com , Menglei Zhou MeituanBeijingChina zhoumenglei@meituan.com , Lei Yu MeituanBeijingChina yulei37@meituan.com , Chuan Liu MeituanBeijingChina liuchuan11@meituan.com and Wei Lin MeituanBeijingChina linwei31@meituan.com

摘要

scaling law 已在自然语言处理和 computer vision 等众多领域得到广泛验证。在推荐系统中，近期工作采用生成式推荐以获得可扩展性，但其生成式方法需要放弃传统推荐模型中精心构造的 cross feature。我们发现这种做法会显著损害模型性能，且扩大模型规模根本无法弥补。本文提出 MTGR（Meituan Generative Recommendation）来解决这一问题。MTGR 基于 HSTU (Zhai et al., 2024) 架构进行建模，并能够保留原 DLRM 的全部特征，包括 cross feature。此外，MTGR 通过用户级压缩实现训练与推理加速，从而保证高效扩展。我们还提出 Group-Layer Normalization (GLN) 以提升不同语义空间内的编码性能，并提出 dynamic masking 策略以避免信息泄露。我们进一步优化训练框架，支持计算复杂度为 DLRM 的 10 至 100 倍的模型，而成本基本不增加。MTGR 在单样本前向推理上相比 DLRM 模型达到 ${\textstyle 65}$ x FLOPs，在线下与线上均取得了近两年最大的收益。该突破已成功部署在美团——全球最大的外卖平台——并已承担其主流量。

Scaling Law; Generative Recommendation ^††ccs: 信息系统推荐系统

1. 引言

scaling law 已被证明适用于大多数 deep learning 任务，包括语言模型 (Kaplan et al., 2020)、computer vision (Zhai et al., 2022; Peebles 与 Xie, 2023) 以及信息检索 (Fang et al., 2024)。在工业推荐系统对高 QPS（Queries Per Second）和低延迟的要求下，模型的扩展通常同时受到训练成本和推理时间的限制。目前关于排序模型扩展的研究可分为两类：Deep Learning Recommendation Model（DLRM）和 Generative Recommendation Model（GRM）。DLRM 对单个用户-物品对进行建模以学习用于排序的兴趣概率，并通过设计更复杂的映射来扩展。GRM 像自然语言一样按 token 组织数据，并通过 transformer 架构进行 next token prediction。

在工业推荐系统中，DLRM 已使用近十年，输入通常包含大量精心设计的人工特征，如 cross feature ¹¹1Cross feature 衡量多个原始特征之间的交互，例如用户对目标候选的历史 click-through rate，以提升模型性能。然而 DLRM 在扩展时存在两个显著缺点：1) 随着用户行为的指数增长，传统 DLRM 无法高效处理完整的用户行为，往往需借助序列检索或设计低复杂度模块进行学习，这限制了模型的学习能力 (Pi et al., 2020; Chen et al., 2021)；2) 基于 DLRM 的扩展在训练和推理上的成本与候选数量近似呈线性增长，使得开销难以承受。

对于 GRM，近期研究指出其具有出色的可扩展性 (Zhai et al., 2024; Deng et al., 2025)。我们识别出两个关键因素：1) GRM 直接对用户行为的完整链条进行建模，将同一用户下的多次曝光样本压缩为一次。这显著减少了计算冗余，同时相对 DLRM 允许端到端编码更长的序列；2) GRM 采用带高效 attention 计算的 transformer 架构 (Zhai et al., 2024; Dao et al., 2022)，使模型的训练和推理能够满足工业推荐系统的需求。然而 GRM 严重依赖 next token prediction 来建模完整的用户行为序列，这要求移除候选与用户之间的 cross feature。我们发现，排除 cross feature 会严重损害模型性能，且这种退化根本无法通过扩大规模来弥补。

如何构建一个既利用 cross feature 以保证有效性、又具备 GRM 可扩展性的排序模型？为解决该问题，我们提出 Meituan Generative Recommendation（MTGR）。相比传统的 DLRM 与 GRM，MTGR 取其优点、舍其缺点。MTGR 保持与传统 DLRM 一致的输入特征，包括 cross feature。具体而言，MTGR 通过将用户特征与候选特征转换为不同的 token 来重组特征，得到一个 token 序列以支持高效的模型扩展。随后 MTGR 将 cross feature 融入候选 token，并采用判别式损失进行学习。

MTGR 采用与 (Zhai et al., 2024) 中类似的 HSTU（Hierarchical Sequential Transduction Units）架构进行建模。在 HSTU 中，我们提出 Group-layer Normalization（GLN），分别对不同类型的 token 进行归一化，从而能够同时更好地建模多种异质信息。此外，我们提出 dynamic masking 策略，分别使用 full-attention、自回归以及仅对自身可见，以保证性能并避免信息泄露。

与业界常用的 TensorFlow 不同，MTGR 训练框架构建于 TorchRec (Ivchenko et al., 2022) 之上，并针对计算效率进行了优化。具体地，为了处理 sparse embedding 条目的实时插入/删除，我们采用 dynamic hash table 替代静态表。为提升效率，我们进行动态序列均衡以解决 GPU 间的计算负载不均，并采用 embedding ID 去重与自动 table 合并来加速 embedding lookup。我们还加入了包括 mixed precision 训练和算子融合在内的实现层优化。相比 TorchRec，我们的优化框架将训练吞吐提升 ${\textstyle 1.6}$ x – ${\textstyle 2.4}$ x，并在超过 ${\textstyle 100}$ 张 GPU 上仍具有良好可扩展性。

我们在小规模数据集上验证 MTGR 的可扩展性。随后，我们设计了三种不同规模的模型，使用超过六个月的数据进行训练，以验证 scaling law 在线下和线上的表现。large 版本与多年优化的 DLRM 基线相比，前向计算的每样本 FLOPs 达到 ${\textstyle 65}$ x，并在我们的场景中将转化量提升 ${\textstyle 1.22\%}$ 、CTR（Click-Through Rate）提升 ${\textstyle 1.31\%}$ 。与此同时，训练成本保持不变，推理成本降低 12%。MTGR-large 已部署在美团外卖推荐系统中，服务数亿用户。

总之，我们的贡献可以总结如下：

•

MTGR 结合了 DLRM 与 GRM 的优点，保留了 DLRM 的全部特征（包括 cross feature），同时具有与 GRM 同等的优秀可扩展性。
•

我们提出 Group-Layer Normalization 与 dynamic masking 策略以获得更好的性能。
•

我们对基于 TorchRec 的 MTGR 训练框架进行了系统性优化，以提升训练性能。
•

线上线下实验都验证了 MTGR 性能与计算复杂度之间的幂律关系，以及其相对 DLRM 的优势。

2. 相关工作

2.1. 深度学习推荐模型

经典的 DLRM 结构通常包含许多输入，如上下文（例如时间、位置）、用户画像（例如性别、年龄）、用户行为序列以及带有大量 cross feature 的目标 item。排序模型中尤为重要的两个模块是行为序列处理和特征交互学习。行为序列模块 (Zhou et al., 2018; Pi et al., 2020; Si et al., 2024) 通常采用 target attention 机制来捕捉用户历史行为与待预测物品之间的相似性。特征交互模块 (Lian et al., 2018; Tang et al., 2020; Wang et al., 2021, 2024) 旨在捕捉用户与物品等不同特征之间的交互，以产生最终预测。

2.2. 扩展推荐模型

根据 DLRM 中所扩展的不同模块，存在两种不同的方法。一种是扩展 cross module，即扩大整合用户与物品信息的特征交互模块。(Zhang et al., 2024b) 引入可堆叠的 Wukong 层进行扩展。(Guo et al., 2023) 采用 multi-embedding 策略以应对 embedding collapse，从而提升模型可扩展性。另一种方法是扩展 user module，即只扩展用户部分，使其对推理更友好。(Zhang et al., 2024a; Han et al., 2024) 通过仅扩展用户表征并将其缓存或广播给不同的待预测物品来降低线上推理成本。(Shin et al., 2023; Yan et al., 2025) 设计了用户表征的预训练方法，在下游任务中展示了可扩展性。

DLRM 的对照是 GRM。(Zhai et al., 2024) 通过将 HSTU 扩展到万亿参数级验证了 scaling law。(Deng et al., 2025) 使用语义编码替代传统的 ID 表征，将 DPO 优化与 HSTU 相结合，用统一的生成式模型替代级联式学习框架。

3. 预备

3.1. 数据组织

传统上，对于一个用户及其对应的 ${\textstyle K}$ 个候选，该用户与第 ${\textstyle i}$ 个候选构成的第 ${\textstyle i}$ 个样本可表示为 ${\textstyle {\mathbb{D}}_{i} = {\lbrack\mathbf{U},\overset{\rightarrow}{\mathbf{S}},\overset{\rightarrow}{\mathbf{R}},\mathbf{C}{}_{}^{}\mathbf{I}{}_{}^{}}}$ 。具体来说， ${\textstyle \mathbf{U} = {\lbrack\mathbf{U}{}_{}^{}\ldots,\mathbf{U}{}_{}^{N\mathbf{U}}}}$ 表示用户的画像特征 ( ${\textstyle \mathbf{U}^{i}}$ )，如年龄、性别等。每个特征 ${\textstyle \mathbf{U}^{i}}$ 都是标量， ${\textstyle N_{\mathbf{U}}}$ 表示所使用特征的数量。 ${\textstyle \overset{\rightarrow}{\mathbf{S}} = {\lbrack\mathbf{S}{}_{}^{}\ldots,\mathbf{S}{}_{}^{N\mathbf{S}}}}$ 包含用户历史交互过的物品序列。 ${\textstyle \mathbf{S}{}_{}^{}{\lbrack\mathbf{s}{}_{}^{}\ldots,\mathbf{s}{}_{}^{N\mathbf{s}}}}$ 中的每个元素表示一个物品，由所选特征 ( ${\textstyle \mathbf{s}^{i}}$ ) 构成，如物品的 ID、tag、平均 CTR 等。类似 ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ ， ${\textstyle \overset{\rightarrow}{\mathbf{R}}}$ 记录最接近当前请求的几小时或一天内的交互。 ${\textstyle \overset{\rightarrow}{\mathbf{R}}}$ 表示用户的实时行为与偏好。它与 ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ 共享相同的特征。 ${\textstyle \mathbf{C} = {\lbrack\mathbf{C}{}_{}^{}\ldots,\mathbf{C}{}_{}^{N\mathbf{C}}}}$ 包含用户与候选之间的 cross feature。 ${\textstyle \mathbf{I} = {\lbrack\mathbf{I}{}_{}^{}\ldots,\mathbf{I}{}_{}^{N\mathbf{I}}}}$ 包含候选所使用的特征，如物品 ID、tag 和品牌。 ${\textstyle \mathbf{I}}$ 依赖于候选，且对不同用户共享。

3.2. 推荐系统中的排序模型

对于输入样本 ${\textstyle \mathbb{D}}$ ，传统推荐系统对样本逐一独立处理。具体地，它首先对 ${\textstyle \mathbb{D}}$ 中的特征进行嵌入，并将样本转换为稠密表示。形式上， ${\textstyle \mathbf{U}}$ 、 ${\textstyle \mathbf{C}}$ 、 ${\textstyle \mathbf{I}}$ 中的特征分别被嵌入并拼接为 ${\textstyle {\mathbf{E}\mathbf{m}\mathbf{b}}{}_{}^{}{\mathbb{R}}^{K \times d_{\mathbf{U}}}}$ 、 ${\textstyle {\mathbf{E}\mathbf{m}\mathbf{b}}{}_{}^{}{\mathbb{R}}^{K \times d_{\mathbf{C}}}}$ 与 ${\textstyle {\mathbf{E}\mathbf{m}\mathbf{b}}{}_{}^{}{\mathbb{R}}^{K \times d_{\mathbf{I}}}}$ 。对于 ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ 与 ${\textstyle \overset{\rightarrow}{\mathbf{R}}}$ 中的特征 ²²2在下文描述中，由于 ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ 与 ${\textstyle \overset{\rightarrow}{\mathbf{R}}}$ 处理方式类似，为清晰起见仅描述 ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ 的建模。，每个 item ( ${\textstyle \mathbf{S}^{i}}$ ) 的特征类似地被嵌入并拼接为 ${\textstyle {\mathbf{E}\mathbf{m}\mathbf{b}}_{\mathbf{S}^{i}} \in {\mathbb{R}}^{d_{\mathbf{s}}}}$ ， ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ 中的 item 沿另一维度拼接，得到 ${\textstyle {\mathbf{E}\mathbf{m}\mathbf{b}}_{\overset{\rightarrow}{\mathbf{S}}} \in {\mathbb{R}}^{N_{\overset{\rightarrow}{\mathbf{S}}} \times d_{\mathbf{s}}}}$ ³³3 ${\textstyle N_{\ast}}$ 表示 ${\textstyle \ast}$ 的序列长度。

为了在历史交互物品与候选之间提取用户兴趣，通常使用 target attention，以 target 作为 query，以序列特征作为 key/value。形式上，

(1)		${\textstyle {\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}{}_{\left. \mathbf{S}\rightarrow \right.}^{}\text{Attention}{({\mathbf{E}\mathbf{m}\mathbf{b}}{}_{}^{}{\mathbf{E}\mathbf{m}\mathbf{b}}_{\overset{\rightarrow}{\mathbf{S}}},{\mathbf{E}\mathbf{m}\mathbf{b}}_{\overset{\rightarrow}{\mathbf{S}}})} \in {\mathbb{R}}^{K \times d_{\mathbf{S}}}}$

式 1 根据 ${\textstyle \mathbf{I}}$ 对 ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ 进行汇聚。最后，从 ${\textstyle \mathbb{D}}$ 中嵌入并处理过的特征被拼接并表示为：

(2)		${\textstyle {\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}{}_{}^{}{\lbrack{\mathbf{E}\mathbf{m}\mathbf{b}}{}_{}^{}{\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}{}_{\left. \mathbf{S}\rightarrow \right.}^{}{\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}{}_{\left. \mathbf{R}\rightarrow \right.}^{}{\mathbf{E}\mathbf{m}\mathbf{b}}{}_{}^{}{\mathbf{E}\mathbf{m}\mathbf{b}}_{\mathbf{s}}\rbrack} \in {\mathbb{R}}^{K \times {({d_{\mathbf{U}} + d_{\mathbf{S}} + d_{\mathbf{C}} + d_{\mathbf{I}}})}}}$

${\textstyle {\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}_{\mathbb{D}}}$ 进一步送入多层感知机（MLP），为每个样本输出一个 logit。该 logit 在训练时用于学习，在推理时用于排序。

图 1 展示了传统排序模型下简化的数据组织与工作流程。这些特征首先被嵌入，前部的嵌入按不同方法处理。最后，处理后的特征被拼接并由 MLP 处理以进行特征交互。最终为每个候选生成 logit。

3.3. 推荐系统中的扩展困境

模型扩展一直是排序性能提升的常用方法。通常，模型扩展的目标是扩大 user module 与 cross module 中的参数。user module 处理包括序列特征在内的用户特征，并生成依赖于用户的表征。扩展 user module 能为用户带来更好的表征。此外，由于用户对所有候选共享并只推理一次，user module 中较大的推理成本不会造成系统过载。然而，仅扩展 user module 并不能直接促进用户与物品之间的特征交互。

相反，另一类方法旨在扩展 cross module，即特征拼接后的特征交互 MLP。这类方法通过更多关注用户与候选之间的交互来增强排序能力。然而，由于 cross module 对每个候选都要推理，计算量随候选数量线性增长。扩展 cross module 会带来不可接受的系统延迟。

传统推荐系统中的扩展困境呼唤一种新的扩展方法：在用户与候选之间实现高效的特征交互，同时使推理成本随候选数次线性增长。MTGR 通过数据重组和相应的架构优化，革新了推荐系统中的扩展方式。

4. MTGR 的数据重组与架构

4.1. 面向训练与推理效率的用户级样本聚合

与 3.1 节中的特征分类相比，对于候选中的第 ${\textstyle i}$ 个样本，MTGR 将特征组织为 ${\textstyle {\mathbb{D}}_{i} = {\lbrack\mathbf{U},\overset{\rightarrow}{\mathbf{S}},\overset{\rightarrow}{\mathbf{R}},{\lbrack\mathbf{C}{}_{}^{}\mathbf{I}{}_{}^{}}\rbrack}}$ 。特别地，cross feature ${\textstyle \mathbf{C}}$ 被作为候选物品特征的一部分进行排列。在 MTGR 中，训练时按用户在指定窗口内聚合候选，推理时按请求聚合。由于聚合针对的是同一个用户，聚合样本可以使用相同的用户表征 ( ${\textstyle \mathbf{U}}$ , ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ , ${\textstyle \overset{\rightarrow}{\mathbf{R}}}$ )。特别地， ${\textstyle \overset{\rightarrow}{\mathbf{R}}}$ 按交互时间的时间顺序排列用户在另一指定窗口内的所有实时交互物品。

图 2(a) 展示了聚合：与图 1 中只预测一个候选不同，图 2(a) 将三个物品聚合到一个样本中，复用同一用户表征。形式上，它为同一用户构建特征表示：

(3)		${\textstyle {\mathbb{D}} = {\lbrack\mathbf{U},\overset{\rightarrow}{\mathbf{S}},\overset{\rightarrow}{\mathbf{R}},{\lbrack\mathbf{C},\mathbf{I}\rbrack}_{1},\ldots,{\lbrack\mathbf{C},\mathbf{I}\rbrack}_{K}\rbrack}}$

通过将候选聚合到一个样本中，MTGR 仅执行一次计算即可为所有候选生成分数，从而极大地节省资源。具体地，用户级聚合将训练样本量从候选量级降到用户量级。对于推理，请求中的候选按上述方式分组，MTGR 仅对所有候选排序进行一次推理，而非按候选数量分别推理。聚合避免了推理成本对候选数量的依赖，为模型扩展留下了空间和潜力。

式 3 是标量特征与序列特征的组合。为了统一输入格式，MTGR 将特征与序列转换为 token。具体地，对于 ${\textstyle \mathbf{U}}$ 中的标量特征，每个特征自然对应一个维度为 ${\textstyle {\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}{}_{}^{}{\mathbb{R}}^{N_{\mathbf{U}} \times d_{\text{model}}}}$ 的独立 token。 ${\textstyle d_{\text{model}}}$ 是为所有 token 设置的统一维度。对于 ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ 与 ${\textstyle \overset{\rightarrow}{\mathbf{R}}}$ 的序列特征，每个 item ${\textstyle \mathbf{S}}$ 视为一个 token。 ${\textstyle \mathbf{S}}$ 中的特征首先被嵌入并拼接，然后通过一个 MLP 模块进行维度统一。形式上， ${\textstyle {\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}{}_{\mathbf{S}_{i}}^{}\text{MLP}{(\text{Concat}{({\mathbf{E}\mathbf{m}\mathbf{b}}{}_{}^{}})} \in {\mathbb{R}}^{d_{\text{model}}}}$ 。序列中 ${\textstyle \mathbf{S}}$ 的特征沿另一维度拼接，得到 ${\textstyle {\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}{}_{\left. \mathbf{S}\rightarrow \right.}^{}{\mathbb{R}}^{N_{\overset{\rightarrow}{\mathbf{S}}} \times d_{\text{model}}}}$ 。

类似地，候选中的每个 item ${\textstyle \mathbf{I}}$ 也视为一个 token。候选中的特征被嵌入并拼接，并通过另一个 MLP 转换到统一维度。候选拼接成一系列 token： ${\textstyle {\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}{}_{}^{}\text{Concat}{(\text{MLP}{(\text{Concat}{({\mathbf{E}\mathbf{m}\mathbf{b}}{}_{\mathbf{C}_{i}}^{}{\mathbf{E}\mathbf{m}\mathbf{b}}{}_{\mathbf{I}_{i}}^{}})})} \in {\mathbb{R}}^{N_{\mathbf{I}}}}$ 。最后，由 ${\textstyle \mathbf{U}}$ 、 ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ 、 ${\textstyle \lbrack\mathbf{C},\mathbf{s}\rbrack}$ 构造的 token 被拼接，形成一条较长的 token 序列：

	${\textstyle {\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}_{\mathbb{D}}}$	${\textstyle =}$	${\textstyle \text{Concat}{({\lbrack{\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}{}_{}^{}{\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}{}_{\left. \mathbf{S}\rightarrow \right.}^{}{\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}{}_{\left. \mathbf{R}\rightarrow \right.}^{}{\mathbf{F}\mathbf{e}\mathbf{a}\mathbf{t}}{}_{}^{}})}}$
		${\textstyle \in}$	${\textstyle {\mathbb{R}}^{{({N_{\mathbf{U}} + N_{\overset{\rightarrow}{\mathbf{S}}} + N_{\overset{\rightarrow}{\mathbf{R}}} + N_{\mathbf{I}}})} \times d_{\text{model}}}}$

4.2. 统一的 HSTU 编码器

来自一个用户的样本被聚合为一段 token 序列，天然适合用 self-attention 处理。受 HSTU (Zhai et al., 2024) 启发，MTGR 采用堆叠的 self-attention 层和 encoder-only 架构进行建模。

与 LLM 类似，输入 token 序列按层处理。如图 2 所示，在 self-attention 块中，输入序列 ${\textstyle \mathbf{X}}$ 首先经 group layer norm 归一化。同一域（例如 ${\textstyle \mathbf{U}}$ ）的特征构成一个组。group layer norm 确保不同域的 token 在 self-attention 前共享相似分布，并对齐不同域的语义空间 ${\textstyle \overset{\sim}{X} = {\text{GroupLN}\hspace{0pt}{(\mathbf{X})}}}$ 。归一化后的输入再被投影到 4 种不同表示： ${\textstyle {\mathbf{K},\mathbf{Q},\mathbf{V},\mathbf{U}} = {\text{MLP}_{\mathbf{K}/\mathbf{Q}/\mathbf{V}/\mathbf{U}}\hspace{0pt}{(\overset{\sim}{\mathbf{X}})}}}$ 。 ${\textstyle \mathbf{Q}}$ 、 ${\textstyle \mathbf{K}}$ 用于带 silu 非线性激活的 multi-head attention 计算。所得 attention 以输入特征的总长度作为平均因子进行除法。接着，对 attention score 施加自定义 mask ( ${\textstyle \mathbf{M}}$ )，并使用投影后的 ${\textstyle \mathbf{V}}$ 进行 value 更新：

(5)		${\textstyle \overset{\sim}{\mathbf{V}}}$	${\textstyle =}$	${\textstyle \frac{\text{silu}\hspace{0pt}{({\mathbf{K}^{T}\hspace{0pt}\mathbf{Q}})}}{({N_{\mathbf{U}} + N_{\overset{\rightarrow}{\mathbf{S}}} + N_{\overset{\rightarrow}{\mathbf{R}}} + N_{\mathbf{I}}})}\hspace{0pt}{\mathbf{M}\mathbf{V}}}$

投影得到的 ${\textstyle \mathbf{U}}$ 与更新后的 ${\textstyle \overset{\sim}{\mathbf{V}}}$ 进行逐元素相乘。随后再应用一次 group layer norm。最后，我们添加残差模块，并在其上再叠加一个 MLP：

(6)		${\textstyle \mathbf{X}}$	${\textstyle =}$	${\textstyle {\text{MLP}\hspace{0pt}{({\text{GroupLN}\hspace{0pt}{({\overset{\sim}{\mathbf{V}} \odot \mathbf{U}})}})}} + \mathbf{X}}$

Dynamic Masking (Zhai et al., 2024) 使用 causal mask 进行序列建模。然而，这种实现并不能为 MTGR 带来显著提升。此外，由于 ${\textstyle \overset{\rightarrow}{\mathbf{R}}}$ 记录用户最近的交互，其时间可能与样本聚合窗口重叠。在 MTGR 中使用简单的 causal mask 可能导致信息泄露。例如，晚上的交互不应暴露给下午的候选，但这些信息可能被聚合到同一样本中。这一困境要求一种灵活且高效的 masking 方案。

在 MTGR 中， ${\textstyle \mathbf{U}}$ 、 ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ 被视为静态的（下文将 ${\textstyle \mathbf{U}}$ 、 ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ 称为“静态序列”），因为其信息来自聚合窗口之前，因此不会引起因果性错误。 ${\textstyle \overset{\rightarrow}{\mathbf{R}}}$ 则是动态的，因为它实时地逐步纳入用户的交互（相对于 ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ 称为“动态序列”）。MTGR 对静态序列采用 full attention，对 ${\textstyle \overset{\rightarrow}{\mathbf{R}}}$ 采用带 dynamic masking 的自回归，对候选间采用对角 masking。具体地，MTGR 的 masking 设定 3 条规则：

•

静态序列对所有 token 可见。
•

动态序列的可见性遵循因果性，每个 token 仅对其后出现的 token 可见，这包括候选 token。
•

候选 token ( ${\textstyle \mathbf{C}}$ , ${\textstyle \mathbf{I}}$ ) 仅对自身可见。

图 2 (c) 展示了 dynamic masking 的一个例子：‘age’、‘ctr’ 表示来自 ${\textstyle \mathbf{U}}$ 的特征 token；‘seq1’、‘seq2’ 表示 ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ ；‘rt1’、‘rt2’ 表示 ${\textstyle \overset{\rightarrow}{\mathbf{R}}}$ ，‘target1’ - ‘target3’ 表示候选。行中的白块表示该 token 可以使用其他 token 的信息，列则表示该 token 是否对其他 token 可见。 ${\textstyle \mathbf{U}}$ 与 ${\textstyle \mathbf{S}}$ 之间使用 full attention，从 ‘age’ 到 ‘seq2’ 形成一个白色方块。对于 ‘rt1’ 与 ‘rt2’，我们假定 ‘rt1’ 出现晚于 ‘rt2’，因此从 ‘rt1’ 到 ‘rt2’ 构成一个小方块，其上三角为白色，意味着 ‘rt1’ 可以使用 ‘rt2’ 的信息，但 ‘rt1’ 对 ‘rt2’ 不可见。此外，假定 ‘target2’ 与 ‘target3’ 出现早于 ‘rt1’，因此 ‘rt1’ 对它们不可见。‘rt2’ 出现早于所有 ‘target1’ 与 ‘target2’，晚于 ‘target3’，因此 ‘rt2’ 对 ‘target3’ 不可见，而 ‘target3’ 出现早于所有 ‘rt’，因此无法使用 ‘rt’ 的信息。

5. 训练系统

为便于 MTGR 模型结构的设计与开发，并方便地引入快速发展的 LLM 社区中的更多特性，我们决定不再沿用之前基于 TensorFlow 的训练框架，而是选择在 PyTorch 生态中重建训练框架。具体地，我们扩展并优化了 TorchRec 的功能，针对 MTGR 模型特性做了专门增强，最终实现了 MTGR 模型的高效训练。相比 TorchRec，我们的优化框架将训练吞吐提升 1.6x – 2.4x，并在超过 100 张 GPU 上仍具良好扩展性。相比 DLRM 基线，我们在前向计算上每样本达到 65x FLOPs，而训练成本基本不变。下面给出我们的部分关键工作。

Dynamic Hash Table。TorchRec 使用固定大小的表来处理 sparse embedding，这不适合大规模工业流式训练场景。首先，一旦静态表达到其预设容量，就无法实时为新用户和新物品分配额外的 embedding。在此情况下，虽然可以使用默认 embedding 或采用某些 eviction 策略淘汰“旧”的 ID，但模型精度会下降。其次，静态表通常需要预分配超过实际需求的容量以防止 ID 溢出，不可避免地导致内存利用低效。为应对这些挑战，我们实现了基于哈希的高性能 embedding table，在训练过程中为 sparse ID 动态分配空间。我们对 hash table 采用解耦架构，将 key 与 value 的存储分离到不同结构中。key 结构维护一个轻量的映射表，包含 key 与对应的 embedding 向量指针；value 结构则同时存储 embedding 向量以及 eviction 策略所需的辅助元数据（如计数器和时间戳）。这种双结构设计达成两个关键目标：(1) 通过仅复制紧凑的 key 结构而非庞大的 embedding 数据来支持容量的动态扩展；(2) 通过紧凑的内存布局存储 key 来优化 key 扫描效率，同时容纳可能稀疏的 key 分布。

Embedding Lookup。embedding lookup 过程采用 All-to-all 通信进行跨设备 embedding 交换。我们采用两阶段 ID 去重操作，在 ID 通信前后减少冗余 ID，从而避免设备间重复传输 embedding。我们还设计了一个特征配置接口以实现自动 table 合并，这可以减少 embedding lookup 算子的数量，从而加速整个过程。

Load balance。在推荐系统中，用户行为序列通常呈长尾分布——只有少数用户的序列较长，而大多数用户的序列较短。在使用固定 batch size（缩写为 BS）训练时，这会带来显著的计算负载不均。常见的解决方案是采用 sequence packing 技术 (Krell et al., 2021)，将多条短序列合并为一条较长序列。然而，这种方法需要仔细调整 mask 以防止不同序列在 attention 计算时相互干扰，实现成本较高。我们直接的做法是引入动态 BS。每张 GPU 的本地 BS 根据输入数据的实际序列长度调整，以保证计算负载相近。此外，我们还调整了梯度聚合策略，按各 GPU 的 BS 对其梯度加权，从而在计算逻辑上与固定 BS 保持一致。

Other Optimizations。为进一步提升训练效率，我们通过 pipeline 技术使用三个 stream 最大化并行度：copy、dispatch 与 compute。具体地，copy stream 将输入数据从 CPU 加载到 GPU，dispatch stream 按 ID 进行 table lookup，compute stream 负责前向计算与反向更新。例如，当 compute stream 执行 batch ${\textstyle \mathbf{T}}$ 的前向与反向时，copy stream 同时加载 batch ${\textstyle \mathbf{T} + 1}$ 以掩盖 I/O 延迟。完成 batch ${\textstyle \mathbf{T}}$ 的反向更新后，dispatch stream 立即开始 batch ${\textstyle \mathbf{T} + 1}$ 的 table lookup 与通信。此外，我们采用 bf16 混合精度训练，并开发了一个精心设计的、类似 FlashAttention 的基于 cutlass 的 attention kernel，以加速训练过程。

6. 实验

6.1. 实验设置

Datasets。公开数据集通常使用独立的 ID 与属性特征，很少引入 cross feature。然而 cross feature 在真实应用中至关重要。在我们的场景中，cross feature 是一类重要特征，通常经过精心人工构造，包含诸如用户-物品、用户与高层类别、物品与时空信息等交互。为弥补公开数据集中 cross feature 的缺失，我们基于美团真实工业级推荐系统的日志构造了训练数据集。与公开数据集不同，我们的真实数据集包含更丰富的 cross feature 集合和更长的用户行为序列。此外，数据集体量较大，能让复杂模型在训练中更充分地收敛。对于线下实验，我们收集 ${\textstyle 10}$ 天的数据。数据集统计如表 1 所示。对于线上实验，为了与训练超过 ${\textstyle 2}$ 年的 DLRM 基线对比，我们构造了周期更长的实验数据集，覆盖超过 ${\textstyle 6}$ 个月的数据。

Dataset	#Users	#Items	#Exposure	#Click	#Purchases
Train	0.21 billion	4,302,391	23.74 billion	1.08 billion	0.18 billion
Test	3,021,198	3,141,997	76,855,608	4,545,386	769,534

Baseline。对于 DLRM，我们在序列建模上对比两种方法：基于序列检索的 SIM 与对原始长序列做端到端建模的 End2End（E2E）。在扩展方面，我们对比 DNN、MoE (Ma et al., 2018)、Wukong (Zhang et al., 2024b)、MultiEmbed (Guo et al., 2023) 与 UserTower。

MoE 使用 ${\textstyle 4}$ 个 expert，每个 expert 包含与基础 DNN 同等复杂度的网络。Wukong 与 MultiEmbed 配置为与 MoE 同等的计算复杂度。UserTower 使用一组可学习的 query，并在用户行为之上插入一层 qFormer (Li et al., 2023) 与另一个 MoE（16 个 expert）模块。UserTower 的计算复杂度是 MoE 方法的三倍，但在推理时可以为同一用户的多个待预测物品共享该计算，从而降低推理成本。它在我们的场景中取得了良好效果。

MTGR 采用 E2E 处理全部序列信息。此外，如表 2 所示，我们设置了三种不同规模以验证 MTGR 的可扩展性。

Model	Setting	Learning rate	GFLOPs/example
UserTower-SIM	-	${\textstyle 8 \times 10^{- 4}}$	0.86
MTGR-small	${\textstyle n_{\text{layer}} = 3}$ , ${\textstyle d_{\text{model}} = 512}$ , ${\textstyle n_{\text{heads}} = 2}$	${\textstyle 3 \times 10^{- 4}}$	5.47
MTGR-medium	${\textstyle n_{\text{layer}} = 5}$ , ${\textstyle d_{\text{model}} = 768}$ , ${\textstyle n_{\text{heads}} = 3}$	${\textstyle 3 \times 10^{- 4}}$	18.59
MTGR-large	${\textstyle n_{\text{layer}} = 15}$ , ${\textstyle d_{\text{model}} = 768}$ , ${\textstyle n_{\text{heads}} = 3}$	${\textstyle 1 \times 10^{- 4}}$	55.76

Evaluation Metrics。线下我们关注两项任务的学习：CTR 与 CTCVR（Click-Through Conversion Rate），并使用 AUC (Ferri et al., 2011) 与 GAUC（Group AUC）进行评估。GAUC 是按用户求 AUC 后取平均。相比 AUC，GAUC 更关注模型对同一用户的排序能力。在线上评估中，我们关注两项指标：PV_CTR（按 page view 的 CTR）与 UV_CTCVR（按 user view 的 CTCVR），其中 UV_CTCVR 是衡量业务增长最关键的指标。

Parameter Setting。我们的模型使用 Adam 优化器训练。对于 DLRM，每张 GPU 处理 2400 的 batch size，使用 8 张 NVIDIA A100 GPU 训练。对于 MTGR，batch size 设为 96，使用 16 张 NVIDIA A100 GPU 训练。如表 2 所示，learning rate 随模型复杂度的增加而减小。此外，随着模型规模增长，我们按比例增加 sparse 参数的规模。假设一个 token 由 ${\textstyle k}$ 个特征组成，每个特征的 embedding 维度通常取接近 ${\textstyle d_{\text{model}}/k}$ 的整数。最后， ${\textstyle \overset{\rightarrow}{\mathbf{S}}}$ 的最大长度设为 ${\textstyle 1000}$ ， ${\textstyle \overset{\rightarrow}{\mathbf{R}}}$ 设为 ${\textstyle 100}$ 。

6.2. 总体性能对比

我们使用 10 天的数据集评估 MTGR 与其他基线方法的性能。表 3 展示了不同模型的性能。各模型在不同线下指标上的差异相当一致。根据以往经验，线下指标上 ${\textstyle 0.001}$ 的提升即被视为显著。在 DLRM 的各个版本中，Wukong-SIM 与 MultiEmbed-SIM 的结果优于 MoE-SIM。UserTower-SIM 表现最佳，而 UserTower-E2E 相比 UserTower-SIM 性能略有下降。我们推测在 DLRM 范式下，模型复杂度不足以建模全部序列信息，导致欠拟合。我们提出的 MTGR，即使是最小的版本，也超过最强的 DLRM 模型。此外，三种不同规模的模型展现出可扩展性，随着模型复杂度提高，性能平滑提升。

Model	CTR		CTCVR
Model	AUC	GAUC	AUC	GAUC
DNN-SIM	0.7432	0.6679	0.8737	0.6504
MoE-SIM	0.7484	0.6698	0.8750	0.6519
MultiEmbed-SIM	0.7501	0.6715	0.8766	0.6525
Wukong-SIM	0.7568	0.6759	0.8800	0.6530
UserTower-SIM	0.7593	0.6792	0.8815	0.6550
UserTower-E2E	0.7576	0.6787	0.8818	0.6548
MTGR-small	0.7631	0.6826	0.8840	0.6603
MTGR-medium	0.7645	0.6843	0.8849	0.6625
MTGR-large	0.7661	0.6865	0.8862	0.6646
Impr.%	0.8956	1.0748	0.4990	1.4656

Model	CTR		CTCVR
Model	AUC	GAUC	AUC	GAUC
MTGR-small	0.7631	0.6826	0.8840	0.6603
w/o cross features	0.7495	0.6689	0.8736	0.6514
w/o GLN	0.7606	0.6809	0.8826	0.6585
w/o dynamic mask	0.7620	0.6810	0.8828	0.6587

6.3. 消融研究

我们基于 small 版本对 MTGR 的两个组件——Dynamic Masking 与 group layer norm（GLN）——进行消融研究。消融结果如图 4 所示。从 MTGR 中移除任一组件都会导致性能显著下降，下降幅度可比 MTGR-small 到 MTGR-medium 的提升。这表明 Dynamic Masking 与 GLN 对 MTGR 的重要性。此外，我们对 cross feature 对 MTGR 的重要性做了额外实验。移除 cross feature 后，性能指标显著下降，甚至抹去 MTGR-large 相对 DLRM 的全部增益，凸显了 cross feature 在真实推荐系统中的关键作用。

6.4. 可扩展性

图 3 展示了我们 MTGR 的可扩展性。我们基于 MTGR-small 对三种不同超参数进行测试：HSTU 块数量、 ${\textstyle d_{\text{model}}}$ 与输入序列长度。可以看到，MTGR 在不同超参数下都展现出良好的可扩展性。此外，图 3(d) 展示了性能与计算复杂度之间的幂律关系。纵轴表示相对于最佳 DLRM 模型 UserTower-SIM 在 CTCVR GAUC 指标上的提升，横轴表示相对 UserTower-SIM 的计算复杂度的对数倍数。

6.5. 线上实验

为进一步验证 MTGR 的有效性，我们在美团外卖平台部署 MTGR，使用 ${\textstyle 2\%}$ 的流量进行 AB 测试。实验流量每日覆盖数百万次曝光，保证了实验的置信度。对比基线是线上最先进的 DLRM 模型（UserTower-SIM），它已连续学习 ${\textstyle 2}$ 年。我们使用最近 ${\textstyle 6}$ 个月的数据训练 MTGR 模型，并将其部署上线进行对比。

尽管训练数据量显著少于 DLRM 模型，线下和线上指标仍大幅超过 DLRM 基线。如表 5 所示，线下与线上指标均展现出可扩展性。我们还发现，随着训练 token 数量的增加，相对 DLRM 的收益不断放大。最终在 CTCVR GAUC 上，我们的 large 版本甚至超过过去一年所有优化的累计提升。

该模型已在我们的场景中全量部署，训练成本与 DLRM 相同，推理成本降低 ${\textstyle 12\%}$ 。对于 DLRM，其推理成本与候选数量近似线性。然而，MTGR 对一次请求中的所有候选采用 user aggregation，使推理成本随候选数量呈次线性扩展。这有助于我们降低线上推理的开销。

	Offline Metric diff		Online Metric diff
	CTR GAUC	CTCVR GAUC	PV_CTR	UV_CTCVR
MTGR-small	+0.0036	+0.0154	+1.04%	+0.04%
MTGR-medium	+0.0071	+0.0182	+2.29%	+0.62%
MTGR-large	+0.0153	+0.0288	+1.90%	+1.02%

7. 结论

本文提出了 MTGR，一种基于 HSTU 探索推荐系统中 scaling law 的全新排序框架。MTGR 结合了 DLRM 与 GRM 的优势，允许使用 cross feature 以保证模型性能，同时具备与 GRM 同等的可扩展性。MTGR 已在我们的场景中部署，并带来显著收益。未来，我们将探索如何将 MTGR 扩展到多场景建模，类似于 large language model，以构建一个具备广泛知识的推荐基础模型。

参考文献

(1)
Chen et al. (2021) Qiwei Chen, Changhua Pei, Shanshan Lv, Chao Li, Junfeng Ge, and Wenwu Ou. 2021. End-to-end user behavior retrieval in click-through rateprediction model. arXiv preprint arXiv:2108.04468 (2021).
Dao et al. (2022) Tri Dao, Dan Fu, Stefano Ermon, Atri Rudra, and Christopher Ré. 2022. Flashattention: Fast and memory-efficient exact attention with io-awareness. Advances in neural information processing systems 35 (2022), 16344–16359.
Deng et al. (2025) Jiaxin Deng, Shiyao Wang, Kuo Cai, Lejian Ren, Qigen Hu, Weifeng Ding, Qiang Luo, and Guorui Zhou. 2025. OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment. arXiv preprint arXiv:2502.18965 (2025).
Fang et al. (2024) Yan Fang, Jingtao Zhan, Qingyao Ai, Jiaxin Mao, Weihang Su, Jia Chen, and Yiqun Liu. 2024. Scaling laws for dense retrieval. In Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. 1339–1349.
Ferri et al. (2011) Cesar Ferri, José Hernández-Orallo, and Peter A Flach. 2011. A coherent interpretation of AUC as a measure of aggregated classification performance. In Proceedings of the 28th International Conference on Machine Learning (ICML-11). 657–664.
Guo et al. (2023) Xingzhuo Guo, Junwei Pan, Ximei Wang, Baixu Chen, Jie Jiang, and Mingsheng Long. 2023. On the embedding collapse when scaling up recommendation models. arXiv preprint arXiv:2310.04400 (2023).
Han et al. (2024) Ruidong Han, Qianzhong Li, He Jiang, Rui Li, Yurou Zhao, Xiang Li, and Wei Lin. 2024. Enhancing CTR Prediction through Sequential Recommendation Pre-training: Introducing the SRP4CTR Framework. In Proceedings of the 33rd ACM International Conference on Information and Knowledge Management. 3777–3781.
Ivchenko et al. (2022) Dmytro Ivchenko, Dennis Van Der Staay, Colin Taylor, Xing Liu, Will Feng, Rahul Kindi, Anirudh Sudarshan, and Shahin Sefati. 2022. Torchrec: a pytorch domain library for recommendation systems. In Proceedings of the 16th ACM Conference on Recommender Systems. 482–483.
Kaplan et al. (2020) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. 2020. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361 (2020).
Krell et al. (2021) Mario Michael Krell, Matej Kosec, Sergio P Perez, and Andrew Fitzgibbon. 2021. Efficient sequence packing without cross-contamination: Accelerating large language models without impacting performance. arXiv preprint arXiv:2107.02027 (2021).
Li et al. (2023) Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. 2023. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In International conference on machine learning. PMLR, 19730–19742.
Lian et al. (2018) Jianxun Lian, Xiaohuan Zhou, Fuzheng Zhang, Zhongxia Chen, Xing Xie, and Guangzhong Sun. 2018. xdeepfm: Combining explicit and implicit feature interactions for recommender systems. In Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining. 1754–1763.
Ma et al. (2018) Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, and Ed H Chi. 2018. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts. In Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining. 1930–1939.
Peebles and Xie (2023) William Peebles and Saining Xie. 2023. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF international conference on computer vision. 4195–4205.
Pi et al. (2020) Qi Pi, Guorui Zhou, Yujing Zhang, Zhe Wang, Lejian Ren, Ying Fan, Xiaoqiang Zhu, and Kun Gai. 2020. Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction. In Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2685–2692.
Shin et al. (2023) Kyuyong Shin, Hanock Kwak, Su Young Kim, Max Nihlén Ramström, Jisu Jeong, Jung-Woo Ha, and Kyung-Min Kim. 2023. Scaling law for recommendation models: Towards general-purpose user representations. In Proceedings of the AAAI conference on artificial intelligence, Vol. 37. 4596–4604.
Si et al. (2024) Zihua Si, Lin Guan, ZhongXiang Sun, Xiaoxue Zang, Jing Lu, Yiqun Hui, Xingchao Cao, Zeyu Yang, Yichen Zheng, Dewei Leng, et al. 2024. Twin v2: Scaling ultra-long user behavior sequence modeling for enhanced ctr prediction at kuaishou. In Proceedings of the 33rd ACM International Conference on Information and Knowledge Management. 4890–4897.
Tang et al. (2020) Hongyan Tang, Junning Liu, Ming Zhao, and Xudong Gong. 2020. Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations. In Proceedings of the 14th ACM conference on recommender systems. 269–278.
Wang et al. (2021) Ruoxi Wang, Rakesh Shivanna, Derek Cheng, Sagar Jain, Dong Lin, Lichan Hong, and Ed Chi. 2021. Dcn v2: Improved deep & cross network and practical lessons for web-scale learning to rank systems. In Proceedings of the web conference 2021. 1785–1797.
Wang et al. (2024) Xu Wang, Jiangxia Cao, Zhiyi Fu, Kun Gai, and Guorui Zhou. 2024. HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou. arXiv preprint arXiv:2408.05430 (2024).
Yan et al. (2025) Bencheng Yan, Shilei Liu, Zhiyuan Zeng, Zihao Wang, Yizhen Zhang, Yujin Yuan, Langming Liu, Jiaqi Liu, Di Wang, Wenbo Su, et al. 2025. Unlocking Scaling Law in Industrial Recommendation Systems with a Three-step Paradigm based Large User Model. arXiv preprint arXiv:2502.08309 (2025).
Zhai et al. (2024) Jiaqi Zhai, Lucy Liao, Xing Liu, Yueming Wang, Rui Li, Xuan Cao, Leon Gao, Zhaojie Gong, Fangda Gu, Michael He, et al. 2024. Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations. arXiv preprint arXiv:2402.17152 (2024).
Zhai et al. (2022) Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, and Lucas Beyer. 2022. Scaling vision transformers. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 12104–12113.
Zhang et al. (2024b) Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, et al. 2024b. Wukong: Towards a scaling law for large-scale recommendation. arXiv preprint arXiv:2403.02545 (2024).
Zhang et al. (2024a) Wei Zhang, Dai Li, Chen Liang, Fang Zhou, Zhongke Zhang, Xuewei Wang, Ru Li, Yi Zhou, Yaning Huang, Dong Liang, et al. 2024a. Scaling User Modeling: Large-scale Online User Representations for Ads Personalization in Meta. In Companion Proceedings of the ACM Web Conference 2024. 47–55.
Zhou et al. (2018) Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep interest network for click-through rate prediction. In Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining. 1059–1068.