Deep & Cross Network for Ad Click Predictions/zh

Research Paper
Authors	Ruoxi Wang; Bin Fu; Gang Fu; Mingliang Wang
Year	2017
Topic area	Machine Learning
Difficulty	Research
arXiv	1708.05123
PDF	Download PDF

Other languages:

English
Español
中文

SummarySource

Deep & Cross Network for Ad Click Predictions (DCN) 是 2017 年由谷歌与斯坦福的 Ruoxi Wang、Bin Fu、Gang Fu 和 Mingliang Wang 提出的一种用于点击率（CTR）预测的神经网络架构。它在标准深度神经网络之上并联一个 cross network，在每一层显式地构造有界阶数的特征交互，能够学习达到用户指定阶数的所有多项式交叉项，而参数量仅随输入维度线性增长。

概述

CTR 预测支撑着在线广告每年数十亿美元的收入，但其特征空间庞大、稀疏，且以类别型特征为主。线性模型易于扩展且可解释，却无法捕捉驱动精度的特征交叉信号；纯粹的深度神经网络（DNN）原则上可以学习任意函数，但只能通过堆叠的非线性隐式地表示特征交叉，往往效率不高。

DCN 介于这两种范式之间。模型先将稀疏的类别型输入嵌入到低维稠密向量中，并与归一化的连续特征拼接，然后分成两条并行分支：一条 cross network，在每一层应用显式的、带残差连接式的特征交叉操作；另一条是由全连接 ReLU 层构成的标准 deep network。两者的输出拼接后送入用 log loss 训练的 logistic 头。cross network 只在 DNN 之上增加 $O(d \cdot L_c)$ 个参数，其中 $$ d $$ 为嵌入后的输入维度， $$ L_c $$ 为 cross layer 的数量，却能捕捉到所有不超过 $$ L_c + 1 $$ 阶的交叉项。

主要贡献

一种新颖的 cross network，在每一层显式地进行特征交叉，所表示交互的最高多项式阶数可被证明等于层深加一。
一种 联合架构，将 cross network 与 DNN 并行训练，在同一个 log loss 目标下融合有界阶数的显式交叉与深层隐式非线性。
一项 理论分析，证明 cross network 能够复现所有有界阶数的多项式交叉项，将 factorization machines（FMs）从单一的浅层交互推广到多层的高阶交互堆叠，并以线性的时间和内存将隐含的 $$ d^2 $$ 个成对交互投影回维度 $$ d $$ 。
在 Criteo Display Ads 上的实证收益——这是标准的公开 CTR 基准——以及在 UCI forest covertype 与 Higgs 数据集上的良好结果，表明 DCN 在显著节省内存的同时能够追平甚至超过深度基线。

方法

DCN 模型由四个阶段组成：嵌入与堆叠层、cross network、deep network，以及一个组合层。

嵌入与堆叠。每个稀疏的类别型输入 $\mathbf{x}_i$ 通过一个可学习矩阵 $W_{\text{embed},i} \in \mathbb{R}^{n_e \times n_v}$ 映射为稠密向量。嵌入后的类别特征再与归一化的稠密特征 $\mathbf{x}_{\text{dense}}$ 拼接成单个向量 $\mathbf{x}_0$ ，同时输入两条分支。

Cross network。设 $\mathbf{x}_l \in \mathbb{R}^d$ 为第 $$ l $$ 个 cross layer 的输出。每一层应用

\mathbf{x}_{l+1} = \mathbf{x}_0 \mathbf{x}_l^{T} \mathbf{w}_l + \mathbf{b}_l + \mathbf{x}_l,

其中 $\mathbf{w}_l, \mathbf{b}_l \in \mathbb{R}^d$ 。外积项 $\mathbf{x}_0 \mathbf{x}_l^{T}$ 在原始输入与当前状态之间构造成对交互；残差连接则保留低阶信号。论文中的一条定理指出，一个 $$ l $$ 层的 cross network 包含所有度数满足 $1 \le |\boldsymbol{\alpha}| \le l + 1$ 的交叉项 $x_1^{\alpha_1} x_2^{\alpha_2} \cdots x_d^{\alpha_d}$ ，且每一项都有由权重 $\{\mathbf{w}_k\}$ 决定的不同系数。

Deep network。采用 ReLU 激活的标准全连接前馈网络堆叠：

\mathbf{h}_{l+1} = f(W_l \mathbf{h}_l + \mathbf{b}_l).

组合层。cross network 的最终输出 $\mathbf{x}_{L_1}$ 与 deep network 的输出 $\mathbf{h}_{L_2}$ 拼接后送入 logistic 头：

p = \sigma\!\left(\mathbf{w}_{\text{logits}}^{T} [\mathbf{x}_{L_1};\, \mathbf{h}_{L_2}]\right),\qquad \sigma(x) = \frac{1}{1 + e^{-x}}.

训练损失为带正则化的 log loss

\mathcal{L} = -\frac{1}{N}\sum_{i=1}^{N} \big[ y_i \log p_i + (1 - y_i) \log(1 - p_i) \big] + \lambda \|\mathbf{w}\|^2.

高效投影。直接构造所有 $$ d^2 $$ 个成对交互在 $$ d $$ 上是立方复杂度的；cross layer 的公式将每层的工作量与参数量降至 $$ O(d) $$ ，因为 $\mathbf{x}_0 \mathbf{x}_l^{T} \mathbf{w}_l$ 可被计算为 $\mathbf{x}_0 (\mathbf{x}_l^{T} \mathbf{w}_l)$ ——即一次向量与标量的乘积。

与 FM 的联系。在 FM 中，每个特征 $$ x_i $$ 关联一个向量 $\mathbf{v}_i$ ， $$ x_i x_j $$ 的权重由 $\langle \mathbf{v}_i, \mathbf{v}_j \rangle$ 给出。在 DCN 中，对应的参数是标量 $\{w_k^{(i)}\}_{k=1}^{l}$ ， $$ x_i x_j $$ 的权重则是跨多个 cross layer 的参数乘积。因此，DCN 将 FM 的参数共享思想从单一的二阶交互推广到跨多层的任意阶交互。

结果

Criteo Display Ads。在公开的 Criteo CTR 挑战赛上（约 4100 万条记录、13 个整型特征与 26 个类别型特征），DCN 取得了 0.4422 ± 9 × 10⁻⁵ 的测试 log loss，相比之下，调优后的 DNN 为 0.4430 ± 3.7 × 10⁻⁴，Deep Crossing（DC）为 0.4430 ± 4.3 × 10⁻⁴，逻辑回归、FMs 与 Wide & Deep 的结果则更差。最优 DCN 配置为 6 个 cross layer 和 2 个大小为 1024 的 deep layer；最深的 cross 配置取胜，支持了高阶显式交互具有价值这一论断。在围绕内存预算和损失容差的后续扫掠实验中，DCN 在比 DNN 少约 40% 参数的情况下达到了相同精度，并以约小一个数量级的深度堆叠匹敌了 DNN 的最佳 log loss。

非 CTR 数据集。在 UCI forest covertype（58.1 万样本、54 个特征）上，DCN 达到 0.9740 的测试准确率，而 DNN 与 DC 为 0.9737，且内存占用最小。在 Higgs（1100 万样本、28 个特征）上，DCN 取得 0.4494 的 log loss，而 DNN 为 0.4506，参数量约为 DNN 的一半。

影响

DCN 与 Wide & Deep、DeepFM 一道成为了深度 CTR 与推荐模型的经典基线之一。其核心思想——在 DNN 旁并联一个参数高效、显式高阶特征交叉的模块——被工业界广泛应用于特征交互建模，原始 cross layer 公式在 DCN-V2（Wang 等，2021）中被进一步完善：每个 cross layer 改用完整的权重矩阵，以在谷歌的生产规模下获得更强的表达力。除了广告之外，该架构在稠密分类任务上的优异表现也推动了表格深度学习中并行的“显式 + 隐式”特征交互设计的普及。

参见

参考文献

Wang, R., Fu, B., Fu, G., 与 Wang, M.（2017）。Deep & Cross Network for Ad Click Predictions。Proceedings of the ADKDD'17。arXiv:1708.05123。
Cheng, H.-T. et al.（2016）。Wide & Deep Learning for Recommender Systems。DLRS。
Rendle, S.（2010）。Factorization Machines。ICDM。
Shan, Y. et al.（2016）。Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features。KDD。
Ioffe, S., 与 Szegedy, C.（2015）。Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift。ICML。
Kingma, D. P., 与 Ba, J.（2014）。Adam: A Method for Stochastic Optimization。ICLR。
Wang, R. et al.（2021）。DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems。WWW。