Deep & Cross Network for Ad Click Predictions/es

Research Paper
Authors	Ruoxi Wang; Bin Fu; Gang Fu; Mingliang Wang
Year	2017
Topic area	Machine Learning
Difficulty	Research
arXiv	1708.05123
PDF	Download PDF

Other languages:

English
Español
中文

SummarySource

Deep & Cross Network for Ad Click Predictions (DCN) es una arquitectura de red neuronal de 2017 propuesta por Ruoxi Wang, Bin Fu, Gang Fu y Mingliang Wang, de Google y Stanford, para la predicción de la tasa de clics (CTR). Aumenta una red neuronal profunda estándar con una cross network paralela que compone explícitamente interacciones de features de grado acotado en cada capa, aprendiendo todos los términos cruzados polinómicos hasta un orden especificado por el usuario con un número de parámetros que crece sólo linealmente con la dimensión de entrada.

Visión general

La predicción de CTR sustenta miles de millones de dólares de ingresos en publicidad en línea, pero opera sobre espacios de features que son enormes, dispersos y mayoritariamente categóricos. Los modelos lineales escalan bien y son interpretables, pero no logran capturar la señal de cross-features que impulsa la precisión; las redes neuronales profundas (DNNs) puras pueden, en principio, aprender funciones arbitrarias, pero representan los cruces de features sólo de manera implícita a través de no linealidades apiladas, a menudo de forma poco eficiente.

DCN se sitúa entre estos dos regímenes. Tras incrustar las entradas categóricas dispersas en vectores densos de baja dimensión y apilarlas con features continuas normalizadas, el modelo se divide en dos ramas paralelas: una cross network que aplica una operación explícita de cruce de features con conexión residual en cada capa, y una deep network estándar de capas totalmente conectadas con ReLU. Sus salidas se concatenan y se pasan por una cabeza logística entrenada con log loss. La cross network añade sólo $O(d \cdot L_c)$ parámetros sobre la DNN, donde $$ d $$ es la dimensión de entrada incrustada y $$ L_c $$ es el número de cross layers, pero captura todos los términos cruzados hasta grado $$ L_c + 1 $$ .

Contribuciones principales

Una novedosa cross network que aplica cruce explícito de features en cada capa, donde el grado polinómico más alto de las interacciones representadas es demostrablemente igual a la profundidad de la capa más uno.
Una arquitectura conjunta que entrena la cross network en paralelo con una DNN, combinando cruces explícitos de grado acotado con no linealidades implícitas profundas bajo un único objetivo de log loss.
Un análisis teórico que muestra que la cross network reproduce todos los términos cruzados multinómicos de grado acotado, generaliza las factorization machines (FMs) desde una única interacción superficial a una pila de interacciones de alto orden, y proyecta las $$ d^2 $$ interacciones por pares implícitas de vuelta a dimensión $$ d $$ en tiempo y memoria lineales.
Mejoras empíricas en Criteo Display Ads — el benchmark público estándar de CTR — junto con resultados sólidos en los conjuntos de datos UCI forest covertype y Higgs, mostrando que DCN iguala o supera a los baselines profundos utilizando sustancialmente menos memoria.

Métodos

El modelo DCN se compone de cuatro etapas: una capa de embedding y apilado, la cross network, la deep network y una capa de combinación.

Embedding y apilado. Cada entrada categórica dispersa $\mathbf{x}_i$ se mapea a través de una matriz aprendida $W_{\text{embed},i} \in \mathbb{R}^{n_e \times n_v}$ a un vector denso. Las features categóricas incrustadas se concatenan con las features densas normalizadas $\mathbf{x}_{\text{dense}}$ en un único vector $\mathbf{x}_0$ que alimenta ambas ramas.

Cross network. Sea $\mathbf{x}_l \in \mathbb{R}^d$ la salida de la cross layer $$ l $$ . Cada capa aplica

\mathbf{x}_{l+1} = \mathbf{x}_0 \mathbf{x}_l^{T} \mathbf{w}_l + \mathbf{b}_l + \mathbf{x}_l,

donde $\mathbf{w}_l, \mathbf{b}_l \in \mathbb{R}^d$ . El término del producto exterior $\mathbf{x}_0 \mathbf{x}_l^{T}$ crea interacciones por pares entre la entrada original y el estado actual; la conexión residual preserva la señal de orden inferior. Un teorema del artículo establece que una cross network de $$ l $$ capas contiene todo término cruzado $x_1^{\alpha_1} x_2^{\alpha_2} \cdots x_d^{\alpha_d}$ de grado $1 \le |\boldsymbol{\alpha}| \le l + 1$ , cada uno con un coeficiente distinto determinado por los pesos $\{\mathbf{w}_k\}$ .

Deep network. Una pila estándar feed-forward totalmente conectada con activaciones ReLU:

\mathbf{h}_{l+1} = f(W_l \mathbf{h}_l + \mathbf{b}_l).

Capa de combinación. La salida final de la cross network $\mathbf{x}_{L_1}$ y la salida de la deep network $\mathbf{h}_{L_2}$ se concatenan y se pasan por una cabeza logística:

p = \sigma\!\left(\mathbf{w}_{\text{logits}}^{T} [\mathbf{x}_{L_1};\, \mathbf{h}_{L_2}]\right),\qquad \sigma(x) = \frac{1}{1 + e^{-x}}.

La función de pérdida de entrenamiento es la log loss regularizada

\mathcal{L} = -\frac{1}{N}\sum_{i=1}^{N} \big[ y_i \log p_i + (1 - y_i) \log(1 - p_i) \big] + \lambda \|\mathbf{w}\|^2.

Proyección eficiente. Una construcción directa de las $$ d^2 $$ interacciones por pares sería cúbica en $$ d $$ ; la fórmula del cross layer reduce esto a un trabajo y un número de parámetros $$ O(d) $$ por capa, ya que $\mathbf{x}_0 \mathbf{x}_l^{T} \mathbf{w}_l$ se puede calcular como $\mathbf{x}_0 (\mathbf{x}_l^{T} \mathbf{w}_l)$ — un producto vector–escalar.

Conexión con FMs. En una FM, cada feature $$ x_i $$ lleva un vector $\mathbf{v}_i$ y el peso de $$ x_i x_j $$ es $\langle \mathbf{v}_i, \mathbf{v}_j \rangle$ . En DCN los parámetros análogos son escalares $\{w_k^{(i)}\}_{k=1}^{l}$ , y el peso de $$ x_i x_j $$ es un producto a través de las cross layers. Por tanto, DCN extiende el reparto de parámetros de la FM desde una única interacción de segundo orden a interacciones de grado arbitrario a lo largo de múltiples capas.

Resultados

Criteo Display Ads. En el desafío público de CTR de Criteo (cerca de 41 millones de registros, 13 features enteras y 26 categóricas), DCN alcanzó un test log loss de 0,4422 ± 9 × 10⁻⁵, frente a 0,4430 ± 3,7 × 10⁻⁴ para una DNN ajustada, 0,4430 ± 4,3 × 10⁻⁴ para Deep Crossing (DC), y resultados más débiles para regresión logística, FMs y Wide & Deep. La DCN óptima usó 6 cross layers y 2 deep layers de tamaño 1024; que la configuración más profunda de cross fuera la ganadora respalda la afirmación de que las interacciones explícitas de orden superior son valiosas. En barridos posteriores sobre presupuesto de memoria y tolerancia de pérdida, DCN igualó la precisión de la DNN con aproximadamente un 40 % menos de parámetros, e igualó el mejor log loss de la DNN con una pila profunda alrededor de un orden de magnitud más pequeña.

Conjuntos de datos no-CTR. En UCI forest covertype (581 mil muestras, 54 features), DCN alcanzó una precisión de test de 0,9740 frente a 0,9737 de DNN y DC, con la menor huella de memoria. En Higgs (11 millones de muestras, 28 features), DCN obtuvo un log loss de 0,4494 frente a 0,4506 de DNN, utilizando aproximadamente la mitad de los parámetros.

Impacto

DCN se convirtió en uno de los baselines canónicos para modelos profundos de CTR y de recomendación, junto con Wide & Deep y DeepFM. Su idea central — un módulo eficiente en parámetros que realiza cruce de features explícito y de orden superior junto con una DNN — fue ampliamente adoptada en el modelado de interacciones de features en la industria, y la formulación original del cross layer se refinó posteriormente en DCN-V2 (Wang et al., 2021) usando una matriz de pesos completa por cross layer para mayor expresividad a escala de producción en Google. Más allá de la publicidad, el sólido desempeño de la arquitectura en tareas de clasificación densa ayudó a popularizar diseños paralelos de "explícito + implícito" para interacciones de features en deep learning tabular.

Véase también

Referencias

Wang, R., Fu, B., Fu, G., y Wang, M. (2017). Deep & Cross Network for Ad Click Predictions. Proceedings of the ADKDD'17. arXiv:1708.05123.
Cheng, H.-T. et al. (2016). Wide & Deep Learning for Recommender Systems. DLRS.
Rendle, S. (2010). Factorization Machines. ICDM.
Shan, Y. et al. (2016). Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features. KDD.
Ioffe, S., y Szegedy, C. (2015). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. ICML.
Kingma, D. P., y Ba, J. (2014). Adam: A Method for Stochastic Optimization. ICLR.
Wang, R. et al. (2021). DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems. WWW.