A Theoretically Grounded Application of Dropout in Recurrent Neural Networks/paper/es

    From Marovi AI
    < A Theoretically Grounded Application of Dropout in Recurrent Neural Networks
    Revision as of 06:43, 27 April 2026 by DeployBot (talk | contribs) (Batch translate A Theoretically Grounded Application of Dropout in Recurrent Neural Networks/paper unit 51 → es)
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
    Other languages:
    SummarySource
    Research Paper
    Authors Yarin Gal; Zoubin Ghahramani
    Year 2015
    Topic area Machine Learning
    Difficulty Research
    arXiv 1512.05287
    PDF Download PDF

    A Theoretically Grounded Application of Dropout in Recurrent Neural Networks

    &Yarin Gal &
    University of Cambridge
    {yg279,zg201}@cam.ac.uk &Zoubin Ghahramani

    Resumen

    Las redes neuronales recurrentes (RNN) están en la primera línea de muchos avances recientes del aprendizaje profundo. Sin embargo, una dificultad importante de estos modelos es su tendencia al sobreajuste, y el dropout ha demostrado fallar cuando se aplica a las capas recurrentes. Resultados recientes en la intersección entre el modelado bayesiano y el aprendizaje profundo ofrecen una interpretación bayesiana de técnicas habituales de aprendizaje profundo, como el dropout. Esta fundamentación del dropout en la inferencia bayesiana aproximada sugiere una extensión de los resultados teóricos que aporta nuevas ideas sobre el uso del dropout con modelos RNN. Aplicamos esta nueva técnica de dropout basada en inferencia variacional en modelos LSTM y GRU, evaluándola en tareas de modelado de lenguaje y análisis de sentimientos. El nuevo enfoque supera a las técnicas existentes y, hasta donde sabemos, mejora el estado del arte de modelo único en modelado de lenguaje en Penn Treebank (perplejidad de prueba de 73,4). Esto amplía nuestro arsenal de herramientas variacionales en deep learning.

    1 Introducción

    Las redes neuronales recurrentes (RNN) son modelos basados en secuencias de importancia clave para la comprensión del lenguaje natural, la generación de lenguaje, el procesamiento de vídeo y muchas otras tareas [1, 2, 3]. La entrada del modelo es una secuencia de símbolos en la que, en cada paso temporal, se aplica una pequeña red neuronal (la unidad RNN) a un único símbolo, así como a la salida de la red en el paso temporal anterior. Las RNN son modelos potentes que muestran un rendimiento sobresaliente en muchas tareas, pero se sobreajustan rápidamente. La falta de regularización en los modelos RNN dificulta el manejo de pequeños volúmenes de datos, y para evitar el sobreajuste los investigadores recurren a menudo a la parada temprana o a modelos pequeños y subespecificados [4].

    El dropout es una técnica de regularización popular en redes profundas [5, 6] en la que las unidades de la red se enmascaran al azar durante el entrenamiento (se eliminan). Pero la técnica nunca se ha aplicado con éxito a las RNN. Los resultados empíricos han llevado a muchos a creer que el ruido añadido a las capas recurrentes (las conexiones entre unidades RNN) se amplificará en secuencias largas y ahogará la señal [4]. En consecuencia, la investigación existente ha concluido que la técnica debe usarse únicamente con las entradas y las salidas de la RNN [4, 7, 8, 9, 10]. Pero este enfoque sigue conduciendo al sobreajuste, como se muestra en nuestros experimentos.

    Resultados recientes en la intersección entre la investigación bayesiana y el aprendizaje profundo ofrecen una interpretación de las técnicas habituales de aprendizaje profundo desde una óptica bayesiana [11, 12, 13, 14, 15, 16]. Esta visión bayesiana del aprendizaje profundo permitió la introducción de nuevas técnicas en el campo, como métodos para obtener estimaciones de incertidumbre fundamentadas a partir de redes de aprendizaje profundo [14, 17]. Gal y Ghahramani [14] mostraron, por ejemplo, que el dropout puede interpretarse como una aproximación variacional al posterior de una red neuronal (NN) bayesiana. Su distribución variacional aproximante es una mezcla de dos gaussianas con varianzas pequeñas, con la media de una de las gaussianas fijada en cero. Esta fundamentación del dropout en la inferencia bayesiana aproximada sugiere que una extensión de los resultados teóricos podría aportar ideas sobre el uso de la técnica con modelos RNN.

    Aquí nos centramos en modelos RNN comunes en el campo (LSTM [18], GRU [19]) y los interpretamos como modelos probabilísticos, es decir, como RNN cuyos pesos se tratan como variables aleatorias y con funciones de verosimilitud adecuadamente definidas. A continuación realizamos inferencia variacional aproximada en estos modelos bayesianos probabilísticos (a los que llamaremos Variational RNNs). Aproximar la distribución posterior sobre los pesos con una mezcla de gaussianas (con una componente fijada en cero y varianzas pequeñas) conduce a un objetivo de optimización tratable. Optimizar este objetivo es idéntico a aplicar una nueva variante de dropout en las RNN correspondientes.

    [[File:data:image/svg+xml;base64,<svg height="347.29" id="S1.F1.sf1.pic1" overflow="visible" version="1.1" width="263.09"><g fill="#000000" stroke="#000000" transform="translate(0,347.29) matrix(1 0 0 -1 0 0) translate(130.68,0) translate(0,28.85)"><g stroke-width="0.4pt"><g fill="#000000" stroke="#000000" transform="matrix(1.0 0.0 0.0 1.0 -11.72 -10.24)"><g transform="matrix(1 0 0 -1 0 16.32)"><g transform="matrix(1 0 0 1 0 9.46)"><g transform="matrix(1 0 0 -1 0 0)"><foreignobject height="12.15" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="23.45">\pgfmathresultpt</foreignobject></g></g><g transform="matrix(1 0 0 1 0 18.11)"><g transform="matrix(1 0 0 -1 6.37 0)"><foreignobject height="8.34" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="10.71"><math alttext="x_{t}" display="inline" id="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1"><semantics id="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1a"><msub id="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1" xref="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml"><mi id="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2" xref="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml">x</mi><mi id="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3" xref="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml">t</mi></msub><annotation-xml encoding="MathML-Content" id="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1b"><apply id="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml" xref="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1"><csymbol cd="ambiguous" id="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.1.cmml" xref="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1">subscript</csymbol><ci id="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml" xref="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2">𝑥</ci><ci id="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml" xref="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3">𝑡</ci></apply></annotation-xml><annotation encoding="application/x-tex" id="S1.F1.sf1.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1c">x_{t}</annotation></semantics></math></foreignobject></g></g></g></g><path d="M -4.61 59.76 h 9.22 v 48.59 h -9.22 Z" style="fill:none" /><path d="M -4.61 153.26 h 9.22 v 48.59 h -9.22 Z" style="fill:none" /><g fill="#000000" stroke="#000000" transform="matrix(1.0 0.0 0.0 1.0 -5.04 251.37)"><g transform="matrix(1 0 0 -1 0 43.695)"><g transform="matrix(1 0 0 1 0 45.33)"><g transform="matrix(1 0 0 -1 0 0)"><foreignobject height="8.65" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="10.08"><math alttext="y_{t}" display="inline" id="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1"><semantics id="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1a"><msub id="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1" xref="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml"><mi id="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2" xref="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml">y</mi><mi id="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3" xref="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml">t</mi></msub><annotation-xml encoding="MathML-Content" id="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1b"><apply id="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml" xref="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1"><csymbol cd="ambiguous" id="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.1.cmml" xref="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1">subscript</csymbol><ci id="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml" xref="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2">𝑦</ci><ci id="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml" xref="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3">𝑡</ci></apply></annotation-xml><annotation encoding="application/x-tex" id="S1.F1.sf1.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1c">y_{t}</annotation></semantics></math></foreignobject></g></g></g></g><g fill="#000000" stroke="#000000" transform="matrix(1.0 0.0 0.0 1.0 -83.02 -23.91)"><g transform="matrix(1 0 0 -1 0 43.595)"><g transform="matrix(1 0 0 1 0 45.33)"><g transform="matrix(1 0 0 -1 0 0)"><foreignobject height="8.45" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="17.16"><math alttext="x_{t-1}" display="inline" id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1"><semantics id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1a"><msub id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1" xref="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml"><mi id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2" xref="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml">x</mi><mrow id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3" xref="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml"><mi id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2" xref="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml">t</mi><mo id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1" xref="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml">−</mo><mn id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3" xref="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml">1</mn></mrow></msub><annotation-xml encoding="MathML-Content" id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1b"><apply id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml" xref="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1"><csymbol cd="ambiguous" id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.1.cmml" xref="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1">subscript</csymbol><ci id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml" xref="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2">𝑥</ci><apply id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml" xref="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3"><minus id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml" xref="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1"></minus><ci id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml" xref="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2">𝑡</ci><cn id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml" type="integer" xref="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3">1</cn></apply></apply></annotation-xml><annotation encoding="application/x-tex" id="S1.F1.sf1.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1c">x_{t-1}</annotation></semantics></math></foreignobject></g></g></g></g><path d="M -79.05 73.43 h 9.22 v 48.59 h -9.22 Z" style="fill:none" /><path d="M -79.05 166.93 h 9.22 v 48.59 h -9.22 Z" style="fill:none" /><g fill="#000000" stroke="#000000" transform="matrix(1.0 0.0 0.0 1.0 -82.7 265.04)"><g transform="matrix(1 0 0 -1 0 43.695)"><g transform="matrix(1 0 0 1 0 45.33)"><g transform="matrix(1 0 0 -1 0 0)"><foreignobject height="8.65" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="16.54"><math alttext="y_{t-1}" display="inline" id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1"><semantics id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1a"><msub id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1" xref="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml"><mi id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2" xref="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml">y</mi><mrow id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3" xref="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml"><mi id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2" xref="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml">t</mi><mo id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1" xref="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml">−</mo><mn id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3" xref="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml">1</mn></mrow></msub><annotation-xml encoding="MathML-Content" id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1b"><apply id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml" xref="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1"><csymbol cd="ambiguous" id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.1.cmml" xref="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1">subscript</csymbol><ci id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml" xref="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2">𝑦</ci><apply id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml" xref="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3"><minus id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml" xref="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1"></minus><ci id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml" xref="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2">𝑡</ci><cn id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml" type="integer" xref="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3">1</cn></apply></apply></annotation-xml><annotation encoding="application/x-tex" id="S1.F1.sf1.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1c">y_{t-1}</annotation></semantics></math></foreignobject></g></g></g></g><g fill="#000000" stroke="#000000" transform="matrix(1.0 0.0 0.0 1.0 65.85 -24.24)"><g transform="matrix(1 0 0 -1 0 43.92)"><g transform="matrix(1 0 0 1 0 45.33)"><g transform="matrix(1 0 0 -1 0 0)"><foreignobject height="9.1" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="20.61"><math alttext="x_{t+1}" display="inline" id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1"><semantics id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1a"><msub id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1" xref="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml"><mi id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2" xref="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml">x</mi><mrow id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3" xref="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml"><mi id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2" xref="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml">t</mi><mo id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1" xref="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml">+</mo><mn id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3" xref="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml">1</mn></mrow></msub><annotation-xml encoding="MathML-Content" id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1b"><apply id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml" xref="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1"><csymbol cd="ambiguous" id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.1.cmml" xref="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1">subscript</csymbol><ci id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml" xref="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2">𝑥</ci><apply id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml" xref="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3"><plus id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml" xref="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1"></plus><ci id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml" xref="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2">𝑡</ci><cn id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml" type="integer" xref="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3">1</cn></apply></apply></annotation-xml><annotation encoding="application/x-tex" id="S1.F1.sf1.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1c">x_{t+1}</annotation></semantics></math></foreignobject></g></g></g></g><path d="M 71.54 73.75 h 9.22 v 48.59 h -9.22 Z" style="fill:none" /><path d="M 71.54 167.25 h 9.22 v 48.59 h -9.22 Z" style="fill:none" /><g fill="#000000" stroke="#000000" transform="matrix(1.0 0.0 0.0 1.0 66.17 265.36)"><g transform="matrix(1 0 0 -1 0 43.92)"><g transform="matrix(1 0 0 1 0 45.33)"><g transform="matrix(1 0 0 -1 0 0)"><foreignobject height="9.1" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="19.98"><math alttext="y_{t+1}" display="inline" id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1"><semantics id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1a"><msub id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1" xref="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml"><mi id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2" xref="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml">y</mi><mrow id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3" xref="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml"><mi id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2" xref="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml">t</mi><mo id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1" xref="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml">+</mo><mn id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3" xref="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml">1</mn></mrow></msub><annotation-xml encoding="MathML-Content" id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1b"><apply id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml" xref="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1"><csymbol cd="ambiguous" id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.1.cmml" xref="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1">subscript</csymbol><ci id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml" xref="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2">𝑦</ci><apply id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml" xref="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3"><plus id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml" xref="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1"></plus><ci id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml" xref="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2">𝑡</ci><cn id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml" type="integer" xref="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3">1</cn></apply></apply></annotation-xml><annotation encoding="application/x-tex" id="S1.F1.sf1.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1c">y_{t+1}</annotation></semantics></math></foreignobject></g></g></g></g><g stroke="#0000FF"><g stroke-width="1.6pt"><path d="M -74.43 31.29 L -74.43 68.99" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 -74.43 68.99)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#FF8000"><g stroke-width="1.6pt"><path d="M 0 17.62 L 0 55.32" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 0 55.32)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#808080"><g stroke-width="1.6pt"><path d="M 76.16 31.61 L 76.16 69.31" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 76.16 69.31)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#00FF00"><g stroke-width="1.6pt"><path d="M -74.43 124.79 L -74.43 162.49" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 -74.43 162.49)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#BF0040"><g stroke-width="1.6pt"><path d="M 0 111.12 L 0 148.82" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 0 148.82)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#FFFF00"><g stroke-width="1.6pt"><path d="M 76.16 125.11 L 76.16 162.81" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 76.16 162.81)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#FF0000"><g stroke-width="1.6pt"><path d="M -74.43 218.29 L -74.43 255.98" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 -74.43 255.98)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#00FFFF"><g stroke-width="1.6pt"><path d="M 0 204.62 L 0 242.32" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 0 242.32)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#FF00FF"><g stroke-width="1.6pt"><path d="M 76.16 218.61 L 76.16 256.31" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 76.16 256.31)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke-dasharray="3.0pt,3.0pt" stroke-dashoffset="0.0pt"><path d="M -121.18 97.73 L -82.45 97.73" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="0.32pt" transform="matrix(1.0 0.0 0.0 1.0 -82.45 97.73)"><path d="M -1.66 2.21 C -1.52 1.38 0 0.14 0.42 0 C 0 -0.14 -1.52 -1.38 -1.66 -2.21" style="fill:none" /></g><g stroke-dasharray="3.0pt,3.0pt" stroke-dashoffset="0.0pt"><path d="M -67.05 96.37 L -8.01 85.53" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="0.32pt" transform="matrix(0.98355 -0.18063 0.18063 0.98355 -8.01 85.53)"><path d="M -1.66 2.21 C -1.52 1.38 0 0.14 0.42 0 C 0 -0.14 -1.52 -1.38 -1.66 -2.21" style="fill:none" /></g><g stroke-dasharray="3.0pt,3.0pt" stroke-dashoffset="0.0pt"><path d="M 7.38 85.41 L 68.15 96.58" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="0.32pt" transform="matrix(0.98354 0.18073 -0.18073 0.98354 68.15 96.58)"><path d="M -1.66 2.21 C -1.52 1.38 0 0.14 0.42 0 C 0 -0.14 -1.52 -1.38 -1.66 -2.21" style="fill:none" /></g><g stroke-dasharray="3.0pt,3.0pt" stroke-dashoffset="0.0pt"><path d="M 83.53 98.05 L 122.27 98.05" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="0.32pt" transform="matrix(1.0 0.0 0.0 1.0 122.27 98.05)"><path d="M -1.66 2.21 C -1.52 1.38 0 0.14 0.42 0 C 0 -0.14 -1.52 -1.38 -1.66 -2.21" style="fill:none" /></g><g stroke-dasharray="3.0pt,3.0pt" stroke-dashoffset="0.0pt"><path d="M -121.18 191.22 L -82.45 191.22" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="0.32pt" transform="matrix(1.0 0.0 0.0 1.0 -82.45 191.22)"><path d="M -1.66 2.21 C -1.52 1.38 0 0.14 0.42 0 C 0 -0.14 -1.52 -1.38 -1.66 -2.21" style="fill:none" /></g><g stroke-dasharray="3.0pt,3.0pt" stroke-dashoffset="0.0pt"><path d="M -67.05 189.87 L -8.01 179.03" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="0.32pt" transform="matrix(0.98355 -0.18063 0.18063 0.98355 -8.01 179.03)"><path d="M -1.66 2.21 C -1.52 1.38 0 0.14 0.42 0 C 0 -0.14 -1.52 -1.38 -1.66 -2.21" style="fill:none" /></g><g stroke-dasharray="3.0pt,3.0pt" stroke-dashoffset="0.0pt"><path d="M 7.38 178.91 L 68.15 190.08" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="0.32pt" transform="matrix(0.98354 0.18073 -0.18073 0.98354 68.15 190.08)"><path d="M -1.66 2.21 C -1.52 1.38 0 0.14 0.42 0 C 0 -0.14 -1.52 -1.38 -1.66 -2.21" style="fill:none" /></g><g stroke-dasharray="3.0pt,3.0pt" stroke-dashoffset="0.0pt"><path d="M 83.53 191.55 L 122.27 191.55" style="fill:none" /></g></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="0.32pt" transform="matrix(1.0 0.0 0.0 1.0 122.27 191.55)"><path d="M -1.66 2.21 C -1.52 1.38 0 0.14 0.42 0 C 0 -0.14 -1.52 -1.38 -1.66 -2.21" style="fill:none" /></g></g></svg>]]

    [[File:data:image/svg+xml;base64,<svg height="347.29" id="S1.F1.sf2.pic1" overflow="visible" version="1.1" width="263.09"><g fill="#000000" stroke="#000000" stroke-width="0.4pt" transform="translate(0,347.29) matrix(1 0 0 -1 0 0) translate(130.68,0) translate(0,28.85)"><g fill="#000000" stroke="#000000" transform="matrix(1.0 0.0 0.0 1.0 -11.72 -10.24)"><g transform="matrix(1 0 0 -1 0 16.32)"><g transform="matrix(1 0 0 1 0 9.46)"><g transform="matrix(1 0 0 -1 0 0)"><foreignobject height="12.15" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="23.45">\pgfmathresultpt</foreignobject></g></g><g transform="matrix(1 0 0 1 0 18.11)"><g transform="matrix(1 0 0 -1 6.37 0)"><foreignobject height="8.34" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="10.71"><math alttext="x_{t}" display="inline" id="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1"><semantics id="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1a"><msub id="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1" xref="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml"><mi id="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2" xref="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml">x</mi><mi id="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3" xref="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml">t</mi></msub><annotation-xml encoding="MathML-Content" id="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1b"><apply id="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml" xref="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1"><csymbol cd="ambiguous" id="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.1.cmml" xref="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1">subscript</csymbol><ci id="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml" xref="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2">𝑥</ci><ci id="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml" xref="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3">𝑡</ci></apply></annotation-xml><annotation encoding="application/x-tex" id="S1.F1.sf2.pic1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1c">x_{t}</annotation></semantics></math></foreignobject></g></g></g></g><path d="M -4.61 59.76 h 9.22 v 48.59 h -9.22 Z" style="fill:none" /><path d="M -4.61 153.26 h 9.22 v 48.59 h -9.22 Z" style="fill:none" /><g fill="#000000" stroke="#000000" transform="matrix(1.0 0.0 0.0 1.0 -5.04 251.37)"><g transform="matrix(1 0 0 -1 0 43.695)"><g transform="matrix(1 0 0 1 0 45.33)"><g transform="matrix(1 0 0 -1 0 0)"><foreignobject height="8.65" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="10.08"><math alttext="y_{t}" display="inline" id="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1"><semantics id="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1a"><msub id="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1" xref="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml"><mi id="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2" xref="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml">y</mi><mi id="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3" xref="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml">t</mi></msub><annotation-xml encoding="MathML-Content" id="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1b"><apply id="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml" xref="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1"><csymbol cd="ambiguous" id="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.1.cmml" xref="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1">subscript</csymbol><ci id="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml" xref="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2">𝑦</ci><ci id="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml" xref="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3">𝑡</ci></apply></annotation-xml><annotation encoding="application/x-tex" id="S1.F1.sf2.pic1.2.2.2.2.2.2.2.2.2.2.2.2.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1c">y_{t}</annotation></semantics></math></foreignobject></g></g></g></g><g fill="#000000" stroke="#000000" transform="matrix(1.0 0.0 0.0 1.0 -83.02 -23.91)"><g transform="matrix(1 0 0 -1 0 43.595)"><g transform="matrix(1 0 0 1 0 45.33)"><g transform="matrix(1 0 0 -1 0 0)"><foreignobject height="8.45" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="17.16"><math alttext="x_{t-1}" display="inline" id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1"><semantics id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1a"><msub id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1" xref="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml"><mi id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2" xref="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml">x</mi><mrow id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3" xref="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml"><mi id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2" xref="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml">t</mi><mo id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1" xref="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml">−</mo><mn id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3" xref="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml">1</mn></mrow></msub><annotation-xml encoding="MathML-Content" id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1b"><apply id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml" xref="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1"><csymbol cd="ambiguous" id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.1.cmml" xref="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1">subscript</csymbol><ci id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml" xref="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2">𝑥</ci><apply id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml" xref="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3"><minus id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml" xref="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1"></minus><ci id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml" xref="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2">𝑡</ci><cn id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml" type="integer" xref="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3">1</cn></apply></apply></annotation-xml><annotation encoding="application/x-tex" id="S1.F1.sf2.pic1.3.3.3.3.3.3.3.3.3.3.3.3.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1c">x_{t-1}</annotation></semantics></math></foreignobject></g></g></g></g><path d="M -79.05 73.43 h 9.22 v 48.59 h -9.22 Z" style="fill:none" /><path d="M -79.05 166.93 h 9.22 v 48.59 h -9.22 Z" style="fill:none" /><g fill="#000000" stroke="#000000" transform="matrix(1.0 0.0 0.0 1.0 -82.7 265.04)"><g transform="matrix(1 0 0 -1 0 43.695)"><g transform="matrix(1 0 0 1 0 45.33)"><g transform="matrix(1 0 0 -1 0 0)"><foreignobject height="8.65" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="16.54"><math alttext="y_{t-1}" display="inline" id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1"><semantics id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1a"><msub id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1" xref="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml"><mi id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2" xref="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml">y</mi><mrow id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3" xref="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml"><mi id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2" xref="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml">t</mi><mo id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1" xref="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml">−</mo><mn id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3" xref="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml">1</mn></mrow></msub><annotation-xml encoding="MathML-Content" id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1b"><apply id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml" xref="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1"><csymbol cd="ambiguous" id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.1.cmml" xref="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1">subscript</csymbol><ci id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml" xref="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2">𝑦</ci><apply id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml" xref="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3"><minus id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml" xref="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1"></minus><ci id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml" xref="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2">𝑡</ci><cn id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml" type="integer" xref="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3">1</cn></apply></apply></annotation-xml><annotation encoding="application/x-tex" id="S1.F1.sf2.pic1.4.4.4.4.4.4.4.4.4.4.4.4.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1c">y_{t-1}</annotation></semantics></math></foreignobject></g></g></g></g><g fill="#000000" stroke="#000000" transform="matrix(1.0 0.0 0.0 1.0 65.85 -24.24)"><g transform="matrix(1 0 0 -1 0 43.92)"><g transform="matrix(1 0 0 1 0 45.33)"><g transform="matrix(1 0 0 -1 0 0)"><foreignobject height="9.1" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="20.61"><math alttext="x_{t+1}" display="inline" id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1"><semantics id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1a"><msub id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1" xref="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml"><mi id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2" xref="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml">x</mi><mrow id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3" xref="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml"><mi id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2" xref="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml">t</mi><mo id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1" xref="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml">+</mo><mn id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3" xref="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml">1</mn></mrow></msub><annotation-xml encoding="MathML-Content" id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1b"><apply id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml" xref="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1"><csymbol cd="ambiguous" id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.1.cmml" xref="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1">subscript</csymbol><ci id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml" xref="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2">𝑥</ci><apply id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml" xref="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3"><plus id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml" xref="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1"></plus><ci id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml" xref="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2">𝑡</ci><cn id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml" type="integer" xref="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3">1</cn></apply></apply></annotation-xml><annotation encoding="application/x-tex" id="S1.F1.sf2.pic1.5.5.5.5.5.5.5.5.5.5.5.5.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1c">x_{t+1}</annotation></semantics></math></foreignobject></g></g></g></g><path d="M 71.54 73.75 h 9.22 v 48.59 h -9.22 Z" style="fill:none" /><path d="M 71.54 167.25 h 9.22 v 48.59 h -9.22 Z" style="fill:none" /><g fill="#000000" stroke="#000000" transform="matrix(1.0 0.0 0.0 1.0 66.17 265.36)"><g transform="matrix(1 0 0 -1 0 43.92)"><g transform="matrix(1 0 0 1 0 45.33)"><g transform="matrix(1 0 0 -1 0 0)"><foreignobject height="9.1" overflow="visible" transform="matrix(1 0 0 -1 0 16.6)" width="19.98"><math alttext="y_{t+1}" display="inline" id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1"><semantics id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1a"><msub id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1" xref="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml"><mi id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2" xref="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml">y</mi><mrow id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3" xref="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml"><mi id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2" xref="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml">t</mi><mo id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1" xref="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml">+</mo><mn id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3" xref="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml">1</mn></mrow></msub><annotation-xml encoding="MathML-Content" id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1b"><apply id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.cmml" xref="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1"><csymbol cd="ambiguous" id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.1.cmml" xref="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1">subscript</csymbol><ci id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2.cmml" xref="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.2">𝑦</ci><apply id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.cmml" xref="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3"><plus id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1.cmml" xref="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.1"></plus><ci id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2.cmml" xref="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.2">𝑡</ci><cn id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3.cmml" type="integer" xref="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1.1.3.3">1</cn></apply></apply></annotation-xml><annotation encoding="application/x-tex" id="S1.F1.sf2.pic1.6.6.6.6.6.6.6.6.6.6.6.6.1.1.1.1.1.1.1.1.1.1.1.1.1.1.m1.1c">y_{t+1}</annotation></semantics></math></foreignobject></g></g></g></g><g stroke="#0000FF"><g stroke-width="1.6pt"><path d="M -74.43 31.29 L -74.43 68.99" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 -74.43 68.99)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#0000FF"><g stroke-width="1.6pt"><path d="M 0 17.62 L 0 55.32" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 0 55.32)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#0000FF"><g stroke-width="1.6pt"><path d="M 76.16 31.61 L 76.16 69.31" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 76.16 69.31)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#00FF00"><g stroke-width="1.6pt"><path d="M -74.43 124.79 L -74.43 162.49" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 -74.43 162.49)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#00FF00"><g stroke-width="1.6pt"><path d="M 0 111.12 L 0 148.82" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 0 148.82)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#00FF00"><g stroke-width="1.6pt"><path d="M 76.16 125.11 L 76.16 162.81" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 76.16 162.81)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#FF0000"><g stroke-width="1.6pt"><path d="M -74.43 218.29 L -74.43 255.98" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 -74.43 255.98)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#FF0000"><g stroke-width="1.6pt"><path d="M 0 204.62 L 0 242.32" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 0 242.32)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#FF0000"><g stroke-width="1.6pt"><path d="M 76.16 218.61 L 76.16 256.31" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.0 1.0 -1.0 0.0 76.16 256.31)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#FF8000"><g stroke-width="1.6pt"><path d="M -121.18 97.73 L -83.49 97.73" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(1.0 0.0 0.0 1.0 -83.49 97.73)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#FF8000"><g stroke-width="1.6pt"><path d="M -67.05 96.37 L -9.03 85.71" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.98355 -0.18063 0.18063 0.98355 -9.03 85.71)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#FF8000"><g stroke-width="1.6pt"><path d="M 7.38 85.41 L 67.13 96.39" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.98354 0.18073 -0.18073 0.98354 67.13 96.39)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#FF8000"><g stroke-width="1.6pt"><path d="M 83.53 98.05 L 121.23 98.05" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(1.0 0.0 0.0 1.0 121.23 98.05)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#BF0040"><g stroke-width="1.6pt"><path d="M -121.18 191.22 L -83.49 191.22" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(1.0 0.0 0.0 1.0 -83.49 191.22)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#BF0040"><g stroke-width="1.6pt"><path d="M -67.05 189.87 L -9.03 179.21" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.98355 -0.18063 0.18063 0.98355 -9.03 179.21)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#BF0040"><g stroke-width="1.6pt"><path d="M 7.38 178.91 L 67.13 189.89" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(0.98354 0.18073 -0.18073 0.98354 67.13 189.89)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g><g stroke="#BF0040"><g stroke-width="1.6pt"><path d="M 83.53 191.55 L 121.23 191.55" style="fill:none" /></g><g stroke-dasharray="none" stroke-dashoffset="0.0pt" stroke-linecap="round" stroke-linejoin="round" stroke-width="1.28pt" transform="matrix(1.0 0.0 0.0 1.0 121.23 191.55)"><path d="M -3.15 4.21 C -2.89 2.63 0 0.26 0.79 0 C 0 -0.26 -2.89 -2.63 -3.15 -4.21" style="fill:none" /></g></g></g></svg>]]

    En la nueva variante del dropout, repetimos la misma máscara de dropout en cada paso temporal tanto para las entradas, las salidas como las capas recurrentes (eliminamos las mismas unidades de la red en cada paso temporal). Esto contrasta con las técnicas ad hoc existentes, en las que se muestrean máscaras de dropout distintas en cada paso temporal solo para las entradas y las salidas (no se aplica dropout a las conexiones recurrentes, ya que el uso de máscaras distintas en estas conexiones degrada el rendimiento). Nuestro método y su relación con las técnicas existentes se ilustran en la figura 1. Cuando se utiliza con entradas discretas (es decir, palabras), también colocamos una distribución sobre los embeddings de palabras. El dropout en el modelo basado en palabras se traduce entonces en eliminar al azar tipos de palabras en la oración, y puede interpretarse como una forma de obligar al modelo a no depender de palabras individuales para su tarea.

    A continuación, repasamos la literatura relacionada y el material de referencia, y luego formalizamos nuestra inferencia aproximada para el Variational RNN, que da lugar a la variante del dropout propuesta arriba. Los resultados experimentales se presentan más adelante.

    2 Trabajo relacionado

    En los últimos años se ha acumulado una cantidad considerable de trabajos que demuestran los efectos negativos de una aplicación ingenua del dropout en las conexiones recurrentes de las RNN. Pachitariu y Sahani [7], trabajando con modelos de lenguaje, argumentan que el ruido añadido en las conexiones recurrentes de una RNN provoca inestabilidades del modelo y, en su lugar, añaden ruido únicamente a la parte de decodificación. Bayer et al. [8] aplican una aproximación determinista del dropout (fast dropout) en RNN. Argumentan que con dropout la dinámica de la RNN cambia drásticamente y que el dropout debería aplicarse a las partes no dinámicas del modelo: las conexiones que van de la capa oculta a la capa de salida. Pham et al. [9] evalúan el dropout en tareas de reconocimiento de escritura manuscrita. Concluyen que el dropout en las capas recurrentes perturba la capacidad de la RNN para modelar secuencias y que el dropout debería aplicarse solo a las conexiones feed-forward y no a las recurrentes. El trabajo de Zaremba, Sutskever y Vinyals [4] se desarrolló en paralelo al de Pham et al. [9]. Zaremba et al. [4] evalúan el rendimiento del dropout en RNN en una amplia variedad de tareas. Demuestran que aplicar dropout solo a las conexiones no recurrentes mejora el rendimiento, y proporcionan resultados en modelado de lenguaje en Penn Treebank que constituyen el estado del arte (aún no superado). Argumentan que sin dropout solo se utilizaban modelos pequeños para evitar el sobreajuste, mientras que con dropout pueden usarse modelos más grandes, lo que conduce a mejores resultados. Este trabajo se considera la implementación de referencia para muchos (y lo usamos como base de comparación más adelante). Bluche et al. [10] amplían este cuerpo de trabajo y realizan un análisis exploratorio del rendimiento del dropout antes, dentro y después de la unidad de la RNN. Sus resultados son mixtos y no muestran mejoras significativas frente a las técnicas existentes. Más recientemente, y en paralelo a este trabajo, Moon et al. [20] propusieron una nueva variante de dropout en RNN dentro de la comunidad de reconocimiento de voz. Eliminan al azar elementos de la celda interna de la LSTM $ {\textstyle \mathbf{c}_{t}} $ y utilizan la misma máscara en cada paso temporal. Esta es la propuesta más cercana a la nuestra (aunque fundamentalmente distinta del enfoque que sugerimos, explicado en §4.1), y la comparamos con esta variante también más adelante.

    Los enfoques existentes se basan en una experimentación empírica con distintas variantes del dropout, siguiendo un proceso de prueba y error. Estos enfoques han llevado a muchos a creer que el dropout no puede extenderse a un gran número de parámetros dentro de las capas recurrentes, dejándolos sin regularización. En contraste con estas conclusiones, demostramos que es posible derivar una variante del dropout basada en inferencia variacional que regulariza con éxito tales parámetros, fundamentando nuestro enfoque en investigación teórica reciente.

    3 Antecedentes

    Repasamos los antecedentes necesarios sobre redes neuronales bayesianas e inferencia variacional aproximada. Sobre la base de estas ideas, en la siguiente sección proponemos inferencia aproximada en la RNN probabilística, lo que conducirá a una nueva variante del dropout.

    3.1 Redes neuronales bayesianas

    Dadas las entradas de entrenamiento $ {\textstyle \mathbf{X} = {\{\mathbf{x}_{1},\ldots,\mathbf{x}_{N}\}}} $ y sus correspondientes salidas $ {\textstyle \mathbf{Y} = {\{\mathbf{y}_{1},\ldots,\mathbf{y}_{N}\}}} $, en la regresión bayesiana (paramétrica) queremos inferir los parámetros $ {\textstyle \mathbf{ω}} $ de una función $ {\textstyle \mathbf{y} = {\mathbf{f}^{\mathbf{ω}}\hspace{0pt}{(\mathbf{x})}}} $ que probablemente hayan generado nuestras salidas. ¿Qué parámetros son los más probables de haber generado nuestros datos? Siguiendo el enfoque bayesiano, colocaríamos algún prior sobre el espacio de parámetros, $ {\textstyle p\hspace{0pt}{({\mathbf{ω}})}} $. Esta distribución representa nuestra creencia a priori sobre qué parámetros han podido generar nuestros datos. También necesitamos definir una distribución de verosimilitud $ {\textstyle p\hspace{0pt}{(\left. \mathbf{y} \middle| {\mathbf{x},{\mathbf{ω}}} \right.)}} $. Para tareas de clasificación podemos suponer una verosimilitud softmax,

    $ {\textstyle {p\hspace{0pt}\left( {y = \left. d \middle| {\mathbf{x},{\mathbf{ω}}} \right.} \right)} = {\text{Categorical}\hspace{0pt}\left( {{\exp{({f_{d}^{\mathbf{ω}}\hspace{0pt}{(\mathbf{x})}})}}/{\sum\limits_{d^{\prime}}{\exp{({f_{d^{\prime}}^{\mathbf{ω}}\hspace{0pt}{(\mathbf{x})}})}}}} \right)}} $

    o una verosimilitud gaussiana para regresión. Dado un conjunto de datos $ {\textstyle \mathbf{X},\mathbf{Y}} $, buscamos entonces la distribución posterior sobre el espacio de parámetros: $ {\textstyle p\hspace{0pt}{(\left. {\mathbf{ω}} \middle| {\mathbf{X},\mathbf{Y}} \right.)}} $. Esta distribución captura cuán probables son los distintos parámetros de la función dados los datos observados. Con ella podemos predecir una salida para un nuevo punto de entrada $ {\textstyle \mathbf{x}^{\ast}} $ integrando

    $ {\textstyle {{p\hspace{0pt}{(\left. \mathbf{y}^{\ast} \middle| {\mathbf{x}^{\ast},\mathbf{X},\mathbf{Y}} \right.)}} = {\int{p\hspace{0pt}{(\left. \mathbf{y}^{\ast} \middle| {\mathbf{x}^{\ast},{\mathbf{ω}}} \right.)}\hspace{0pt}p\hspace{0pt}{(\left. {\mathbf{ω}} \middle| {\mathbf{X},\mathbf{Y}} \right.)}\hspace{0pt}{\text{d}{\mathbf{ω}}}}}}.} $ (1)

    Una forma de definir una distribución sobre un conjunto paramétrico de funciones es colocar una distribución a priori sobre los pesos de una red neuronal, dando lugar a una NN bayesiana [21, 22]. Dadas las matrices de pesos $ {\textstyle \mathbf{W}_{i}} $ y los vectores de sesgo $ {\textstyle \mathbf{b}_{i}} $ para la capa $ {\textstyle i} $, solemos colocar distribuciones gaussianas matriciales estándar como prior sobre las matrices de pesos, $ {\textstyle {p\hspace{0pt}{(\mathbf{W}_{i})}} = {\mathcal{N}\hspace{0pt}{(\mathbf{0},\mathbf{I})}}} $ y, por simplicidad, asumimos una estimación puntual para los vectores de sesgo.

    3.2 Inferencia variacional aproximada en redes neuronales bayesianas

    Nos interesa encontrar la distribución de las matrices de pesos (que parametrizan nuestras funciones) que han generado nuestros datos. Este es el posterior sobre los pesos dadas nuestras observaciones $ {\textstyle \mathbf{X},\mathbf{Y}} $: $ {\textstyle p\hspace{0pt}{(\left. {\mathbf{ω}} \middle| {\mathbf{X},\mathbf{Y}} \right.)}} $. Este posterior no es tratable en general y podemos usar inferencia variacional para aproximarlo (como se hizo en [23, 24, 25, 12]). Necesitamos definir una distribución variacional aproximante $ {\textstyle q\hspace{0pt}{({\mathbf{ω}})}} $ y minimizar la divergencia KL entre la distribución aproximante y el posterior completo:

    $ {\textstyle \text{KL}\left( q{({\mathbf{ω}})}||p{({\mathbf{ω}}|\mathbf{X},\mathbf{Y})} \right)} $ $ {\textstyle \propto - \int q{({\mathbf{ω}})}\log p{(\mathbf{Y}|\mathbf{X},{\mathbf{ω}})}{\text{d}{\mathbf{ω}}} + \text{KL}{(q{({\mathbf{ω}})}||p{({\mathbf{ω}})})}} $
    $ {\textstyle = - \sum\limits_{i = 1}^{N}\int q{({\mathbf{ω}})}\log p{(\mathbf{y}_{i}|\mathbf{f}^{\mathbf{ω}}{(\mathbf{x}_{i})})}{\text{d}{\mathbf{ω}}} + \text{KL}{(q{({\mathbf{ω}})}||p{({\mathbf{ω}})})}.} $ (2)

    A continuación extendemos esta inferencia variacional aproximada a las RNN probabilísticas y utilizamos una distribución $ {\textstyle q\hspace{0pt}{({\mathbf{ω}})}} $ que dará lugar a una nueva variante del dropout en RNN.

    4 Inferencia variacional en redes neuronales recurrentes

    En esta sección nos centraremos en modelos RNN simples por brevedad notacional. Las derivaciones para LSTM y GRU se obtienen de forma similar. Dada una secuencia de entrada $ {\textstyle \mathbf{x} = {\lbrack\mathbf{x}_{1},\ldots,\mathbf{x}_{T}\rbrack}} $ de longitud $ {\textstyle T} $, una RNN simple se forma mediante la aplicación repetida de una función $ {\textstyle \mathbf{f}_{\mathbf{h}}} $. Esto genera un estado oculto $ {\textstyle \mathbf{h}_{t}} $ para el paso temporal $ {\textstyle t} $:

    $ {\textstyle \mathbf{h}_{t}} $ $ {\textstyle = {\mathbf{f}_{\mathbf{h}}\hspace{0pt}{(\mathbf{x}_{t},\mathbf{h}_{t - 1})}} = {\sigma\hspace{0pt}{({{\mathbf{x}_{t}\hspace{0pt}\mathbf{W}_{\mathbf{h}}} + {\mathbf{h}_{t - 1}\hspace{0pt}\mathbf{U}_{\mathbf{h}}} + \mathbf{b}_{\mathbf{h}}})}}} $

    para alguna no linealidad $ {\textstyle \sigma} $. La salida del modelo puede definirse, por ejemplo, como $ {\textstyle {\mathbf{f}_{\mathbf{y}}\hspace{0pt}{(\mathbf{h}_{T})}} = {{\mathbf{h}_{T}\hspace{0pt}\mathbf{W}_{\mathbf{y}}} + \mathbf{b}_{\mathbf{y}}}} $. Vemos esta RNN como un modelo probabilístico tratando $ {\textstyle {\mathbf{ω}} = {\{\mathbf{W}_{\mathbf{h}},\mathbf{U}_{\mathbf{h}},\mathbf{b}_{\mathbf{h}},\mathbf{W}_{\mathbf{y}},\mathbf{b}_{\mathbf{y}}\}}} $ como variables aleatorias (siguiendo distribuciones a priori normales). Para que la dependencia de $ {\textstyle \mathbf{ω}} $ quede clara, escribimos $ {\textstyle \mathbf{f}_{\mathbf{y}}^{\mathbf{ω}}} $ en lugar de $ {\textstyle \mathbf{f}_{\mathbf{y}}} $, y de forma análoga para $ {\textstyle \mathbf{f}_{\mathbf{h}}^{\mathbf{ω}}} $. Definimos la verosimilitud de nuestro modelo probabilístico como antes (sección 3.1). El posterior sobre las variables aleatorias $ {\textstyle \mathbf{ω}} $ es bastante complejo, y utilizamos inferencia variacional con la distribución aproximante $ {\textstyle q\hspace{0pt}{({\mathbf{ω}})}} $ para aproximarlo.

    Evaluando cada término de la suma de la ec. (3.2) anterior con nuestro modelo RNN obtenemos

    $ {\textstyle \int{q\hspace{0pt}{({\mathbf{ω}})}\hspace{0pt}{\log p}\hspace{0pt}{(\left. \mathbf{y} \middle| {\mathbf{f}_{\mathbf{y}}^{\mathbf{ω}}\hspace{0pt}{(\mathbf{h}_{T})}} \right.)}\hspace{0pt}{\text{d}{\mathbf{ω}}}}} $ $ {\textstyle = {\int{q\hspace{0pt}{({\mathbf{ω}})}\hspace{0pt}{\log p}\hspace{0pt}\left( \mathbf{y} \middle| {\mathbf{f}_{\mathbf{y}}^{\mathbf{ω}}\hspace{0pt}\left( {\mathbf{f}_{\mathbf{h}}^{\mathbf{ω}}\hspace{0pt}{(\mathbf{x}_{T},\mathbf{h}_{T - 1})}} \right)} \right)\hspace{0pt}{\text{d}{\mathbf{ω}}}}}} $
    $ {\textstyle = {\int{q\hspace{0pt}{({\mathbf{ω}})}\hspace{0pt}{\log p}\hspace{0pt}\left( \mathbf{y} \middle| {\mathbf{f}_{\mathbf{y}}^{\mathbf{ω}}\hspace{0pt}\left( {\mathbf{f}_{\mathbf{h}}^{\mathbf{ω}}\hspace{0pt}{(\mathbf{x}_{T},{\mathbf{f}_{\mathbf{h}}^{\mathbf{ω}}\hspace{0pt}{({\ldots\hspace{0pt}\mathbf{f}_{\mathbf{h}}^{\mathbf{ω}}\hspace{0pt}{(\mathbf{x}_{1},\mathbf{h}_{0})}\hspace{0pt}\ldots})}})}} \right)} \right)\hspace{0pt}{\text{d}{\mathbf{ω}}}}}} $

    con $ {\textstyle \mathbf{h}_{0} = \text{0}} $. Aproximamos esto mediante integración de Monte Carlo (MC) con una sola muestra:

    $ {\textstyle {\approx {{\log p}\hspace{0pt}\left( \mathbf{y} \middle| {\mathbf{f}_{\mathbf{y}}^{\hat{\mathbf{ω}}}\hspace{0pt}\left( {\mathbf{f}_{\mathbf{h}}^{\hat{\mathbf{ω}}}\hspace{0pt}{(\mathbf{x}_{T},{\mathbf{f}_{\mathbf{h}}^{\hat{\mathbf{ω}}}\hspace{0pt}{({\ldots\hspace{0pt}\mathbf{f}_{\mathbf{h}}^{\hat{\mathbf{ω}}}\hspace{0pt}{(\mathbf{x}_{1},\mathbf{h}_{0})}\hspace{0pt}\ldots})}})}} \right)} \right)}},} $ $ {\textstyle \hat{\mathbf{ω}} \sim {q\hspace{0pt}{({\mathbf{ω}})}}} $

    lo que da lugar a un estimador insesgado de cada término de la suma.

    Este estimador se sustituye en la ecuación (3.2) para obtener nuestro objetivo de minimización

    $ {\textstyle \mathcal{L}} $ $ {\textstyle \approx - \sum\limits_{i = 1}^{N}\log p\left( \mathbf{y}_{i} \middle| \mathbf{f}_{\mathbf{y}}^{{\hat{\mathbf{ω}}}_{i}}\left( \mathbf{f}_{\mathbf{h}}^{{\hat{\mathbf{ω}}}_{i}}{(\mathbf{x}_{i,T},\mathbf{f}_{\mathbf{h}}^{{\hat{\mathbf{ω}}}_{i}}{(\ldots\mathbf{f}_{\mathbf{h}}^{{\hat{\mathbf{ω}}}_{i}}{(\mathbf{x}_{i,1},\mathbf{h}_{0})}\ldots)})} \right) \right) + \text{KL}{(q{({\mathbf{ω}})}||p{({\mathbf{ω}})})}.} $ (3)

    Téngase en cuenta que para cada secuencia $ {\textstyle \mathbf{x}_{i}} $ muestreamos una nueva realización $ {\textstyle {\hat{\mathbf{ω}}}_{i} = {\{{\hat{\mathbf{W}}}_{\mathbf{h}}^{i},{\hat{\mathbf{U}}}_{\mathbf{h}}^{i},{\hat{\mathbf{b}}}_{\mathbf{h}}^{i},{\hat{\mathbf{W}}}_{\mathbf{y}}^{i},{\hat{\mathbf{b}}}_{\mathbf{y}}^{i}\}}} $, y que cada símbolo de la secuencia $ {\textstyle \mathbf{x}_{i} = {\lbrack\mathbf{x}_{i,1},\ldots,\mathbf{x}_{i,T}\rbrack}} $ se pasa por la función $ {\textstyle \mathbf{f}_{\mathbf{h}}^{{\hat{\mathbf{ω}}}_{i}}} $ con las mismas realizaciones de pesos $ {\textstyle {\hat{\mathbf{W}}}_{\mathbf{h}}^{i},{\hat{\mathbf{U}}}_{\mathbf{h}}^{i},{\hat{\mathbf{b}}}_{\mathbf{h}}^{i}} $ usadas en cada paso temporal $ {\textstyle t \leq T} $.

    Siguiendo [17], definimos nuestra distribución aproximante de modo que se factorice sobre las matrices de pesos y sus filas en $ {\textstyle \mathbf{ω}} $. Para cada fila $ {\textstyle \mathbf{w}_{k}} $ de una matriz de pesos, la distribución aproximante es:

    $ {\textstyle q\hspace{0pt}{(\mathbf{w}_{k})}} $ $ {\textstyle = {{p\hspace{0pt}\mathcal{N}\hspace{0pt}{(\mathbf{w}_{k};\text{0},{\sigma^{2}\hspace{0pt}I})}} + {{({1 - p})}\hspace{0pt}\mathcal{N}\hspace{0pt}{(\mathbf{w}_{k};\mathbf{m}_{k},{\sigma^{2}\hspace{0pt}I})}}}} $

    con $ {\textstyle \mathbf{m}_{k}} $ el parámetro variacional (vector fila), $ {\textstyle p} $ dado de antemano (la probabilidad de dropout) y $ {\textstyle \sigma^{2}} $ pequeño. Optimizamos sobre $ {\textstyle \mathbf{m}_{k}} $ los parámetros variacionales de las matrices de pesos aleatorias; estos corresponden a las matrices de pesos de la RNN en la visión estándar111Graves et al. [26] factorizan adicionalmente la distribución aproximante sobre los elementos de cada fila y utilizan una distribución aproximante gaussiana para cada elemento (en lugar de una mezcla); la distribución aproximante anterior parece dar mejor rendimiento y guarda una estrecha relación con el dropout [17].. La KL en la ec. (3) puede aproximarse como regularización $ {\textstyle L_{2}} $ sobre los parámetros variacionales $ {\textstyle \mathbf{m}_{k}} $ [17].

    Evaluar la salida del modelo $ {\textstyle \mathbf{f}_{\mathbf{y}}^{\hat{\mathbf{ω}}}\hspace{0pt}{( \cdot )}} $ con la muestra $ {\textstyle \hat{\mathbf{ω}} \sim {q\hspace{0pt}{({\mathbf{ω}})}}} $ equivale a anular (enmascarar) aleatoriamente filas en cada matriz de pesos $ {\textstyle \mathbf{W}} $ durante el forward pass — es decir, a aplicar dropout. Nuestro objetivo $ {\textstyle \mathcal{L}} $ es idéntico al de la RNN estándar. En nuestro entorno RNN con entrada secuencial, cada fila de la matriz de pesos se enmascara aleatoriamente una vez y, lo que es importante, se utiliza la misma máscara en todos los pasos temporales.222En el apéndice A discutimos la relación de nuestra interpretación del dropout con la interpretación de ensembling.

    Las predicciones pueden aproximarse propagando la media de cada capa a la siguiente (lo que se denomina la aproximación estándar del dropout) o aproximando el posterior de la ec. (1) con $ {\textstyle q\hspace{0pt}{({\mathbf{ω}})}} $,

    $ {\textstyle p\hspace{0pt}{(\left. \mathbf{y}^{\ast} \middle| {\mathbf{x}^{\ast},\mathbf{X},\mathbf{Y}} \right.)}} $ $ {\textstyle \approx {\int{p\hspace{0pt}{(\left. \mathbf{y}^{\ast} \middle| {\mathbf{x}^{\ast},{\mathbf{ω}}} \right.)}\hspace{0pt}q\hspace{0pt}{({\mathbf{ω}})}\hspace{0pt}{\text{d}{\mathbf{ω}}}}} \approx {\frac{1}{K}\hspace{0pt}{\sum\limits_{k = 1}^{K}{p\hspace{0pt}{(\left. \mathbf{y}^{\ast} \middle| {\mathbf{x}^{\ast},{\hat{\mathbf{ω}}}_{k}} \right.)}}}}} $ (4)

    con $ {\textstyle {\hat{\mathbf{ω}}}_{k} \sim {q\hspace{0pt}{({\mathbf{ω}})}}} $, es decir, aplicando dropout en tiempo de prueba y promediando los resultados (MC dropout).

    4.1 Implementación y relación con el dropout en RNN

    Implementar nuestra inferencia aproximada es idéntico a implementar dropout en RNN con las mismas unidades de la red eliminadas en cada paso temporal, eliminando aleatoriamente entradas, salidas y conexiones recurrentes. Esto contrasta con las técnicas existentes, en las que se eliminan unidades distintas en pasos temporales distintos y no se aplica dropout a las conexiones recurrentes (fig. 1).

    Algunos modelos RNN, como los LSTM y los GRU, utilizan distintas puertas dentro de las unidades de la RNN. Por ejemplo, un LSTM se define utilizando cuatro puertas: input, forget, output e input modulation,

    $ {\textstyle \underset{¯}{\mathbf{i}}} $ $ {\textstyle = {\text{sigm}\hspace{0pt}\left( {{\mathbf{h}_{t - 1}\hspace{0pt}\mathbf{U}_{i}} + {\mathbf{x}_{t}\hspace{0pt}\mathbf{W}_{i}}} \right)}} $ $ {\textstyle \underset{¯}{\mathbf{f}} = {\text{sigm}\hspace{0pt}\left( {{\mathbf{h}_{t - 1}\hspace{0pt}\mathbf{U}_{f}} + {\mathbf{x}_{t}\hspace{0pt}\mathbf{W}_{f}}} \right)}} $
    $ {\textstyle \underset{¯}{\mathbf{o}}} $ $ {\textstyle = {\text{sigm}\hspace{0pt}\left( {{\mathbf{h}_{t - 1}\hspace{0pt}\mathbf{U}_{o}} + {\mathbf{x}_{t}\hspace{0pt}\mathbf{W}_{o}}} \right)}} $ $ {\textstyle \underset{¯}{\mathbf{g}} = {\text{tanh}\hspace{0pt}\left( {{\mathbf{h}_{t - 1}\hspace{0pt}\mathbf{U}_{g}} + {\mathbf{x}_{t}\hspace{0pt}\mathbf{W}_{g}}} \right)}} $
    $ {\textstyle \mathbf{c}_{t}} $ $ {\textstyle = {{\underset{¯}{\mathbf{f}} \circ \mathbf{c}_{t - 1}} + {\underset{¯}{\mathbf{i}} \circ \underset{¯}{\mathbf{g}}}}} $ $ {\textstyle \mathbf{h}_{t} = {{\underset{¯}{\mathbf{o}} \circ \text{tanh}}\hspace{0pt}{(\mathbf{c}_{t})}}} $ (5)

    con $ {\textstyle {\mathbf{ω}} = {\{\mathbf{W}_{i},\mathbf{U}_{i},\mathbf{W}_{f},\mathbf{U}_{f},\mathbf{W}_{o},\mathbf{U}_{o},\mathbf{W}_{g},\mathbf{U}_{g}\}}} $ matrices de pesos y $ {\textstyle \circ} $ el producto elemento a elemento. Aquí un estado interno $ {\textstyle \mathbf{c}_{t}} $ (también llamado cell) se actualiza de forma aditiva.

    De forma alternativa, el modelo podría reparametrizarse como en [26]:

    $ {\textstyle \begin{pmatrix} \underset{¯}{\mathbf{i}} \\ \underset{¯}{\mathbf{f}} \\ \underset{¯}{\mathbf{o}} \\ \underset{¯}{\mathbf{g}} \end{pmatrix} = {\begin{pmatrix} \text{sigm} \\ \text{sigm} \\ \text{sigm} \\ \text{tanh} \end{pmatrix}\hspace{0pt}\left( {\begin{pmatrix} \mathbf{x}_{t} \\ \mathbf{h}_{t - 1} \end{pmatrix} \cdot \mathbf{W}} \right)}} $ (6)

    con $ {\textstyle {\mathbf{ω}} = {\{\mathbf{W}\}}} $, donde $ {\textstyle \mathbf{W}} $ es una matriz de dimensiones $ {\textstyle 2\hspace{0pt}K} $ por $ {\textstyle 4\hspace{0pt}K} $ (siendo $ {\textstyle K} $ la dimensión de $ {\textstyle \mathbf{x}_{t}} $). Llamamos a esta parametrización LSTM con pesos atados (en comparación con el LSTM con pesos no atados de la ec. (4.1)).

    Aunque estas dos parametrizaciones dan lugar al mismo modelo determinista, conducen a distintas distribuciones aproximantes $ {\textstyle q\hspace{0pt}{({\mathbf{ω}})}} $. Con la primera parametrización podríamos usar máscaras de dropout distintas para distintas puertas (incluso cuando se usa la misma entrada $ {\textstyle \mathbf{x}_{t}} $). Esto se debe a que la distribución aproximante se coloca sobre las matrices y no sobre las entradas: podríamos eliminar ciertas filas en una matriz de pesos $ {\textstyle \mathbf{W}} $ aplicada a $ {\textstyle \mathbf{x}_{t}} $ y filas distintas en otra matriz $ {\textstyle \mathbf{W}^{\prime}} $ aplicada a $ {\textstyle \mathbf{x}_{t}} $. Con la segunda parametrización colocaríamos una distribución sobre la única matriz $ {\textstyle \mathbf{W}} $. Esto da lugar a un forward pass más rápido, pero con resultados ligeramente peores, como veremos en la sección de experimentos.

    En términos más concretos, podemos escribir nuestra variante del dropout con la segunda parametrización (ec. (6)) como

    $ {\textstyle \begin{pmatrix} \underset{¯}{\mathbf{i}} \\ \underset{¯}{\mathbf{f}} \\ \underset{¯}{\mathbf{o}} \\ \underset{¯}{\mathbf{g}} \end{pmatrix} = {\begin{pmatrix} \text{sigm} \\ \text{sigm} \\ \text{sigm} \\ \text{tanh} \end{pmatrix}\hspace{0pt}\left( {\begin{pmatrix} {\mathbf{x}_{t} \circ \mathtt{z}_{\mathbf{x}}} \\ {\mathbf{h}_{t - 1} \circ \mathtt{z}_{\mathbf{h}}} \end{pmatrix} \cdot \mathbf{W}} \right)}} $ (7)

    con $ {\textstyle \mathtt{z}_{\mathbf{x}},\mathtt{z}_{\mathbf{h}}} $ máscaras aleatorias repetidas en todos los pasos temporales (y de forma análoga para la parametrización de la ec. (4.1)).

    En comparación, la variante de dropout de Zaremba et al. [4] sustituye $ {\textstyle \mathtt{z}_{\mathbf{x}}} $ en la ec. (7) por $ {\textstyle \mathtt{z}_{\mathbf{x}}^{t}} $, dependiente del tiempo, que se muestrea de nuevo en cada paso temporal (mientras que $ {\textstyle \mathtt{z}_{\mathbf{h}}} $ se elimina y la conexión recurrente $ {\textstyle \mathbf{h}_{t - 1}} $ no se elimina):

    $ {\textstyle {\begin{pmatrix} \underset{¯}{\mathbf{i}} \\ \underset{¯}{\mathbf{f}} \\ \underset{¯}{\mathbf{o}} \\ \underset{¯}{\mathbf{g}} \end{pmatrix} = {\begin{pmatrix} \text{sigm} \\ \text{sigm} \\ \text{sigm} \\ \text{tanh} \end{pmatrix}\hspace{0pt}\left( {\begin{pmatrix} {\mathbf{x}_{t} \circ \mathtt{z}_{\mathbf{x}}^{t}} \\ \mathbf{h}_{t - 1} \end{pmatrix} \cdot \mathbf{W}} \right)}}.} $ (8)

    Por otro lado, la variante de dropout de Moon et al. [20] modifica la ec. (4.1) adaptando la celda interna

    $ {\textstyle \mathbf{c}_{t} = {\mathbf{c}_{t} \circ \mathtt{z}_{\mathbf{c}}}} $ (9)

    con la misma máscara $ {\textstyle \mathtt{z}_{\mathbf{c}}} $ usada en todos los pasos temporales. Nótese que, a diferencia de [20], al ver el dropout como una operación sobre los pesos, nuestra técnica se extiende trivialmente a RNN y GRU.

    4.2 Dropout sobre embeddings de palabras

    En conjuntos de datos con entradas continuas solemos aplicar dropout a la capa de entrada — es decir, al propio vector de entrada. Esto equivale a colocar una distribución sobre la matriz de pesos que sigue a la entrada e integrar aproximadamente sobre ella (la matriz se optimiza y, por tanto, sería propensa al sobreajuste de no hacerse).

    Pero para modelos con entradas discretas, como las palabras (donde cada palabra se asigna a un vector continuo — un embedding de palabras), esto rara vez se hace. Con embeddings de palabras, la entrada puede verse como el propio embedding o, de manera más conveniente, como una codificación one-hot (un vector de ceros con un $ {\textstyle 1} $ en una sola posición). El producto del vector codificado en one-hot por una matriz de embeddings $ {\textstyle \mathbf{W}_{E} \in {\mathbb{R}}^{V \times D}} $ (donde $ {\textstyle D} $ es la dimensionalidad del embedding y $ {\textstyle V} $ el número de palabras del vocabulario) da entonces un embedding de palabra. Curiosamente, esta capa de parámetros es la más grande en la mayoría de las aplicaciones de lenguaje y, sin embargo, a menudo no se regulariza. Como la matriz de embeddings se optimiza, puede dar lugar a sobreajuste y, por tanto, es deseable aplicar dropout a los vectores codificados en one-hot. Esto es, en efecto, idéntico a eliminar palabras al azar a lo largo de la oración de entrada y puede interpretarse como una forma de inducir al modelo a no depender de palabras individuales para su salida.

    Téngase en cuenta que, como antes, ponemos a cero filas de la matriz $ {\textstyle \mathbf{W}_{E} \in {\mathbb{R}}^{V \times D}} $ de forma aleatoria. Como repetimos la misma máscara en cada paso temporal, eliminamos las mismas palabras a lo largo de toda la secuencia — es decir, eliminamos tipos de palabras al azar y no tokens (por ejemplo, la oración «the dog and the cat» podría convertirse en «— dog and — cat» o «the — and the cat», pero nunca en «— dog and the cat»). Una posible ineficiencia al implementar esto es la necesidad de muestrear $ {\textstyle V} $ variables aleatorias de Bernoulli, donde $ {\textstyle V} $ puede ser grande. Esto puede resolverse observando que para secuencias de longitud $ {\textstyle T} $ a lo sumo pueden eliminarse $ {\textstyle T} $ embeddings (los demás embeddings eliminados no afectan a la salida del modelo). Para $ {\textstyle T \ll V} $, por tanto, es más eficiente primero asignar las palabras a sus embeddings y solo después poner a cero los embeddings según su tipo de palabra.

    5 Evaluación experimental

    Comenzamos integrando la variante del dropout que proponemos en la implementación en Torch de Zaremba et al. [4], que se ha convertido en una implementación de referencia para muchos en el campo. Zaremba et al. [4] establecieron en Penn Treebank un benchmark que, hasta donde sabemos, no se ha superado en los últimos 2 años. Mejoramos los resultados de [4] y mostramos que nuestra variante del dropout mejora el rendimiento del modelo en comparación con la parada temprana y con el uso de modelos subespecificados. Continuamos evaluando nuestra variante del dropout con modelos LSTM y GRU en una tarea de análisis de sentimientos en la que los datos etiquetados son escasos. Concluimos con un análisis en profundidad de las propiedades del método propuesto, dejando el código y muchos de los experimentos para el apéndice por limitaciones de espacio.

    5.1 Modelado de lenguaje

    Replicamos el experimento de modelado de lenguaje de Zaremba, Sutskever y Vinyals [4]. El experimento utiliza Penn Treebank, un benchmark estándar en el campo. Este conjunto de datos se considera pequeño en la comunidad de procesamiento del lenguaje, con $ {\textstyle 887,521} $ tokens (palabras) en total, lo que hace que el sobreajuste sea una preocupación considerable. A lo largo de los experimentos nos referimos a los LSTM con la técnica de dropout propuesta siguiendo nuestra interpretación bayesiana como Variational LSTMs y a las técnicas de dropout existentes como naive dropout LSTMs (ec. (8), máscaras distintas en pasos distintos, aplicadas únicamente a la entrada y la salida del LSTM). Nos referimos a los LSTM sin dropout como standard LSTMs.

    Implementamos un Variational LSTM tanto para el modelo mediano de [4] (2 capas con 650 unidades en cada capa) como para su modelo grande (2 capas con 1500 unidades en cada capa). Los únicos cambios que hemos hecho a la configuración de [4] son: 1) usar la variante del dropout propuesta en lugar del dropout ingenuo y 2) ajustar el weight decay (que en [4] se fijó en cero). Todos los demás hiperparámetros se mantienen idénticos a los de [4]: el learning rate decay no se ajustó para nuestra configuración y se utiliza siguiendo a [4]. Los parámetros de dropout se optimizaron mediante búsqueda en cuadrícula (atando la probabilidad de dropout sobre los embeddings con la de las capas recurrentes, y atando también la probabilidad de dropout para entradas y salidas). Estos se eligen para minimizar la perplejidad de validación333Las probabilidades óptimas son 0,3 y 0,5 respectivamente para el modelo grande, frente a la probabilidad de dropout de 0,6 en [4], y 0,2 y 0,35 respectivamente para el modelo mediano, frente a la probabilidad de 0,5 en [4].. Comparamos además con Moon et al. [20], que solo eliminan elementos del estado interno del LSTM utilizando la misma máscara en todos los pasos temporales (además de aplicar dropout a entradas y salidas, ec. (9)). Implementamos su variante de dropout para cada tamaño de modelo y repetimos el procedimiento anterior para encontrar las probabilidades de dropout óptimas (0,3 con el modelo mediano y 0,5 con el grande). Tuvimos que recurrir a la parada temprana con el modelo grande para la variante de [20], ya que el modelo empieza a sobreajustarse después de 16 épocas. Moon et al. [20] propusieron su variante de dropout en la comunidad de reconocimiento de voz, donde no tuvieron que considerar el sobreajuste de los embeddings (que, como veremos a continuación, afecta considerablemente a las capas recurrentes). Por tanto, realizamos un experimento adicional usando la variante de [20] junto con nuestro dropout sobre embeddings (lo que denominamos Moon et al. [20]+emb dropout).

    Nuestros resultados se muestran en la tabla 1. Para el Variational LSTM damos resultados tanto del modelo con pesos atados (ec. (6)–(7), Variational (tied weights)) como sin atadura de pesos (ec. (4.1), Variational (untied weights)). Para cada modelo informamos el rendimiento usando tanto la aproximación estándar del dropout (promediando los pesos en tiempo de prueba — propagando la media de cada distribución aproximante como entrada de la siguiente capa) como MC dropout (obtenido aplicando dropout 1000 veces en tiempo de prueba y promediando las salidas del modelo siguiendo la ec. (4), denotado MC). Para cada modelo informamos la perplejidad media y la desviación estándar (cada experimento se repitió 3 veces con distintas semillas aleatorias y los resultados se promediaron). El tiempo de entrenamiento del modelo se da en palabras por segundo (WPS).

    Resulta interesante que, usando la aproximación del dropout, el atado de pesos produce menor error de validación y de prueba que el modelo con pesos no atados. Pero con MC dropout, el modelo de pesos no atados rinde mucho mejor. La perplejidad de validación para el modelo grande mejora desde el $ {\textstyle 82.2} $ de [4] hasta $ {\textstyle 77.3} $ (con pesos atados), o $ {\textstyle 77.9} $ sin atado de pesos. La perplejidad de prueba se reduce de $ {\textstyle 78.4} $ a $ {\textstyle 73.4} $ (con MC dropout y pesos no atados). Hasta donde sabemos, estas son actualmente las mejores perplejidades de modelo único en Penn Treebank.

    Parece que Moon et al. [20] rinden incluso por debajo de [4]. Sin dropout sobre embeddings, el modelo grande se sobreajusta y se requiere parada temprana (sin parada temprana, la perplejidad de validación del modelo sube hasta 131 en 30 épocas). Añadiendo nuestro dropout sobre embeddings, el modelo rinde mucho mejor, pero aún por debajo de aplicar dropout únicamente en las entradas y salidas.

    Comparando nuestros resultados con el LSTM no regularizado (evaluado con parada temprana, con un rendimiento similar al del experimento de parada temprana de [4]) vemos que para cualquiera de los dos tamaños de modelo se obtiene una mejora utilizando nuestra variante del dropout. Comparando el modelo Variational mediano con el grande vemos que se puede lograr una reducción significativa de la perplejidad usando un modelo más grande. Esto no se puede hacer con el LSTM no regularizado, donde un modelo más grande conduce a peores resultados. Esto muestra que reducir la complejidad del modelo, una posible vía para evitar el sobreajuste, en realidad conduce a un peor ajuste cuando se usa dropout.

    Medium LSTM Large LSTM
    Validation Test WPS Validation Test WPS
    Non-regularized (early stopping) $ {\textstyle 121.1} $ $ {\textstyle 121.7} $ $ {\textstyle 5.5} $K $ {\textstyle 128.3} $ $ {\textstyle 127.4} $ $ {\textstyle 2.5} $K
    Moon et al. [20] $ {\textstyle 100.7} $ $ {\textstyle 97.0} $ $ {\textstyle 4.8} $K $ {\textstyle 122.9} $ $ {\textstyle 118.7} $ $ {\textstyle 3} $K
    Moon et al. [20] +emb dropout $ {\textstyle 88.9} $ $ {\textstyle 86.5} $ $ {\textstyle 4.8} $K $ {\textstyle 88.8} $ $ {\textstyle 86.0} $ $ {\textstyle 3} $K
    Zaremba et al. [4] $ {\textstyle 86.2} $ $ {\textstyle 82.7} $ $ {\textstyle 5.5} $K $ {\textstyle 82.2} $ $ {\textstyle 78.4} $ $ {\textstyle 2.5} $K
    Variational (tied weights) $ {\textstyle 81.8 \pm 0.2} $ $ {\textstyle 79.7 \pm 0.1} $ $ {\textstyle 4.7} $K $ {\textstyle 77.3 \pm 0.2} $ $ {\textstyle 75.0 \pm 0.1} $ $ {\textstyle 2.4} $K
    Variational (tied weights, MC) $ {\textstyle -} $ $ {\textstyle 79.0 \pm 0.1} $ $ {\textstyle -} $ $ {\textstyle -} $ $ {\textstyle 74.1 \pm 0.0} $ $ {\textstyle -} $
    Variational (untied weights) $ {\textstyle 81.9 \pm 0.2} $ $ {\textstyle 79.7 \pm 0.1} $ $ {\textstyle 2.7} $K $ {\textstyle 77.9 \pm 0.3} $ $ {\textstyle 75.2 \pm 0.2} $ $ {\textstyle 1.6} $K
    Variational (untied weights, MC) $ {\textstyle -} $ $ {\textstyle 78.6 \pm 0.1} $ $ {\textstyle -} $ $ {\textstyle -} $ $ {\textstyle 73.4 \pm 0.0} $ $ {\textstyle -} $

    También vemos que el modelo de pesos atados alcanza un rendimiento muy parecido al de pesos no atados cuando se utiliza la aproximación del dropout. Sin embargo, al evaluar el tiempo de ejecución del modelo (en una GPU Titan X), vemos que atar los pesos da lugar a una implementación más eficiente en tiempo. Esto se debe a que el único producto matricial se implementa como un único kernel de GPU, en lugar de los cuatro productos matriciales más pequeños que se usan en el modelo de pesos no atados (donde se llaman cuatro kernels de GPU de forma secuencial). Nótese, no obstante, que una implementación de bajo nivel debería dar tiempos de ejecución similares.

    Realizamos además un experimento de promediado de modelos siguiendo la configuración de [4], en el que varios modelos grandes se entrenan de forma independiente y se promedian sus salidas. Usamos Variational LSTMs con MC dropout siguiendo la configuración anterior. Con 10 Variational LSTMs mejoramos la perplejidad del conjunto de prueba de [4] de $ {\textstyle 69.5} $ a $ {\textstyle 68.7} $ — obteniendo una perplejidad idéntica a la del experimento de [4] con 38 modelos.

    Por último, informamos la perplejidad de validación con un learning rate decay reducido (en el modelo mediano). El learning rate decay suele utilizarse como regularización al hacer que el optimizador dé pasos más pequeños cuando el modelo empieza a sobreajustarse (como en [4]). Eliminándolo podemos evaluar los efectos de regularización del dropout por sí solo. Como puede verse en la fig. 2, incluso con parada temprana, el Variational LSTM alcanza una perplejidad menor que la del naive dropout LSTM y el LSTM estándar. Nótese, no obstante, que se puede lograr una perplejidad significativamente menor para todos los modelos con planificación del learning rate decay, como se observa en la tabla 1

    Refer to caption

    5.2 Análisis de sentimientos

    A continuación evaluamos nuestra variante del dropout con modelos LSTM y GRU en una tarea de análisis de sentimientos en la que los datos etiquetados son escasos. Utilizamos MC dropout (que comparamos con la aproximación del dropout más adelante en el apéndice B) y parametrizaciones de modelo con pesos no atados.

    Utilizamos el corpus en bruto de reseñas de películas de Cornell recopilado por Pang y Lee [27]. El conjunto de datos consta de 5000 reseñas de películas. Extraemos segmentos consecutivos de $ {\textstyle T} $ palabras de cada reseña con $ {\textstyle T = 200} $, y utilizamos la puntuación correspondiente de la película como salida observada $ {\textstyle y} $. El modelo está construido con una capa de embedding (de dimensionalidad $ {\textstyle 128} $), una capa LSTM (con $ {\textstyle 128} $ unidades de red para cada puerta; el GRU se construye de forma análoga) y, finalmente, una capa totalmente conectada aplicada a la última salida del LSTM (que produce una salida escalar). Utilizamos el optimizador Adam [28] a lo largo de los experimentos, con tamaño de lote 128 y MC dropout en tiempo de prueba con 10 muestras.

    Los principales resultados pueden verse en la fig. 3. Comparamos el Variational LSTM (con nuestra variante del dropout aplicada a cada capa de pesos) con técnicas estándar del campo. El error de entrenamiento se muestra en la fig. 3(a) y el error de prueba en la fig. 3(b). Para cada modelo se utilizaron las probabilidades de dropout y el weight decay óptimos (véase el apéndice B). Parece que el único modelo que no se sobreajusta es el Variational LSTM, que también alcanza el menor error de prueba. El error de prueba del Variational GRU se muestra en la fig. 15 (con la curva de pérdida en el apéndice B). De nuevo se utilizaron las probabilidades de dropout y el weight decay óptimos para cada modelo. El Variational GRU evita el sobreajuste y converge al menor error de prueba. La parada temprana en este conjunto de datos resulta, no obstante, en un menor error de prueba (el menor error de prueba lo obtiene el modelo GRU no regularizado en la segunda época). Es interesante señalar que las técnicas estándar exhiben un comportamiento peculiar en el que el error de prueba decrece y aumenta repetidamente. Este comportamiento no se observa con el Variational GRU. Las gráficas de convergencia de la pérdida para cada modelo se dan en el apéndice B.

    Refer to caption

    Refer to caption

    Refer to caption

    Refer to caption

    Refer to caption

    Refer to caption

    A continuación exploramos los efectos de eliminar diferentes partes del modelo. Evaluamos nuestro Variational LSTM con distintas combinaciones de dropout sobre los embeddings ($ {\textstyle p_{E} = {0,0.5}} $) y las capas recurrentes ($ {\textstyle p_{U} = {0,0.5}} $) en la tarea de análisis de sentimientos. Las gráficas de convergencia pueden verse en la figura 4(a). Parece que sin una regularización fuerte tanto sobre los embeddings como sobre las capas recurrentes el modelo se sobreajustaría con bastante rapidez. El comportamiento cuando $ {\textstyle p_{U} = 0.5} $ y $ {\textstyle p_{E} = 0} $ es bastante curioso: el error de prueba decrece, luego aumenta y finalmente vuelve a decrecer. Asimismo, parece que cuando $ {\textstyle p_{U} = 0} $ y $ {\textstyle p_{E} = 0.5} $ el modelo se vuelve muy errático.

    Por último, probamos el rendimiento del Variational LSTM con distintas probabilidades de dropout en la capa recurrente, fijando la probabilidad de dropout sobre embeddings en $ {\textstyle p_{E} = 0} $ o $ {\textstyle p_{E} = 0.5} $ (figs. 4(b)-4(c)). Estos resultados son bastante intrigantes. En este experimento todos los modelos han convergido, con la pérdida acercándose a cero (no se muestra). Sin embargo, parece que sin dropout sobre embeddings, una mayor probabilidad de dropout en las capas recurrentes ¡conduce al sobreajuste! Esto presumiblemente ocurre por el gran número de parámetros de la capa de embeddings que no se regulariza. Regularizando la capa de embeddings con probabilidad de dropout $ {\textstyle p_{E} = 0.5} $ vemos que una mayor probabilidad de dropout en la capa recurrente sí conduce a una mayor robustez frente al sobreajuste, como cabría esperar. Estos resultados sugieren que el dropout sobre embeddings puede ser de importancia crucial en algunas tareas.

    En el apéndice B evaluamos la importancia del weight decay con nuestra variante del dropout. La práctica habitual es eliminar el weight decay con el dropout ingenuo. Nuestros resultados sugieren que el weight decay juega un papel importante con nuestra variante (corresponde a nuestra creencia a priori sobre la distribución de los pesos).

    6 Conclusiones

    Presentamos una nueva técnica para la regularización de redes neuronales recurrentes. Nuestra variante del dropout para RNN está motivada teóricamente y su efectividad se demostró empíricamente. En investigaciones futuras pretendemos evaluar la incertidumbre del modelo en Variational LSTMs [17]. Junto con los desarrollos presentados aquí, esto tendrá implicaciones importantes para el modelado de la ambigüedad del lenguaje y para el modelado de dinámicas en tareas de control.

    Referencias

    • Sundermeyer et al. [2012] Martin Sundermeyer, Ralf Schlüter y Hermann Ney. LSTM neural networks for language modeling. En INTERSPEECH, 2012.
    • Kalchbrenner y Blunsom [2013] Nal Kalchbrenner y Phil Blunsom. Recurrent continuous translation models. En EMNLP, 2013.
    • Sutskever et al. [2014] Ilya Sutskever, Oriol Vinyals y Quoc VV Le. Sequence to sequence learning with neural networks. En NIPS, 2014.
    • Zaremba et al. [2014] Wojciech Zaremba, Ilya Sutskever y Oriol Vinyals. Recurrent neural network regularization. arXiv preprint arXiv:1409.2329, 2014.
    • Hinton [2012] Geoffrey E others Hinton. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.
    • Srivastava et al. [2014] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever y Ruslan Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. JMLR, 2014.
    • Pachitariu y Sahani [2013] Marius Pachitariu y Maneesh Sahani. Regularization and nonlinearities for neural language models: when are they needed? arXiv preprint arXiv:1301.5650, 2013.
    • Bayer et al. [2013] Justin Bayer, Christian Osendorfer, Daniela Korhammer, Nutan Chen, Sebastian Urban y Patrick van der Smagt. On fast dropout and its applicability to recurrent networks. arXiv preprint arXiv:1311.0701, 2013.
    • Pham et al. [2014] Vu Pham, Theodore Bluche, Christopher Kermorvant y Jerome Louradour. Dropout improves recurrent neural networks for handwriting recognition. En ICFHR. IEEE, 2014.
    • Bluche et al. [2015] Théodore Bluche, Christopher Kermorvant y Jérôme Louradour. Where to apply dropout in recurrent neural networks for handwriting recognition? En ICDAR. IEEE, 2015.
    • Rezende et al. [2014] Danilo Jimenez Rezende, Shakir Mohamed y Daan Wierstra. Stochastic backpropagation and approximate inference in deep generative models. En ICML, 2014.
    • Blundell et al. [2015] Charles Blundell, Julien Cornebise, Koray Kavukcuoglu y Daan Wierstra. Weight uncertainty in neural network. En ICML, 2015.
    • Hernandez-Lobato y Adams [2015] Jose Miguel Hernandez-Lobato y Ryan Adams. Probabilistic backpropagation for scalable learning of Bayesian neural networks. En ICML, 2015.
    • Gal y Ghahramani [2015a] Yarin Gal y Zoubin Ghahramani. Bayesian convolutional neural networks with Bernoulli approximate variational inference. arXiv:1506.02158, 2015a.
    • Kingma et al. [2015] Diederik Kingma, Tim Salimans y Max Welling. Variational dropout and the local reparameterization trick. En NIPS. Curran Associates, Inc., 2015.
    • Korattikara Balan et al. [2015] Anoop Korattikara Balan, Vivek Rathod, Kevin P Murphy y Max Welling. Bayesian dark knowledge. En NIPS. Curran Associates, Inc., 2015.
    • Gal y Ghahramani [2015b] Yarin Gal y Zoubin Ghahramani. Dropout as a Bayesian approximation: Representing model uncertainty in deep learning. arXiv:1506.02142, 2015b.
    • Hochreiter y Schmidhuber [1997] Sepp Hochreiter y Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8), 1997.
    • Cho et al. [2014] Kyunghyun Cho et al. Learning phrase representations using RNN encoder–decoder for statistical machine translation. En EMNLP, Doha, Qatar, octubre de 2014. ACL.
    • Moon et al. [diciembre de 2015] Taesup Moon, Heeyoul Choi, Hoshik Lee y Inchul Song. RnnDrop: A Novel Dropout for RNNs in ASR. En ASRU Workshop, diciembre de 2015.
    • MacKay [1992] David JC MacKay. A practical Bayesian framework for backpropagation networks. Neural computation, 4(3):448–472, 1992.
    • Neal [1995] Radford M Neal. Bayesian learning for neural networks. Tesis doctoral, University of Toronto, 1995.
    • Hinton y Van Camp [1993] Geoffrey E Hinton y Drew Van Camp. Keeping the neural networks simple by minimizing the description length of the weights. En COLT, páginas 5–13. ACM, 1993.
    • Barber y Bishop [1998] David Barber y Christopher M Bishop. Ensemble learning in Bayesian neural networks. NATO ASI SERIES F COMPUTER AND SYSTEMS SCIENCES, 168:215–238, 1998.
    • Graves [2011] Alex Graves. Practical variational inference for neural networks. En NIPS, 2011.
    • Graves et al. [2013] Alan Graves, Abdel-rahman Mohamed y Geoffrey Hinton. Speech recognition with deep recurrent neural networks. En ICASSP. IEEE, 2013.
    • Pang y Lee [2005] Bo Pang y Lillian Lee. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales. En ACL. ACL, 2005.
    • Kingma y Ba [2014] Diederik Kingma y Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
    • Bergstra et al. [2010] James Bergstra et al. Theano: a CPU and GPU math expression compiler. En Proceedings of the Python for Scientific Computing Conference (SciPy), junio de 2010. Presentación oral.
    • fchollet [2015] fchollet. Keras. https://github.com/fchollet/keras, 2015.

    Apéndice A Interpretación bayesiana frente a interpretación de ensembling del dropout

    Aparte de nuestra interpretación como aproximación bayesiana, el dropout en redes profundas también puede verse desde una interpretación de ensembling [6]. Esta interpretación también conduce al MC dropout en tiempo de prueba. Pero la interpretación de ensembling no determina si el ensemble debería ser sobre las unidades de la red o sobre los pesos. Por ejemplo, en una RNN esta visión no conduciría a nuestra variante del dropout, a menos que se defina que el ensemble ate los pesos de la red de forma ad hoc. Esto contrasta con la visión de aproximación bayesiana, en la que el atado de pesos se impone por la interpretación probabilística del modelo.

    Apéndice B Análisis de sentimientos – experimentos adicionales

    Los hiperparámetros para el análisis de sentimientos se obtuvieron evaluando cada modelo con probabilidades de dropout $ {\textstyle 0.25} $ y $ {\textstyle 0.5} $, y weight decays que iban de $ {\textstyle 10^{- 6}} $ a $ {\textstyle 10^{- 4}} $. La configuración óptima para el Variational LSTM es probabilidades de dropout $ {\textstyle 0.25} $ y weight decay $ {\textstyle 10^{- 3}} $, y para el naive dropout LSTM las probabilidades de dropout son $ {\textstyle 0.5} $ (no se utiliza weight decay en las implementaciones de referencia del naive dropout LSTM [4]).

    Evaluamos la aproximación del dropout en Variational LSTMs. La aproximación del dropout se utiliza con frecuencia en redes profundas como medio para aproximar la estimación MC. En la aproximación, sustituimos cada matriz de pesos $ {\textstyle \mathbf{M}} $ por $ {\textstyle p\hspace{0pt}\mathbf{M}} $, donde $ {\textstyle p} $ es la probabilidad de dropout, y realizamos un paso determinista por la red (sin eliminar unidades). Esto puede verse como propagar la media de las variables aleatorias $ {\textstyle \mathbf{W}} $ a través de la red [17]. Se ha demostrado que la aproximación funciona bien en redes profundas [6], aunque falla con capas convolucionales [14]. Evaluamos la aproximación empíricamente con nuestro modelo Variational LSTM, repitiendo el primer experimento con la aproximación usada en tiempo de prueba en lugar de MC dropout. Los resultados pueden verse en la fig. 9. Parece que la aproximación da una buena estimación del error de prueba, similar a los resultados de la figura 4(a).

    Probamos además el modelo Variational LSTM con distintos weight decays para observar el efecto de sus distintos valores. Nótese que el weight decay se aplica a todas las capas, incluida la de embeddings. En la figura 7 podemos ver que valores mayores de weight decay resultan en menor error de prueba, con diferencias significativas para distintos weight decays. Esto sugiere que el weight decay aún juega un papel importante incluso al usar dropout (mientras que la práctica habitual es eliminarlo con el dropout ingenuo). Nótese también que el weight decay puede optimizarse (junto con los parámetros de dropout) como parte de la aproximación variacional. Esto no se hace en la práctica en la comunidad de aprendizaje profundo, donde a menudo se utilizan en su lugar búsqueda en cuadrícula u optimización bayesiana.

    Probando el Variational LSTM con distintas longitudes de secuencia (con secuencias de longitudes $ {\textstyle T = {20,50,200,400}} $) podemos ver que la longitud de secuencia también tiene un efecto fuerte sobre el rendimiento del modelo (fig. 7). Las secuencias más largas dan lugar a un rendimiento mucho mejor, pero a costa de un mayor tiempo de convergencia. Hipotetizamos que el menor rendimiento en secuencias más cortas se debe a la alta probabilidad de dropout sobre los embeddings. Pero un experimento de seguimiento con longitudes de secuencia 50 y 200, y distintas probabilidades de dropout sobre embeddings, muestra que probabilidades de dropout más bajas conducen a un rendimiento del modelo aún peor (figuras 9 y 7).

    Refer to caption

    Refer to caption

    Refer to caption

    Refer to caption

    Refer to caption

    En la fig. 10(a) vemos cómo distintas probabilidades de dropout y weight decays afectan al rendimiento del modelo GRU.

    Refer to caption

    Comparamos el naive dropout LSTM con el Variational LSTM con la probabilidad de dropout en las capas recurrentes fijada a cero: $ {\textstyle p_{U} = 0} $ (al que denominamos dropout LSTM). Ambos modelos aplican dropout únicamente a la entrada y la salida del LSTM, sin dropout sobre los embeddings. El naive dropout LSTM, no obstante, utiliza máscaras distintas en distintos pasos temporales, atadas entre las puertas, mientras que el dropout LSTM utiliza la misma máscara en distintos pasos temporales. El error de prueba para ambos modelos puede verse en la fig. 12. Parece que sin dropout sobre las capas recurrentes y los embeddings ambos modelos se sobreajustan y, de hecho, dan lugar a un rendimiento idéntico.

    A continuación evaluamos la aproximación del dropout en el modelo GRU. La aproximación parece dar resultados similares a MC dropout en el modelo GRU (fig. 12).

    Refer to caption

    Refer to caption

    Por último, graficamos la pérdida de entrenamiento para varios modelos del cuerpo principal del artículo. Todos los modelos han convergido, con una pérdida de entrenamiento estable.

    Refer to caption

    Refer to caption

    Refer to caption

    Apéndice C Código

    Una implementación eficiente del método anterior en Theano [29] sobre Keras [30] es tan sencilla como esto:

    def get_output(self, train=False):
        X = self.get_input(train)
    
        retain_prob_W = 1. - self.p_W[0]
        retain_prob_U = 1. - self.p_U[0]
        B_W = self.srng.binomial((4, X.shape[1], self.input_dim),
            p=retain_prob_W, dtype=theano.config.floatX)
        B_U = self.srng.binomial((4, X.shape[1], self.output_dim),
            p=retain_prob_U, dtype=theano.config.floatX)
    
        xi = T.dot(X * B_W[0], self.W_i) + self.b_i
        xf = T.dot(X * B_W[1], self.W_f) + self.b_f
        xc = T.dot(X * B_W[2], self.W_c) + self.b_c
        xo = T.dot(X * B_W[3], self.W_o) + self.b_o
    
        [outputs, memories], updates = theano.scan(
            self._step,
            sequences=[xi, xf, xo, xc],
            outputs_info=[
                T.unbroadcast(alloc_zeros_matrix(X.shape[1], self.output_dim), 1),
                T.unbroadcast(alloc_zeros_matrix(X.shape[1], self.output_dim), 1)
            ],
            non_sequences=[self.U_i, self.U_f, self.U_o, self.U_c, B_U],
            truncate_gradient=self.truncate_gradient)
    
        return outputs[-1]
    
    def _step(self,
              xi_t, xf_t, xo_t, xc_t,
              h_tm1, c_tm1,
              u_i, u_f, u_o, u_c, B_U):
        i_t = self.inner_activation(xi_t + T.dot(h_tm1 * B_U[0], u_i))
        f_t = self.inner_activation(xf_t + T.dot(h_tm1 * B_U[1], u_f))
        c_t = f_t * c_tm1 + i_t * self.activation(xc_t + T.dot(h_tm1 * B_U[2], u_c))
        o_t = self.inner_activation(xo_t + T.dot(h_tm1 * B_U[3], u_o))
        h_t = o_t * self.activation(c_t)
        return h_t, c_t