Translations:Neural Networks/14/es
donde $ g $ y $ f $ son funciones de activación, $ \mathbf{W}_1, \mathbf{W}_2 $ son matrices de pesos, y $ \mathbf{b}_1, \mathbf{b}_2 $ son vectores de sesgo. La capa oculta permite que la red aprenda relaciones no lineales que un solo perceptrón no puede capturar.