Translations:Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer/33/es

Multi-gate Mixture-of-Experts — MoE condicionado por tarea para aprendizaje multitarea.
Attention Is All You Need — la arquitectura Transformer en la que GShard y Switch Transformer insertaron posteriormente capas MoE.
Dropout: A Simple Way to Prevent Neural Networks from Overfitting — una forma relacionada de computación condicional estocástica.
Language Models are Few-Shot Learners — modelo de lenguaje denso grande al que el trabajo de escalado de MoE apuntaba a superar a menor costo.