All translations

Enter a message name below to show all available translations.

Found 3 translations.

Name	Current message text
^h English (en)	The model was trained on a filtered and deduplicated dataset of approximately 570 GB of text, drawn primarily from Common Crawl (filtered for quality using a classifier trained on high-quality reference corpora), supplemented with WebText2, Books1, Books2, and English Wikipedia. Training used a batch size ramping from 32K to 3.2M tokens and a {{Term\|learning rate}} schedule with warmup.
^h Spanish (es)	El modelo se entrenó sobre un conjunto de datos filtrado y desduplicado de aproximadamente 570 GB de texto, extraído principalmente de Common Crawl (filtrado por calidad mediante un clasificador entrenado con corpus de referencia de alta calidad), complementado con WebText2, Books1, Books2 y la Wikipedia en inglés. El entrenamiento utilizó un tamaño de lote que aumentaba progresivamente de 32K a 3,2M tokens y un programa de {{Term\|learning rate\|tasa de aprendizaje}} con calentamiento.
^h Chinese (zh)	该模型在一个经过过滤和去重的约 570 GB 文本数据集上训练，数据主要来自 Common Crawl（使用在高质量参考语料库上训练的分类器进行质量过滤），并辅以 WebText2、Books1、Books2 和英文维基百科。训练使用了从 32K 逐步增加到 3.2M tokens 的批量大小，以及带预热的 {{Term\|learning rate\|学习率}}调度。