<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=BERT_Pre-training_of_Deep_Bidirectional_Transformers%2Fzh</id>
	<title>BERT Pre-training of Deep Bidirectional Transformers/zh - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=BERT_Pre-training_of_Deep_Bidirectional_Transformers%2Fzh"/>
	<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=BERT_Pre-training_of_Deep_Bidirectional_Transformers/zh&amp;action=history"/>
	<updated>2026-04-27T16:59:58Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.39.1</generator>
	<entry>
		<id>https://marovi.ai/index.php?title=BERT_Pre-training_of_Deep_Bidirectional_Transformers/zh&amp;diff=6169&amp;oldid=prev</id>
		<title>DeployBot: Batch translate BERT Pre-training of Deep Bidirectional Transformers unit 22 -&gt; zh</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=BERT_Pre-training_of_Deep_Bidirectional_Transformers/zh&amp;diff=6169&amp;oldid=prev"/>
		<updated>2026-04-27T04:08:29Z</updated>

		<summary type="html">&lt;p&gt;Batch translate BERT Pre-training of Deep Bidirectional Transformers unit 22 -&amp;gt; zh&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;lt;languages /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{{PaperInfobox&lt;br /&gt;
| topic_area  = NLP&lt;br /&gt;
| difficulty  = Research&lt;br /&gt;
| authors     = Jacob Devlin; Ming-Wei Chang; Kenton Lee; Kristina Toutanova&lt;br /&gt;
| year        = 2019&lt;br /&gt;
| venue       = NAACL&lt;br /&gt;
| arxiv_id    = 1810.04805&lt;br /&gt;
| source_url  = https://arxiv.org/abs/1810.04805&lt;br /&gt;
| pdf_url     = https://arxiv.org/pdf/1810.04805&lt;br /&gt;
}}&lt;br /&gt;
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding&amp;#039;&amp;#039;&amp;#039; 是 Devlin 等人于 2019 年发表于 Google AI Language 的论文,该论文提出了 &amp;#039;&amp;#039;&amp;#039;BERT&amp;#039;&amp;#039;&amp;#039;(Bidirectional Encoder Representations from Transformers),一种用于预训练深度双向语言表示的方法。BERT 通过证明单个预训练模型经过 fine-tuning 即可在各种下游任务上取得最先进的结果,且仅需对架构做最小化的任务特定修改,从而彻底变革了自然语言处理领域。&lt;br /&gt;
&lt;br /&gt;
== 概述 ==&lt;br /&gt;
&lt;br /&gt;
在 BERT 之前,预训练的语言表示要么是单向的(如 GPT,从左到右读取),要么使用独立训练的从左到右和从右到左模型的浅层拼接(如 ELMo)。这些方法并不理想,因为标准语言模型本质上是单向的,无法让 token 同时关注两侧的上下文。&lt;br /&gt;
&lt;br /&gt;
BERT 通过引入一种新颖的预训练目标——&amp;#039;&amp;#039;&amp;#039;掩码语言建模&amp;#039;&amp;#039;&amp;#039;(MLM)——解决了这一局限,使真正的双向预训练成为可能。结合&amp;#039;&amp;#039;&amp;#039;下一句预测&amp;#039;&amp;#039;&amp;#039;(NSP)任务,BERT 学习到了丰富的上下文表示,这些表示可以通过简单的 fine-tuning 迁移到下游任务,消除了对任务特定架构的需求。&lt;br /&gt;
&lt;br /&gt;
== 主要贡献 ==&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;掩码语言建模&amp;#039;&amp;#039;&amp;#039;(MLM):一种预训练目标,随机掩盖输入 token 并训练模型从双向上下文中预测它们,实现真正的双向表示学习。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;下一句预测&amp;#039;&amp;#039;&amp;#039;(NSP):一种二元分类预训练任务,教导模型理解句对之间的关系。&lt;br /&gt;
* 一种简单而有效的 &amp;#039;&amp;#039;&amp;#039;fine-tuning 范式&amp;#039;&amp;#039;&amp;#039;:在预训练模型上添加单个输出层即足以应对各种 NLP 任务,从分类到问答。&lt;br /&gt;
* 证明了深度双向预训练对于学习通用语言表示至关重要。&lt;br /&gt;
&lt;br /&gt;
== 方法 ==&lt;br /&gt;
&lt;br /&gt;
BERT 使用 Transformer 架构的编码器部分。该模型以 token 序列作为输入,并为每个 token 生成上下文化的 embedding。共发布了两种模型规模:BERT-Base(12 层,768 个隐藏单元,12 个 attention 头,1.1 亿参数)和 BERT-Large(24 层,1024 个隐藏单元,16 个 attention 头,3.4 亿参数)。&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;掩码语言建模&amp;#039;&amp;#039;&amp;#039;目标的工作方式是随机掩盖 15% 的输入 token。在这些被掩盖的位置中,80% 被替换为 [MASK] token,10% 被替换为随机 token,10% 保持不变。模型使用交叉熵损失在每个被掩盖的位置预测原始 token:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;L_{\text{MLM}} = -\sum_{i \in \mathcal{M}} \log P(x_i \mid \mathbf{x}_{\backslash \mathcal{M}})&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
其中 &amp;lt;math&amp;gt;\mathcal{M}&amp;lt;/math&amp;gt; 是被掩盖位置的集合,&amp;lt;math&amp;gt;\mathbf{x}_{\backslash \mathcal{M}}&amp;lt;/math&amp;gt; 表示被破坏的输入。&lt;br /&gt;
&lt;br /&gt;
对于&amp;#039;&amp;#039;&amp;#039;下一句预测&amp;#039;&amp;#039;&amp;#039;,模型接收句子对(A 和 B),并预测 B 是否是语料库中 A 之后的真实下一句,还是一个随机采样的句子。输入开头的特殊 [CLS] token 捕获了用于此二元分类的聚合序列表示。&lt;br /&gt;
&lt;br /&gt;
输入表示结合了 token embedding、段 embedding(指示句子 A 或 B)以及位置 embedding。BERT 使用 WordPiece 分词,词表包含 30,000 个 token。&lt;br /&gt;
&lt;br /&gt;
预训练使用了 BooksCorpus(8 亿单词)和英文维基百科(25 亿单词),运行 100 万步,batch 大小为 256 个序列。在当时,预训练所需的总计算量相当可观,需要在 4 到 16 个 Cloud TPU 上运行四天(分别对应 Base 和 Large)。&lt;br /&gt;
&lt;br /&gt;
Fine-tuning 非常直接:对于每个下游任务,将任务特定的输入和输出接入预训练模型,所有参数进行端到端的 fine-tuning。对于 token 级任务(如命名实体识别),将每个 token 的最终隐藏向量输入到分类层。对于序列级任务(如情感分析),则使用 [CLS] token 的表示。&lt;br /&gt;
&lt;br /&gt;
== 结果 ==&lt;br /&gt;
&lt;br /&gt;
在论文发表时,BERT 在十一个 NLP 基准上取得了最先进的结果:&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;GLUE 基准&amp;#039;&amp;#039;&amp;#039;:BERT-Large 取得了 80.5 的平均分,比之前的最先进水平提高了 7.7 分。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;SQuAD v1.1&amp;#039;&amp;#039;&amp;#039;(问答):F1 得分 93.2,超过了人类表现(91.2 F1)。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;SQuAD v2.0&amp;#039;&amp;#039;&amp;#039;:F1 得分 83.1,比之前的系统提高了 5.1 分。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;SWAG&amp;#039;&amp;#039;&amp;#039;(常识推理):准确率 86.3%,超过了人类专家的表现(85.0%)。&lt;br /&gt;
&lt;br /&gt;
消融研究表明,两个预训练任务都很重要,而双向性是最显著的因素——移除它会导致所有任务上的大幅下降。增加模型规模始终能提升结果,即使在小规模任务上,只要进行适当的 fine-tuning 也是如此。&lt;br /&gt;
&lt;br /&gt;
该论文还表明,BERT 的表示可以作为固定的特征提取器使用(无需 fine-tuning)并仍能取得强劲的结果,尽管 fine-tuning 始终优于基于特征的方法。&lt;br /&gt;
&lt;br /&gt;
== 影响 ==&lt;br /&gt;
&lt;br /&gt;
BERT 推动了 NLP 领域向&amp;quot;预训练再 fine-tuning&amp;quot;方法论的范式转变。它催生了一个庞大的衍生模型家族,包括 RoBERTa(改进了预训练)、ALBERT(参数高效的变体)、DistilBERT(知识蒸馏),以及 BioBERT 和 SciBERT 等领域特定变体。该方法还通过 mBERT 和 XLM 等模型影响了多模态模型和跨语言表示。&lt;br /&gt;
&lt;br /&gt;
BERT 证明了大规模无监督预训练能够有效地将语言知识迁移到下游任务,减少了对任务特定标注数据和工程的需求。这种预训练再 fine-tuning 的范式至今仍是现代 NLP 实践的基础。&lt;br /&gt;
&lt;br /&gt;
该论文在发表后的前五年内获得了超过 10 万次引用,是计算机科学领域被引用最多的著作之一。Google 于 2019 年将 BERT 集成到其搜索引擎中,标志着神经语言模型在信息检索领域最大规模的部署之一。该模型的影响超越学术界,在工业界获得广泛采用,基于 BERT 的系统驱动着搜索、内容审核、客户服务以及许多其他应用。&lt;br /&gt;
&lt;br /&gt;
== 参见 ==&lt;br /&gt;
&lt;br /&gt;
* [[Attention Is All You Need]]&lt;br /&gt;
* [[Language Models are Few-Shot Learners]]&lt;br /&gt;
* [[Efficient Estimation of Word Representations]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&lt;br /&gt;
* Devlin, J., Chang, M.-W., Lee, K., &amp;amp; Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. &amp;#039;&amp;#039;Proceedings of NAACL-HLT 2019&amp;#039;&amp;#039;. [https://arxiv.org/abs/1810.04805 arXiv:1810.04805]&lt;br /&gt;
* Peters, M. E., Neumann, M., Iyyer, M., et al. (2018). Deep Contextualized Word Representations. &amp;#039;&amp;#039;NAACL 2018&amp;#039;&amp;#039;.&lt;br /&gt;
* Radford, A., Narasimhan, K., Salimans, T., &amp;amp; Sutskever, I. (2018). Improving Language Understanding by Generative Pre-Training. &amp;#039;&amp;#039;OpenAI&amp;#039;&amp;#039;.&lt;br /&gt;
&lt;br /&gt;
[[Category:NLP]] [[Category:Research]] [[Category:Research Papers]]&lt;/div&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
</feed>