从上下文到预训练：斯坦福NLP第13讲深度解析

作者：carzy2025.09.26 18:40浏览量：0

简介：本文基于斯坦福NLP课程第13讲，系统梳理基于上下文的表征技术与NLP预训练模型的核心原理，结合Transformer架构、BERT、GPT等经典模型，探讨其技术演进、应用场景及实践挑战。

一、上下文表征：从静态到动态的范式革命

在传统NLP任务中，词向量（如Word2Vec、GloVe）通过统计共现关系生成静态表征，即每个词对应固定维度的向量。这种方法的局限性在于无法捕捉一词多义现象——例如“bank”在“river bank”和“bank loan”中语义完全不同，但静态向量无法区分。

动态上下文表征的突破
动态表征的核心思想是：词的语义由其周围上下文决定。这一范式通过以下技术实现：

上下文窗口建模
早期方法（如ELMo）基于双向LSTM，通过滑动窗口捕捉局部上下文。例如，给定句子“The cat sat on the mat”，模型会分别从左到右和从右到左处理，生成上下文相关的词嵌入。
自注意力机制（Self-Attention）
Transformer架构抛弃了循环结构，通过自注意力计算词间关联权重。公式表示为：
[
\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
]
其中，(Q)（查询）、(K)（键）、(V)（值）通过线性变换得到，(\sqrt{d_k})用于缩放点积结果。这种机制允许模型直接捕捉长距离依赖，例如在句子“Alice who lives in Paris visited Bob in London”中，“Paris”和“London”可通过注意力权重关联。

案例：BERT的上下文嵌入
BERT采用Transformer编码器，通过掩码语言模型（MLM）和下一句预测（NSP）任务学习双向上下文。输入“The [MASK] sat on the mat”时，模型需根据上下文预测“cat”，从而生成包含语义信息的动态嵌入。

二、NLP预训练模型：从任务特定到通用智能

预训练模型的核心逻辑是：在海量无标注数据上学习通用语言模式，再通过微调适配具体任务。这一范式大幅降低了对标注数据的依赖。

1. 预训练任务设计

语言模型（LM）
自回归模型（如GPT）通过最大化序列概率 (P(xt|x{<t})) 学习生成能力。例如，给定“The cat”，模型预测下一个词为“sat”的概率。
掩码语言模型（MLM）
BERT随机掩码15%的词，要求模型预测被掩码的词。例如，输入“The [MASK] sat on the [MASK]”，模型需同时预测“cat”和“mat”。
对比学习
SimCSE通过对比同一句子的不同增强视图（如dropout掩码）学习句子表征，使相似句子在嵌入空间中距离更近。

2. 模型架构演进

Transformer编码器-解码器
原始Transformer用于序列到序列任务（如翻译），编码器处理输入，解码器生成输出。
纯解码器架构（GPT系列）
GPT通过自回归生成文本，适用于生成任务。例如，GPT-3可完成文章续写、代码生成等。
纯编码器架构（BERT系列）
BERT专注于理解任务（如文本分类、问答），其双向编码能力优于单向模型。

3. 微调策略

参数高效微调（PEFT）
传统微调需更新全部参数，计算成本高。PEFT方法（如LoRA）通过注入低秩矩阵，仅训练少量参数。例如，在BERT上微调问答任务时，LoRA可将可训练参数从1.1亿减少至10万。
提示学习（Prompt Tuning）
通过设计自然语言提示（如“Complete the sentence: The cat _”），将下游任务转化为预训练任务的形式，减少对标注数据的需求。

三、实践挑战与解决方案

1. 计算资源限制

问题：训练BERT-large需16块TPU v3芯片，耗时4天。
解决方案：
- 使用混合精度训练（FP16/FP32）加速。
- 采用分布式训练框架（如Horovod）。
- 租用云服务（如AWS p4d实例）。

2. 小样本场景适配

问题：医疗、法律等领域标注数据稀缺。
解决方案：
- 领域自适应预训练（DAPT）：在领域无标注数据上继续预训练。
- 提示工程：设计领域特定提示（如“Legal document: This is a contract between _”）。

3. 模型可解释性

问题：黑盒模型难以调试。
解决方案：
- 注意力可视化：通过工具（如BertViz）分析注意力权重。
- 特征归因：使用SHAP值量化输入对输出的贡献。

四、未来方向：多模态与高效模型

1. 多模态预训练
CLIP通过对比学习联合训练文本和图像，实现零样本分类。例如，输入“a photo of a cat”，模型可返回包含猫的图片。

2. 高效模型设计

知识蒸馏：将大模型（如BERT）的知识迁移到小模型（如DistilBERT），推理速度提升60%。
稀疏激活：Switch Transformer通过路由机制激活部分专家网络，参数量达1.6万亿时仍可训练。

3. 持续学习
模型需适应数据分布变化（如新词出现）。ELM 2.0通过弹性权重巩固（EWC）技术，在保留旧知识的同时学习新任务。

五、开发者实践建议

任务适配：生成任务优先选GPT，理解任务选BERT。
资源优化：小团队可选用Hugging Face的transformers库，支持400+预训练模型。
评估指标：除准确率外，关注鲁棒性（如对抗样本攻击下的表现）。
伦理考量：过滤预训练数据中的偏见（如性别、职业歧视）。

结语
基于上下文的表征与预训练模型已重塑NLP技术栈。从Transformer的注意力机制到BERT的双向编码，再到GPT的生成能力，这些技术不仅提升了模型性能，更降低了NLP应用的门槛。未来，随着多模态融合与高效架构的发展，NLP将进一步渗透至医疗、教育、金融等领域，为开发者创造更多可能性。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

从上下文到预训练：斯坦福NLP第13讲深度解析

一、上下文表征：从静态到动态的范式革命

二、NLP预训练模型：从任务特定到通用智能

三、实践挑战与解决方案

四、未来方向：多模态与高效模型

五、开发者实践建议

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者