精通Transformer：从零开始构建最先进的NLP模型(萨瓦斯·伊尔蒂利姆) – 技术分享

书: https://pan.baidu.com/s/1XseSeFJwB_CgmZqmU5-_rQ?pwd=gb4u
笔记如下：

“Transformer架构彻底改变了NLP领域，其核心创新是自注意力机制——让模型动态评估输入序列中每个位置的重要性。”
“多头注意力（Multi-Head Attention）允许模型同时关注不同表示子空间的信息，如同多视角观察数据。”
“位置编码（Positional Encoding）将序列顺序信息注入模型，弥补了自注意力机制本身的位置无关性缺陷。”
“残差连接（Residual Connection）和层归一化（Layer Norm）是训练深层Transformer的关键稳定技术。”
“BERT的掩码语言建模（MLM）通过预测被遮蔽的单词，学习双向上下文表示。”
“GPT的自回归特性（逐词生成）使其特别适合文本生成任务，但无法像BERT那样捕捉双向上下文。”
“Transformer的三大核心计算：查询-键矩阵乘法（QK^T）、Softmax归一化、值与注意力权重加权求和。”
“批处理（Batching）和序列填充（Padding）是高效利用GPU内存的基础，但需注意注意力掩码处理。”
“知识蒸馏（Knowledge Distillation）将大模型能力迁移到小模型，实现精度与推理速度的平衡。”
“微调（Fine-tuning）是迁移学习的核心手段，通过领域适应让预训练模型解决具体任务。”
“跨语言预训练（如XLM）通过共享词嵌入和双语数据，实现零样本语言迁移。”
“长文本处理的突破：稀疏注意力（Sparse Attention）、内存压缩（Memory Compression）和分块处理（Chunking）。”
“Transformer-XL的循环机制（Recurrence）和相对位置编码，显著提升长距离依赖建模能力。”
“视觉Transformer（ViT）证明：自注意力机制同样能颠覆CV领域，超越传统CNN架构。”
“模型量化（Quantization）将FP32权重转为INT8，可实现4倍压缩且精度损失小于1%。”
“提示学习（Prompt Learning）通过设计输入模板，让预训练模型直接适配下游任务。”
“灾难性遗忘（Catastrophic Forgetting）是多任务学习的挑战，可通过参数隔离或持续学习缓解。”
“T5模型提出‘文本到文本’统一框架，将所有NLP任务转化为序列生成问题。”
“解码策略（如Beam Search、Top-k采样、温度调节）决定生成文本的多样性与质量。”
“Transformer的终极优势：通过堆叠相同结构的层，实现可扩展的通用序列建模能力。”

Post Views: 158

发表评论 取消回复

发表评论取消回复