精通Transformer:从零开始构建最先进的NLP模型(萨瓦斯·伊尔蒂利姆)

书: https://pan.baidu.com/s/1XseSeFJwB_CgmZqmU5-_rQ?pwd=gb4u
笔记如下:

  1. “Transformer架构彻底改变了NLP领域,其核心创新是自注意力机制——让模型动态评估输入序列中每个位置的重要性。”
  2. “多头注意力(Multi-Head Attention)允许模型同时关注不同表示子空间的信息,如同多视角观察数据。”
  3. “位置编码(Positional Encoding)将序列顺序信息注入模型,弥补了自注意力机制本身的位置无关性缺陷。”
  4. “残差连接(Residual Connection)和层归一化(Layer Norm)是训练深层Transformer的关键稳定技术。”
  5. “BERT的掩码语言建模(MLM)通过预测被遮蔽的单词,学习双向上下文表示。”
  6. “GPT的自回归特性(逐词生成)使其特别适合文本生成任务,但无法像BERT那样捕捉双向上下文。”
  7. “Transformer的三大核心计算:查询-键矩阵乘法(QK^T)、Softmax归一化、值与注意力权重加权求和。”
  8. “批处理(Batching)和序列填充(Padding)是高效利用GPU内存的基础,但需注意注意力掩码处理。”
  9. “知识蒸馏(Knowledge Distillation)将大模型能力迁移到小模型,实现精度与推理速度的平衡。”
  10. “微调(Fine-tuning)是迁移学习的核心手段,通过领域适应让预训练模型解决具体任务。”
  11. “跨语言预训练(如XLM)通过共享词嵌入和双语数据,实现零样本语言迁移。”
  12. “长文本处理的突破:稀疏注意力(Sparse Attention)、内存压缩(Memory Compression)和分块处理(Chunking)。”
  13. “Transformer-XL的循环机制(Recurrence)和相对位置编码,显著提升长距离依赖建模能力。”
  14. “视觉Transformer(ViT)证明:自注意力机制同样能颠覆CV领域,超越传统CNN架构。”
  15. “模型量化(Quantization)将FP32权重转为INT8,可实现4倍压缩且精度损失小于1%。”
  16. “提示学习(Prompt Learning)通过设计输入模板,让预训练模型直接适配下游任务。”
  17. “灾难性遗忘(Catastrophic Forgetting)是多任务学习的挑战,可通过参数隔离或持续学习缓解。”
  18. “T5模型提出‘文本到文本’统一框架,将所有NLP任务转化为序列生成问题。”
  19. “解码策略(如Beam Search、Top-k采样、温度调节)决定生成文本的多样性与质量。”
  20. “Transformer的终极优势:通过堆叠相同结构的层,实现可扩展的通用序列建模能力。”

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注