
书: https://pan.baidu.com/s/1XseSeFJwB_CgmZqmU5-_rQ?pwd=gb4u
笔记如下:
- “Transformer架构彻底改变了NLP领域,其核心创新是自注意力机制——让模型动态评估输入序列中每个位置的重要性。”
- “多头注意力(Multi-Head Attention)允许模型同时关注不同表示子空间的信息,如同多视角观察数据。”
- “位置编码(Positional Encoding)将序列顺序信息注入模型,弥补了自注意力机制本身的位置无关性缺陷。”
- “残差连接(Residual Connection)和层归一化(Layer Norm)是训练深层Transformer的关键稳定技术。”
- “BERT的掩码语言建模(MLM)通过预测被遮蔽的单词,学习双向上下文表示。”
- “GPT的自回归特性(逐词生成)使其特别适合文本生成任务,但无法像BERT那样捕捉双向上下文。”
- “Transformer的三大核心计算:查询-键矩阵乘法(QK^T)、Softmax归一化、值与注意力权重加权求和。”
- “批处理(Batching)和序列填充(Padding)是高效利用GPU内存的基础,但需注意注意力掩码处理。”
- “知识蒸馏(Knowledge Distillation)将大模型能力迁移到小模型,实现精度与推理速度的平衡。”
- “微调(Fine-tuning)是迁移学习的核心手段,通过领域适应让预训练模型解决具体任务。”
- “跨语言预训练(如XLM)通过共享词嵌入和双语数据,实现零样本语言迁移。”
- “长文本处理的突破:稀疏注意力(Sparse Attention)、内存压缩(Memory Compression)和分块处理(Chunking)。”
- “Transformer-XL的循环机制(Recurrence)和相对位置编码,显著提升长距离依赖建模能力。”
- “视觉Transformer(ViT)证明:自注意力机制同样能颠覆CV领域,超越传统CNN架构。”
- “模型量化(Quantization)将FP32权重转为INT8,可实现4倍压缩且精度损失小于1%。”
- “提示学习(Prompt Learning)通过设计输入模板,让预训练模型直接适配下游任务。”
- “灾难性遗忘(Catastrophic Forgetting)是多任务学习的挑战,可通过参数隔离或持续学习缓解。”
- “T5模型提出‘文本到文本’统一框架,将所有NLP任务转化为序列生成问题。”
- “解码策略(如Beam Search、Top-k采样、温度调节)决定生成文本的多样性与质量。”
- “Transformer的终极优势:通过堆叠相同结构的层,实现可扩展的通用序列建模能力。”