
书: https://pan.baidu.com/s/1LWWovU7IScpiddLrDhjl1w?pwd=pc5n
笔记如下:
- 大语言模型(LLM)基本概念:基于Transformer架构的自回归模型,通过大规模无监督预训练获得通用语言理解与生成能力。
- Transformer核心机制:
- 自注意力(Self-Attention)计算token间依赖关系
- 位置编码(Positional Encoding)注入序列顺序信息
- 多头注意力(Multi-Head Attention)并行捕捉不同子空间特征
- 预训练目标:
- 自回归语言建模(如GPT系列)
- 自编码语言建模(如BERT的MLM)
- 混合目标(如T5的span corruption)
- Scaling Law三要素:
- 模型参数量(N)
- 训练数据量(D)
- 计算量(C)的幂律关系
- 涌现能力(Emergent Abilities):
- 模型规模超过临界阈值后突然获得的新能力
- 示例:思维链(Chain-of-Thought)推理
- 对齐(Alignment)技术:
- 监督微调(SFT)
- 基于人类反馈的强化学习(RLHF)
- 直接偏好优化(DPO)
- 推理优化方法:
- 量化和蒸馏(如GPTQ、LoRA)
- 推测解码(Speculative Decoding)
- 注意力优化(FlashAttention)
- 多模态扩展:
- 视觉语言模型(如LLaVA)
- 跨模态对齐(CLIP风格训练)
- 统一模态编码(如Fuyu-8B)
- 智能体(Agent)系统:
- 工具使用(Tool Use)
- 记忆机制(Memory)
- 规划能力(Planning)
- 检索增强生成(RAG):
- 外部知识库检索
- 上下文注入
- 来源归因
- 安全与伦理挑战:
- 幻觉(Hallucination)抑制
- 偏见检测与缓解
- 对抗攻击防御
- 高效微调技术:
- 适配器(Adapter)
- 前缀微调(Prefix Tuning)
- 低秩适应(LoRA)
- 模型评估体系:
- 基准测试(MMLU、BBH等)
- 人类评估
- 红队测试(Red Teaming)
- 开源模型生态:
- LLaMA系列
- Mistral
- Falcon
- 稀疏化与专家混合(MoE):
- 条件计算(如Switch Transformer)
- 动态路由机制
- 计算效率优化
- 长上下文处理:
- 位置编码改进(如RoPE)
- 注意力优化(如Ring Attention)
- 记忆压缩技术
- 推理理论解释:
- 概念神经元(Concept Neuron)
- 电路分析(Circuit Analysis)
- 机械可解释性(Mechanistic Interpretability)
- 边缘计算部署:
- 手机端推理(如MLC-LLM)
- 模型切片(Model Slicing)
- 硬件感知优化
- 多语言能力:
- 不平衡语料处理
- 低资源语言增强
- 跨语言迁移
- 前沿研究方向:
- 世界模型构建
- 具身智能(Embodied AI)
- 神经符号结合(Neuro-Symbolic)