
书: https://pan.baidu.com/s/1XseSeFJwB_CgmZqmU5-_rQ?pwd=gb4u
笔记如下:
- “扩散模型的本质是通过逐步加噪与去噪的过程,学习数据分布到噪声分布的可逆变换。”
- “前向扩散过程是马尔可夫链,通过T次迭代将数据x₀逐步变为纯噪声x_T,满足q(xₜ|xₜ₋₁)=N(√(1-βₜ)xₜ₋₁, βₜI)。”
- “逆向去噪过程需要估计q(xₜ₋₁|xₜ),通过神经网络拟合噪声预测函数εθ(xₜ,t)。”
- “DDPM(去噪扩散概率模型)的核心创新:将逆向过程建模为高斯分布,只需预测均值与方差。”
- “DDIM(扩散隐式模型)通过非马尔可夫链的确定性采样,将生成步数从1000+缩减到50步。”
- “条件扩散模型通过交叉注意力机制注入标签信息,实现文本到图像(如Stable Diffusion)等可控生成。”
- “Latent Diffusion将扩散过程压缩到潜空间(VAE编码),降低计算成本的同时保持生成质量。”
- “Classifier Guidance利用预训练分类器的梯度调整生成方向,在保真度与多样性间取得平衡。”
- “Score-Based Diffusion将扩散模型重构为随机微分方程(SDE),统一了噪声扰动与得分匹配理论。”
- “扩散模型的训练目标是最小化噪声预测误差:𝔼[‖εθ(xₜ,t)-ε‖²],而非直接拟合数据分布。”
- “Stable Diffusion的三大组件:变分自编码器(VAE)、U-Net噪声预测器、CLIP文本编码器。”
- “PLMS(伪线性多步采样)通过历史噪声预测值的线性组合,加速采样且不降低质量。”
- “扩散模型的评估指标:FID衡量生成质量,IS评估多样性,Precision-Recall分析分布覆盖度。”
- “DreamBooth等微调技术通过3-5张图片即可实现主体驱动的个性化生成。”
- “ControlNet将扩散模型与空间条件(如边缘图、深度图)结合,实现像素级精确控制。”
- “LoRA(低秩适应)通过冻结主干网络+训练低秩矩阵,高效适配扩散模型到新领域。”
- “扩散模型与GAN的关键区别:前者通过渐进式优化避免模式崩溃,后者依赖判别器对抗训练。”
- “视频扩散模型通过3D U-Net架构引入时间维度,实现连贯帧序列生成。”
- “扩散模型在科学计算中的应用:分子生成/蛋白质设计等,其概率框架天然适合探索解空间。”
- “未来挑战:采样速度优化(蒸馏/一致性模型)、多模态统一架构、物理世界模拟的准确性。”