
书: https://pan.baidu.com/s/1XqKbodMZYD_Bu2f_E1ghxw?pwd=y5p9
笔记如下:
- “机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测的学科。”
- “监督学习的核心在于学习输入到输出的映射关系,关键在于构建合适的损失函数。”
- “梯度下降法通过沿负梯度方向迭代更新参数,是优化模型参数的通用方法。”
- “过拟合现象表明模型过度记忆了训练数据细节,而丧失了泛化能力。”
- “正则化通过在损失函数中添加惩罚项,是防止过拟合的有效手段。”
- “交叉验证将数据集划分为训练集和验证集,是评估模型泛化能力的标准方法。”
- “特征工程决定了模型性能的上限,而算法选择只是逼近这个上限。”
- “决策树通过信息增益或基尼指数选择划分特征,具有天然的可解释性。”
- “支持向量机通过寻找最大间隔超平面实现分类,核技巧使其能处理非线性问题。”
- “神经网络通过多层非线性变换组合,能够拟合任意复杂的函数关系。”
- “反向传播算法是训练神经网络的核心,通过链式法则高效计算梯度。”
- “卷积神经网络的局部连接和权重共享特性,使其特别适合处理图像数据。”
- “循环神经网络的循环连接结构,使其能够处理可变长度的序列数据。”
- “注意力机制通过动态权重分配,显著提升了模型对长序列的建模能力。”
- “无监督学习发现数据中的潜在模式,聚类和降维是两类典型任务。”
- “主成分分析(PCA)通过正交变换将高维数据投影到低维空间,保留最大方差。”
- “集成学习通过组合多个基学习器,往往能获得比单一模型更好的性能。”
- “Bagging通过自助采样构建多样性基分类器,随机森林是其典型代表。”
- “Boosting通过迭代调整样本权重,AdaBoost和GBDT都属于此类方法。”
- “机器学习项目的完整流程包括:数据准备、特征工程、模型训练、评估调优和部署应用。”