数据科学从入门到实战(套装全8册)(etc.)

书: https://pan.baidu.com/s/1untyKaWXt7RJt7udfaVI6A?pwd=44y8
笔记如下:

  1. Python数据科学基础:NumPy数组运算、Pandas数据处理与Matplotlib/Seaborn可视化技术。
  2. 数据清洗实战:处理缺失值(插补/删除)、异常值检测(IQR/Z-Score)与数据标准化方法。
  3. 统计分析入门:假设检验(p值、t检验)、相关分析(Pearson/Spearman)与置信区间计算。
  4. 机器学习流程:从特征工程(独热编码、分箱)到模型评估(交叉验证、ROC曲线)。
  5. 监督学习算法
  • 线性回归(正则化:Lasso/Ridge)
  • 决策树(ID3/C4.5/CART)
  • SVM(核函数选择)
  1. 无监督学习:K-Means聚类、DBSCAN密度聚类与PCA降维的数学原理。
  2. 深度学习入门:TensorFlow/Keras实现CNN图像分类、RNN文本生成。
  3. 自然语言处理:词袋模型、TF-IDF与BERT预训练模型的应用场景。
  4. 时间序列分析:ARIMA模型、Prophet预测与异常检测(STL分解)。
  5. 大数据技术栈:PySpark分布式计算、HDFS存储与Dask并行处理框架。
  6. SQL与NoSQL:对比关系型数据库(MySQL)与文档数据库(MongoDB)的查询优化。
  7. AB测试设计:样本量计算、双样本t检验与结果显著性解读。
  8. 特征工程进阶
    • 文本特征(Word2Vec)
    • 图像特征(SIFT/HOG)
    • 时序特征(滑动窗口统计)
  9. 模型解释性:SHAP值、LIME局部解释与特征重要性排序。
  10. 推荐系统:协同过滤(UserCF/ItemCF)与矩阵分解(ALS算法)。
  11. 图数据分析:NetworkX构建社交网络,PageRank算法原理。
  12. 自动化机器学习:AutoML工具(TPOT/Auto-sklearn)实现超参数优化。
  13. 数据产品开发:使用Flask/Dash构建数据可视化仪表盘。
  14. 数据科学伦理:GDPR合规性、偏差检测(FairML)与数据匿名化技术。
  15. 行业案例
    • 金融风控(信用评分卡)
    • 医疗(影像识别)
    • 零售(用户分群与销售预测)

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注