
书: https://pan.baidu.com/s/1o53U8DJYBlzPKes4X47C8Q?pwd=ymj8
笔记如下:
- “数据分析的核心流程:数据采集→清洗→探索→建模→可视化,Python是贯穿全流程的瑞士军刀。”
- “Pandas的
DataFrame
是二维表的终极解决方案,df.describe()
三秒掌握数据分布。” - “数据清洗四板斧:
dropna()
去空值、fillna()
填充、drop_duplicates()
去重、astype()
类型转换。” - “Matplotlib可视化黄金口诀:
plt.figure()
创建画布→plt.plot()
绘图→plt.xlabel()
加标签→plt.show()
展示。” - “Scikit-learn的
fit()
和predict()
是机器学习通用接口,记住‘先训练,后预测’。” - “特征工程决定模型上限:归一化(
MinMaxScaler
)、标准化(StandardScaler
)、独热编码(OneHotEncoder
)。” - “分类问题评估看混淆矩阵(
confusion_matrix
),回归问题看均方误差(mean_squared_error
)。” - “K折交叉验证(
KFold
)防止模型过拟合,cross_val_score
一键评估泛化能力。” - “决策树的可视化:
export_graphviz
生成树图,max_depth
控制深度防过拟合。” - “随机森林(
RandomForestClassifier
)是‘群体智慧’,通过n_estimators
调节树的数量。” - “K均值聚类(
KMeans
)的肘部法则:inertia_
下降拐点即最佳K值。” - “PCA降维:
n_components=2
将高维数据压缩到二维,便于可视化。” - “神经网络的入门代码:
Sequential()
堆叠层,Dense()
全连接,relu
激活函数。” - “Numpy的广播机制(Broadcasting)实现数组高效运算,避免低效循环。”
- “
seaborn.heatmap()
一键绘制相关性矩阵,pairplot()
展示特征间关系。” - “时间序列分析:
pd.to_datetime()
转换时间列,rolling(7).mean()
计算7天滑动平均。” - “XGBoost的三大参数:
learning_rate
(学习率)、max_depth
(深度)、n_estimators
(树数量)。” - “模型部署:用
pickle
保存训练好的模型,joblib
加速大模型序列化。” - “机器学习黄金定律:‘数据和特征决定了模型上限,算法和调参只是逼近这个上限’。”
- “避免掉坑:先跑通基线模型(如逻辑回归),再尝试复杂模型(如深度学习)。”