NumPy和Pandas数据分析实用指南(初译)(it-ebooks)

书: https://pan.baidu.com/s/1o53U8DJYBlzPKes4X47C8Q?pwd=ymj8
笔记如下:

  1. “NumPy的核心是ndarray(N维数组),支持矢量化运算,比Python原生列表快100倍。”
  2. np.where(condition, x, y)实现条件逻辑,避免低效的for循环。”
  3. “Pandas的DataFrame是带标签的二维表,Series是带标签的一维数组,均基于NumPy构建。”
  4. pd.read_csv()dtype参数指定列类型(如{'price': 'float32'}),减少内存占用。”
  5. df.groupby('category').agg({'sales': ['sum', 'mean']})实现多维度聚合分析。”
  6. pd.merge()how参数(inner/left/right/outer)控制表连接逻辑,类似SQL的JOIN。”
  7. df.pivot_table(values='sales', index='region', columns='month')快速生成透视表。”
  8. df.isna().sum()统计缺失值,df.fillna(method='ffill')用前向填充填补空缺。”
  9. df.apply(lambda x: x*2)应用函数到列,df.apply(np.log, axis=1)按行计算。”
  10. pd.cut()pd.qcut()将连续数据分箱(Binning),便于离散化分析。”
  11. df.nlargest(5, 'score')替代df.sort_values().head(),更高效获取Top N数据。”
  12. “时间序列处理:pd.to_datetime()转换时间列,df.resample('D').mean()按天重采样。”
  13. df.duplicated()检测重复行,df.drop_duplicates(subset=['col'])删除重复项。”
  14. df.eval('profit = revenue - cost')字符串表达式计算,避免中间变量内存开销。”
  15. df.to_parquet()比CSV节省70%存储空间,且读写速度更快。”
  16. df.corr()计算列间相关系数,sns.heatmap()可视化相关性矩阵。”
  17. “性能优化:df.itertuples()iterrows()快10倍,df.values直接获取NumPy数组。”
  18. “分类数据(df.astype('category'))减少内存占用,加速groupby操作。”
  19. pd.option_context临时修改显示设置(如display.max_rows),避免截断输出。”
  20. “实战原则:先df.head()检查数据,再df.info()了解结构,最后df.describe()看统计摘要。”

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注