.jpg)
书: https://pan.baidu.com/s/1o53U8DJYBlzPKes4X47C8Q?pwd=ymj8
笔记如下:
- “NumPy的核心是
ndarray
(N维数组),支持矢量化运算,比Python原生列表快100倍。” - “
np.where(condition, x, y)
实现条件逻辑,避免低效的for
循环。” - “Pandas的
DataFrame
是带标签的二维表,Series
是带标签的一维数组,均基于NumPy构建。” - “
pd.read_csv()
的dtype
参数指定列类型(如{'price': 'float32'}
),减少内存占用。” - “
df.groupby('category').agg({'sales': ['sum', 'mean']})
实现多维度聚合分析。” - “
pd.merge()
的how
参数(inner/left/right/outer
)控制表连接逻辑,类似SQL的JOIN。” - “
df.pivot_table(values='sales', index='region', columns='month')
快速生成透视表。” - “
df.isna().sum()
统计缺失值,df.fillna(method='ffill')
用前向填充填补空缺。” - “
df.apply(lambda x: x*2)
应用函数到列,df.apply(np.log, axis=1)
按行计算。” - “
pd.cut()
和pd.qcut()
将连续数据分箱(Binning),便于离散化分析。” - “
df.nlargest(5, 'score')
替代df.sort_values().head()
,更高效获取Top N数据。” - “时间序列处理:
pd.to_datetime()
转换时间列,df.resample('D').mean()
按天重采样。” - “
df.duplicated()
检测重复行,df.drop_duplicates(subset=['col'])
删除重复项。” - “
df.eval('profit = revenue - cost')
字符串表达式计算,避免中间变量内存开销。” - “
df.to_parquet()
比CSV节省70%存储空间,且读写速度更快。” - “
df.corr()
计算列间相关系数,sns.heatmap()
可视化相关性矩阵。” - “性能优化:
df.itertuples()
比iterrows()
快10倍,df.values
直接获取NumPy数组。” - “分类数据(
df.astype('category')
)减少内存占用,加速groupby
操作。” - “
pd.option_context
临时修改显示设置(如display.max_rows
),避免截断输出。” - “实战原则:先
df.head()
检查数据,再df.info()
了解结构,最后df.describe()
看统计摘要。”