NumPy和Pandas数据分析实用指南（初译）(it-ebooks)

Posted by

张锦全

–

2025年7月27日

书: https://pan.baidu.com/s/1o53U8DJYBlzPKes4X47C8Q?pwd=ymj8
笔记如下：

“NumPy的核心是ndarray（N维数组），支持矢量化运算，比Python原生列表快100倍。”
“np.where(condition, x, y)实现条件逻辑，避免低效的for循环。”
“Pandas的DataFrame是带标签的二维表，Series是带标签的一维数组，均基于NumPy构建。”
“pd.read_csv()的dtype参数指定列类型（如{'price': 'float32'}），减少内存占用。”
“df.groupby('category').agg({'sales': ['sum', 'mean']})实现多维度聚合分析。”
“pd.merge()的how参数（inner/left/right/outer）控制表连接逻辑，类似SQL的JOIN。”
“df.pivot_table(values='sales', index='region', columns='month')快速生成透视表。”
“df.isna().sum()统计缺失值，df.fillna(method='ffill')用前向填充填补空缺。”
“df.apply(lambda x: x*2)应用函数到列，df.apply(np.log, axis=1)按行计算。”
“pd.cut()和pd.qcut()将连续数据分箱（Binning），便于离散化分析。”
“df.nlargest(5, 'score')替代df.sort_values().head()，更高效获取Top N数据。”
“时间序列处理：pd.to_datetime()转换时间列，df.resample('D').mean()按天重采样。”
“df.duplicated()检测重复行，df.drop_duplicates(subset=['col'])删除重复项。”
“df.eval('profit = revenue - cost')字符串表达式计算，避免中间变量内存开销。”
“df.to_parquet()比CSV节省70%存储空间，且读写速度更快。”
“df.corr()计算列间相关系数，sns.heatmap()可视化相关性矩阵。”
“性能优化：df.itertuples()比iterrows()快10倍，df.values直接获取NumPy数组。”
“分类数据（df.astype('category')）减少内存占用，加速groupby操作。”
“pd.option_context临时修改显示设置（如display.max_rows），避免截断输出。”
“实战原则：先df.head()检查数据，再df.info()了解结构，最后df.describe()看统计摘要。”

Post Views: 504

张锦全

发表回复取消回复

Category Name

考研资料

（2025）考研英语（一）历年真题详解及复习指南：冲刺版 (新东方大学事业部)

by

张锦全

2025年12月29日
考研资料

2026考研西医临床医学综合能力历年真题(上册) (贺银成)

by

张锦全

2025年12月29日
考研资料

2026考研西医临床医学综合能力历年真题(下册) (贺银成)

by

张锦全

2025年12月29日

技术 | 资源免费共享站

NumPy和Pandas数据分析实用指南（初译）(it-ebooks)

发表回复取消回复

Category Name

（2025）考研英语（一）历年真题详解及复习指南：冲刺版 (新东方大学事业部)

2026考研西医临床医学综合能力历年真题(上册) (贺银成)

2026考研西医临床医学综合能力历年真题(下册) (贺银成)

Recent Posts

（2025）考研英语（一）历年真题详解及复习指南：冲刺版 (新东方大学事业部)

2026考研西医临床医学综合能力历年真题(上册) (贺银成)

2026考研西医临床医学综合能力历年真题(下册) (贺银成)

MBA MPA MPAcc MEM管理类联考逻辑历年真题全解题型分类版（解析册） (杨涵主编)

Categories

NumPy和Pandas数据分析实用指南（初译）(it-ebooks)

发表回复 取消回复

Recent Posts

Categories

发表回复取消回复