.jpg)
书: https://pan.baidu.com/s/15VfTw9eJ2MoiHktwswP0gw?pwd=tq5x
笔记如下:
- “Kaggle竞赛的核心是数据理解——90%的时间应花在探索性分析(EDA)上。”
- “结构化数据竞赛中,特征工程(Feature Engineering)的贡献往往超过模型选择。”
- “使用
pandas_profiling
一键生成EDA报告,快速发现数据分布与缺失值问题。” - “分类任务的评估指标需谨慎选择:不平衡数据用F1或AUC,多分类看LogLoss。”
- “交叉验证(CV)分数比LB(Leaderboard)分数更可靠,避免过拟合公共排行榜。”
- “树模型(如LightGBM)默认参数即可超越线性模型,重点调
num_leaves
和learning_rate
。” - “神经网络对非结构化数据(图像/文本)优势明显,但需GPU加速训练。”
- “时序预测竞赛中,滞后特征(Lag Features)和滑动窗口统计(Rolling Mean)是关键。”
- “集成学习(Ensemble)通过Blending或Stacking融合多个模型,提升泛化能力。”
- “文本数据需先分词(中文推荐Jieba),再转化为TF-IDF或词向量(Word2Vec)。”
- “图像竞赛中,预训练模型(ResNet/EfficientNet)微调比从头训练更高效。”
- “使用
optuna
自动化超参数搜索,替代手动网格搜索(Grid Search)。” - “数据泄露(Data Leakage)是竞赛‘隐形杀手’,需检查时间戳或ID关联性。”
- “类别特征(Categorical Features)必须编码:高基数用Target Encoding,低基数用One-Hot。”
- “模型解释工具(SHAP值)帮助理解特征重要性,增强方案可信度。”
- “比赛后期差异化作弊检测(如Kaggle的‘Prohibited Competition’标记)。”
- “比赛结束后,复盘获胜方案(Winner’s Solution)比名次更重要。”
- “长期竞争力来自工具链沉淀:构建自己的特征库、模型模板和自动化脚本。”
- “入门阶段多参加‘Getting Started’竞赛,积累信心与基础流程经验。”
- “Kaggle的核心价值不是奖金,而是开放社区与实战成长——‘Learn by Competing’。”