
书: https://pan.baidu.com/s/15VfTw9eJ2MoiHktwswP0gw?pwd=tq5x
笔记如下:
- “HuggingFace Transformers库提供了预训练模型和标准化接口,极大简化了NLP任务的开发流程。”
- “BERT的核心创新在于双向Transformer编码器,能够捕捉上下文相关的词表征。”
- “使用
AutoTokenizer.from_pretrained()
加载分词器,是处理中文文本的第一步。” - “微调BERT模型时,通常只需调整最后的全连接层,而冻结大部分预训练参数。”
- “
Trainer
类是HuggingFace提供的高级API,支持分布式训练、混合精度计算和日志记录。” - “输入文本需经过分词、添加
[CLS]
和[SEP]
标记,并转换为模型可接受的输入ID张量。” - “中文BERT模型(如
bert-base-chinese
)的词表包含约2.1万个汉字和常用符号。” - “注意力机制(Attention)使BERT能够动态加权不同位置词的重要性。”
- “序列标注任务(如命名实体识别)通常采用BERT+BiLSTM+CRF的复合架构。”
- “
pipeline
函数封装了常见NLP任务(如文本分类、问答),支持开箱即用。” - “模型保存与加载通过
save_pretrained()
和from_pretrained()
实现,兼容本地和HuggingFace Hub。” - “数据增强技术(如同义词替换、随机插入)可缓解小样本场景下的过拟合问题。”
- “
Dataset
和DataCollator
类帮助高效组织训练数据,支持动态填充(Padding)。” - “评估指标如准确率、F1值可通过
evaluate
库计算,适配不同任务需求。” - “知识蒸馏(Knowledge Distillation)可将大模型能力迁移到轻量级学生模型。”
- “多任务学习通过共享底层BERT参数,联合优化多个相关任务。”
- “梯度裁剪(Gradient Clipping)能防止训练过程中的梯度爆炸问题。”
- “模型量化(Quantization)可减少推理时的显存占用,提升部署效率。”
- “HuggingFace Hub提供数千种预训练模型,支持社区共享与协作。”
- “基于BERT的文本生成需结合解码策略(如Beam Search),但原生BERT更擅长理解任务。”