Python网络爬虫技术与应用(邓维;李贝;汤小洋主编;康毅滨;林海玉;刘燕秋;林建雄;刘庆胜;钟晓颖副主编)

书: https://pan.baidu.com/s/1o53U8DJYBlzPKes4X47C8Q?pwd=ymj8
笔记如下:

  1. “爬虫的本质是‘模拟浏览器行为’,requests.get()发送HTTP请求,response.text获取HTML源码。”
  2. “BeautifulSoup的find_all()配合CSS选择器(如div.class > a)精准提取页面元素。”
  3. “动态渲染页面需用Selenium的WebDriverdriver.execute_script()执行JS代码。”
  4. “Scrapy框架的Spider类定义爬取逻辑,Item Pipeline处理数据存储。”
  5. “反爬突破:headers模拟User-Agent,proxies切换IP,cookies维持会话。”
  6. re.compile(r'pattern')预编译正则表达式,提升匹配效率。”
  7. “Ajax数据抓取:分析XHR请求,json.loads()解析API返回的JSON数据。”
  8. “增量爬虫:md5(url)生成唯一标识,数据库去重避免重复采集。”
  9. robots.txt是爬虫伦理底线,但无法律约束力,需谨慎遵守。”
  10. “分布式爬虫用Scrapy-Redis实现URL队列共享,Redis作调度中心。”
  11. “验证码识别:Pillow预处理图片,Tesseract-OCR或付费打码平台破解。”
  12. time.sleep(random.uniform(1,3))随机延迟,降低被封风险。”
  13. “数据存储四选一:csv(轻量)、MySQL(关系型)、MongoDB(文档)、Redis(缓存)。”
  14. mitmproxy中间人抓包,分析App端加密API请求。”
  15. “Scrapy的Downloader Middleware可自定义代理池和请求重试机制。”
  16. PyQuery语法类似jQuery,doc('a').attr('href')快速获取属性。”
  17. aiohttp+asyncio实现异步爬虫,吞吐量比同步请求高10倍。”
  18. “数据清洗:pandas处理缺失值,jieba分词中文文本。”
  19. “法律风险:避免爬取个人信息(如手机号)和版权内容(如影视资源)。”
  20. “爬虫工程师的自我修养:‘像用户一样思考,像开发者一样分析’。”

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注