CrawlerTutorial 爬虫系统性教程

仓库: NanmiCoder/CrawlerTutorial (4.1k Stars) 作者: 程序员阿江-Relakkes（MediaCrawler 作者，全栈开发者） 在线教程: nanmicoder.github.io/CrawlerTutorial/

爬虫技术入门到进阶的系统性教程，覆盖爬虫入门、进阶反爬对抗到工程化实践。配套 B 站视频和完整源码。

一、Python 爬虫入门（12 节）

节	标题	核心内容
01	为什么要写这个爬虫教程	创作动机与目标读者
02	个人学会爬虫能赚钱吗	爬虫技能的变现途径与可行性探讨
03	网络爬虫到底是什么	爬虫定义：自动获取网页数据的程序，核心三要素（请求→解析→存储）
04	爬虫的基本工作原理	完整流程：发送 HTTP 请求 → 获取响应 → 解析 HTML/JSON → 提取数据 → 存储
05	常用的抓包工具有哪些	主流工具：Chrome DevTools、Fiddler、Charles、Wireshark 对比
06	Python 写爬虫的优势	简洁语法、urllib/requests/httpx/aiohttp 等库生态、Scrapy 框架
07	Python 常见网络请求库	requests（同步）、httpx（HTTP/2 支持）、aiohttp（异步）特点对比
08	入门实战①：静态网页提取	从静态 HTML 中提取数据，使用 requests + BeautifulSoup/lxml
09	入门实战②：动态数据提取	处理 JS 渲染接口：直接请求 API 接口或使用浏览器渲染
10	入门实战③：数据存储实现	写入 CSV/JSON/Excel/SQLite/MySQL/MongoDB
11	入门实战④：高效率爬虫实现	多线程、协程（asyncio+aiohttp）提升采集效率
12	入门实战⑤：编写可维护代码	代码结构设计与可维护性实践（待更新）

节	标题	核心内容
01	工程化爬虫开发规范	项目结构设计、编码规范、配置管理、日志体系
02	反爬虫对抗基础—请求伪装	User-Agent 轮换、Referer/Cookie 等请求头伪装
03	代理 IP 的使用与管理	代理池搭建、IP 轮换策略、可用性检测
04	Playwright 浏览器自动化入门	无头浏览器（Headless Browser）基础操作
05	Playwright 进阶—反检测与性能优化	navigator.webdriver 剔除、指纹规避、并发调优
06	登录认证—Cookie 与 Session 管理	登录状态持久化：本地保存 + 自动刷新
07	登录认证—扫码与短信登录实现	二维码监控轮询、短信验证码自动处理
08	验证码识别与处理	图形验证码（OCR）、滑块验证码轨迹模拟、打码平台接入
09	数据清洗与预处理	去重（布隆过滤器）、格式化标准化、脏数据修复
10	数据分析与可视化	统计分析、Pandas 处理、Matplotlib/Pyecharts 可视化

爬虫的本质是模拟浏览器向服务器发送 HTTP 请求并解析响应内容的自动化程序。核心流程：请求 → 响应 → 解析 → 提取 → 存储。现代爬虫面临的主要挑战是前端渲染（SPA 应用）和反爬机制。

从简单的请求头检测（User-Agent、Referer）到浏览器指纹识别（WebDriver 检测、Canvas 指纹），再到行为分析（访问频率、鼠标轨迹）。进阶对抗手段包括：浏览器自动化反检测、代理 IP 轮换、验证码识别。

工业级爬虫需要完善的工程体系：配置管理、日志监控、异常告警、代理池、用户代理池、请求重试机制、数据管道。经验法则：爬虫开发只占 20% 工作量，反爬对抗和维护占 80%。