网络爬虫（Web Scraping）

静态爬取: requests + HTML 解析，适用于服务端渲染的页面
动态爬取: 浏览器自动化工具处理 JS 渲染的 SPA 应用
API 爬取: 直接分析并调用目标网站的接口，效率最高

网络爬虫（Web Spider/Web Crawler）是自动获取网页数据的程序，通过模拟 HTTP 请求从目标服务器获取数据并提取有价值的信息。与网络爬虫（Crawler）聚焦于数据采集不同，网络索引器（Indexer）则更关注内容组织和检索——这是二者之间的本质差异。

核心工作流程

发送 HTTP 请求  →  获取服务器响应  →  解析 HTML/JSON  →  提取目标数据  →  持久化存储

阶段	说明	常用工具
请求	模拟浏览器发送 HTTP 请求	requests, httpx, aiohttp
响应处理	处理 HTTP 状态码、重定向、编码	requests.Response
解析	从 HTML/JSON 中提取结构化数据	BeautifulSoup, lxml, pyquery, json
提取	精准定位目标元素	CSS 选择器, XPath, 正则表达式
存储	将结果持久化	CSV, JSON, SQLite, MySQL, MongoDB

工业级爬虫 80% 工作在反爬对抗和维护上。关键实践：代理池管理、用户代理轮换、请求重试与退避策略、日志监控告警、配置外部化。