浏览器自动化（Browser Automation）

无头模式: headless=true 减少资源消耗
请求拦截: 屏蔽图片/字体等非必要资源加载
并发控制: 多个浏览器上下文（Browser Context）并行采集
连接复用: 避免重复创建浏览器实例

浏览器自动化是通过程序控制浏览器执行页面操作和数据处理的技术。它在网络爬虫领域主要解决 JavaScript 渲染页面的数据采集问题，同时可用于 UI 自动化测试和 RPA。

核心原理

浏览器自动化工具通过 CDP（Chrome DevTools Protocol）或 WebDriver 协议控制真实浏览器引擎，执行 JavaScript、渲染 DOM、触发事件，从而获取动态加载的内容。

Playwright 是当前推荐选择，由微软维护，内置自动等待机制和网络拦截功能，反检测能力更强。

浏览器自动化工具会被网站通过以下方式检测：

Playwright 的反检测策略：使用 --disable-blink-features=AutomationControlled 启动参数、注入脚本清除 webdriver 属性、使用真实浏览器用户数据目录。

Playwright 使用 CDP 直连浏览器，无需额外驱动（如 ChromeDriver）。Selenium 通过 WebDriver 作为中间层，历史更悠久但更重。Playwright 的 API 设计更现代化，内置了等待机制（Auto-wait），减少显式 sleep。