User Agent
网页抓取定义
User Agent 是在 HTTP 请求头中发送的字符串,用于标识发起请求的客户端软件。网站借此检测浏览器、机器人和抓取器。
与 CrawlForge 的关联
每个 HTTP 请求都包含一个 User-Agent 请求头。网站会分析该请求头,以向不同客户端提供不同内容,并识别自动化流量。使用抓取库的默认 User Agent 是被封禁的捷径。
CrawlForge 会自动轮换 User Agent 字符串,并使其与真实浏览器配置相匹配。在 stealth_mode 中,User Agent 会与一致的浏览器指纹配对,以躲避高级反爬虫系统的检测。
相关 CrawlForge 工具
相关术语
HTTP 请求头
HTTP 请求头是随 HTTP 请求和响应一同发送的键值对,提供有关本次通信的元数据。在抓取中,User-Agent、Accept 和 Cookie 等请求头对请求成功与否至关重要。
无头浏览器
无头浏览器是一种没有图形用户界面、可通过程序控制的网页浏览器。它像普通浏览器一样执行 JavaScript 并渲染页面,但在后台运行。
代理轮换
代理轮换是指在发起网页请求时循环使用多个代理 IP 地址的做法。它将请求分散到不同的 IP,以规避速率限制和基于 IP 的封禁。
验证码破解
验证码破解是指用于绕过网站用来区分人类与机器人的验证码(CAPTCHA)挑战的自动化技术。这包括图像识别、基于令牌的破解以及浏览器指纹模拟。