Robots.txt
网页抓取定义
Robots.txt 是放置在网站根目录的标准文本文件,它告诉网络爬虫哪些页面允许或禁止访问。它是机器人排除协议(Robots Exclusion Protocol)的一部分。
与 CrawlForge 的关联
robots.txt 文件相当于一套面向爬虫的准则。尽管它不具法律约束力,但遵守它被视为合乎道德的抓取的标准做法。它规定了哪些路径禁止访问、抓取延迟偏好以及指向 XML 站点地图的链接。
CrawlForge 工具默认遵守 robots.txt 指令。在使用 crawl_deep 或 map_site 时,爬虫会在访问页面前检查 robots.txt,确保你的抓取活动符合站点所有者声明的偏好。