站点地图
网页抓取定义
站点地图是一个列出网站上所有 URL 的 XML 文件,同时附带最后修改日期和优先级等元数据。它帮助搜索引擎和爬虫高效地发现并索引所有页面。
与 CrawlForge 的关联
站点地图无需通过跟随链接来发现页面,即可提供网站页面的完整清单。这使其对于全面抓取、SEO 审计和内容迁移等需要处理每一个页面的场景极具价值。
CrawlForge 的 map_site 可为任意域名生成站点地图,通过跟随链接和现有站点地图文件两种方式发现 URL。这为使用 batch_scrape 进行批量操作提供了可靠的起点。
相关 CrawlForge 工具
相关术语
网络爬虫
网络爬虫是一种通过在页面之间跟随链接来系统性地浏览网络的程序。爬虫可以在整个网站或域名范围内发现并索引内容。
Robots.txt
Robots.txt 是放置在网站根目录的标准文本文件,它告诉网络爬虫哪些页面允许或禁止访问。它是机器人排除协议(Robots Exclusion Protocol)的一部分。
SEO 审计
SEO 审计是对网站搜索引擎优化表现的全面分析。它评估技术 SEO、页面内容、元数据、站点结构,并识别可改进的机会。
Schema 标记
Schema 标记是一套(来自 schema.org 的)标签词汇,你将其添加到 HTML 中,以改善搜索引擎读取和呈现你页面的方式。它定义了 Product、Article、Organization 等类型及其属性。