XPath
网页抓取定义
XPath(XML Path Language)是一种用于从 XML 或 HTML 文档中选取节点的查询语言。相比单独使用 CSS 选择器,它提供了更强大、更灵活的文档树导航方式。
与 CrawlForge 的关联
XPath 表达式可以在文档树中向上、向下和横向导航,因而适用于复杂的提取场景。例如,你可以根据某个价格元素的同级文本内容来选取它——这是 CSS 选择器无法做到的。
CrawlForge 在其提取工具中同时支持 XPath 和 CSS 选择器。当抓取 HTML 结构混乱的老旧站点,或需要根据文本内容而非 class 名称提取数据时,XPath 尤为有用。