CSS 选择器
网页抓取定义
CSS 选择器是一种用于选取并定位网页上特定 HTML 元素的模式。在网页抓取中,选择器精确指明要从页面结构中提取哪些数据。
与 CrawlForge 的关联
CSS 选择器是告诉抓取器要提取哪些元素的主要方式。例如,".product-price" 会选取 class 为 "product-price" 的元素,而 "h1.title" 会选取带有 "title" class 的 h1 元素。CrawlForge 的 scrape_structured 等工具接受 CSS 选择器,精确锁定你需要的数据。
使用精确的选择器是构建可靠抓取流水线的关键。CrawlForge 支持完整的 CSS 选择器语法,使得定位深层嵌套或动态生成的元素成为可能。
相关 CrawlForge 工具
相关术语
XPath
XPath(XML Path Language)是一种用于从 XML 或 HTML 文档中选取节点的查询语言。相比单独使用 CSS 选择器,它提供了更强大、更灵活的文档树导航方式。
DOM 解析
DOM 解析是将原始 HTML 转换为结构化文档对象模型(DOM)树的过程。这种树形表示让程序能够导航并从网页中提取特定元素。
HTML 解析
HTML 解析是分析 HTML 标记以提取其结构和内容的过程。解析器将原始 HTML 字符串转换为程序可查询和操作的可导航树形结构。
结构化数据
结构化数据是以预定义格式组织的信息,便于机器解析和理解。在网络上,它通常指嵌入在 HTML 页面中的 schema.org 标记。