JSON-LD
数据定义
JSON-LD(JSON for Linking Data)是一种使用 JSON 格式编码结构化数据的方法。它是在网页中嵌入 schema.org 标记以供搜索引擎理解的首选格式。
与 CrawlForge 的关联
JSON-LD 作为 script 标签嵌入网页,包含关于页面内容的结构化元数据——产品详情、文章信息、组织数据等。由于它本身就是机器可读的,因此对抓取器而言是干净结构化数据的丰富来源。
CrawlForge 的 extract_metadata 会检测并从页面中提取 JSON-LD,让你能够获取站点所有者已经整理好的结构化数据。由于 JSON-LD 是为机器消费而设计的,这通常比解析可视化元素更可靠。
相关 CrawlForge 工具
相关术语
结构化数据
结构化数据是以预定义格式组织的信息,便于机器解析和理解。在网络上,它通常指嵌入在 HTML 页面中的 schema.org 标记。
Schema 标记
Schema 标记是一套(来自 schema.org 的)标签词汇,你将其添加到 HTML 中,以改善搜索引擎读取和呈现你页面的方式。它定义了 Product、Article、Organization 等类型及其属性。
JSON
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人类阅读、便于机器解析。它是 API 响应和结构化数据交换的标准格式。
HTML 解析
HTML 解析是分析 HTML 标记以提取其结构和内容的过程。解析器将原始 HTML 字符串转换为程序可查询和操作的可导航树形结构。