ETL(提取、转换、加载)
行业定义
ETL 是一种数据集成流程,它从源端提取数据、将其转换为合适的格式,并加载到目标系统中。它是在系统之间迁移数据的标准方法。
与 CrawlForge 的关联
ETL 中的"提取"阶段正是网页抓取的用武之地。CrawlForge 负责从网页来源提取数据,以可直接用于流水线后续转换和加载阶段的结构化格式返回数据。
对于基于网页的 ETL,CrawlForge 免去了为每个数据源构建自定义提取器的需要。batch_scrape 大规模提取数据,scrape_structured 应用 schema 来标准化输出,结果直接流入你的转换层。