分页
网页抓取定义
分页是将内容分散到多个页面的做法。在网页抓取中处理分页,意味着自动遍历所有页面以采集完整的数据集。
与 CrawlForge 的关联
大多数网站会将大型数据集拆分为分页列表——搜索结果、产品目录、文章归档等。只抓取第一页的抓取器会遗漏大部分数据。分页可以是基于 URL 的(?page=2)、基于按钮的,或采用无限滚动。
CrawlForge 的 crawl_deep 会自动跟随分页链接,而 scrape_with_actions 可以处理基于 JavaScript 的分页,例如无限滚动和"加载更多"按钮。这确保了完整的数据采集,无需手动管理页面。