CrawlForge
爬取4 credits

crawl_deep

通过智能广度优先搜索、URL 过滤和可配置的深度控制来发现并爬取整个网站。遵守 robots.txt 和爬取延迟。

使用场景

站点架构分析

发现所有页面并了解网站结构,用于 SEO 审计

内容发现

自动查找所有博客文章、产品或文档页面

竞品情报

映射竞争对手网站并发现新产品或新功能

失效链接检测

爬取站点以查找 404、重定向和失效的内部链接

数据迁移

在迁移或归档网站之前发现所有页面

站点地图生成

为 SEO 或文档创建全面的站点地图

Endpoint

POST/api/v1/tools/crawl_deep
Auth Required
Free 计划 2 req/s
4 credits

Parameters

NameTypeRequiredDefaultDescription
url
stringRequired-
爬取的起始 URL(必须为同一域名)
Example: https://example.com
maxDepth
numberOptional3
最大爬取深度(1-10 层)
Example: 5
maxPages
numberOptional100
最多爬取的页面数(1-1000)
Example: 500
includePatterns
string[]Optional-
仅爬取匹配这些正则表达式的 URL
Example: ["/blog/.*", "/products/.*"]
excludePatterns
string[]Optional-
跳过匹配这些正则表达式的 URL
Example: ["/admin/.*", ".*\\.(pdf|zip)$"]
respectRobotsTxt
booleanOptionaltrue
遵守 robots.txt 指令
Example: true
sameDomain
booleanOptionaltrue
仅爬取同一域名下的 URL
Example: true
crawlDelay
numberOptional1000
请求之间的延迟(毫秒,100-5000)
Example: 2000

请求示例

terminalBash

响应示例

200 OK45,200ms
{
"success": true,
"data": {
"startUrl": "https://example.com",
"pagesDiscovered": 487,
"pagesCrawled": 487,
"maxDepthReached": 5,
"robotsTxtRespected": true,
"crawlStarted": "2025-10-01T12:00:00Z",
"crawlCompleted": "2025-10-01T12:00:45Z",
"urls": [
{
"url": "https://example.com",
"depth": 0,
"status": 200,
"title": "Example Domain",
"linksFound": 15
},
{
"url": "https://example.com/blog",
"depth": 1,
"status": 200,
"title": "Blog - Example",
"linksFound": 42
},
{
"url": "https://example.com/blog/post-1",
"depth": 2,
"status": 200,
"title": "First Blog Post",
"linksFound": 8
}
],
"statistics": {
"status200": 450,
"status301": 20,
"status404": 15,
"status500": 2,
"avgResponseTime": 234,
"totalSize": 12500000
}
},
"credits_used": 4,
"credits_remaining": 996,
"processing_time": 45200
}
Field Descriptions
data.pagesDiscovered爬取过程中找到的唯一 URL 总数
data.pagesCrawled成功抓取的页面数
data.maxDepthReached达到的最大深度层级
data.urls包含元数据的所有已发现 URL 数组
data.statistics爬取统计汇总
credits_used每次爬取请求 4 credits(固定费用)
processing_time总爬取时长(因站点规模而异)

错误处理

Robots.txt 被阻止(403 Forbidden)

站点的 robots.txt 禁止爬取。设置 respectRobotsTxt=false 可覆盖(请负责任地使用)。

达到最大页面数(200 OK 并附带警告)

爬取已在 maxPages 限制处停止。请提高限制或更精确地过滤 URL。

无效的模式(400 Bad Request)

includePatterns 或 excludePatterns 包含无效的正则表达式。请检查模式语法。

credits 不足(402 Payment Required)

credits 会预先预留(按估算)。在开始大型爬取之前请先添加更多 credits。

专业提示: 使用 includePatterns 仅爬取特定板块(例如 /blog/)。这能节省 credits 并缩短爬取时间。遵守 crawlDelay 以避免给较小的站点带来过大压力——建议设为 1-2 秒。

credits 费用

4 credits
每次请求 4 credits
无论发现多少页面,每次爬取请求均为固定费用。每次请求最多可爬取 1,000 个页面。

包含内容:

每次爬取最多 1,000 个页面

可配置深度(1-10 层)

URL 模式过滤

robots.txt 处理

完整的爬取统计

计划推荐:

Free 计划: 1,000 个一次性试用 credits = 250 次爬取请求

Hobby 计划: 5,000 credits = 1,250 次爬取请求($19/mo)

Professional 计划: 50,000 credits = 12,500 次爬取请求($99/mo)

相关工具

map_site
无需完整爬取即可快速发现站点地图(2 credits)
batch_scrape
并行抓取已发现的 URL(5 credits)
extract_links
从单个页面提取链接(1 credit)
screenshot
捕获已发现页面的截图(2 credits)
准备好试用 crawl_deep 了吗?免费注册并获得 1,000 credits 开始构建。