CrawlForge
Rastreo4 credits

crawl_deep

Descubra y rastree sitios web completos con búsqueda en anchura inteligente, filtrado de URL y control de profundidad configurable. Respeta robots.txt y los retardos de rastreo.

Casos de uso

Análisis de la arquitectura del sitio

Descubra todas las páginas y comprenda la estructura del sitio para auditorías SEO

Descubrimiento de contenido

Encuentre automáticamente todas las entradas de blog, productos o páginas de documentación

Inteligencia competitiva

Mapee los sitios web de la competencia y descubra nuevos productos o funciones

Detección de enlaces rotos

Rastree sitios para encontrar errores 404, redirecciones y enlaces internos rotos

Migración de datos

Descubra todas las páginas antes de migrar o archivar un sitio web

Generación de sitemaps

Cree sitemaps exhaustivos para SEO o documentación

Endpoint

POST/api/v1/tools/crawl_deep
Auth Required
2 req/s en el plan Free
4 credits

Parameters

NameTypeRequiredDefaultDescription
url
stringRequired-
URL inicial del rastreo (debe ser del mismo dominio)
Example: https://example.com
maxDepth
numberOptional3
Profundidad máxima de rastreo (1-10 niveles)
Example: 5
maxPages
numberOptional100
Cantidad máxima de páginas a rastrear (1-1000)
Example: 500
includePatterns
string[]Optional-
Rastrear únicamente las URL que coincidan con estos patrones regex
Example: ["/blog/.*", "/products/.*"]
excludePatterns
string[]Optional-
Omitir las URL que coincidan con estos patrones regex
Example: ["/admin/.*", ".*\\.(pdf|zip)$"]
respectRobotsTxt
booleanOptionaltrue
Respetar las directivas de robots.txt
Example: true
sameDomain
booleanOptionaltrue
Rastrear únicamente las URL del mismo dominio
Example: true
crawlDelay
numberOptional1000
Retardo entre solicitudes en milisegundos (100-5000)
Example: 2000

Ejemplos de solicitud

terminalBash

Ejemplo de respuesta

200 OK45,200ms
{
"success": true,
"data": {
"startUrl": "https://example.com",
"pagesDiscovered": 487,
"pagesCrawled": 487,
"maxDepthReached": 5,
"robotsTxtRespected": true,
"crawlStarted": "2025-10-01T12:00:00Z",
"crawlCompleted": "2025-10-01T12:00:45Z",
"urls": [
{
"url": "https://example.com",
"depth": 0,
"status": 200,
"title": "Example Domain",
"linksFound": 15
},
{
"url": "https://example.com/blog",
"depth": 1,
"status": 200,
"title": "Blog - Example",
"linksFound": 42
},
{
"url": "https://example.com/blog/post-1",
"depth": 2,
"status": 200,
"title": "First Blog Post",
"linksFound": 8
}
],
"statistics": {
"status200": 450,
"status301": 20,
"status404": 15,
"status500": 2,
"avgResponseTime": 234,
"totalSize": 12500000
}
},
"credits_used": 4,
"credits_remaining": 996,
"processing_time": 45200
}
Field Descriptions
data.pagesDiscoveredTotal de URL únicas encontradas durante el rastreo
data.pagesCrawledCantidad de páginas obtenidas correctamente
data.maxDepthReachedNivel de profundidad máximo alcanzado
data.urlsArreglo de todas las URL descubiertas con sus metadatos
data.statisticsEstadísticas agregadas del rastreo
credits_used4 credits por solicitud de rastreo (tarifa plana)
processing_timeDuración total del rastreo (varía según el tamaño del sitio)

Manejo de errores

Bloqueado por robots.txt (403 Forbidden)

El robots.txt del sitio no permite el rastreo. Establezca respectRobotsTxt=false para anularlo (úselo con responsabilidad).

Límite de páginas alcanzado (200 OK con advertencia)

El rastreo se detuvo en el límite de maxPages. Aumente el límite o filtre las URL de forma más específica.

Patrón no válido (400 Bad Request)

includePatterns o excludePatterns contiene un regex no válido. Revise la sintaxis del patrón.

Credits insuficientes (402 Payment Required)

Los credits se reservan por adelantado (estimados). Agregue más credits antes de iniciar rastreos grandes.

Consejo profesional: Use includePatterns para rastrear secciones específicas (p. ej., /blog/). Esto ahorra credits y reduce el tiempo de rastreo. Respete crawlDelay para no sobrecargar sitios más pequeños: se recomiendan 1-2 segundos.

Costo en credits

4 credits
4 credits por solicitud
Tarifa plana por solicitud de rastreo, sin importar la cantidad de páginas descubiertas. Rastree hasta 1,000 páginas por solicitud.

Qué incluye:

Hasta 1,000 páginas por rastreo

Profundidad configurable (1-10 niveles)

Filtrado de URL por patrones

Gestión de robots.txt

Estadísticas completas del rastreo

Recomendaciones por plan:

Plan Free: 1,000 credits de prueba por única vez = 250 solicitudes de rastreo

Plan Hobby: 5,000 credits = 1,250 solicitudes de rastreo ($19/mo)

Plan Professional: 50,000 credits = 12,500 solicitudes de rastreo ($99/mo)

Herramientas relacionadas

map_site
Descubrimiento rápido de sitemaps sin rastreo completo (2 credits)
batch_scrape
Haga scraping de las URL descubiertas en paralelo (5 credits)
extract_links
Extraiga enlaces de una sola página (1 credit)
screenshot
Capture screenshots de las páginas descubiertas (2 credits)
¿Listo para probar crawl_deep? Regístrese gratis y obtenga 1,000 credits para empezar a crear.