crawl_deep

Descubra y rastree sitios web completos con búsqueda en anchura inteligente, filtrado de URL y control de profundidad configurable. Respeta robots.txt y los retardos de rastreo.

Casos de uso

Análisis de la arquitectura del sitio

Descubra todas las páginas y comprenda la estructura del sitio para auditorías SEO

Descubrimiento de contenido

Encuentre automáticamente todas las entradas de blog, productos o páginas de documentación

Inteligencia competitiva

Mapee los sitios web de la competencia y descubra nuevos productos o funciones

Detección de enlaces rotos

Rastree sitios para encontrar errores 404, redirecciones y enlaces internos rotos

Migración de datos

Descubra todas las páginas antes de migrar o archivar un sitio web

Generación de sitemaps

Cree sitemaps exhaustivos para SEO o documentación

Endpoint

POST/api/v1/tools/crawl_deep

Auth Required

2 req/s en el plan Free

4 credits

Parameters

Name	Type	Required	Default	Description
url	string	Required	-	URL inicial del rastreo (debe ser del mismo dominio) Example: https://example.com
maxDepth	number	Optional	3	Profundidad máxima de rastreo (1-10 niveles) Example: 5
maxPages	number	Optional	100	Cantidad máxima de páginas a rastrear (1-1000) Example: 500
includePatterns	string[]	Optional	-	Rastrear únicamente las URL que coincidan con estos patrones regex Example: ["/blog/.", "/products/."]
excludePatterns	string[]	Optional	-	Omitir las URL que coincidan con estos patrones regex Example: ["/admin/.", ".\\.(pdf\|zip)$"]
respectRobotsTxt	boolean	Optional	true	Respetar las directivas de robots.txt Example: true
sameDomain	boolean	Optional	true	Rastrear únicamente las URL del mismo dominio Example: true
crawlDelay	number	Optional	1000	Retardo entre solicitudes en milisegundos (100-5000) Example: 2000

Ejemplos de solicitud

terminalBash

Ejemplo de respuesta

200 OK45,200ms

{
  "success": true,
  "data": {
    "startUrl": "https://example.com",
    "pagesDiscovered": 487,
    "pagesCrawled": 487,
    "maxDepthReached": 5,
    "robotsTxtRespected": true,
    "crawlStarted": "2025-10-01T12:00:00Z",
    "crawlCompleted": "2025-10-01T12:00:45Z",
    "urls": [
      {
        "url": "https://example.com",
        "depth": 0,
        "status": 200,
        "title": "Example Domain",
        "linksFound": 15
      },
      {
        "url": "https://example.com/blog",
        "depth": 1,
        "status": 200,
        "title": "Blog - Example",
        "linksFound": 42
      },
      {
        "url": "https://example.com/blog/post-1",
        "depth": 2,
        "status": 200,
        "title": "First Blog Post",
        "linksFound": 8
      }
    ],
    "statistics": {
      "status200": 450,
      "status301": 20,
      "status404": 15,
      "status500": 2,
      "avgResponseTime": 234,
      "totalSize": 12500000
    }
  },
  "credits_used": 4,
  "credits_remaining": 996,
  "processing_time": 45200
}

Field Descriptions

data.pagesDiscoveredTotal de URL únicas encontradas durante el rastreo

data.pagesCrawledCantidad de páginas obtenidas correctamente

data.maxDepthReachedNivel de profundidad máximo alcanzado

data.urlsArreglo de todas las URL descubiertas con sus metadatos

data.statisticsEstadísticas agregadas del rastreo

credits_used4 credits por solicitud de rastreo (tarifa plana)

processing_timeDuración total del rastreo (varía según el tamaño del sitio)

Manejo de errores

Bloqueado por robots.txt (403 Forbidden)

El robots.txt del sitio no permite el rastreo. Establezca respectRobotsTxt=false para anularlo (úselo con responsabilidad).

Límite de páginas alcanzado (200 OK con advertencia)

El rastreo se detuvo en el límite de maxPages. Aumente el límite o filtre las URL de forma más específica.

Patrón no válido (400 Bad Request)

includePatterns o excludePatterns contiene un regex no válido. Revise la sintaxis del patrón.

Credits insuficientes (402 Payment Required)

Los credits se reservan por adelantado (estimados). Agregue más credits antes de iniciar rastreos grandes.

Consejo profesional: Use includePatterns para rastrear secciones específicas (p. ej., /blog/). Esto ahorra credits y reduce el tiempo de rastreo. Respete crawlDelay para no sobrecargar sitios más pequeños: se recomiendan 1-2 segundos.

Costo en credits

4 credits

4 credits por solicitud

Tarifa plana por solicitud de rastreo, sin importar la cantidad de páginas descubiertas. Rastree hasta 1,000 páginas por solicitud.

Qué incluye:

Hasta 1,000 páginas por rastreo

Profundidad configurable (1-10 niveles)

Filtrado de URL por patrones

Gestión de robots.txt

Estadísticas completas del rastreo

Recomendaciones por plan:

Plan Free: 1,000 credits de prueba por única vez = 250 solicitudes de rastreo

Plan Hobby: 5,000 credits = 1,250 solicitudes de rastreo ($19/mo)

Plan Professional: 50,000 credits = 12,500 solicitudes de rastreo ($99/mo)

Herramientas relacionadas

map_site

Descubrimiento rápido de sitemaps sin rastreo completo (2 credits)

batch_scrape

Haga scraping de las URL descubiertas en paralelo (5 credits)

extract_links

Extraiga enlaces de una sola página (1 credit)

screenshot

Capture screenshots de las páginas descubiertas (2 credits)

¿Listo para probar crawl_deep? Regístrese gratis y obtenga 1,000 credits para empezar a crear.

Casos de uso

Análisis de la arquitectura del sitio

Descubra todas las páginas y comprenda la estructura del sitio para auditorías SEO

Descubrimiento de contenido

Encuentre automáticamente todas las entradas de blog, productos o páginas de documentación

Inteligencia competitiva

Mapee los sitios web de la competencia y descubra nuevos productos o funciones

Detección de enlaces rotos

Rastree sitios para encontrar errores 404, redirecciones y enlaces internos rotos

Migración de datos

Descubra todas las páginas antes de migrar o archivar un sitio web

Generación de sitemaps

Cree sitemaps exhaustivos para SEO o documentación

Parameters

Name	Type	Required	Default	Description
url	string	Required	-	URL inicial del rastreo (debe ser del mismo dominio) Example: https://example.com
maxDepth	number	Optional	3	Profundidad máxima de rastreo (1-10 niveles) Example: 5
maxPages	number	Optional	100	Cantidad máxima de páginas a rastrear (1-1000) Example: 500
includePatterns	string[]	Optional	-	Rastrear únicamente las URL que coincidan con estos patrones regex Example: ["/blog/.", "/products/."]
excludePatterns	string[]	Optional	-	Omitir las URL que coincidan con estos patrones regex Example: ["/admin/.", ".\\.(pdf\|zip)$"]
respectRobotsTxt	boolean	Optional	true	Respetar las directivas de robots.txt Example: true
sameDomain	boolean	Optional	true	Rastrear únicamente las URL del mismo dominio Example: true
crawlDelay	number	Optional	1000	Retardo entre solicitudes en milisegundos (100-5000) Example: 2000

Ejemplo de respuesta

200 OK45,200ms

{
  "success": true,
  "data": {
    "startUrl": "https://example.com",
    "pagesDiscovered": 487,
    "pagesCrawled": 487,
    "maxDepthReached": 5,
    "robotsTxtRespected": true,
    "crawlStarted": "2025-10-01T12:00:00Z",
    "crawlCompleted": "2025-10-01T12:00:45Z",
    "urls": [
      {
        "url": "https://example.com",
        "depth": 0,
        "status": 200,
        "title": "Example Domain",
        "linksFound": 15
      },
      {
        "url": "https://example.com/blog",
        "depth": 1,
        "status": 200,
        "title": "Blog - Example",
        "linksFound": 42
      },
      {
        "url": "https://example.com/blog/post-1",
        "depth": 2,
        "status": 200,
        "title": "First Blog Post",
        "linksFound": 8
      }
    ],
    "statistics": {
      "status200": 450,
      "status301": 20,
      "status404": 15,
      "status500": 2,
      "avgResponseTime": 234,
      "totalSize": 12500000
    }
  },
  "credits_used": 4,
  "credits_remaining": 996,
  "processing_time": 45200
}

Field Descriptions

data.pagesDiscoveredTotal de URL únicas encontradas durante el rastreo

data.pagesCrawledCantidad de páginas obtenidas correctamente

data.maxDepthReachedNivel de profundidad máximo alcanzado

data.urlsArreglo de todas las URL descubiertas con sus metadatos

data.statisticsEstadísticas agregadas del rastreo

credits_used4 credits por solicitud de rastreo (tarifa plana)

processing_timeDuración total del rastreo (varía según el tamaño del sitio)

Manejo de errores

Bloqueado por robots.txt (403 Forbidden)

El robots.txt del sitio no permite el rastreo. Establezca respectRobotsTxt=false para anularlo (úselo con responsabilidad).

Límite de páginas alcanzado (200 OK con advertencia)

El rastreo se detuvo en el límite de maxPages. Aumente el límite o filtre las URL de forma más específica.

Patrón no válido (400 Bad Request)

includePatterns o excludePatterns contiene un regex no válido. Revise la sintaxis del patrón.

Credits insuficientes (402 Payment Required)

Los credits se reservan por adelantado (estimados). Agregue más credits antes de iniciar rastreos grandes.

Costo en credits

4 credits

4 credits por solicitud

Tarifa plana por solicitud de rastreo, sin importar la cantidad de páginas descubiertas. Rastree hasta 1,000 páginas por solicitud.

Qué incluye:

Hasta 1,000 páginas por rastreo

Profundidad configurable (1-10 niveles)

Filtrado de URL por patrones

Gestión de robots.txt

Estadísticas completas del rastreo

Recomendaciones por plan:

Plan Free: 1,000 credits de prueba por única vez = 250 solicitudes de rastreo

Plan Hobby: 5,000 credits = 1,250 solicitudes de rastreo ($19/mo)

Plan Professional: 50,000 credits = 12,500 solicitudes de rastreo ($99/mo)