CrawlForge
Guía intermedia

Guía de Procesamiento por Lotes

Escale el scraping web a miles de URL con una gestión de colas eficiente, recuperación ante errores y estrategias de optimización del rendimiento.

Uso de la herramienta batch_scrape
Gestión de colas
Recuperación ante errores
Optimización del rendimiento

1. Uso de la herramienta batch_scrape

La herramienta batch_scrape gestiona hasta 50 URL de forma concurrente con limitación de tasa integrada y notificaciones por webhook.

Scraping por lotes básico

1 credit por URL (50 URL = 50 credits)

Bash

Procesamiento asíncrono con webhooks

Ideal para lotes grandes (100+ URL): reciba una notificación cuando finalice

Typescript

2. Gestión de colas

Procese miles de URL dividiéndolas en lotes y gestionando una cola.

Estrategia de división en fragmentos

Divida listas grandes de URL en lotes manejables

Typescript
Consejo profesional: Use Redis o una base de datos para almacenar su cola. Esto le permite reanudar el procesamiento si su script falla o necesita reiniciarse.

3. Recuperación ante errores

Gestione los fallos con elegancia mediante lógica de reintentos y seguimiento de errores.

Gestión robusta de errores

Typescript

4. Optimización del rendimiento

Maximice el rendimiento y minimice los costos con estas estrategias de optimización.

Optimice la concurrencia
Comience con maxConcurrency: 5 y auméntelo a 10 para los planes Professional/Business
Use onlyMainContent
Establezca onlyMainContent: true para reducir el tamaño de la respuesta entre un 60 y un 80%
Elija formatos mínimos
Use formats: ["markdown"] en lugar de varios formatos (html, text, screenshot)
Almacene los resultados en caché
Guarde los datos extraídos en Redis o en una base de datos para evitar volver a hacer scraping de las mismas URL
Evite el exceso de lotes
No supere las 50 URL por lote; divídalas en varias solicitudes en su lugar
No ignore los límites de tasa
Respete los límites de tasa de su plan (Free: 5/s, Hobby: 10/s, Pro: 50/s, Business: 100/s)

Rendimiento esperado

EscenarioTiempoConfiguración
Lote pequeño (10 URL)~5 segundosmaxConcurrency: 5
Lote mediano (50 URL)~15 segundosmaxConcurrency: 10
Lote grande (500 URL)~3 minutos10 lotes × 50 URL
Lote masivo (5,000 URL)~30 minutos100 lotes × 50 URL
Próximos pasos
Continúe aprendiendo con más guías avanzadas
Optimización de credits →
Minimice los costos
Técnicas de sigilo →
Evada los sistemas anti-bots