Guía intermedia
Guía de Procesamiento por Lotes
Escale el scraping web a miles de URL con una gestión de colas eficiente, recuperación ante errores y estrategias de optimización del rendimiento.
Uso de la herramienta batch_scrape
Gestión de colas
Recuperación ante errores
Optimización del rendimiento
1. Uso de la herramienta batch_scrape
La herramienta batch_scrape gestiona hasta 50 URL de forma concurrente con limitación de tasa integrada y notificaciones por webhook.
Scraping por lotes básico
1 credit por URL (50 URL = 50 credits)
Bash
Procesamiento asíncrono con webhooks
Ideal para lotes grandes (100+ URL): reciba una notificación cuando finalice
Typescript
2. Gestión de colas
Procese miles de URL dividiéndolas en lotes y gestionando una cola.
Estrategia de división en fragmentos
Divida listas grandes de URL en lotes manejables
Typescript
Consejo profesional: Use Redis o una base de datos para almacenar su cola. Esto le permite reanudar el procesamiento si su script falla o necesita reiniciarse.
3. Recuperación ante errores
Gestione los fallos con elegancia mediante lógica de reintentos y seguimiento de errores.
Gestión robusta de errores
Typescript
4. Optimización del rendimiento
Maximice el rendimiento y minimice los costos con estas estrategias de optimización.
Optimice la concurrencia
Comience con
maxConcurrency: 5 y auméntelo a 10 para los planes Professional/BusinessUse onlyMainContent
Establezca
onlyMainContent: true para reducir el tamaño de la respuesta entre un 60 y un 80%Elija formatos mínimos
Use
formats: ["markdown"] en lugar de varios formatos (html, text, screenshot)Almacene los resultados en caché
Guarde los datos extraídos en Redis o en una base de datos para evitar volver a hacer scraping de las mismas URL
Evite el exceso de lotes
No supere las 50 URL por lote; divídalas en varias solicitudes en su lugar
No ignore los límites de tasa
Respete los límites de tasa de su plan (Free: 5/s, Hobby: 10/s, Pro: 50/s, Business: 100/s)
Rendimiento esperado
| Escenario | Tiempo | Configuración |
|---|---|---|
| Lote pequeño (10 URL) | ~5 segundos | maxConcurrency: 5 |
| Lote mediano (50 URL) | ~15 segundos | maxConcurrency: 10 |
| Lote grande (500 URL) | ~3 minutos | 10 lotes × 50 URL |
| Lote masivo (5,000 URL) | ~30 minutos | 100 lotes × 50 URL |
Próximos pasos
Continúe aprendiendo con más guías avanzadas