Recopilación de datos de entrenamiento para IA
Recopila y estructura conjuntos de datos web a gran escala para el ajuste fino y el entrenamiento de modelos de IA.
El problema
Entrenar y ajustar modelos de IA requiere conjuntos de datos grandes y limpios provenientes de diversas fuentes web. Recopilar estos datos manualmente es poco práctico, y el HTML sin procesar es demasiado ruidoso para el entrenamiento de modelos.
La solución
batch_scrape de CrawlForge procesa cientos de URL en paralelo para escalar, mientras que extract_content devuelve texto limpio y estructurado listo para los pipelines de entrenamiento. Crea conjuntos de datos a partir de cualquier fuente web.
Ejemplo de código
// Collect training data from documentation sites
const batch = await mcp.batch_scrape({
urls: [
"https://docs.example.com/guide/intro",
"https://docs.example.com/guide/setup",
"https://docs.example.com/guide/advanced",
// ... hundreds more URLs
],
format: "markdown",
});
// Extract clean content for each page
const dataset = await Promise.all(
batch.results.map(page =>
mcp.extract_content({
url: page.url,
format: "text",
remove_navigation: true,
})
)
);
console.log(`Collected ${dataset.length} documents`);Herramientas utilizadas
batch_scrape5 credits
extract_content2 credits
Costo estimado: ~7 credits por documento
¿Listo para comenzar?
Cada cuenta nueva recibe 1,000 credits gratis. No se requiere tarjeta de crédito.
Comienza gratis con 1,000 creditsCasos de uso relacionados
Pipelines de datos para agentes de IA
Alimenta tus agentes de IA con datos web en vivo mediante extracción estructurada e investigación multifuente.
deep_research (10 cr)extract_content (2 cr)
Migración de contenido
Extrae y reestructura contenido de sitios heredados para migrarlo a plataformas modernas.
crawl_deep (5 cr)extract_text (1 cr)