AI 训练数据采集
采集并结构化大规模网页数据集,用于微调和训练 AI 模型。
面临的问题
训练和微调 AI 模型需要来自多样网络来源的大规模、干净的数据集。手动采集这些数据并不现实,而原始 HTML 噪声过多,不适合用于模型训练。
解决方案
CrawlForge 的 batch_scrape 并行处理数百个 URL 以实现规模化,extract_content 则返回干净、结构化的文本,可直接用于训练管道。从任何网络来源构建数据集。
代码示例
// Collect training data from documentation sites
const batch = await mcp.batch_scrape({
urls: [
"https://docs.example.com/guide/intro",
"https://docs.example.com/guide/setup",
"https://docs.example.com/guide/advanced",
// ... hundreds more URLs
],
format: "markdown",
});
// Extract clean content for each page
const dataset = await Promise.all(
batch.results.map(page =>
mcp.extract_content({
url: page.url,
format: "text",
remove_navigation: true,
})
)
);
console.log(`Collected ${dataset.length} documents`);使用的工具
batch_scrape5 credits
extract_content2 credits
预估费用:每篇文档约 7 credits