CrawlForge
LangChain

LangChain 集成

将 CrawlForge MCP 与 LangChain 集成,构建具备网页抓取能力的强大 AI 智能体。可用作文档加载器、工具或自定义检索链。

使用场景

文档加载器
将网页作为文档加载,用于向量存储和 RAG 应用
AI 智能体
为智能体提供网页抓取工具,以获取实时数据
检索链
构建可抓取并处理网页内容的自定义链
研究流水线
使用 deep_research 工具创建自动化研究工作流

安装

安装 LangChain 和 CrawlForge MCP 适配器。

Bash
你还需要一个来自控制台的 CrawlForge API 密钥。

文档加载器

将 CrawlForge 用作文档加载器,为 RAG 应用抓取网页。

Typescript
最佳实践: 干净内容用 extract_text,文章提取用 extract_content。

带向量存储的 RAG 流水线

使用 CrawlForge 文档加载器和向量存储构建完整的 RAG 流水线。

Typescript

智能体工具

使用 CrawlForge 工具为 LangChain 智能体提供网页抓取能力。

Typescript
智能体提示: 使用具描述性的工具名称和说明,帮助 LLM 选择正确的工具。设置 verbose=true 可查看智能体的推理过程。

自定义检索链

构建一个可搜索、抓取并总结网页内容的自定义链。

Typescript

最佳实践

  • 选择合适的工具 — 简单内容用 extract_text(1 credit),全面分析用 deep_research(10 credits)
  • 实现缓存 — 缓存已抓取的文档,避免重复的 API 调用并节省 credits
  • 处理速率限制 — 为生产应用实现带指数退避的重试逻辑
  • 监控 credits 用量 — 检查文档元数据中的 credit 用量,并在你的控制台中设置告警
准备好用 LangChain 构建了吗?
探索全部 23 个 CrawlForge 工具,或查看其他集成。
查看全部工具LlamaIndex 集成