上下文窗口
AI / MCP定义
上下文窗口是语言模型在单次请求中能够处理的最大文本量(以 token 计)。它同时包含输入提示词和生成的输出。
与 CrawlForge 的关联
上下文窗口大小决定了 AI 智能体一次能处理多少抓取内容。Claude 的 200K token 上下文窗口大约可容纳 150,000 个单词,而较小的模型可能被限制在 4K-32K token。超出上下文窗口意味着数据会被截断或丢失。
CrawlForge 通过 summarize_content(浓缩长页面)和 extract_text(剥离样板内容)等工具帮助应对上下文窗口约束。对于大规模研究,deep_research 会将多个来源综合为简明摘要,而非将所有原始内容塞入上下文。
相关术语
Token
token 是语言模型处理的基本文本单位。文本在被模型处理前会被切分为 token(每个 token 大约 4 个字符或 0.75 个单词)。token 数量决定了成本和上下文限制。
大语言模型 (LLM)
大语言模型是一种在海量文本数据上训练的神经网络,能够理解并生成人类语言。LLM 为 AI 助手、代码生成器和自主智能体提供动力。
提示词工程
提示词工程是设计和优化给语言模型的指令以获得预期输出的实践。它涉及编写系统提示词、少样本示例和结构化查询。
检索增强生成 (RAG)
RAG 是一种将信息检索与文本生成相结合的 AI 架构。它先从外部来源检索相关文档,再将其作为上下文供语言模型生成准确且有依据的回答。