Token
AI / MCP定义
token 是语言模型处理的基本文本单位。文本在被模型处理前会被切分为 token(每个 token 大约 4 个字符或 0.75 个单词)。token 数量决定了成本和上下文限制。
与 CrawlForge 的关联
在将 CrawlForge 与 AI 智能体配合使用时,理解 token 很重要,因为抓取到的内容会占用上下文窗口空间。一个很长的网页可能产生数千个 token,有可能填满智能体的上下文并增加 API 成本。
CrawlForge 的 extract_text 和 summarize_content 等工具有助于管理 token 用量。extract_text 只返回不含样板内容的正文,而 summarize_content 会将长页面浓缩为简明摘要,从而减少发送给 LLM 的 token 占用。