做一个能上线的 AI 功能，需要哪些模块？（从 RAG 到工具调用到观测）

面向：开发者 / 技术负责人

关键词：RAG、Tool Use、评测、可观测性、成本、灰度

TL;DR

很多团队的第一步是做一个聊天窗口：用户提问→模型回答。

但“能上线”的 AI 功能通常有更明确的交付：

所以第一件事不是选模型，而是写清楚两句话：

没有验收标准，就没有工程迭代；没有失败定义，就没有安全边界。

你可以把一个 AI 功能拆成 9 层，每一层都能单独迭代：

落地时不要“全都做完再上线”。正确姿势是：先用最薄的版本跑通链路，再逐层补齐短板。

RAG 的本质是：把模型不知道的内容，变成它在回答/决策前可读取的上下文。

但很多失败并不是检索算法，而是数据本身：过期、权限混乱、不可追溯来源。建议至少做到知识源分级、每条数据带来源/更新时间/owner、权限可映射。

一个上线可用的 RAG，至少包含：召回、过滤、重排、截断。关键指标：命中率（答案是否在 TopK）与上下文成本（token 预算）。

建议输出契约优先（JSON schema/枚举/表格），解析失败要可恢复（重试→降级人工）。

建议：读写分离、参数约束、幂等键、审计日志。写操作必须确认。

提示注入、数据泄露、越权动作。最小方案：工具白名单+细粒度权限+高风险动作确认；对检索内容做引用标注；对输出做敏感信息检测。

你需要任务集、回放、指标（成功率/人工介入率/成本/P95 延迟），并记录失败原因标签，才能精确补短板。

最低配：每次请求一条 trace，记录版本、检索命中、工具调用、结果标签与原因。

阶段 0 定义验收；阶段 1 先跑通 Workflow；阶段 2 LLM 只做理解与生成并契约化输出；阶段 3 受控 Tool Use；阶段 4 持续补齐评测与观测。

AI 功能的核心竞争力，往往不是“模型更大”，而是你如何定义验收、把不确定性关进笼子，并让系统可控、可观测、可迭代。

把这 9 层搭起来，你的 AI 才有资格叫“上线”。