产品 · 评估与沙盒

在此衡量并把关 Agent 质量

评估是对 Agent 输出质量、回归与漂移进行评分的界面——也是在版本发布前对其把关的地方。框架、评分卡与控制台均已存在且已接入。尚未上线的，是让这一切在真实流量上真正生效的部分：用于采样的已接入会话来源，以及沙盒中的有序会话回放。我们在此坦言这一点，因为这是下一步，而非已完成的承诺。

产品内界面

评估控制台

真实截图，示例数据。针对 Agent 输出的评分卡、回归运行、提示词 A/B 与漂移检测——外加一个用于部署前后对比的隔离沙盒。所示数据为预置数据，并非来自任何真实会话。

它能做什么

输出质量监控、回归测试与隔离沙盒——在变更前后对 Agent 行为进行评分的地方。

依据您定义的检查项对 Agent 输出评分，并持续观察质量变化。框架、评分卡与控制台均已接入；一旦连接会话来源，它们所衡量的内容便会真正生效。

针对一次变更重新运行测试套件，在其上线前捕获回归；并在相同输入上对比提示词变体 A 与 B——让变更基于证据而非直觉来判断。

检测 Agent 输出随时间偏离其预期基线的情况，让质量下滑被主动暴露，而非在生产环境中才被发现。

一个用于部署前后对比的隔离测试环境，支持会话回放。该环境已接入；有序回放需要一个有序历史来源，即下文所述的路线图事项。

真实现状

这个界面是产品中接缝最多的部分，因此我们直言不讳——这份坦诚本身就是一项特性，而非一句致歉：

已上线：评估框架、评分卡、控制台、回归运行、提示词 A/B 与漂移检测均已构建并接入，沙盒则是用于部署前后对比的隔离环境。
属路线图，尚未上线：真实评估采样需要一个已接入的会话来源——缺少它便没有真实采样，只有围绕其的框架。沙盒会话回放如今也处于降级状态，因为没有可供回放的有序历史来源。两者都是近期一段工作量的事项，而非已完成的能力，我们不会在其上线前声称已具备。
安全态势：自适应红队引擎属于 v1 之后的版本。对于 v1，我们以补偿性控制措施记录安全态势，而不夸大一个尚未到位的引擎。

我今天能针对自己的真实 Agent 流量运行评估吗？

暂时还不能。框架、评分卡与控制台均已接入，并针对预置示例数据运行，但真实评估采样需要一个已接入的会话来源——而该来源今天尚未连接。在连接之前，没有真实采样，只有围绕其的框架。连接该会话来源是近期一段工作量的事项，我们不会在其上线前声称已支持实时采样。

沙盒中的会话回放可用吗？

今天它处于降级状态。回放需要一个有序历史来源来按顺序重建会话，而该来源尚未接入，因此有序回放暂不可用。沙盒本身——用于部署前后对比的隔离环境——已经存在；有序回放与会话来源一同列在路线图中。

是否有自动化红队引擎？

v1 中没有。自适应红队引擎属于 v1 之后的版本。对于 v1，我们以补偿性控制措施记录安全态势，而不暗示一个尚未构建的自适应引擎。

那么眼下究竟有哪些是真正可用的？

评估框架与控制台——评分卡、回归运行、提示词 A/B 与漂移检测——外加用于部署前后对比的隔离沙盒。它们要作用于真实流量所缺的，是已接入的会话来源与有序回放，二者均属路线图。这里就是未来衡量并把关 Agent 质量与回归的地方；实时采样的接入是下一步。

在您自己的基础设施上部署 Olivares，探索评估框架与沙盒——评分卡、回归测试与部署前后对比——真实会话采样与有序回放将作为下一步陆续到来。