跳至正文

产品 · 评估与沙盒

在此衡量并把关 Agent 质量

评估是对 Agent 输出质量、回归与漂移进行评分的界面——也是在版本发布前对其把关的地方。框架、评分卡与控制台均已存在且已接入。尚未上线的,是让这一切在真实流量上真正生效的部分:用于采样的已接入会话来源,以及沙盒中的有序会话回放。我们在此坦言这一点,因为这是下一步,而非已完成的承诺。

产品内界面

评估控制台

真实截图,示例数据。针对 Agent 输出的评分卡、回归运行、提示词 A/B 与漂移检测——外加一个用于部署前后对比的隔离沙盒。所示数据为预置数据,并非来自任何真实会话。

真实截图
Olivares 评估控制台:针对 Agent 输出质量的评分卡、回归测试运行、提示词 A/B 对比与漂移检测,旁边是用于部署前后对比与会话回放的隔离沙盒面板——均以示例数据填充。

它能做什么

一套 Agent 质量框架

输出质量监控、回归测试与隔离沙盒——在变更前后对 Agent 行为进行评分的地方。

评分卡与输出质量监控

依据您定义的检查项对 Agent 输出评分,并持续观察质量变化。框架、评分卡与控制台均已接入;一旦连接会话来源,它们所衡量的内容便会真正生效。

回归测试与提示词 A/B

针对一次变更重新运行测试套件,在其上线前捕获回归;并在相同输入上对比提示词变体 A 与 B——让变更基于证据而非直觉来判断。

漂移检测

检测 Agent 输出随时间偏离其预期基线的情况,让质量下滑被主动暴露,而非在生产环境中才被发现。

隔离沙盒

一个用于部署前后对比的隔离测试环境,支持会话回放。该环境已接入;有序回放需要一个有序历史来源,即下文所述的路线图事项。

真实现状

框架与控制台已存在;真实采样与有序回放是下一步

这个界面是产品中接缝最多的部分,因此我们直言不讳——这份坦诚本身就是一项特性,而非一句致歉:

  • 已上线:评估框架、评分卡、控制台、回归运行、提示词 A/B 与漂移检测均已构建并接入,沙盒则是用于部署前后对比的隔离环境。
  • 属路线图,尚未上线:真实评估采样需要一个已接入的会话来源——缺少它便没有真实采样,只有围绕其的框架。沙盒会话回放如今也处于降级状态,因为没有可供回放的有序历史来源。两者都是近期一段工作量的事项,而非已完成的能力,我们不会在其上线前声称已具备。
  • 安全态势:自适应红队引擎属于 v1 之后的版本。对于 v1,我们以补偿性控制措施记录安全态势,而不夸大一个尚未到位的引擎。

评估与沙盒——常见问题

我今天能针对自己的真实 Agent 流量运行评估吗?

暂时还不能。框架、评分卡与控制台均已接入,并针对预置示例数据运行,但真实评估采样需要一个已接入的会话来源——而该来源今天尚未连接。在连接之前,没有真实采样,只有围绕其的框架。连接该会话来源是近期一段工作量的事项,我们不会在其上线前声称已支持实时采样。

沙盒中的会话回放可用吗?

今天它处于降级状态。回放需要一个有序历史来源来按顺序重建会话,而该来源尚未接入,因此有序回放暂不可用。沙盒本身——用于部署前后对比的隔离环境——已经存在;有序回放与会话来源一同列在路线图中。

是否有自动化红队引擎?

v1 中没有。自适应红队引擎属于 v1 之后的版本。对于 v1,我们以补偿性控制措施记录安全态势,而不暗示一个尚未构建的自适应引擎。

那么眼下究竟有哪些是真正可用的?

评估框架与控制台——评分卡、回归运行、提示词 A/B 与漂移检测——外加用于部署前后对比的隔离沙盒。它们要作用于真实流量所缺的,是已接入的会话来源与有序回放,二者均属路线图。这里就是未来衡量并把关 Agent 质量与回归的地方;实时采样的接入是下一步。

看看 Agent 质量在哪里被把关

在您自己的基础设施上部署 Olivares,探索评估框架与沙盒——评分卡、回归测试与部署前后对比——真实会话采样与有序回放将作为下一步陆续到来。