본문으로 건너뛰기

제품 · 평가 및 샌드박스

에이전트 품질을 측정하고 게이팅하는

평가(Evals)는 에이전트 출력 품질, 회귀, 드리프트를 채점하고, 배포 전에 릴리스를 게이팅할 수 있는 영역입니다. 프레임워크, 스코어카드, 콘솔은 이미 존재하며 연결되어 있습니다. 아직 라이브가 아닌 부분은 실제 트래픽에서 이를 유의미하게 만드는 요소, 즉 샘플링을 위해 연결된 세션 소스와 샌드박스에서의 순서 기반 세션 리플레이입니다. 이것은 완료된 주장이 아니라 다음 단계이기에, 여기서 솔직하게 밝힙니다.

제품 내부

평가 콘솔

실제 스크린샷이며, 데이터는 예시입니다. 에이전트 출력에 대한 스코어카드, 회귀 실행, 프롬프트 A/B, 드리프트 감지에 더해, 배포 전후 비교를 위한 격리된 샌드박스를 제공합니다. 표시된 데이터는 시드 데이터이며, 실제 세션에서 가져온 것이 아닙니다.

실제 스크린샷
Olivares 평가 콘솔: 에이전트 출력 품질 스코어카드, 회귀 테스트 실행, 프롬프트 A/B 비교, 드리프트 감지와 함께 배포 전후 비교 및 세션 리플레이를 위한 격리된 샌드박스 패널 — 예시 데이터로 채워져 있습니다.

기능 개요

에이전트 품질을 위한 프레임워크

출력 품질 모니터링, 회귀 테스트, 격리된 샌드박스 — 변경 전후로 에이전트 동작을 채점하는 공간입니다.

스코어카드 및 출력 품질 모니터링

직접 정의한 검사 기준에 따라 에이전트 출력을 채점하고 시간 경과에 따른 품질을 관찰합니다. 프레임워크, 스코어카드, 콘솔은 연결되어 있으며, 세션 소스가 연결되면 측정되는 내용이 실제 데이터에 반영되기 시작합니다.

회귀 테스트 및 프롬프트 A/B

변경 사항에 대해 테스트 스위트를 재실행하여 배포 전에 회귀를 포착하고, 동일한 입력에서 프롬프트 변형 A와 B를 비교합니다 — 변경을 직관이 아닌 근거로 판단하기 위함입니다.

드리프트 감지

에이전트 출력이 시간 경과에 따라 예상 기준선에서 벗어나는 시점을 감지하여, 품질 저하를 프로덕션에서 발견하는 대신 사전에 드러냅니다.

격리된 샌드박스

세션 리플레이를 지원하는, 배포 전후 비교를 위한 격리된 테스트 환경입니다. 환경 자체는 연결되어 있으나, 순서 기반 리플레이에는 순서가 있는 히스토리 소스가 필요하며, 이는 아래에 설명된 로드맵 항목입니다.

실제로 구현된 것

프레임워크와 콘솔은 존재하며, 실제 샘플링과 순서 기반 리플레이가 다음 단계입니다

이 영역은 제품에서 가장 이음새가 많은 부분이므로, 솔직하게 말씀드립니다 — 이 정직함은 변명이 아니라 하나의 기능입니다:

  • 라이브: 평가 프레임워크, 스코어카드, 콘솔, 회귀 실행, 프롬프트 A/B, 드리프트 감지가 구축되어 연결되어 있으며, 샌드박스는 배포 전후 비교를 위한 격리된 환경입니다.
  • 로드맵(라이브 아님): 실제 평가 샘플링에는 연결된 세션 소스가 필요하며, 이것이 없으면 아직 실제 샘플링은 없고 이를 둘러싼 프레임워크만 존재합니다. 또한 샌드박스 세션 리플레이는 리플레이할 순서 기반 히스토리 소스가 없어 현재 제한된 상태입니다. 두 가지 모두 단기간 내에 진행할 작업이지 완성된 기능이 아니며, 출시 전에는 이를 주장하지 않습니다.
  • 보안 태세: 적응형 레드티밍 엔진은 v1 이후 단계입니다. v1에서는 아직 존재하지 않는 엔진을 과장하기보다, 보완 통제를 통해 보안 태세를 문서화합니다.

평가 및 샌드박스 — 자주 묻는 질문

현재 실제 에이전트 트래픽에 대해 평가를 실행할 수 있나요?

아직 불가능합니다. 프레임워크, 스코어카드, 콘솔은 연결되어 있으며 시드 예시 데이터에 대해 실행되지만, 실제 평가 샘플링에는 연결된 세션 소스가 필요하며 그 소스는 현재 연결되어 있지 않습니다. 연결되기 전까지는 실제 샘플링은 없고 이를 둘러싼 프레임워크만 존재합니다. 해당 세션 소스 연결은 단기간 내에 진행할 작업이며, 출시 전에는 라이브 샘플링을 주장하지 않습니다.

샌드박스에서 세션 리플레이가 작동하나요?

현재는 제한된 상태입니다. 리플레이는 세션을 순서대로 재구성할 순서 기반 히스토리 소스가 필요하지만, 그 소스가 아직 연결되어 있지 않아 순서 기반 리플레이를 사용할 수 없습니다. 배포 전후 비교를 위한 격리된 환경인 샌드박스 자체는 존재하며, 순서 기반 리플레이는 세션 소스와 함께 로드맵에 포함되어 있습니다.

자동화된 레드티밍 엔진이 있나요?

v1에는 없습니다. 적응형 레드티밍 엔진은 v1 이후 단계입니다. v1에서는 아직 구축되지 않은 적응형 엔진을 암시하기보다, 보완 통제를 통해 보안 태세를 문서화합니다.

그렇다면 지금 실제로 사용할 수 있는 것은 무엇인가요?

평가 프레임워크와 콘솔 — 스코어카드, 회귀 실행, 프롬프트 A/B, 드리프트 감지 — 그리고 배포 전후 비교를 위한 격리된 샌드박스입니다. 실제 트래픽에 작용하기 위해 필요한 것은 연결된 세션 소스와 순서 기반 리플레이이며, 둘 다 로드맵 단계입니다. 이곳은 에이전트 품질과 회귀를 측정하고 게이팅할 공간이며, 라이브 샘플링 연결이 다음 단계입니다.

에이전트 품질이 게이팅되는 곳을 확인하세요

Olivares를 자체 인프라에 배포하고 평가 프레임워크와 샌드박스 — 스코어카드, 회귀 테스트, 배포 전후 비교 — 를 살펴보세요. 실제 세션 샘플링과 순서 기반 리플레이는 다음 단계로 제공될 예정입니다.