Перейти к содержимому

Продукт · Evals и песочница

Где измеряется и контролируется качество агентов

Evals — это поверхность, где оцениваются качество вывода агентов, регрессии и дрейф, и где релиз может быть заблокирован до выхода. Фреймворк, оценочные карты и консоль существуют и подключены. Пока не работает та часть, благодаря которой всё это начинает учитываться на реальном трафике: подключённый источник сессий для выборки и упорядоченное воспроизведение сессий в песочнице. Мы говорим об этом прямо, потому что это следующий шаг, а не завершённое утверждение.

В продукте

Консоль evals

Подлинный снимок экрана, данные примеров. Оценочные карты, прогоны регрессий, A/B-сравнение промптов и обнаружение дрейфа вывода агентов — плюс изолированная песочница для сравнения до и после развёртывания. Показанные данные — это примеры, сгенерированные для демонстрации, они не взяты из реальной сессии.

Реальный скриншот
Консоль evals Olivares: оценочные карты качества вывода агентов, прогоны регрессионных тестов, A/B-сравнение промптов и обнаружение дрейфа, рядом с панелью изолированной песочницы для сравнения до и после развёртывания и воспроизведения сессий — заполнена примерами данных.

Что это даёт

Фреймворк для качества агентов

Мониторинг качества вывода, регрессионное тестирование и изолированная песочница — место, где поведение агента оценивается до и после изменения.

Оценочные карты и мониторинг качества вывода

Оценивайте вывод агента по заданным вами проверкам и наблюдайте за качеством во времени. Фреймворк, оценочные карты и консоль подключены; то, что они измеряют, станет реальным, как только будет подключён источник сессий.

Регрессионное тестирование и A/B-сравнение промптов

Перезапускайте набор тестов на изменении, чтобы поймать регрессии до выхода релиза, и сравнивайте варианты промптов A и B на одних и тех же входных данных — так изменение оценивается по фактам, а не по интуиции.

Обнаружение дрейфа

Определяйте, когда вывод агента со временем отклоняется от ожидаемого базового уровня, чтобы деградация качества выявлялась, а не обнаруживалась уже в продакшене.

Изолированная песочница

Изолированная тестовая среда для сравнения до и после развёртывания, с воспроизведением сессий. Среда подключена; упорядоченное воспроизведение требует источника упорядоченной истории — это пункт дорожной карты, описанный ниже.

Что реально

Фреймворк и консоль существуют; реальная выборка и упорядоченное воспроизведение — следующий шаг

Эта поверхность — самая «швовая» в продукте, поэтому мы говорим о ней без обиняков: честность здесь и есть функция, а не оправдание:

  • Работает: фреймворк evals, оценочные карты, консоль, прогоны регрессий, A/B-сравнение промптов и обнаружение дрейфа созданы и подключены, а песочница — это изолированная среда для сравнения до и после развёртывания.
  • В планах, пока не работает: реальная выборка для evals требует подключённого источника сессий — без него настоящей выборки ещё нет, есть только фреймворк вокруг неё. И воспроизведение сессий в песочнице сегодня ограничено, потому что нет источника упорядоченной истории, из которого можно воспроизводить. И то и другое — работа на ближайшую перспективу, а не завершённая возможность, и мы не заявляем об этом до выхода.
  • Безопасность: движок адаптивного red-teaming появится после v1. Для v1 мы описываем позицию по безопасности с компенсирующими мерами контроля, а не преувеличиваем возможности движка, которого пока нет.

Evals и песочница — вопросы

Можно ли сегодня запускать evals на реальном трафике моего агента?

Пока нет. Фреймворк, оценочные карты и консоль подключены и работают на примерах, сгенерированных для демонстрации, но реальная выборка для evals требует подключённого источника сессий — а этот источник сегодня не подключён. Пока он не подключён, настоящей выборки нет, есть только фреймворк вокруг неё. Подключение этого источника сессий — работа на ближайшую перспективу, и мы не заявляем о работающей выборке до её выхода.

Работает ли воспроизведение сессий в песочнице?

Сегодня оно ограничено. Для воспроизведения нужен источник упорядоченной истории, чтобы восстановить сессию по порядку, а этот источник пока не подключён, поэтому упорядоченное воспроизведение недоступно. Сама песочница — изолированная среда для сравнения до и после развёртывания — существует; упорядоченное воспроизведение в дорожной карте вместе с источником сессий.

Есть ли автоматизированный движок red-teaming?

В v1 нет. Движок адаптивного red-teaming появится после v1. Для v1 мы описываем подход к безопасности с компенсирующими мерами контроля, а не заявляем о наличии адаптивного движка, который ещё не создан.

Так что же реально можно использовать прямо сейчас?

Фреймворк evals и консоль — оценочные карты, прогоны регрессий, A/B-сравнение промптов и обнаружение дрейфа — плюс изолированную песочницу для сравнения до и после развёртывания. Чтобы они действовали на реальном трафике, нужны подключённый источник сессий и упорядоченное воспроизведение — и то и другое в планах. Это место, где будут измеряться и контролироваться качество агентов и регрессии; подключение работающей выборки — следующий шаг.

Посмотрите, где контролируется качество агентов

Разверните Olivares на собственной инфраструктуре и изучите фреймворк evals и песочницу — оценочные карты, регрессионное тестирование и сравнение до и после развёртывания — а реальная выборка сессий и упорядоченное воспроизведение появятся следующим шагом.