Продукт · Evals и песочница
Где измеряется и контролируется качество агентов
Evals — это поверхность, где оцениваются качество вывода агентов, регрессии и дрейф, и где релиз может быть заблокирован до выхода. Фреймворк, оценочные карты и консоль существуют и подключены. Пока не работает та часть, благодаря которой всё это начинает учитываться на реальном трафике: подключённый источник сессий для выборки и упорядоченное воспроизведение сессий в песочнице. Мы говорим об этом прямо, потому что это следующий шаг, а не завершённое утверждение.
В продукте
Консоль evals
Подлинный снимок экрана, данные примеров. Оценочные карты, прогоны регрессий, A/B-сравнение промптов и обнаружение дрейфа вывода агентов — плюс изолированная песочница для сравнения до и после развёртывания. Показанные данные — это примеры, сгенерированные для демонстрации, они не взяты из реальной сессии.
Что это даёт
Фреймворк для качества агентов
Мониторинг качества вывода, регрессионное тестирование и изолированная песочница — место, где поведение агента оценивается до и после изменения.
Оценочные карты и мониторинг качества вывода
Оценивайте вывод агента по заданным вами проверкам и наблюдайте за качеством во времени. Фреймворк, оценочные карты и консоль подключены; то, что они измеряют, станет реальным, как только будет подключён источник сессий.
Регрессионное тестирование и A/B-сравнение промптов
Перезапускайте набор тестов на изменении, чтобы поймать регрессии до выхода релиза, и сравнивайте варианты промптов A и B на одних и тех же входных данных — так изменение оценивается по фактам, а не по интуиции.
Обнаружение дрейфа
Определяйте, когда вывод агента со временем отклоняется от ожидаемого базового уровня, чтобы деградация качества выявлялась, а не обнаруживалась уже в продакшене.
Изолированная песочница
Изолированная тестовая среда для сравнения до и после развёртывания, с воспроизведением сессий. Среда подключена; упорядоченное воспроизведение требует источника упорядоченной истории — это пункт дорожной карты, описанный ниже.
Что реально
Фреймворк и консоль существуют; реальная выборка и упорядоченное воспроизведение — следующий шаг
Эта поверхность — самая «швовая» в продукте, поэтому мы говорим о ней без обиняков: честность здесь и есть функция, а не оправдание:
- Работает: фреймворк evals, оценочные карты, консоль, прогоны регрессий, A/B-сравнение промптов и обнаружение дрейфа созданы и подключены, а песочница — это изолированная среда для сравнения до и после развёртывания.
- В планах, пока не работает: реальная выборка для evals требует подключённого источника сессий — без него настоящей выборки ещё нет, есть только фреймворк вокруг неё. И воспроизведение сессий в песочнице сегодня ограничено, потому что нет источника упорядоченной истории, из которого можно воспроизводить. И то и другое — работа на ближайшую перспективу, а не завершённая возможность, и мы не заявляем об этом до выхода.
- Безопасность: движок адаптивного red-teaming появится после v1. Для v1 мы описываем позицию по безопасности с компенсирующими мерами контроля, а не преувеличиваем возможности движка, которого пока нет.
Evals и песочница — вопросы
Можно ли сегодня запускать evals на реальном трафике моего агента?
Пока нет. Фреймворк, оценочные карты и консоль подключены и работают на примерах, сгенерированных для демонстрации, но реальная выборка для evals требует подключённого источника сессий — а этот источник сегодня не подключён. Пока он не подключён, настоящей выборки нет, есть только фреймворк вокруг неё. Подключение этого источника сессий — работа на ближайшую перспективу, и мы не заявляем о работающей выборке до её выхода.
Работает ли воспроизведение сессий в песочнице?
Сегодня оно ограничено. Для воспроизведения нужен источник упорядоченной истории, чтобы восстановить сессию по порядку, а этот источник пока не подключён, поэтому упорядоченное воспроизведение недоступно. Сама песочница — изолированная среда для сравнения до и после развёртывания — существует; упорядоченное воспроизведение в дорожной карте вместе с источником сессий.
Есть ли автоматизированный движок red-teaming?
В v1 нет. Движок адаптивного red-teaming появится после v1. Для v1 мы описываем подход к безопасности с компенсирующими мерами контроля, а не заявляем о наличии адаптивного движка, который ещё не создан.
Так что же реально можно использовать прямо сейчас?
Фреймворк evals и консоль — оценочные карты, прогоны регрессий, A/B-сравнение промптов и обнаружение дрейфа — плюс изолированную песочницу для сравнения до и после развёртывания. Чтобы они действовали на реальном трафике, нужны подключённый источник сессий и упорядоченное воспроизведение — и то и другое в планах. Это место, где будут измеряться и контролироваться качество агентов и регрессии; подключение работающей выборки — следующий шаг.
Посмотрите, где контролируется качество агентов
Разверните Olivares на собственной инфраструктуре и изучите фреймворк evals и песочницу — оценочные карты, регрессионное тестирование и сравнение до и после развёртывания — а реальная выборка сессий и упорядоченное воспроизведение появятся следующим шагом.