Продукт · Оцінювання та пісочниця

Де якість агентів вимірюється й проходить контроль перед релізом

Оцінювання — це поверхня, де якість виводу агентів, регресії та дрейф отримують оцінку, і де реліз можна заблокувати ще до його випуску. Фреймворк, оціночні картки та консоль уже існують і під’єднані. Поки що не запущено те, що робить це значущим на реальному трафіку: під’єднане джерело сесій для відбору та впорядковане відтворення сесій у пісочниці. Ми кажемо це прямо, бо це наступний крок, а не завершена заявка.

Переглянути репозиторій Що працює вже сьогодні

У продукті

Консоль оцінювання

Справжній знімок екрана, приклад даних. Оціночні картки, регресійні прогони, A/B-тестування промптів і виявлення дрейфу для виводу агентів — а також ізольована пісочниця для порівняння до й після розгортання. Показані дані є засіяними, а не з якоїсь реальної сесії.

Що це робить

Фреймворк для якості агентів

Моніторинг якості виводу, регресійне тестування та ізольована пісочниця — місце, де поведінка агентів оцінюється до й після зміни.

Оціночні картки та моніторинг якості виводу

Оцінюйте вивід агентів за визначеними вами перевірками та спостерігайте за якістю в часі. Фреймворк, оціночні картки та консоль під’єднані; те, що вони вимірюють, стане реальним, щойно буде підключено джерело сесій.

Регресійне тестування та A/B-тестування промптів

Повторно прогоняйте набір тестів проти зміни, щоб виявити регресії ще до релізу, та порівнюйте варіанти промптів A і B на тих самих вхідних даних — щоб зміна оцінювалася за доказами, а не за інтуїцією.

Виявлення дрейфу

Виявляйте, коли вивід агентів із часом дрейфує від очікуваної базової лінії, щоб ерозія якості виявлялася завчасно, а не виявлялась у продакшені.

Ізольована пісочниця

Ізольоване тестове середовище для порівняння до й після розгортання, з відтворенням сесій. Середовище під’єднане; впорядковане відтворення потребує джерела впорядкованої історії — це той пункт із планів, описаний нижче.

Що реальне

Фреймворк і консоль існують; реальний відбір і впорядковане відтворення — наступний крок

Ця поверхня має найбільше «швів» у продукті, тож ми говоримо про неї прямо — чесність тут є особливістю, а не вибаченням:

Працює: фреймворк оцінювання, оціночні картки, консоль, регресійні прогони, A/B-тестування промптів і виявлення дрейфу побудовані й під’єднані, а пісочниця є ізольованим середовищем для порівняння до й після розгортання.
У планах, не в роботі: реальний відбір для оцінювання потребує під’єднаного джерела сесій — без нього поки що немає реального відбору, лише фреймворк навколо нього. А відтворення сесій у пісочниці сьогодні обмежене, бо немає джерела впорядкованої історії, з якого можна відтворювати. І те, і те — найближчий етап роботи, а не завершена можливість, і ми не заявляємо про них до випуску.
Позиція: адаптивна система red-teaming — це після v1. Для v1 ми документуємо позицію з компенсаційними засобами контролю, а не перебільшуємо систему, якої ще немає.

Оцінювання та пісочниця — запитання

Чи можу я запускати оцінювання проти реального трафіку моїх агентів уже сьогодні?

Поки що ні. Фреймворк, оціночні картки та консоль під’єднані й працюють проти засіяних прикладів даних, але реальний відбір для оцінювання потребує під’єднаного джерела сесій — а це джерело сьогодні не підключене. Доки воно не підключене, реального відбору немає, лише фреймворк навколо нього. Підключення цього джерела сесій — найближчий етап роботи, і ми не заявляємо про живий відбір до його випуску.

Чи працює відтворення сесій у пісочниці?

Сьогодні воно обмежене. Відтворення потребує джерела впорядкованої історії, щоб реконструювати сесію в послідовності, а це джерело ще не під’єднане, тож впорядковане відтворення недоступне. Сама пісочниця — ізольоване середовище для порівняння до й після розгортання — існує; впорядковане відтворення у планах разом із джерелом сесій.

Чи є автоматизована система red-teaming?

У v1 немає. Адаптивна система red-teaming — це після v1. Для v1 ми документуємо безпекову позицію з компенсаційними засобами контролю, а не натякаємо на адаптивну систему, яку ще не побудовано.

То що ж насправді придатне до використання просто зараз?

Фреймворк і консоль оцінювання — оціночні картки, регресійні прогони, A/B-тестування промптів і виявлення дрейфу — а також ізольована пісочниця для порівняння до й після розгортання. Щоб діяти на реальному трафіку, їм потрібні під’єднане джерело сесій і впорядковане відтворення — і те, і те у планах. Це місце, де якість агентів і регресії вимірюватимуться й проходитимуть контроль перед релізом; під’єднання живого відбору — наступний крок.

Подивіться, де якість агентів проходить контроль перед релізом

Розгорніть Olivares на власній інфраструктурі та дослідіть фреймворк оцінювання й пісочницю — оціночні картки, регресійне тестування та порівняння до й після розгортання — а реальний відбір сесій і впорядковане відтворення з’являться наступним кроком.

Переглянути репозиторій Подивитися карту доступу