Продукт · Оцінювання та пісочниця
Де якість агентів вимірюється й проходить контроль перед релізом
Оцінювання — це поверхня, де якість виводу агентів, регресії та дрейф отримують оцінку, і де реліз можна заблокувати ще до його випуску. Фреймворк, оціночні картки та консоль уже існують і під’єднані. Поки що не запущено те, що робить це значущим на реальному трафіку: під’єднане джерело сесій для відбору та впорядковане відтворення сесій у пісочниці. Ми кажемо це прямо, бо це наступний крок, а не завершена заявка.
У продукті
Консоль оцінювання
Справжній знімок екрана, приклад даних. Оціночні картки, регресійні прогони, A/B-тестування промптів і виявлення дрейфу для виводу агентів — а також ізольована пісочниця для порівняння до й після розгортання. Показані дані є засіяними, а не з якоїсь реальної сесії.
Що це робить
Фреймворк для якості агентів
Моніторинг якості виводу, регресійне тестування та ізольована пісочниця — місце, де поведінка агентів оцінюється до й після зміни.
Оціночні картки та моніторинг якості виводу
Оцінюйте вивід агентів за визначеними вами перевірками та спостерігайте за якістю в часі. Фреймворк, оціночні картки та консоль під’єднані; те, що вони вимірюють, стане реальним, щойно буде підключено джерело сесій.
Регресійне тестування та A/B-тестування промптів
Повторно прогоняйте набір тестів проти зміни, щоб виявити регресії ще до релізу, та порівнюйте варіанти промптів A і B на тих самих вхідних даних — щоб зміна оцінювалася за доказами, а не за інтуїцією.
Виявлення дрейфу
Виявляйте, коли вивід агентів із часом дрейфує від очікуваної базової лінії, щоб ерозія якості виявлялася завчасно, а не виявлялась у продакшені.
Ізольована пісочниця
Ізольоване тестове середовище для порівняння до й після розгортання, з відтворенням сесій. Середовище під’єднане; впорядковане відтворення потребує джерела впорядкованої історії — це той пункт із планів, описаний нижче.
Що реальне
Фреймворк і консоль існують; реальний відбір і впорядковане відтворення — наступний крок
Ця поверхня має найбільше «швів» у продукті, тож ми говоримо про неї прямо — чесність тут є особливістю, а не вибаченням:
- Працює: фреймворк оцінювання, оціночні картки, консоль, регресійні прогони, A/B-тестування промптів і виявлення дрейфу побудовані й під’єднані, а пісочниця є ізольованим середовищем для порівняння до й після розгортання.
- У планах, не в роботі: реальний відбір для оцінювання потребує під’єднаного джерела сесій — без нього поки що немає реального відбору, лише фреймворк навколо нього. А відтворення сесій у пісочниці сьогодні обмежене, бо немає джерела впорядкованої історії, з якого можна відтворювати. І те, і те — найближчий етап роботи, а не завершена можливість, і ми не заявляємо про них до випуску.
- Позиція: адаптивна система red-teaming — це після v1. Для v1 ми документуємо позицію з компенсаційними засобами контролю, а не перебільшуємо систему, якої ще немає.
Оцінювання та пісочниця — запитання
Чи можу я запускати оцінювання проти реального трафіку моїх агентів уже сьогодні?
Поки що ні. Фреймворк, оціночні картки та консоль під’єднані й працюють проти засіяних прикладів даних, але реальний відбір для оцінювання потребує під’єднаного джерела сесій — а це джерело сьогодні не підключене. Доки воно не підключене, реального відбору немає, лише фреймворк навколо нього. Підключення цього джерела сесій — найближчий етап роботи, і ми не заявляємо про живий відбір до його випуску.
Чи працює відтворення сесій у пісочниці?
Сьогодні воно обмежене. Відтворення потребує джерела впорядкованої історії, щоб реконструювати сесію в послідовності, а це джерело ще не під’єднане, тож впорядковане відтворення недоступне. Сама пісочниця — ізольоване середовище для порівняння до й після розгортання — існує; впорядковане відтворення у планах разом із джерелом сесій.
Чи є автоматизована система red-teaming?
У v1 немає. Адаптивна система red-teaming — це після v1. Для v1 ми документуємо безпекову позицію з компенсаційними засобами контролю, а не натякаємо на адаптивну систему, яку ще не побудовано.
То що ж насправді придатне до використання просто зараз?
Фреймворк і консоль оцінювання — оціночні картки, регресійні прогони, A/B-тестування промптів і виявлення дрейфу — а також ізольована пісочниця для порівняння до й після розгортання. Щоб діяти на реальному трафіку, їм потрібні під’єднане джерело сесій і впорядковане відтворення — і те, і те у планах. Це місце, де якість агентів і регресії вимірюватимуться й проходитимуть контроль перед релізом; під’єднання живого відбору — наступний крок.
Подивіться, де якість агентів проходить контроль перед релізом
Розгорніть Olivares на власній інфраструктурі та дослідіть фреймворк оцінювання й пісочницю — оціночні картки, регресійне тестування та порівняння до й після розгортання — а реальний відбір сесій і впорядковане відтворення з’являться наступним кроком.