Produkt · Ewaluacje i piaskownica

Tu jakość agentów jest mierzona i bramkowana

Ewaluacje to powierzchnia, na której jakość, regresje i dryf wyników agentów są oceniane — i na której wydanie można zbramkować, zanim trafi na produkcję. Framework, karty wyników i konsola istnieją oraz są podłączone. Tym, czego jeszcze nie ma na żywo, jest część, która sprawia, że ma to znaczenie na rzeczywistym ruchu: podłączone źródło sesji do próbkowania oraz uporządkowane odtwarzanie sesji w piaskownicy. Mówimy o tym wprost, ponieważ jest to następny krok, a nie zamknięta deklaracja.

Zobacz repozytorium Co jest realne dzisiaj

W produkcie

Konsola ewaluacji

Autentyczny zrzut ekranu, dane przykładowe. Karty wyników, przebiegi regresyjne, testy A/B promptów i wykrywanie dryfu wyników agentów — wraz z izolowaną piaskownicą do porównania przed i po wdrożeniu. Prezentowane dane zostały wstępnie wygenerowane, nie pochodzą z żadnej rzeczywistej sesji.

Co robi

Framework dla jakości agentów

Monitorowanie jakości wyników, testy regresyjne i izolowana piaskownica — miejsce, w którym zachowanie agenta jest oceniane przed zmianą i po niej.

Karty wyników i monitorowanie jakości wyników

Oceniaj wyniki agenta względem zdefiniowanych przez Ciebie kontroli i obserwuj jakość w czasie. Framework, karty wyników i konsola są podłączone; to, co mierzą, staje się realne po podłączeniu źródła sesji.

Testy regresyjne i A/B promptów

Uruchom ponownie zestaw testów względem zmiany, aby wychwycić regresje, zanim trafią na produkcję, i porównaj warianty promptów A i B na tych samych danych wejściowych — tak aby zmiana była oceniana na podstawie dowodów, a nie intuicji.

Wykrywanie dryfu

Wykrywaj, kiedy wyniki agenta odchodzą od oczekiwanej wartości bazowej w czasie, tak aby erozja jakości była ujawniana, a nie odkrywana na produkcji.

Izolowana piaskownica

Izolowane środowisko testowe do porównania przed i po wdrożeniu, z odtwarzaniem sesji. Środowisko jest podłączone; uporządkowane odtwarzanie wymaga źródła uporządkowanej historii, co jest pozycją na mapie drogowej opisaną poniżej.

Co jest realne

Framework i konsola istnieją; rzeczywiste próbkowanie i uporządkowane odtwarzanie to następny krok

Ta powierzchnia jest najbardziej naszpikowana szwami w całym produkcie, dlatego mówimy o tym bez ogródek — szczerość jest funkcją, a nie przeprosinami:

Na żywo: framework ewaluacji, karty wyników, konsola, przebiegi regresyjne, testy A/B promptów i wykrywanie dryfu są zbudowane i podłączone, a piaskownica jest izolowanym środowiskiem do porównania przed i po wdrożeniu.
Na mapie drogowej, nie na żywo: rzeczywiste próbkowanie ewaluacji wymaga podłączonego źródła sesji — bez niego nie ma jeszcze rzeczywistego próbkowania, jedynie framework wokół niego. A odtwarzanie sesji w piaskownicy jest dziś pogorszone, ponieważ nie ma źródła uporządkowanej historii, z którego można by odtwarzać. Oba elementy to praca rozłożona na najbliższy okres, a nie ukończona funkcja, i nie deklarujemy ich, zanim trafią na produkcję.
Postawa: adaptacyjny silnik red-teamingu jest planowany po wersji v1. W wersji v1 dokumentujemy postawę za pomocą kontroli kompensujących, zamiast przeceniać silnik, którego jeszcze tu nie ma.

Ewaluacje i piaskownica — pytania

Czy mogę dzisiaj uruchamiać ewaluacje na rzeczywistym ruchu mojego agenta?

Jeszcze nie. Framework, karty wyników i konsola są podłączone i działają na wstępnie wygenerowanych danych przykładowych, ale rzeczywiste próbkowanie ewaluacji wymaga podłączonego źródła sesji — a to źródło nie jest dziś podłączone. Dopóki nie będzie, nie ma rzeczywistego próbkowania, jedynie framework wokół niego. Podłączenie tego źródła sesji to praca rozłożona na najbliższy okres i nie deklarujemy próbkowania na żywo, zanim trafi na produkcję.

Czy odtwarzanie sesji w piaskownicy działa?

Dzisiaj jest pogorszone. Odtwarzanie wymaga źródła uporządkowanej historii, aby zrekonstruować sesję w kolejności, a to źródło nie jest jeszcze podłączone, więc uporządkowane odtwarzanie nie jest dostępne. Sama piaskownica — izolowane środowisko do porównania przed i po wdrożeniu — istnieje; uporządkowane odtwarzanie jest na mapie drogowej obok źródła sesji.

Czy istnieje zautomatyzowany silnik red-teamingu?

Nie w wersji v1. Adaptacyjny silnik red-teamingu jest planowany po wersji v1. W wersji v1 dokumentujemy postawę bezpieczeństwa za pomocą kontroli kompensujących, zamiast sugerować adaptacyjny silnik, który nie został jeszcze zbudowany.

Co zatem jest faktycznie użyteczne już teraz?

Framework ewaluacji i konsola — karty wyników, przebiegi regresyjne, testy A/B promptów i wykrywanie dryfu — wraz z izolowaną piaskownicą do porównania przed i po wdrożeniu. To, czego potrzebują, aby działać na rzeczywistym ruchu, to podłączone źródło sesji i uporządkowane odtwarzanie, oba na mapie drogowej. To miejsce, w którym jakość agentów i regresje będą mierzone i bramkowane; podłączenie próbkowania na żywo jest następnym krokiem.

Zobacz, gdzie jakość agentów jest bramkowana

Wdróż Olivares na własnej infrastrukturze i poznaj framework ewaluacji oraz piaskownicę — karty wyników, testy regresyjne i porównanie przed i po wdrożeniu — przy czym rzeczywiste próbkowanie sesji i uporządkowane odtwarzanie pojawią się jako następny krok.

Zobacz repozytorium Zobacz mapę dostępu