Produkt · Ewaluacje i piaskownica
Tu jakość agentów jest mierzona i bramkowana
Ewaluacje to powierzchnia, na której jakość, regresje i dryf wyników agentów są oceniane — i na której wydanie można zbramkować, zanim trafi na produkcję. Framework, karty wyników i konsola istnieją oraz są podłączone. Tym, czego jeszcze nie ma na żywo, jest część, która sprawia, że ma to znaczenie na rzeczywistym ruchu: podłączone źródło sesji do próbkowania oraz uporządkowane odtwarzanie sesji w piaskownicy. Mówimy o tym wprost, ponieważ jest to następny krok, a nie zamknięta deklaracja.
W produkcie
Konsola ewaluacji
Autentyczny zrzut ekranu, dane przykładowe. Karty wyników, przebiegi regresyjne, testy A/B promptów i wykrywanie dryfu wyników agentów — wraz z izolowaną piaskownicą do porównania przed i po wdrożeniu. Prezentowane dane zostały wstępnie wygenerowane, nie pochodzą z żadnej rzeczywistej sesji.
Co robi
Framework dla jakości agentów
Monitorowanie jakości wyników, testy regresyjne i izolowana piaskownica — miejsce, w którym zachowanie agenta jest oceniane przed zmianą i po niej.
Karty wyników i monitorowanie jakości wyników
Oceniaj wyniki agenta względem zdefiniowanych przez Ciebie kontroli i obserwuj jakość w czasie. Framework, karty wyników i konsola są podłączone; to, co mierzą, staje się realne po podłączeniu źródła sesji.
Testy regresyjne i A/B promptów
Uruchom ponownie zestaw testów względem zmiany, aby wychwycić regresje, zanim trafią na produkcję, i porównaj warianty promptów A i B na tych samych danych wejściowych — tak aby zmiana była oceniana na podstawie dowodów, a nie intuicji.
Wykrywanie dryfu
Wykrywaj, kiedy wyniki agenta odchodzą od oczekiwanej wartości bazowej w czasie, tak aby erozja jakości była ujawniana, a nie odkrywana na produkcji.
Izolowana piaskownica
Izolowane środowisko testowe do porównania przed i po wdrożeniu, z odtwarzaniem sesji. Środowisko jest podłączone; uporządkowane odtwarzanie wymaga źródła uporządkowanej historii, co jest pozycją na mapie drogowej opisaną poniżej.
Co jest realne
Framework i konsola istnieją; rzeczywiste próbkowanie i uporządkowane odtwarzanie to następny krok
Ta powierzchnia jest najbardziej naszpikowana szwami w całym produkcie, dlatego mówimy o tym bez ogródek — szczerość jest funkcją, a nie przeprosinami:
- Na żywo: framework ewaluacji, karty wyników, konsola, przebiegi regresyjne, testy A/B promptów i wykrywanie dryfu są zbudowane i podłączone, a piaskownica jest izolowanym środowiskiem do porównania przed i po wdrożeniu.
- Na mapie drogowej, nie na żywo: rzeczywiste próbkowanie ewaluacji wymaga podłączonego źródła sesji — bez niego nie ma jeszcze rzeczywistego próbkowania, jedynie framework wokół niego. A odtwarzanie sesji w piaskownicy jest dziś pogorszone, ponieważ nie ma źródła uporządkowanej historii, z którego można by odtwarzać. Oba elementy to praca rozłożona na najbliższy okres, a nie ukończona funkcja, i nie deklarujemy ich, zanim trafią na produkcję.
- Postawa: adaptacyjny silnik red-teamingu jest planowany po wersji v1. W wersji v1 dokumentujemy postawę za pomocą kontroli kompensujących, zamiast przeceniać silnik, którego jeszcze tu nie ma.
Ewaluacje i piaskownica — pytania
Czy mogę dzisiaj uruchamiać ewaluacje na rzeczywistym ruchu mojego agenta?
Jeszcze nie. Framework, karty wyników i konsola są podłączone i działają na wstępnie wygenerowanych danych przykładowych, ale rzeczywiste próbkowanie ewaluacji wymaga podłączonego źródła sesji — a to źródło nie jest dziś podłączone. Dopóki nie będzie, nie ma rzeczywistego próbkowania, jedynie framework wokół niego. Podłączenie tego źródła sesji to praca rozłożona na najbliższy okres i nie deklarujemy próbkowania na żywo, zanim trafi na produkcję.
Czy odtwarzanie sesji w piaskownicy działa?
Dzisiaj jest pogorszone. Odtwarzanie wymaga źródła uporządkowanej historii, aby zrekonstruować sesję w kolejności, a to źródło nie jest jeszcze podłączone, więc uporządkowane odtwarzanie nie jest dostępne. Sama piaskownica — izolowane środowisko do porównania przed i po wdrożeniu — istnieje; uporządkowane odtwarzanie jest na mapie drogowej obok źródła sesji.
Czy istnieje zautomatyzowany silnik red-teamingu?
Nie w wersji v1. Adaptacyjny silnik red-teamingu jest planowany po wersji v1. W wersji v1 dokumentujemy postawę bezpieczeństwa za pomocą kontroli kompensujących, zamiast sugerować adaptacyjny silnik, który nie został jeszcze zbudowany.
Co zatem jest faktycznie użyteczne już teraz?
Framework ewaluacji i konsola — karty wyników, przebiegi regresyjne, testy A/B promptów i wykrywanie dryfu — wraz z izolowaną piaskownicą do porównania przed i po wdrożeniu. To, czego potrzebują, aby działać na rzeczywistym ruchu, to podłączone źródło sesji i uporządkowane odtwarzanie, oba na mapie drogowej. To miejsce, w którym jakość agentów i regresje będą mierzone i bramkowane; podłączenie próbkowania na żywo jest następnym krokiem.
Zobacz, gdzie jakość agentów jest bramkowana
Wdróż Olivares na własnej infrastrukturze i poznaj framework ewaluacji oraz piaskownicę — karty wyników, testy regresyjne i porównanie przed i po wdrożeniu — przy czym rzeczywiste próbkowanie sesji i uporządkowane odtwarzanie pojawią się jako następny krok.