Produit · Évaluations et sandbox

Là où la qualité de l’agent est mesurée et filtrée

Les évaluations sont la surface où la qualité de sortie, les régressions et la dérive de l’agent sont notées — et où une release peut être filtrée avant d’être livrée. Le framework, les scorecards et la console existent et sont câblés. Ce qui n’est pas encore live, c’est la partie qui lui donne du poids sur du trafic réel : une source de sessions câblée pour l’échantillonnage, et la relecture ordonnée des sessions dans le sandbox. Nous le disons sans détour ici, parce que c’est la prochaine étape, pas une affirmation déjà aboutie.

Voir le dépôt Ce qui est réel aujourd’hui

Dans le produit

La console d’évaluations

Une capture d’écran authentique, avec des données d’exemple. Scorecards, exécutions de régression, A/B de prompts et détection de dérive sur la sortie de l’agent — plus un sandbox isolé pour la comparaison pre- et post-deploy. Les données affichées sont préremplies, et ne proviennent d’aucune session réelle.

Console d’évaluations Olivares : scorecards de qualité de sortie de l’agent, exécutions de tests de régression, comparaison A/B de prompts et détection de dérive, aux côtés d’un panneau sandbox isolé pour la comparaison pre/post-deploy et la relecture des sessions — remplie de données d’exemple.

Ce qu’il fait

Un framework pour la qualité de l’agent

Surveillance de la qualité de sortie, tests de régression et un sandbox isolé — l’endroit où le comportement de l’agent est noté avant et après un changement.

Scorecards et surveillance de la qualité de sortie

Notez la sortie de l’agent par rapport aux contrôles que vous définissez et suivez la qualité dans le temps. Le framework, les scorecards et la console sont câblés ; ce qu’ils mesurent devient réel dès qu’une source de sessions est connectée.

Tests de régression et A/B de prompts

Relancez une suite contre un changement pour détecter les régressions avant la livraison, et comparez les variantes de prompt A par rapport à B sur les mêmes entrées — pour qu’un changement soit jugé sur des preuves, et non sur l’intuition.

Détection de dérive

Détectez quand la sortie de l’agent s’écarte de sa baseline attendue au fil du temps, afin que l’érosion de la qualité soit mise en évidence plutôt que découverte en production.

Sandbox isolé

Un environnement de test isolé pour la comparaison pre- et post-deploy, avec relecture des sessions. L’environnement est câblé ; la relecture ordonnée nécessite une source d’historique ordonné, ce qui constitue l’élément de roadmap décrit ci-dessous.

Ce qui est réel

Le framework et la console existent ; l’échantillonnage réel et la relecture ordonnée sont la prochaine étape

Cette surface est la plus riche en coutures du produit, alors nous sommes francs à son sujet — l’honnêteté est la fonctionnalité, pas une excuse :

Live : le framework d’évaluations, les scorecards, la console, les exécutions de régression, l’A/B de prompts et la détection de dérive sont construits et câblés, et le sandbox est un environnement isolé pour la comparaison pre/post-deploy.
Roadmap, pas live : l’échantillonnage réel des évaluations nécessite une source de sessions câblée — sans elle, il n’y a pas encore d’échantillonnage réel, seulement le framework qui l’entoure. Et la relecture des sessions du sandbox est dégradée aujourd’hui parce qu’il n’y a pas de source d’historique ordonné à partir de laquelle relire. Les deux représentent un travail à court terme, pas une capacité achevée, et nous ne les affirmons pas avant qu’elles n’existent.
Posture : le moteur adaptatif de red-teaming est post-v1. Pour la v1, nous documentons la posture avec des contrôles compensatoires plutôt que de survendre un moteur qui n’est pas encore là.

Évaluations et sandbox — questions

Puis-je exécuter des évaluations contre le trafic réel de mon agent aujourd’hui ?

Pas encore. Le framework, les scorecards et la console sont câblés et s’exécutent sur des données d’exemple préremplies, mais l’échantillonnage réel des évaluations nécessite une source de sessions câblée — et cette source n’est pas connectée aujourd’hui. Tant qu’elle ne l’est pas, il n’y a pas d’échantillonnage réel, seulement le framework qui l’entoure. Connecter cette source de sessions est un travail à court terme, et nous n’affirmons pas d’échantillonnage en direct avant qu’il n’existe.

La relecture des sessions fonctionne-t-elle dans le sandbox ?

Elle est dégradée aujourd’hui. La relecture nécessite une source d’historique ordonné pour reconstruire une session en séquence, et cette source n’est pas encore câblée, donc la relecture ordonnée n’est pas disponible. Le sandbox lui-même — l’environnement isolé pour la comparaison pre- et post-deploy — existe ; la relecture ordonnée est dans la roadmap, aux côtés de la source de sessions.

Existe-t-il un moteur automatisé de red-teaming ?

Pas en v1. Le moteur adaptatif de red-teaming est post-v1. Pour la v1, nous documentons la posture de sécurité avec des contrôles compensatoires plutôt que de laisser entendre un moteur adaptatif qui n’est pas encore construit.

Alors, qu’est-ce qui est réellement utilisable dès maintenant ?

Le framework et la console d’évaluations — scorecards, exécutions de régression, A/B de prompts et détection de dérive — plus le sandbox isolé pour la comparaison pre/post-deploy. Ce qu’il leur faut pour agir sur du trafic réel, c’est la source de sessions câblée et la relecture ordonnée, toutes deux dans la roadmap. C’est ici que la qualité de l’agent et les régressions seront mesurées et filtrées ; le câblage de l’échantillonnage en direct est la prochaine étape.

Voyez où la qualité de l’agent est filtrée

Déployez Olivares sur votre propre infrastructure et explorez le framework d’évaluations et le sandbox — scorecards, tests de régression et comparaison pre/post-deploy — avec l’échantillonnage réel des sessions et la relecture ordonnée à venir comme prochaine étape.

Voir le dépôt Voir la carte des accès