Prodotto · Evals e sandbox

Dove la qualità degli agenti viene misurata e sottoposta a gate

Evals è la superficie in cui la qualità dell'output degli agenti, le regressioni e il drift vengono valutati — e in cui un rilascio può essere sottoposto a gate prima di andare in produzione. Il framework, le scorecard e la console esistono e sono collegati. Ciò che non è ancora attivo è la parte che li rende rilevanti sul traffico reale: una sorgente di sessioni collegata per il campionamento e il replay ordinato delle sessioni nella sandbox. Lo diciamo apertamente qui, perché è il prossimo passo, non un risultato già completato.

Vedi il repository Cosa c'è di reale oggi?

Nel prodotto

La console Evals

Uno screenshot autentico, con dati di esempio. Scorecard, esecuzioni di regressione, A/B dei prompt e rilevamento del drift sull'output degli agenti — più una sandbox isolata per il confronto pre e post-deploy. I dati mostrati sono precaricati, non provengono da alcuna sessione reale.

Console Evals di Olivares: scorecard per la qualità dell'output degli agenti, esecuzioni di test di regressione, confronto A/B dei prompt e rilevamento del drift, insieme a un pannello sandbox isolato per il confronto pre/post-deploy e il replay delle sessioni — popolata con dati di esempio.

Cosa fa

Un framework per la qualità degli agenti

Monitoraggio della qualità dell'output, test di regressione e una sandbox isolata — il luogo in cui il comportamento degli agenti viene valutato prima e dopo una modifica.

Scorecard e monitoraggio della qualità dell'output

Valuta l'output degli agenti rispetto ai controlli che definisci e monitora la qualità nel tempo. Il framework, le scorecard e la console sono collegati; ciò che misurano diventa reale una volta connessa una sorgente di sessioni.

Test di regressione e A/B dei prompt

Riesegui una suite a fronte di una modifica per intercettare le regressioni prima che vadano in produzione e confronta le varianti di prompt A e B sugli stessi input — così una modifica viene giudicata sulle prove, non sull'intuito.

Rilevamento del drift

Rileva quando l'output degli agenti devia dalla baseline attesa nel tempo, così l'erosione della qualità emerge invece di essere scoperta in produzione.

Sandbox isolata

Un ambiente di test isolato per il confronto pre e post-deploy, con replay delle sessioni. L'ambiente è collegato; il replay ordinato richiede una sorgente di cronologia ordinata, ovvero l'elemento di roadmap descritto di seguito.

Cosa è reale

Il framework e la console esistono; il campionamento reale e il replay ordinato sono il prossimo passo

Questa superficie è la più ricca di giunzioni del prodotto, quindi siamo schietti al riguardo — l'onestà è la funzionalità, non una scusa:

Attivo: il framework Evals, le scorecard, la console, le esecuzioni di regressione, l'A/B dei prompt e il rilevamento del drift sono realizzati e collegati, e la sandbox è un ambiente isolato per il confronto pre/post-deploy.
In roadmap, non attivo: il campionamento reale di Evals richiede una sorgente di sessioni collegata — senza di essa non c'è ancora alcun campionamento reale, solo il framework che lo circonda. E il replay delle sessioni nella sandbox è oggi degradato perché non esiste una sorgente di cronologia ordinata da cui eseguire il replay. Entrambi sono lavoro a breve termine, non una capacità completata, e non li dichiariamo prima che vadano in produzione.
Postura: il motore adattivo di red-teaming è post-v1. Per la v1 documentiamo la postura con controlli compensativi anziché sovrastimare un motore che non è ancora qui.

Evals e sandbox — domande

Posso eseguire Evals sul traffico reale dei miei agenti oggi?

Non ancora. Il framework, le scorecard e la console sono collegati e vengono eseguiti su dati di esempio precaricati, ma il campionamento reale di Evals richiede una sorgente di sessioni collegata — e quella sorgente oggi non è connessa. Finché non lo sarà, non c'è alcun campionamento reale, solo il framework che lo circonda. Connettere quella sorgente di sessioni è lavoro a breve termine, e non dichiariamo il campionamento dal vivo prima che vada in produzione.

Il replay delle sessioni nella sandbox funziona?

Oggi è degradato. Il replay richiede una sorgente di cronologia ordinata per ricostruire una sessione in sequenza, e quella sorgente non è ancora collegata, quindi il replay ordinato non è disponibile. La sandbox in sé — l'ambiente isolato per il confronto pre e post-deploy — esiste; il replay ordinato è in roadmap insieme alla sorgente di sessioni.

Esiste un motore automatizzato di red-teaming?

Non nella v1. Il motore adattivo di red-teaming è post-v1. Per la v1 documentiamo la postura di sicurezza con controlli compensativi anziché lasciar intendere un motore adattivo che non è ancora realizzato.

Quindi cosa è effettivamente utilizzabile in questo momento?

Il framework Evals e la console — scorecard, esecuzioni di regressione, A/B dei prompt e rilevamento del drift — più la sandbox isolata per il confronto pre/post-deploy. Ciò di cui hanno bisogno per agire sul traffico reale è la sorgente di sessioni collegata e il replay ordinato, entrambi in roadmap. Questo è il luogo in cui la qualità degli agenti e le regressioni verranno misurate e sottoposte a gate; il collegamento del campionamento dal vivo è il prossimo passo.

Scopri dove la qualità degli agenti viene sottoposta a gate

Distribuisci Olivares sulla tua infrastruttura ed esplora il framework Evals e la sandbox — scorecard, test di regressione e confronto pre/post-deploy — con il campionamento reale delle sessioni e il replay ordinato in arrivo come prossimo passo.

Vedi il repository Consulta la mappa degli accessi