Produto · Evals e sandbox
Onde a qualidade dos agentes é medida e controlada
Evals é a superfície onde a qualidade do output dos agentes, as regressões e o drift são pontuados — e onde uma release pode ser bloqueada antes de ser lançada. A framework, os scorecards e a consola existem e estão ligados. O que ainda não está ativo é a parte que a torna relevante no tráfego real: uma origem de sessões ligada para amostragem e a reprodução ordenada de sessões no sandbox. Dizemo-lo de forma clara aqui, porque é o próximo passo, não uma afirmação concluída.
No produto
A consola de evals
Uma captura de ecrã genuína, com dados de exemplo. Scorecards, execuções de regressão, A/B de prompts e deteção de drift sobre o output dos agentes — além de um sandbox isolado para comparação pré e pós-implementação. Os dados apresentados são semeados, não provêm de qualquer sessão real.
O que faz
Uma framework para a qualidade dos agentes
Monitorização da qualidade do output, testes de regressão e um sandbox isolado — o lugar onde o comportamento dos agentes é pontuado antes e depois de uma alteração.
Scorecards e monitorização da qualidade do output
Pontue o output dos agentes em função das verificações que define e acompanhe a qualidade ao longo do tempo. A framework, os scorecards e a consola estão ligados; aquilo que medem torna-se real assim que uma origem de sessões for ligada.
Testes de regressão e A/B de prompts
Volte a executar uma suite contra uma alteração para apanhar regressões antes de serem lançadas e compare as variantes de prompt A com B com os mesmos inputs — para que uma alteração seja avaliada por evidências, não por intuição.
Deteção de drift
Detete quando o output dos agentes se afasta da sua baseline esperada ao longo do tempo, para que a erosão da qualidade seja revelada em vez de descoberta em produção.
Sandbox isolado
Um ambiente de teste isolado para comparação pré e pós-implementação, com reprodução de sessões. O ambiente está ligado; a reprodução ordenada precisa de uma origem de histórico ordenado, que é o item do roadmap descrito abaixo.
O que já é real
A framework e a consola existem; a amostragem real e a reprodução ordenada são o próximo passo
Esta superfície é a que tem mais costuras em todo o produto, por isso somos diretos quanto a ela — a honestidade é a funcionalidade, não um pedido de desculpas:
- Ativo: a framework de evals, os scorecards, a consola, as execuções de regressão, o A/B de prompts e a deteção de drift estão construídos e ligados, e o sandbox é um ambiente isolado para comparação pré/pós-implementação.
- No roadmap, não ativo: a amostragem real de evals precisa de uma origem de sessões ligada — sem ela, ainda não há amostragem real, apenas a framework que a rodeia. E a reprodução de sessões no sandbox está degradada hoje porque não existe uma origem de histórico ordenado a partir da qual reproduzir. Ambas são um ciclo de trabalho de curto prazo, não uma capacidade concluída, e não as reivindicamos antes de chegarem a produção.
- Postura: o motor adaptativo de red-teaming é pós-v1. Para a v1, documentamos a postura com controlos compensatórios em vez de exagerar um motor que ainda não existe.
Evals e sandbox — perguntas
Posso hoje executar evals contra o tráfego real dos meus agentes?
Ainda não. A framework, os scorecards e a consola estão ligados e executam contra dados de exemplo semeados, mas a amostragem real de evals precisa de uma origem de sessões ligada — e essa origem não está ligada hoje. Até que esteja, não há amostragem real, apenas a framework que a rodeia. Ligar essa origem de sessões é um ciclo de trabalho de curto prazo, e não reivindicamos amostragem ativa antes de a lançarmos.
A reprodução de sessões no sandbox funciona?
Está com funcionamento reduzido hoje. A reprodução precisa de uma origem de histórico ordenado para reconstruir uma sessão em sequência, e essa origem ainda não está ligada, pelo que a reprodução ordenada não está disponível. O sandbox em si — o ambiente isolado para comparação pré e pós-implementação — existe; a reprodução ordenada está no roadmap, a par da origem de sessões.
Existe um motor automatizado de red-teaming?
Não na v1. O motor adaptativo de red-teaming é pós-v1. Para a v1, documentamos a postura de segurança com controlos compensatórios em vez de dar a entender um motor adaptativo que ainda não está construído.
Então o que é que está efetivamente utilizável neste momento?
A framework e a consola de evals — scorecards, execuções de regressão, A/B de prompts e deteção de drift — mais o sandbox isolado para comparação pré/pós-implementação. O que lhes falta para atuar sobre o tráfego real é a origem de sessões ligada e a reprodução ordenada, ambas no roadmap. Este é o lugar onde a qualidade dos agentes e as regressões serão medidas e controladas; a ligação da amostragem ativa é o próximo passo.
Veja onde a qualidade dos agentes é controlada
Implemente a Olivares na sua própria infraestrutura e explore a framework e o sandbox de evals — scorecards, testes de regressão e comparação pré/pós-implementação — com amostragem real de sessões e reprodução ordenada como próximo passo.