Produto · Custos e FinOps
Veja, atribua e governe o seu gasto em modelos
Dois módulos num só lugar: um catálogo declarado dos modelos do seu parque — capacidades, preços de tabela, política de encaminhamento — e uma visão FinOps que discrimina o gasto em tokens e custo por modelo, fornecedor, agente, sessão, equipa e projeto. Defina orçamentos e limiares, leia uma projeção de run-rate e deixe que os sinais de orçamento condicionem a resolução de modelos. Ver e governar o custo — não a Olivares a executar a sua inferência.
No produto
O painel de custos
Uma captura de ecrã genuína, com dados de exemplo. A visão executiva: gasto até à data, uma projeção de run-rate, volume de tokens, os modelos governados ativos e um gráfico de tendência de gasto — discriminado para que consiga ver para onde vai o dinheiro.
O que obtém
Dois módulos: o parque de modelos e o dinheiro
Um catálogo dos modelos que governa e da política que os resolve, a par de uma visão de custos que atribui cada micro-dólar.
Um catálogo de modelos declarado
Os modelos do seu parque com as suas capacidades e preços de tabela, governados de forma centralizada. O preço é uma referência declarada e datada que você edita — verifique-a junto do fornecedor; nunca a apresentamos como verdade imutável.
Política de encaminhamento com uma cadeia de fallback
Defina como um pedido se resolve para um modelo — por custo, latência, capacidade ou fixado — com uma cadeia de fallback /resolve. Esta é a política que decide; executar a inferência é um passo separado e explicitamente aprovisionado.
Gasto, atribuído
Gasto em tokens e custo discriminado por modelo, fornecedor, agente, sessão, equipa e projeto. Internamente, o dinheiro é guardado em micro-USD inteiros, pelo que os totais são exatos. As discriminações por modelo e por fornecedor estão sempre presentes; a atribuição mais fina depende do conector que estiver ligado.
Orçamentos que podem condicionar a resolução
Orçamentos com limiares, alertas e recomendações. Um orçamento ultrapassado pode condicionar a resolução de modelos — bloquear ou limitar — para que os limites de custo sejam impostos no ponto de decisão, e não descobertos na fatura.
O que é real
Ativa para ver e governar o custo — não para executar a sua inferência
Somos rigorosos quanto ao que cada número significa, porque as decisões financeiras dependem disso:
- Ativa: leitura, análise e sinalização de orçamento. Gasto por modelo, fornecedor, agente, sessão, equipa e projeto; orçamentos com limiares, alertas e recomendações; e imposição de orçamento que pode condicionar a resolução de modelos por bloqueio ou limitação. As discriminações por modelo e por fornecedor estão sempre preenchidas.
- Lacunas honestas nos dados: o preço de tabela é uma referência declarada e datada que você mantém — verifique-a junto do fornecedor antes de agir sobre ela. A previsão é uma projeção linear ao run-rate atual, não um modelo preditivo. A atribuição por agente, por sessão e por equipa pode aparecer vazia até que um conector que atribua por sessão esteja ligado — e um agregado truncado é mostrado como parcial, nunca como um total exato. Não derivamos um valor de poupança por cache a partir do fluxo de custos, pelo que não o apresentamos.
- Roadmap / costura: a política de encaminhamento define-se aqui, mas a execução do encaminhamento — o gateway que chama efetivamente um modelo — é um componente separado. O /execute de modelo está deny-closed e devolve 503 sem aprovisionamento explícito. A Olivares ajuda-o a ver e a governar o custo; não executa a sua inferência por si.
Custos e FinOps — perguntas
De onde vêm os preços — são obtidos em direto dos fornecedores?
Não. O preço no catálogo é um preço de tabela declarado: uma referência datada que você edita e mantém, não um feed em direto. Existe para que as estimativas de custo sejam consistentes, não para que o trate como a verdade atual do fornecedor. Verifique-o junto do fornecedor antes de tomar uma decisão com base nele.
A previsão é uma estimativa do que vamos gastar?
É uma projeção linear ao run-rate atual — prolonga o seu ritmo de gasto presente para a frente, nada mais. Não é um modelo preditivo e não tem em conta sazonalidade, alterações planeadas ou seja o que for que ainda não fez. Leia-a como «se nada mudar, esta é a trajetória».
Porque é que algum custo por agente ou por equipa aparece vazio?
Porque essa atribuição precisa de um conector que etiquete o gasto com a sessão, o agente ou a equipa a que pertence. Até isso estar ligado, a discriminação aparece honestamente vazia em vez de adivinhada — e quando um agregado está incompleto, é rotulado como parcial, nunca apresentado como um total exato. As discriminações por modelo e por fornecedor não dependem disto e estão sempre presentes.
A Olivares encaminha e executa as chamadas dos meus modelos?
Não. Você define aqui a política de encaminhamento — por custo, latência, capacidade ou fixado, com uma cadeia de fallback /resolve — mas executar a chamada é um componente de gateway separado. O /execute de modelo está deny-closed e devolve 503 a menos que seja explicitamente aprovisionado. Esta superfície trata de ver e governar o custo, não de a Olivares se colocar no seu caminho de inferência.
Assuma o controlo do seu gasto em modelos
Implemente a Olivares na sua própria infraestrutura, declare o seu parque de modelos, atribua cada micro-dólar e deixe que os orçamentos condicionem a resolução antes de o custo ser incorrido.