IA com orçamento:
como não ter sustos na fatura
Toda história de terror com IA em produção que a gente já ouviu começa do mesmo jeito: ninguém definiu o teto. Um processo entra em loop, uma tarefa fica maior do que devia — e a conta chega semanas depois, com um número que ninguém autorizou. Este artigo explica como a BIA torna o custo de IA previsível por construção, e o que exigir de qualquer fornecedor que use IA no seu nome.
Por que o custo de IA surpreende
IA generativa tem uma característica econômica traiçoeira: o custo não é por uso, é por esforço — e o esforço varia. Gerar um sistema simples consome uma fração do que consome um sistema complexo; uma correção pode resolver em uma rodada ou precisar de várias. Isso é normal e até desejável: significa que a plataforma trabalha até acertar, verificando e corrigindo em rodadas.
O problema nasce quando o esforço variável encontra um orçamento infinito. Sem teto, o pior caso — o loop, a tarefa patológica, o erro que se realimenta — não custa "mais": custa o que der. E "o que der", numa fatura de IA, pode ser um número de arrepiar.
Custo variável sem teto não é custo variável — é cheque em branco. A pergunta certa nunca é "quanto custa em média?", é "quanto custa no pior caso?".
Alertar não é travar
A resposta padrão do mercado para esse risco é o alerta: "avisamos quando o gasto passar de tanto". Parece controle; não é. Alerta é informação depois do fato — quando o e-mail chega, o dinheiro já foi. Se o estouro acontece de madrugada ou no fim de semana, o alerta encontra a caixa de entrada às 9h de segunda com o estrago consolidado.
Trava é outra categoria: é o gasto parando no limite, sem depender de alguém ler um aviso a tempo. A diferença entre os dois é a diferença entre um alarme de incêndio e uma porta corta-fogo.
Como a BIA trava o gasto
Na BIA, toda operação de IA roda dentro de um orçamento com dois tetos simultâneos:
- Teto por execução — cada trabalho individual (gerar o sistema, aplicar um ajuste) tem um limite próprio. Uma única tarefa não consegue, sozinha, consumir o orçamento do dia inteiro.
- Teto diário — o acumulado do dia tem um limite global. Mesmo muitas execuções legítimas somadas param no valor combinado.
E o detalhe que define o caráter do mecanismo: a trava é dura e fecha por padrão. Quando o teto é atingido, a próxima operação não executa — a plataforma para antes de gastar, não gasta e avisa depois. Se por qualquer motivo o sistema de medição de custo estiver indisponível, a decisão é a mesma: na dúvida, bloquear. Preferimos uma geração adiada a uma fatura surpresa — sempre.
execução solicitada
────────────────────────────────
teto da execução ....... ok
teto do dia ............ atingido ✗
decisão ................ BLOQUEAR antes de gastar
próximo passo .......... retomar é decisão humana, não automática
Retomar depois de um bloqueio é uma decisão explícita de operador — subir o teto ou esperar a janela virar — e não um "tenta de novo" silencioso. O custo nunca escapa enquanto ninguém está olhando.
Ver é tão importante quanto travar
Trava sem visibilidade vira claustrofobia: você sabe que existe um teto, mas não sabe o quanto falta para ele. Por isso a BIA acompanha a trava com um painel de custos de IA — cada chamada medida e registrada, com o total do período, o custo médio por chamada, a previsão do mês e o gasto aberto por modelo e por dia:
Teto sem medidor é aposta; medidor sem teto é aviso do prejuízo. Os dois juntos — visível e travado — são a definição operacional de "sob controle". (O painel faz parte da observabilidade nativa da plataforma, junto com registros ao vivo e rastreamento de requisições.)
O que isso significa para quem contrata a BIA
Você não configura nada disso — a trava é parte da plataforma, não um opcional. As consequências práticas:
- Previsibilidade estrutural. O custo de IA embutido no serviço tem pior caso conhecido, por construção. Isso permite que a nossa precificação para você seja estável — sem cláusula de "custos extraordinários de processamento".
- Nenhum incentivo perverso. Plataformas que repassam custo de IA sem teto lucram com o desperdício. Com trava dura, o nosso incentivo é o mesmo que o seu: resolver com o menor esforço que produz o resultado verificado.
- Falha honesta em vez de estouro silencioso. No caso raríssimo de um trabalho bater no teto, ele para e fica registrado — e a retomada é uma decisão, não um acidente.
As perguntas para fazer a qualquer fornecedor de IA
Se a sua empresa contrata qualquer serviço que use IA generativa — o nosso incluído — quatro perguntas separam operação madura de aposta:
- "Existe teto de gasto? Por operação ou só global?" — Teto só global deixa uma única tarefa patológica comer o orçamento inteiro.
- "O teto trava ou só alerta?" — Você já sabe a diferença: porta corta-fogo versus alarme.
- "O que acontece quando o medidor de custo falha?" — A resposta certa é "bloqueia por segurança". A resposta errada — e comum — é "continua rodando".
- "Quem decide retomar depois de um bloqueio?" — Se a resposta for "retoma sozinho", o teto é decorativo.
Fornecedor que responde bem às quatro provavelmente também acerta o resto. Fornecedor que se ofende com as perguntas acabou de responder todas.
IA que trabalha com limite — do jeito que dinheiro gosta
Na BIA, o orçamento com trava dura é padrão de fábrica: teto por execução, teto por dia, e bloqueio antes do gasto. Sem susto na fatura — a nossa e a sua.
Quero ser design partner