Operação · 02 jul 2026 · 7 min de leitura · Time BIA

IA com orçamento:
como não ter sustos na fatura

Toda história de terror com IA em produção que a gente já ouviu começa do mesmo jeito: ninguém definiu o teto. Um processo entra em loop, uma tarefa fica maior do que devia — e a conta chega semanas depois, com um número que ninguém autorizou. Este artigo explica como a BIA torna o custo de IA previsível por construção, e o que exigir de qualquer fornecedor que use IA no seu nome.

Por que o custo de IA surpreende

IA generativa tem uma característica econômica traiçoeira: o custo não é por uso, é por esforço — e o esforço varia. Gerar um sistema simples consome uma fração do que consome um sistema complexo; uma correção pode resolver em uma rodada ou precisar de várias. Isso é normal e até desejável: significa que a plataforma trabalha até acertar, verificando e corrigindo em rodadas.

O problema nasce quando o esforço variável encontra um orçamento infinito. Sem teto, o pior caso — o loop, a tarefa patológica, o erro que se realimenta — não custa "mais": custa o que der. E "o que der", numa fatura de IA, pode ser um número de arrepiar.

Custo variável sem teto não é custo variável — é cheque em branco. A pergunta certa nunca é "quanto custa em média?", é "quanto custa no pior caso?".

Alertar não é travar

A resposta padrão do mercado para esse risco é o alerta: "avisamos quando o gasto passar de tanto". Parece controle; não é. Alerta é informação depois do fato — quando o e-mail chega, o dinheiro já foi. Se o estouro acontece de madrugada ou no fim de semana, o alerta encontra a caixa de entrada às 9h de segunda com o estrago consolidado.

Trava é outra categoria: é o gasto parando no limite, sem depender de alguém ler um aviso a tempo. A diferença entre os dois é a diferença entre um alarme de incêndio e uma porta corta-fogo.

Como a BIA trava o gasto

Na BIA, toda operação de IA roda dentro de um orçamento com dois tetos simultâneos:

Teto por execução — cada trabalho individual (gerar o sistema, aplicar um ajuste) tem um limite próprio. Uma única tarefa não consegue, sozinha, consumir o orçamento do dia inteiro.
Teto diário — o acumulado do dia tem um limite global. Mesmo muitas execuções legítimas somadas param no valor combinado.

E o detalhe que define o caráter do mecanismo: a trava é dura e fecha por padrão. Quando o teto é atingido, a próxima operação não executa — a plataforma para antes de gastar, não gasta e avisa depois. Se por qualquer motivo o sistema de medição de custo estiver indisponível, a decisão é a mesma: na dúvida, bloquear. Preferimos uma geração adiada a uma fatura surpresa — sempre.

execução solicitada
────────────────────────────────
teto da execução ....... ok
teto do dia ............ atingido ✗
decisão ................ BLOQUEAR antes de gastar
próximo passo .......... retomar é decisão humana, não automática

Retomar depois de um bloqueio é uma decisão explícita de operador — subir o teto ou esperar a janela virar — e não um "tenta de novo" silencioso. O custo nunca escapa enquanto ninguém está olhando.

Ver é tão importante quanto travar

Trava sem visibilidade vira claustrofobia: você sabe que existe um teto, mas não sabe o quanto falta para ele. Por isso a BIA acompanha a trava com um painel de custos de IA — cada chamada medida e registrada, com o total do período, o custo médio por chamada, a previsão do mês e o gasto aberto por modelo e por dia:

Painel de custos de IA da BIA mostrando custo total do período, custo médio por chamada, previsão mensal, linha do tempo de custos por dia e o gasto detalhado por modelo de IA — Print real: o painel de custos de IA da plataforma — total, custo por chamada, previsão mensal e gasto por modelo e por dia. O número que a maioria das empresas descobre na fatura, aqui fica na tela.

Teto sem medidor é aposta; medidor sem teto é aviso do prejuízo. Os dois juntos — visível e travado — são a definição operacional de "sob controle". (O painel faz parte da observabilidade nativa da plataforma, junto com registros ao vivo e rastreamento de requisições.)

O que isso significa para quem contrata a BIA

Você não configura nada disso — a trava é parte da plataforma, não um opcional. As consequências práticas:

Previsibilidade estrutural. O custo de IA embutido no serviço tem pior caso conhecido, por construção. Isso permite que a nossa precificação para você seja estável — sem cláusula de "custos extraordinários de processamento".
Nenhum incentivo perverso. Plataformas que repassam custo de IA sem teto lucram com o desperdício. Com trava dura, o nosso incentivo é o mesmo que o seu: resolver com o menor esforço que produz o resultado verificado.
Falha honesta em vez de estouro silencioso. No caso raríssimo de um trabalho bater no teto, ele para e fica registrado — e a retomada é uma decisão, não um acidente.

As perguntas para fazer a qualquer fornecedor de IA

Se a sua empresa contrata qualquer serviço que use IA generativa — o nosso incluído — quatro perguntas separam operação madura de aposta:

"Existe teto de gasto? Por operação ou só global?" — Teto só global deixa uma única tarefa patológica comer o orçamento inteiro.
"O teto trava ou só alerta?" — Você já sabe a diferença: porta corta-fogo versus alarme.
"O que acontece quando o medidor de custo falha?" — A resposta certa é "bloqueia por segurança". A resposta errada — e comum — é "continua rodando".
"Quem decide retomar depois de um bloqueio?" — Se a resposta for "retoma sozinho", o teto é decorativo.

Fornecedor que responde bem às quatro provavelmente também acerta o resto. Fornecedor que se ofende com as perguntas acabou de responder todas.

IA que trabalha com limite — do jeito que dinheiro gosta

Na BIA, o orçamento com trava dura é padrão de fábrica: teto por execução, teto por dia, e bloqueio antes do gasto. Sem susto na fatura — a nossa e a sua.

Quero ser design partner