Quanto custa rodar um LLM em produção? Estimativas reais para planejar

Análise de custos reais de produção com LLMs: comparativo de APIs (OpenAI, Anthropic, Google), modelos open-source e como estimar o custo do seu caso de uso.

Uma das perguntas mais frequentes no início de qualquer projeto de IA é: quanto isso vai custar para rodar em produção? E a resposta honesta é: depende — mas não é tão caro quanto você imagina, se você planejar bem.

Este artigo dá números reais para os cenários mais comuns e mostra como estimar o custo antes de construir, evitando surpresas desagradáveis quando o sistema for para produção.

A unidade de custo: tokens (entendendo o básico)

LLMs cobram por tokens — pedaços de texto que não são exatamente palavras, mas aproximadamente. A regra geral para português:

  • 1.000 tokens ≈ 600-700 palavras em português
  • 1.000 tokens ≈ 750-850 palavras em inglês

O português é ligeiramente mais “caro” em tokens porque a tokenização dos modelos foi otimizada para inglês.

O custo é cobrado separadamente para:

  • Tokens de entrada (input): o prompt + contexto que você envia
  • Tokens de saída (output): a resposta gerada pelo modelo

Output costuma ser 2-4x mais caro que input porque gerar texto é computacionalmente mais intensivo que processar.

Tabela de preços atuais (referência maio 2026)

ModeloInput (por 1M tokens)Output (por 1M tokens)Uso típico
GPT-4o (OpenAI)~$5,00~$15,00Tarefas complexas, raciocínio avançado
GPT-4o mini~$0,15~$0,60Classificação, extração, tarefas simples
Claude 3.5 Haiku (Anthropic)~$0,80~$4,00Melhor custo-benefício para produção
Claude 3.5 Sonnet~$3,00~$15,00Análise complexa, código
Claude 3.7 Opus~$15,00~$75,00Casos extremos de complexidade
Gemini 1.5 Flash (Google)~$0,075~$0,30Mais barato, bom para volume alto
Gemini 1.5 Pro~$1,25~$5,00Equilíbrio custo-qualidade

Preços mudam com frequência. Consulte as páginas oficiais (OpenAI, Anthropic, Google Cloud) para valores atualizados.

Ponto importante: para a maioria dos casos de uso empresariais, os modelos “mini” ou “flash” são suficientes — e custam 10-50x menos que os modelos premium.

Não use GPT-4o ou Claude Opus para tarefas simples. É desperdício.

Estimativa por caso de uso (cenários reais)

Caso 1: Atendimento ao cliente (1.000 conversas/mês)

Estimativa de tokens por conversa:

  • Contexto do sistema (prompt de instruções + base de conhecimento resumida): ~2.000 tokens input
  • Histórico da conversa (média de 5 turnos de ida-volta): ~1.500 tokens input
  • Resposta gerada por turno (média 150 tokens × 5 turnos): ~750 tokens output

Total por conversa: ~3.500 tokens input + ~750 output

Com GPT-4o mini (escolha típica):

Input: 1.000 conversas × 3.500 tokens × $0,15/1M = $0,525/mês
Output: 1.000 conversas × 750 tokens × $0,60/1M = $0,45/mês
Total: ~$0,98/mês ≈ R$ 4,90/mês

Com Claude 3.5 Haiku (alternativa com melhor qualidade):

Input: 1.000 × 3.500 × $0,80/1M = $2,80/mês
Output: 1.000 × 750 × $4,00/1M = $3,00/mês
Total: ~$5,80/mês ≈ R$ 29,00/mês

Isso é custo de API de LLM. Adicione infraestrutura (servidor, banco de dados, vector DB para RAG) e desenvolvimento — mas o custo de LLM em si é muito baixo.

Caso 2: Extração de dados de documentos (5.000 documentos/mês)

Estimativa por documento (NF-e, contrato simples, currículo):

  • Documento OCR ou texto: ~1.500 tokens input
  • Prompt de instruções: ~300 tokens input
  • JSON estruturado extraído: ~200 tokens output

Com Claude 3.5 Haiku (ideal para extração):

Input: 5.000 docs × 1.800 tokens × $0,80/1M = $7,20/mês
Output: 5.000 docs × 200 tokens × $4,00/1M = $4,00/mês
Total: ~$11,20/mês ≈ R$ 56,00/mês

Para uma empresa que substituiu uma pessoa dedicada a essa tarefa (custo mensal de R$ 3.000-5.000), o ROI é óbvio.

Caso 3: Geração de conteúdo (200 artigos/mês)

Por artigo de 800 palavras:

  • Briefing + contexto + exemplos: ~500 tokens input
  • Artigo gerado (~1.200 palavras): ~1.600 tokens output

Com GPT-4o (para qualidade de conteúdo):

Input: 200 artigos × 500 tokens × $5/1M = $0,50/mês
Output: 200 artigos × 1.600 tokens × $15/1M = $4,80/mês
Total: ~$5,30/mês ≈ R$ 26,50/mês

Se você paga um redator freelancer R$ 100/artigo, são R$ 20.000/mês. A economia é absurda — mas lembre que você ainda precisa de alguém para revisar/editar.

Caso 4: Sistema RAG (busca semântica + resposta contextualizada)

Volume: 10.000 consultas/mês

Por consulta:

  • Pergunta do usuário: ~50 tokens input
  • Documentos recuperados (top 5 chunks de 500 tokens cada): ~2.500 tokens input
  • Resposta gerada: ~200 tokens output

Com GPT-4o mini:

Input: 10.000 × 2.550 tokens × $0,15/1M = $3,825/mês
Output: 10.000 × 200 tokens × $0,60/1M = $1,20/mês
Total LLM: ~$5,03/mês ≈ R$ 25,15/mês

Adicione custo de embeddings (para indexar documentos e consultas):

  • Indexação inicial: 1.000 documentos × 500 tokens = 500k tokens
  • Consultas mensais: 10.000 × 50 tokens = 500k tokens
  • Total: ~1M tokens/mês × $0,02/1M (text-embedding-3-small) = $0,02/mês

Adicione vector database:

  • Pinecone: ~$70/mês (1M vetores, índice otimizado)
  • Qdrant cloud: ~$40/mês (alternativa)
  • pgvector (self-hosted): custo de servidor (~$20/mês)

Custo total mensal do RAG: R$ 25 (LLM) + R$ 0,10 (embeddings) + R$ 200 (vector DB) = R$ 225/mês

Caso 5: Classificação em massa (análise de sentimento em 100k feedbacks/mês)

Por feedback (média de 100 palavras = ~140 tokens):

  • Feedback do cliente: ~140 tokens input
  • Prompt de classificação: ~100 tokens input
  • Classificação estruturada (JSON): ~30 tokens output

Com Gemini 1.5 Flash (mais barato para volume):

Input: 100.000 × 240 tokens × $0,075/1M = $1,80/mês
Output: 100.000 × 30 tokens × $0,30/1M = $0,90/mês
Total: ~$2,70/mês ≈ R$ 13,50/mês

Para processar 100k feedbacks manualmente a R$ 0,50/feedback (tempo de analista), seria R$ 50.000. A economia é da ordem de 99,97%.

Quando modelos open-source fazem sentido (break-even analysis)

APIs de LLM são convenientes mas têm dois problemas:

  1. Custo em escala muito alta (milhões de requisições/mês)
  2. Privacidade de dados (seus dados passam por servidores de terceiros)

Para volumes muito altos ou dados sensíveis (saúde, financeiro, jurídico), rodar modelos open-source (Llama 3.3, Qwen 2.5, Mistral, DeepSeek) na sua própria infraestrutura pode ser mais econômico.

Análise de break-even aproximada

Infraestrutura típica para self-hosting:

  • GPU dedicada (A100 40GB ou 4× L4): ~$1.500-3.000/mês (cloud)
  • Servidor + storage + tráfego: ~$500/mês
  • Total: ~$2.000-3.500/mês fixo

Quando compensa:

  • Até ~$500/mês em API: use API, não justifica infraestrutura própria
  • $500-2.000/mês: zona cinza. Avalie privacidade e controle além do custo
  • Acima de $2.000/mês: infraestrutura própria provavelmente se paga

Lembre: self-hosting adiciona complexidade operacional. Você precisa de:

  • Expertise em MLOps (deploy, monitoramento, scaling)
  • Gerenciamento de infraestrutura (uptime, backups, segurança)
  • Atualização de modelos (novos modelos saem constantemente)

Para muitas empresas, pagar a API é mais barato considerando custo total de operação (TCO).

Os custos que as pessoas esquecem de calcular

1. Embeddings (para RAG)

Se você usa RAG, cada documento indexado e cada consulta também tem custo de embedding.

text-embedding-3-small (OpenAI): ~$0,02 por 1M tokens embed-multilingual-v3.0 (Cohere): ~$0,10 por 1M tokens

Parece barato, mas some em escala. Se você indexa 10M tokens/mês + processa 5M tokens de consultas, são $0,30/mês (OpenAI) ou $1,50/mês (Cohere).

2. Retry e tratamento de erros

APIs falham. Timeouts acontecem. Seu sistema precisa de retry com backoff exponencial, e esses retries custam tokens extras.

Adicione 5-10% ao orçamento para conta de retries e erros.

3. Desenvolvimento e manutenção

O custo de API é só uma parte. Infraestrutura, monitoramento, ajustes de prompt, manutenção contínua, revisão de qualidade — são custos reais.

Regra geral: custo operacional total (infraestrutura + APIs + pessoal) é 3-5x o custo de API isolado.

4. Crescimento e picos

Estime o custo para 3x o volume atual, não para o volume de hoje. Projetos de IA bem-sucedidos crescem — e crescem rápido.

Certifique-se de que o orçamento comporta o sucesso.

Como otimizar custos (técnicas práticas)

1. Use o modelo mais barato que resolve o problema

Não use GPT-4o ou Claude Opus para tarefas simples. Teste se GPT-4o mini ou Gemini Flash resolvem. Frequentemente, sim.

Fluxo recomendado: começe com modelo barato → se qualidade não for suficiente → suba para modelo melhor.

2. Cache de respostas

Se a mesma pergunta aparece muitas vezes, cache a resposta. Economiza tokens e latência.

Exemplo: FAQ com 50 perguntas comuns. Cache as respostas. 80% das consultas batem no cache, não gastam tokens.

3. Reduza contexto desnecessário

Não envie o histórico completo da conversa se só as últimas 3 mensagens importam. Não envie 10 documentos recuperados se 3 são suficientes.

Cada token economizado no input é custo reduzido.

4. Use prompt engineering para reduzir output

Output é mais caro que input. Instrua o modelo a ser conciso:

“Responda em até 100 palavras” ou “Retorne apenas JSON, sem explicação adicional”

Evite respostas longas e prolixas quando não são necessárias.

5. Batching (quando possível)

Se você precisa processar 1.000 documentos, faça em batches (grupos) em vez de 1.000 requisições individuais. Reduz overhead de rede e pode permitir otimizações.

Algumas APIs (como OpenAI Batch API) oferecem desconto de 50% para processamento assíncrono em batch.

Ferramentas para monitorar custos em produção

Não confie em “achômetro”. Monitore custos reais:

  • LangSmith (LangChain): tracking de tokens, custo por requisição, otimizações
  • Helicone: analytics e monitoramento para OpenAI, Anthropic
  • LLMonitor: open-source, rastreamento de custos e performance
  • Dashboards customizados: logs + BigQuery/ClickHouse para análise

Configure alertas: se custo diário ultrapassar X, você recebe notificação antes de estourar o orçamento.

Exemplo de orçamento completo (caso realista)

Startup SaaS B2B com sistema de atendimento ao cliente via IA

Premissas:

  • 2.000 conversas/mês
  • 50.000 consultas RAG/mês (base de conhecimento interna)
  • 10.000 documentos indexados (contratos, políticas, manuais)

Custos mensais:

  • LLM para atendimento (Claude Haiku): R$ 60
  • LLM para RAG (GPT-4o mini): R$ 125
  • Embeddings (OpenAI): R$ 5
  • Vector database (Qdrant cloud): R$ 200
  • Infraestrutura (servidor, load balancer): R$ 300
  • Monitoramento e logging: R$ 50
  • Total operacional: R$ 740/mês

Desenvolvimento e manutenção:

  • 20h/mês de engenheiro (ajustes, melhorias): R$ 4.000
  • Total com manutenção: R$ 4.740/mês

Economia gerada (vs time de atendimento humano):

  • 1.200 conversas deflectidas (60% de 2.000)
  • Custo evitado: 1.200 × R$ 25 (custo por atendimento humano) = R$ 30.000/mês
  • ROI líquido: R$ 30.000 - R$ 4.740 = R$ 25.260/mês

O sistema se paga 6x em economia direta.


Se você quer uma estimativa de custo detalhada para o seu caso de uso específico antes de iniciar o projeto, fale com a gente. Ajudamos a dimensionar o orçamento com base em dados reais do seu volume, escolher os modelos certos para cada parte do sistema e implementar com controle de custos desde o primeiro dia.

Pronto para sair do manual?

Agende o diagnóstico gratuito. Vamos mapear o gargalo, estimar o impacto e definir o primeiro resultado mensurável.

Você sai com clareza — não com um pitch de vendas.