Uma das perguntas mais frequentes no início de qualquer projeto de IA é: quanto isso vai custar para rodar em produção? E a resposta honesta é: depende — mas não é tão caro quanto você imagina, se você planejar bem.
Este artigo dá números reais para os cenários mais comuns e mostra como estimar o custo antes de construir, evitando surpresas desagradáveis quando o sistema for para produção.
A unidade de custo: tokens (entendendo o básico)
LLMs cobram por tokens — pedaços de texto que não são exatamente palavras, mas aproximadamente. A regra geral para português:
- 1.000 tokens ≈ 600-700 palavras em português
- 1.000 tokens ≈ 750-850 palavras em inglês
O português é ligeiramente mais “caro” em tokens porque a tokenização dos modelos foi otimizada para inglês.
O custo é cobrado separadamente para:
- Tokens de entrada (input): o prompt + contexto que você envia
- Tokens de saída (output): a resposta gerada pelo modelo
Output costuma ser 2-4x mais caro que input porque gerar texto é computacionalmente mais intensivo que processar.
Tabela de preços atuais (referência maio 2026)
| Modelo | Input (por 1M tokens) | Output (por 1M tokens) | Uso típico |
|---|---|---|---|
| GPT-4o (OpenAI) | ~$5,00 | ~$15,00 | Tarefas complexas, raciocínio avançado |
| GPT-4o mini | ~$0,15 | ~$0,60 | Classificação, extração, tarefas simples |
| Claude 3.5 Haiku (Anthropic) | ~$0,80 | ~$4,00 | Melhor custo-benefício para produção |
| Claude 3.5 Sonnet | ~$3,00 | ~$15,00 | Análise complexa, código |
| Claude 3.7 Opus | ~$15,00 | ~$75,00 | Casos extremos de complexidade |
| Gemini 1.5 Flash (Google) | ~$0,075 | ~$0,30 | Mais barato, bom para volume alto |
| Gemini 1.5 Pro | ~$1,25 | ~$5,00 | Equilíbrio custo-qualidade |
Preços mudam com frequência. Consulte as páginas oficiais (OpenAI, Anthropic, Google Cloud) para valores atualizados.
Ponto importante: para a maioria dos casos de uso empresariais, os modelos “mini” ou “flash” são suficientes — e custam 10-50x menos que os modelos premium.
Não use GPT-4o ou Claude Opus para tarefas simples. É desperdício.
Estimativa por caso de uso (cenários reais)
Caso 1: Atendimento ao cliente (1.000 conversas/mês)
Estimativa de tokens por conversa:
- Contexto do sistema (prompt de instruções + base de conhecimento resumida): ~2.000 tokens input
- Histórico da conversa (média de 5 turnos de ida-volta): ~1.500 tokens input
- Resposta gerada por turno (média 150 tokens × 5 turnos): ~750 tokens output
Total por conversa: ~3.500 tokens input + ~750 output
Com GPT-4o mini (escolha típica):
Input: 1.000 conversas × 3.500 tokens × $0,15/1M = $0,525/mês
Output: 1.000 conversas × 750 tokens × $0,60/1M = $0,45/mês
Total: ~$0,98/mês ≈ R$ 4,90/mês
Com Claude 3.5 Haiku (alternativa com melhor qualidade):
Input: 1.000 × 3.500 × $0,80/1M = $2,80/mês
Output: 1.000 × 750 × $4,00/1M = $3,00/mês
Total: ~$5,80/mês ≈ R$ 29,00/mês
Isso é custo de API de LLM. Adicione infraestrutura (servidor, banco de dados, vector DB para RAG) e desenvolvimento — mas o custo de LLM em si é muito baixo.
Caso 2: Extração de dados de documentos (5.000 documentos/mês)
Estimativa por documento (NF-e, contrato simples, currículo):
- Documento OCR ou texto: ~1.500 tokens input
- Prompt de instruções: ~300 tokens input
- JSON estruturado extraído: ~200 tokens output
Com Claude 3.5 Haiku (ideal para extração):
Input: 5.000 docs × 1.800 tokens × $0,80/1M = $7,20/mês
Output: 5.000 docs × 200 tokens × $4,00/1M = $4,00/mês
Total: ~$11,20/mês ≈ R$ 56,00/mês
Para uma empresa que substituiu uma pessoa dedicada a essa tarefa (custo mensal de R$ 3.000-5.000), o ROI é óbvio.
Caso 3: Geração de conteúdo (200 artigos/mês)
Por artigo de 800 palavras:
- Briefing + contexto + exemplos: ~500 tokens input
- Artigo gerado (~1.200 palavras): ~1.600 tokens output
Com GPT-4o (para qualidade de conteúdo):
Input: 200 artigos × 500 tokens × $5/1M = $0,50/mês
Output: 200 artigos × 1.600 tokens × $15/1M = $4,80/mês
Total: ~$5,30/mês ≈ R$ 26,50/mês
Se você paga um redator freelancer R$ 100/artigo, são R$ 20.000/mês. A economia é absurda — mas lembre que você ainda precisa de alguém para revisar/editar.
Caso 4: Sistema RAG (busca semântica + resposta contextualizada)
Volume: 10.000 consultas/mês
Por consulta:
- Pergunta do usuário: ~50 tokens input
- Documentos recuperados (top 5 chunks de 500 tokens cada): ~2.500 tokens input
- Resposta gerada: ~200 tokens output
Com GPT-4o mini:
Input: 10.000 × 2.550 tokens × $0,15/1M = $3,825/mês
Output: 10.000 × 200 tokens × $0,60/1M = $1,20/mês
Total LLM: ~$5,03/mês ≈ R$ 25,15/mês
Adicione custo de embeddings (para indexar documentos e consultas):
- Indexação inicial: 1.000 documentos × 500 tokens = 500k tokens
- Consultas mensais: 10.000 × 50 tokens = 500k tokens
- Total: ~1M tokens/mês × $0,02/1M (text-embedding-3-small) = $0,02/mês
Adicione vector database:
- Pinecone: ~$70/mês (1M vetores, índice otimizado)
- Qdrant cloud: ~$40/mês (alternativa)
- pgvector (self-hosted): custo de servidor (~$20/mês)
Custo total mensal do RAG: R$ 25 (LLM) + R$ 0,10 (embeddings) + R$ 200 (vector DB) = R$ 225/mês
Caso 5: Classificação em massa (análise de sentimento em 100k feedbacks/mês)
Por feedback (média de 100 palavras = ~140 tokens):
- Feedback do cliente: ~140 tokens input
- Prompt de classificação: ~100 tokens input
- Classificação estruturada (JSON): ~30 tokens output
Com Gemini 1.5 Flash (mais barato para volume):
Input: 100.000 × 240 tokens × $0,075/1M = $1,80/mês
Output: 100.000 × 30 tokens × $0,30/1M = $0,90/mês
Total: ~$2,70/mês ≈ R$ 13,50/mês
Para processar 100k feedbacks manualmente a R$ 0,50/feedback (tempo de analista), seria R$ 50.000. A economia é da ordem de 99,97%.
Quando modelos open-source fazem sentido (break-even analysis)
APIs de LLM são convenientes mas têm dois problemas:
- Custo em escala muito alta (milhões de requisições/mês)
- Privacidade de dados (seus dados passam por servidores de terceiros)
Para volumes muito altos ou dados sensíveis (saúde, financeiro, jurídico), rodar modelos open-source (Llama 3.3, Qwen 2.5, Mistral, DeepSeek) na sua própria infraestrutura pode ser mais econômico.
Análise de break-even aproximada
Infraestrutura típica para self-hosting:
- GPU dedicada (A100 40GB ou 4× L4): ~$1.500-3.000/mês (cloud)
- Servidor + storage + tráfego: ~$500/mês
- Total: ~$2.000-3.500/mês fixo
Quando compensa:
- Até ~$500/mês em API: use API, não justifica infraestrutura própria
- $500-2.000/mês: zona cinza. Avalie privacidade e controle além do custo
- Acima de $2.000/mês: infraestrutura própria provavelmente se paga
Lembre: self-hosting adiciona complexidade operacional. Você precisa de:
- Expertise em MLOps (deploy, monitoramento, scaling)
- Gerenciamento de infraestrutura (uptime, backups, segurança)
- Atualização de modelos (novos modelos saem constantemente)
Para muitas empresas, pagar a API é mais barato considerando custo total de operação (TCO).
Os custos que as pessoas esquecem de calcular
1. Embeddings (para RAG)
Se você usa RAG, cada documento indexado e cada consulta também tem custo de embedding.
text-embedding-3-small (OpenAI): ~$0,02 por 1M tokens embed-multilingual-v3.0 (Cohere): ~$0,10 por 1M tokens
Parece barato, mas some em escala. Se você indexa 10M tokens/mês + processa 5M tokens de consultas, são $0,30/mês (OpenAI) ou $1,50/mês (Cohere).
2. Retry e tratamento de erros
APIs falham. Timeouts acontecem. Seu sistema precisa de retry com backoff exponencial, e esses retries custam tokens extras.
Adicione 5-10% ao orçamento para conta de retries e erros.
3. Desenvolvimento e manutenção
O custo de API é só uma parte. Infraestrutura, monitoramento, ajustes de prompt, manutenção contínua, revisão de qualidade — são custos reais.
Regra geral: custo operacional total (infraestrutura + APIs + pessoal) é 3-5x o custo de API isolado.
4. Crescimento e picos
Estime o custo para 3x o volume atual, não para o volume de hoje. Projetos de IA bem-sucedidos crescem — e crescem rápido.
Certifique-se de que o orçamento comporta o sucesso.
Como otimizar custos (técnicas práticas)
1. Use o modelo mais barato que resolve o problema
Não use GPT-4o ou Claude Opus para tarefas simples. Teste se GPT-4o mini ou Gemini Flash resolvem. Frequentemente, sim.
Fluxo recomendado: começe com modelo barato → se qualidade não for suficiente → suba para modelo melhor.
2. Cache de respostas
Se a mesma pergunta aparece muitas vezes, cache a resposta. Economiza tokens e latência.
Exemplo: FAQ com 50 perguntas comuns. Cache as respostas. 80% das consultas batem no cache, não gastam tokens.
3. Reduza contexto desnecessário
Não envie o histórico completo da conversa se só as últimas 3 mensagens importam. Não envie 10 documentos recuperados se 3 são suficientes.
Cada token economizado no input é custo reduzido.
4. Use prompt engineering para reduzir output
Output é mais caro que input. Instrua o modelo a ser conciso:
“Responda em até 100 palavras” ou “Retorne apenas JSON, sem explicação adicional”
Evite respostas longas e prolixas quando não são necessárias.
5. Batching (quando possível)
Se você precisa processar 1.000 documentos, faça em batches (grupos) em vez de 1.000 requisições individuais. Reduz overhead de rede e pode permitir otimizações.
Algumas APIs (como OpenAI Batch API) oferecem desconto de 50% para processamento assíncrono em batch.
Ferramentas para monitorar custos em produção
Não confie em “achômetro”. Monitore custos reais:
- LangSmith (LangChain): tracking de tokens, custo por requisição, otimizações
- Helicone: analytics e monitoramento para OpenAI, Anthropic
- LLMonitor: open-source, rastreamento de custos e performance
- Dashboards customizados: logs + BigQuery/ClickHouse para análise
Configure alertas: se custo diário ultrapassar X, você recebe notificação antes de estourar o orçamento.
Exemplo de orçamento completo (caso realista)
Startup SaaS B2B com sistema de atendimento ao cliente via IA
Premissas:
- 2.000 conversas/mês
- 50.000 consultas RAG/mês (base de conhecimento interna)
- 10.000 documentos indexados (contratos, políticas, manuais)
Custos mensais:
- LLM para atendimento (Claude Haiku): R$ 60
- LLM para RAG (GPT-4o mini): R$ 125
- Embeddings (OpenAI): R$ 5
- Vector database (Qdrant cloud): R$ 200
- Infraestrutura (servidor, load balancer): R$ 300
- Monitoramento e logging: R$ 50
- Total operacional: R$ 740/mês
Desenvolvimento e manutenção:
- 20h/mês de engenheiro (ajustes, melhorias): R$ 4.000
- Total com manutenção: R$ 4.740/mês
Economia gerada (vs time de atendimento humano):
- 1.200 conversas deflectidas (60% de 2.000)
- Custo evitado: 1.200 × R$ 25 (custo por atendimento humano) = R$ 30.000/mês
- ROI líquido: R$ 30.000 - R$ 4.740 = R$ 25.260/mês
O sistema se paga 6x em economia direta.
Se você quer uma estimativa de custo detalhada para o seu caso de uso específico antes de iniciar o projeto, fale com a gente. Ajudamos a dimensionar o orçamento com base em dados reais do seu volume, escolher os modelos certos para cada parte do sistema e implementar com controle de custos desde o primeiro dia.