O custo por token de IA caiu 1.000x em 3 anos — o que custava $60 por milhão de tokens em 2021 hoje sai por $0,06. Segundo o Stanford HAI AI Index 2025, um modelo com performance equivalente ao GPT-3.5 passou de $20/M tokens em novembro de 2022 para $0,07/M em outubro de 2024: queda de 280x em apenas 18 meses. Compilamos 48 estatísticas verificadas de Stanford HAI, Epoch AI, MIT CSAIL, a16z e Anthropic para o panorama mais completo sobre preços de tokens de IA em 2026.
Neste relatório
- A queda de 1.000x: histórico de preços por token (2021–2026)
- Tabela comparativa: quanto custa 1M tokens em 2026
- O efeito DeepSeek: como a China reescreveu os preços do mercado
- Por que os preços continuam caindo: eficiência algorítmica e hardware
- Open source vs. proprietário: a equação de custo real
- Impacto empresarial: de R$75.000 para R$1.000 por mês
- Custo por Token de IA em Números: Tabela Completa
- Metodologia e Fontes
Principais Descobertas: Custo por Token de IA em 2026
- Queda de 1.000x em 3 anos — GPT-3 custava $60/M tokens em 2021; Llama 3.2 3B custa $0,06/M hoje (a16z, 2024)
- 280x de queda em 18 meses para performance equivalente ao GPT-3.5: de $20/M para $0,07/M (Stanford HAI AI Index 2025)
- Mediana de 50x de queda por ano em custo de infereência entre 2020 e 2025; após janeiro de 2024, a taxa acelerou para 200x/ano (Epoch AI, 2025)
- Spread de 250x entre o modelo mais barato (Gemini 2.5 Flash-Lite, $0,50/M total) e o mais caro (Claude Opus 4.6, $30/M total) em 2026
- DeepSeek R1 é 27x mais barato que o OpenAI o1 — seu lançamento derrubou as ações da NVIDIA em 17% em um único dia
- Output tokens custam 3–10x mais que input tokens — o preço anunciado pelo provedor quase sempre subestima o custo real
- Eficiência algorítmica melhora 3x por ano, além da queda do hardware, segundo paper aceito no NeurIPS 2025 (MIT CSAIL)
- Open source é 86% mais barato que proprietário para cerca de 80% dos casos de uso empresariais (análise de 94 modelos, 2026)
- Chatbot empresarial com GPT-4 custava $8.000–$15.000/mês em 2023; mesmo volume hoje com modelos equivalentes sai por menos de $200/mês
- Anthropic saiu de margem bruta negativa de 94% para projeção de 50% em 2025 e 77% em 2028, à medida que custos de infereência caem
Os dados abaixo foram coletados em maio de 2026 a partir de fontes primárias — preços oficiais dos provedores, relatórios de pesquisa com metodologia declarada e papers revisados por pares. Para o contexto completo sobre o mercado de tokens de IA, incluindo consumo de energia e infraestrutura global, veja o relatório hub: Tokens de IA 2026: 55 Estatísticas de Consumo, Custo e Infraestrutura.
1. A queda de 1.000x: histórico de preços por token (2021–2026)
Nenhuma tecnologia na história recente experimentou queda de custo tão rápida quanto a infereência de modelos de linguagem. Quando o GPT-3 se tornou acessível via API em novembro de 2021, o preço era de $60 por milhão de tokens. Três anos depois, o Llama 3.2 3B — um modelo de código aberto que supera o desempenho do GPT-3 nos benchmarks originais — custa $0,06 por milhão de tokens: mil vezes menos, segundo análise publicada pela Andreessen Horowitz (a16z).
O Stanford HAI AI Index 2025 documentou outra trajetória igualmente impressionante: o custo para atingir desempenho equivalente ao GPT-3.5 (64,8 no benchmark MMLU) caiu de $20/M tokens em novembro de 2022 para $0,07/M tokens em outubro de 2024 — uma redução de 280 vezes em apenas 18 meses. O modelo que atingiu esse nível de custo mais baixo foi o Gemini-1.5-Flash-8B do Google.
| Período | Custo por 1M tokens | Modelo de referência | Fonte |
|---|---|---|---|
| Novembro 2021 | $60,00 | GPT-3 (API pública) | a16z — LLMflation, 2024 |
| Novembro 2022 | $20,00 | GPT-3.5 equivalente (MMLU 64,8) | Stanford HAI AI Index 2025 |
| Março 2023 | $30,00 (input) / $60,00 (output) | GPT-4 (lançamento) | OpenAI Pricing, 2023 |
| 2024 | $0,06 | Llama 3.2 3B via Together.ai | a16z — LLMflation, 2024 |
| Outubro 2024 | $0,07 | Gemini-1.5-Flash-8B (MMLU 64,8) | Stanford HAI AI Index 2025 |
| 2025 | $3,00 (input) / $10,00 (output) | GPT-4o | OpenAI Pricing, 2025 |
| Abril 2025 | $0,10 (input) / $0,40 (output) | GPT-4.1 Nano | OpenAI Pricing, 2025 |
| 2026 | $0,10 (input) / $0,40 (output) | Gemini 2.5 Flash-Lite | Google AI Pricing, 2026 |
A taxa de queda varia conforme o benchmark de desempenho analisado. O Epoch AI, que monitora preços de APIs de múltiplos provedores com regressão log-linear, encontrou uma mediana de 50x de queda por ano entre todos os períodos analisados de 2020 a início de 2025. Após janeiro de 2024, a mediana acelerou para 200x por ano. Para modelos com desempenho em questões científicas de nível PhD (GPQA-Diamond), a queda foi de 40x por ano. O range total registrado: entre 9x e 900x por ano, dependendo do benchmark.
2. Tabela comparativa: quanto custa 1M tokens em 2026
Os preços abaixo refletem as tarifas oficiais dos provedores em maio de 2026. Um alerta metodológico importante: output tokens custam entre 3x e 10x mais do que input tokens na maioria dos modelos — o custo real de uma aplicação depende da proporção de saída gerada pelo modelo, e não apenas do preço anunciado na entrada.
| Provedor | Modelo | Input ($/1M) | Output ($/1M) | Categoria |
|---|---|---|---|---|
| Gemini 1.5 Flash | $0,08 | $0,30 | Budget | |
| Gemini 2.5 Flash-Lite | $0,10 | $0,40 | Budget | |
| OpenAI | GPT-4o Mini | $0,15 | $0,60 | Budget |
| Gemini 2.5 Flash | $0,175 | $0,75 | Mid-tier | |
| xAI | Grok 4.1 Fast | $0,20 | $0,50 | Mid-tier |
| Gemini 3 Flash | $0,50 | $3,00 | Mid-tier | |
| Anthropic | Claude Haiku 4.5 | $1,00 | $5,00 | Mid-tier |
| Gemini 2.5 Pro | $1,25 | $10,00 | Flagship | |
| OpenAI | GPT-5.2 | $1,75 | $14,00 | Flagship |
| Gemini 3.1 Pro (≤200K) | $2,00 | $12,00 | Flagship | |
| OpenAI | GPT-4o | $2,50 | $10,00 | Flagship |
| Anthropic | Claude Sonnet 4.6 | $3,00 | $15,00 | Flagship |
| Anthropic | Claude Opus 4.6 | $5,00 | $25,00 | Premium |
| OpenAI | GPT-5.2 Pro | $21,00 | $168,00 | Premium |
O spread total entre o modelo de API mais barato (Gemini 1.5 Flash em $0,38/M total) e o mais caro (GPT-5.2 Pro em $189/M total) é de aproximadamente 500x. Para uso prático, o spread entre os modelos flagship de consumo geral é de 250x — de Gemini 2.5 Flash-Lite ($0,50/M total) a Claude Opus 4.6 ($30/M total), conforme análise da CloudIDR publicada em março de 2026.
3. O efeito DeepSeek: como a China reescreveu os preços do mercado
Em janeiro de 2025, o laboratório chinês DeepSeek lançou o modelo R1 com uma combinação que sacudiu o mercado: desempenho próximo ao estado da arte em raciocínio a um custo de infereência radicalmente menor. O impacto foi imediato — as ações da NVIDIA caíram quase 17% em um único dia, e o Nasdaq recuou 3%, em uma das maiores destruições de valor de mercado ligadas ao setor de IA da história.
| Métrica | Valor | Fonte |
|---|---|---|
| Preço DeepSeek R1 — input | $0,55 por 1M tokens | DeepSeek Pricing, 2025 |
| Preço DeepSeek R1 — output | $2,19 por 1M tokens | DeepSeek Pricing, 2025 |
| Diferença vs. OpenAI o1 | 27x mais barato | 16x Prompt — análise comparativa, 2025 |
| Diferença vs. OpenAI o3-mini | 66% mais barato | 16x Prompt — análise comparativa, 2025 |
| Estimativa Sam Altman (CEO OpenAI) | DeepSeek roda 20–50x mais barato | Declaração pública, janeiro 2025 |
| Distância dos concorrentes ocidentais | ~90% mais barato | Introl — Inference Unit Economics, 2025 |
| Impacto na NVIDIA (dia do lançamento) | Queda de 16,9% nas ações | Relatórios de mercado, 27/01/2025 |
| DeepSeek V3.2 — novo corte (set/2025) | Redução de preços adicional de 50%+ | DeepSeek — anúncio oficial, setembro 2025 |
A arquitetura do DeepSeek R1 utiliza Mixture-of-Experts (MoE) — uma técnica que ativa apenas uma fração dos parâmetros do modelo por infereência, reduzindo drasticamente o custo computacional. O modelo foi treinado com técnicas de reinforcement learning que dispensaram a necessidade de grandes volumes de dados supervisionados de alta qualidade, outro fator que reduziu os custos de desenvolvimento.
Quer aplicar IA de forma prática no seu negócio?
O ebook “IA no Piloto Automático” mostra como usar IA em marketing, vendas e automações — mesmo sem equipe técnica e sem gastar fortunas em API.
Ver o ebook por R$19,90 →4. Por que os preços continuam caindo: eficiência algorítmica e hardware
A queda no custo por token não é aleatória — ela resulta de dois vetores simultâneos e independentes: hardware mais barato e eficiente, e algoritmos que extraem mais desempenho de cada operação. O paper aceito no NeurIPS 2025 por Gundlach, Lynch, Mertens e Thompson (MIT CSAIL e MIT Sloan) quantificou esse fenômeno com precisão inédita, analisando 93 modelos com 138 pontos de preço entre abril de 2024 e outubro de 2025.
| Fator | Taxa de melhoria | Fonte |
|---|---|---|
| Eficiência algorítmica (ajustada por hardware) | ~3x por ano | Gundlach et al. — NeurIPS 2025 (MIT CSAIL) |
| Queda de custo de hardware (GPUs/TPUs) | ~30% ao ano | Stanford HAI AI Index 2025 |
| Melhoria de eficiência energética do hardware | ~40% ao ano | Stanford HAI AI Index 2025 |
| Redução de energia por prompt (mai/2024 → mai/2025) | 33x em 12 meses | Análise de sistemas de produção, 2025 |
| Queda no custo de modelos GPQA-Diamond | 5.315x por ano (Pareto) | Gundlach et al. — NeurIPS 2025 |
| Queda no custo de modelos AIME | 11.664x por ano (Pareto) | Gundlach et al. — NeurIPS 2025 |
| Quantização (8-bit): redução de tamanho | 50–75% do modelo com ~1% de perda | Introl — Inference Unit Economics, 2025 |
| Continuous batching: melhoria de utilização | 2x mais throughput | Introl — Inference Unit Economics, 2025 |
| Speculative decoding: redução de latência | 2–3x mais rápido | Introl — Inference Unit Economics, 2025 |
| Potencial combinado das otimizações | Até 16x de redução de custo | Introl — Inference Unit Economics, 2025 |
O trabalho do MIT CSAIL revelou uma assimetria importante: a taxa de melhoria varia enormemente conforme o nível de performance exigido. Para benchmarks exigentes como GPQA-Diamond, as melhorias são extremas — os autores encontraram taxas de até 900x por ano na faixa de modelos superiores. Para modelos de desempenho médio, a melhoria é mais modesta: cerca de 1,7x ao ano. Em termos práticos, quanto mais difícil a tarefa, mais rápido o custo cai.
5. Open source vs. proprietário: a equação de custo real
A escolha entre modelos proprietários (OpenAI, Anthropic, Google) e open source (Llama, DeepSeek, Qwen, Mistral) tem implicações financeiras diretas. Uma análise de 94 modelos líderes publicada em 2026 mostra que modelos open source oferecem 7,3x melhor relação custo-benefício e são 86% mais baratos para cerca de 80% dos casos de uso empresariais reais.
| Modelo | Tipo | Custo por 1M tokens | Score de qualidade | Fonte |
|---|---|---|---|---|
| DeepSeek V3.2 | Open source (API) | $0,17–$0,42/M | ~57 (LMArena Elo ~1421) | WhatLLM.org, 2026 |
| Qwen3-235B | Open source (API) | $0,17–$0,42/M | ~55 | WhatLLM.org, 2026 |
| Llama 3.3 70B | Open source (API) | $0,17–$0,42/M | ~50 | WhatLLM.org, 2026 |
| GPT-5.2 | Proprietário | $1,75/$14,00/M | Flagship OpenAI | OpenAI Pricing, 2026 |
| Claude Sonnet 4.6 | Proprietário | $3,00/$15,00/M | Flagship Anthropic | Anthropic Pricing, 2026 |
| Llama 4 Maverick (self-hosted, 8×H100) | Open source (auto-hospedado) | $49,24/hora fixo | Break-even: 500M tokens/dia | Introl — Inference Unit Economics, 2025 |
Auto-hospedar modelos open source só faz sentido financeiro a partir de determinado volume. Um cluster de 8 GPUs H100 em cloud custa entre $49,24/hora (Hyperbolic) e $6,98/hora por GPU isolada no Azure — totalizando $8–$15/hora considerando energia, resfriamento e overhead operacional. O break-even com APIs externas ocorre por volta de 8.000 conversas por dia ou 500 milhões de tokens diários, dependendo do modelo e do provedor de cloud escolhido. Abaixo desse volume, API é mais barato. Acima, self-hosting começa a fazer sentido — especialmente para empresas com exigências de privacidade de dados.
6. Impacto empresarial: de $15.000 para $200 por mês
A queda no custo por token de IA produziu mudanças concretas nos orçamentos de tecnologia de empresas de todos os tamanhos. O exemplo mais citado: em 2023, manter um chatbot de atendimento ao cliente com GPT-4 custava entre $8.000 e $15.000 por mês para uma empresa de médio porte. Em 2026, o mesmo volume de interações com modelos de performance equivalente (GPT-4.1 Nano ou Gemini 2.5 Flash) sai por menos de $200 por mês.
| Caso | Custo antes | Custo atual | Economia | Fonte |
|---|---|---|---|---|
| Chatbot empresa média (GPT-4 → modelos atuais) | $8.000–$15.000/mês (2023) | < $200/mês (2026) | 97–98% | Medium — AI Price Collapse, 2026 |
| Midjourney (H100 → TPU v6 Google) | $2,1M/mês | < $700K/mês | $16,8M/ano | Introl — Inference Unit Economics, 2025 |
| Character.AI — migração de infraestrutura | Baseline anterior | 3,8x mais eficiente | ~74% | Introl — Inference Unit Economics, 2025 |
| Processar kernel Linux completo (~40M linhas) | Inviável em 2022 | < $1,00 em 2024 | — | a16z — LLMflation, 2024 |
| OpenAI — compute margin | ~35% (jan/2024) | ~70% (out/2025) | +35pp em 21 meses | SaaStr — AI Gross Margins, 2025 |
| Anthropic — margem bruta | –94% (2024) | 50% projetado (2025) | +144pp em 1 ano | Relatórios financeiros Anthropic, 2025 |
A melhoria de margens dos próprios provedores é outro termômetro relevante. A Anthropic saiu de uma margem bruta negativa de 94% em 2024 — gastava quase o dobro do que recebia em custos de infereência — para uma projeção de 50% em 2025, com expectativa de atingir 77% em 2028. A OpenAI viu sua margem de compute saltar de 35% para 70% entre janeiro de 2024 e outubro de 2025, segundo análise publicada pelo SaaStr. Essa melhoria reflete diretamente a queda nos custos de rodar os modelos nos servidores.
Custo por Token de IA em Números: Tabela Completa
Consolidação das principais métricas do artigo para consulta e citação rápida.
| Métrica | Valor | Fonte |
|---|---|---|
| Queda de custo por token (2021–2024) | 1.000x em 3 anos | a16z — LLMflation, 2024 |
| Queda para desempenho GPT-3.5 equivalente (18 meses) | 280x — $20/M → $0,07/M | Stanford HAI AI Index 2025 |
| Taxa mediana de queda de preço (2020–2025) | 50x por ano | Epoch AI — LLM Inference Price Trends, 2025 |
| Taxa mediana pós-jan/2024 | 200x por ano | Epoch AI — LLM Inference Price Trends, 2025 |
| Range de queda por benchmark | 9x a 900x por ano | Epoch AI / Gundlach et al. NeurIPS 2025 |
| Eficiência algorítmica (além do hardware) | ~3x por ano | Gundlach et al. — NeurIPS 2025 (MIT CSAIL) |
| Queda de custo de hardware (anual) | ~30% | Stanford HAI AI Index 2025 |
| Ganho energético do hardware (anual) | ~40% | Stanford HAI AI Index 2025 |
| Redução de energia por prompt (12 meses) | 33x | Análise de sistemas de produção, 2025 |
| Modelo mais barato em 2026 (API) | Gemini 1.5 Flash — $0,08/M input | Google AI Pricing, 2026 |
| Modelo mais caro em 2026 (API) | GPT-5.2 Pro — $21,00/M input | OpenAI Pricing, 2026 |
| Spread total (mais barato vs. mais caro) | 250x (flagship) / 500x (full range) | CloudIDR — LLM Pricing Comparison 2026 |
| Diferença output vs. input tokens | 3–10x mais caro | CloudIDR — LLM Pricing Comparison 2026 |
| DeepSeek R1 — custo vs. OpenAI o1 | 27x mais barato | 16x Prompt, 2025 |
| DeepSeek R1 — custo vs. o3-mini | 66% mais barato | 16x Prompt, 2025 |
| NVIDIA — queda após lançamento DeepSeek R1 | –16,9% em 1 dia | Relatórios de mercado, jan/2025 |
| Open source vs. proprietário — economia | 86% mais barato para 80% dos casos | Swfte AI — análise de 94 modelos, 2026 |
| Open source — relação custo-benefício | 7,3x melhor que proprietário | WhatLLM.org, 2026 |
| Self-hosting break-even | > 8.000 conversas/dia ou 500M tokens/dia | Introl — Inference Unit Economics, 2025 |
| Chatbot empresarial — custo 2023 vs. 2026 | $8.000–$15.000/mês → < $200/mês | Medium — AI Price Collapse, 2026 |
| Anthropic — margem bruta 2024 → 2025 | –94% → 50% projetado | Relatórios financeiros Anthropic, 2025 |
| OpenAI — compute margin 2024 → 2025 | 35% → 70% | SaaStr — AI Gross Margins, 2025 |
Metodologia e Fontes
As estatísticas foram coletadas em maio de 2026, priorizando fontes primárias com metodologia declarada: preços oficiais dos provedores, relatórios de pesquisa de institutos independentes e papers revisados por pares. Dados sem fonte rastrecável foram descartados. Nenhuma estatística foi inventada ou arredondada para dramatizar. Preços de API mudam com frequência — esta página é revisada trimestralmente.
- Andreessen Horowitz (a16z) — LLMflation: LLM Inference Cost Is Going Down Fast, 2024
- Stanford HAI — AI Index Report 2025
- Epoch AI — LLM Inference Price Trends, 2025
- Gundlach, Lynch, Mertens, Thompson — The Price of Progress: Algorithmic Efficiency and the Falling Cost of AI Inference (MIT CSAIL / NeurIPS 2025)
- CloudIDR — Complete LLM Pricing Comparison 2026: 105 Models Analyzed
- IntuitionLabs — AI API Pricing Comparison 2026: Grok vs Gemini vs GPT-4o vs Claude
- Introl — Inference Unit Economics: The True Cost Per Million Tokens, 2025
- 16x Prompt — DeepSeek R1: Comparing Pricing and Speed Across Providers, 2025
- Swfte AI — Open Source LLMs: How Enterprises Save 86% on AI Costs in 2026
- WhatLLM.org — Open Source vs Proprietary LLMs: Complete 2025 Benchmark Analysis
- SaaStr — The Real Math Behind OpenAI’s 70% Compute Margin, 2025
- OpenAI Pricing — openai.com/api/pricing (consultado em maio/2026)
- Anthropic Pricing — anthropic.com/pricing (consultado em maio/2026)
- Google AI Pricing — ai.google.dev/pricing (consultado em maio/2026)
Última atualização: maio de 2026. Para citar este relatório: viniensina.com.br/custo-token-ia-2026/
