Custo por Token de IA em 2026: Tabela Comparativa e Histórico de Preços [48 Stats]

·

·

IA & Tecnologia

O custo por token de IA caiu 1.000x em 3 anos — o que custava $60 por milhão de tokens em 2021 hoje sai por $0,06. Segundo o Stanford HAI AI Index 2025, um modelo com performance equivalente ao GPT-3.5 passou de $20/M tokens em novembro de 2022 para $0,07/M em outubro de 2024: queda de 280x em apenas 18 meses. Compilamos 48 estatísticas verificadas de Stanford HAI, Epoch AI, MIT CSAIL, a16z e Anthropic para o panorama mais completo sobre preços de tokens de IA em 2026.

Principais Descobertas: Custo por Token de IA em 2026

  • Queda de 1.000x em 3 anos — GPT-3 custava $60/M tokens em 2021; Llama 3.2 3B custa $0,06/M hoje (a16z, 2024)
  • 280x de queda em 18 meses para performance equivalente ao GPT-3.5: de $20/M para $0,07/M (Stanford HAI AI Index 2025)
  • Mediana de 50x de queda por ano em custo de infereência entre 2020 e 2025; após janeiro de 2024, a taxa acelerou para 200x/ano (Epoch AI, 2025)
  • Spread de 250x entre o modelo mais barato (Gemini 2.5 Flash-Lite, $0,50/M total) e o mais caro (Claude Opus 4.6, $30/M total) em 2026
  • DeepSeek R1 é 27x mais barato que o OpenAI o1 — seu lançamento derrubou as ações da NVIDIA em 17% em um único dia
  • Output tokens custam 3–10x mais que input tokens — o preço anunciado pelo provedor quase sempre subestima o custo real
  • Eficiência algorítmica melhora 3x por ano, além da queda do hardware, segundo paper aceito no NeurIPS 2025 (MIT CSAIL)
  • Open source é 86% mais barato que proprietário para cerca de 80% dos casos de uso empresariais (análise de 94 modelos, 2026)
  • Chatbot empresarial com GPT-4 custava $8.000–$15.000/mês em 2023; mesmo volume hoje com modelos equivalentes sai por menos de $200/mês
  • Anthropic saiu de margem bruta negativa de 94% para projeção de 50% em 2025 e 77% em 2028, à medida que custos de infereência caem

Os dados abaixo foram coletados em maio de 2026 a partir de fontes primárias — preços oficiais dos provedores, relatórios de pesquisa com metodologia declarada e papers revisados por pares. Para o contexto completo sobre o mercado de tokens de IA, incluindo consumo de energia e infraestrutura global, veja o relatório hub: Tokens de IA 2026: 55 Estatísticas de Consumo, Custo e Infraestrutura.

1.000x
queda no custo por token entre 2021 e 2024 (a16z)
280x
redução em 18 meses para desempenho GPT-3.5 equivalente (Stanford HAI)
27x
diferença de preço entre DeepSeek R1 e OpenAI o1
86%
economia média com modelos open source vs. proprietários

1. A queda de 1.000x: histórico de preços por token (2021–2026)

Nenhuma tecnologia na história recente experimentou queda de custo tão rápida quanto a infereência de modelos de linguagem. Quando o GPT-3 se tornou acessível via API em novembro de 2021, o preço era de $60 por milhão de tokens. Três anos depois, o Llama 3.2 3B — um modelo de código aberto que supera o desempenho do GPT-3 nos benchmarks originais — custa $0,06 por milhão de tokens: mil vezes menos, segundo análise publicada pela Andreessen Horowitz (a16z).

O Stanford HAI AI Index 2025 documentou outra trajetória igualmente impressionante: o custo para atingir desempenho equivalente ao GPT-3.5 (64,8 no benchmark MMLU) caiu de $20/M tokens em novembro de 2022 para $0,07/M tokens em outubro de 2024 — uma redução de 280 vezes em apenas 18 meses. O modelo que atingiu esse nível de custo mais baixo foi o Gemini-1.5-Flash-8B do Google.

PeríodoCusto por 1M tokensModelo de referênciaFonte
Novembro 2021$60,00GPT-3 (API pública)a16z — LLMflation, 2024
Novembro 2022$20,00GPT-3.5 equivalente (MMLU 64,8)Stanford HAI AI Index 2025
Março 2023$30,00 (input) / $60,00 (output)GPT-4 (lançamento)OpenAI Pricing, 2023
2024$0,06Llama 3.2 3B via Together.aia16z — LLMflation, 2024
Outubro 2024$0,07Gemini-1.5-Flash-8B (MMLU 64,8)Stanford HAI AI Index 2025
2025$3,00 (input) / $10,00 (output)GPT-4oOpenAI Pricing, 2025
Abril 2025$0,10 (input) / $0,40 (output)GPT-4.1 NanoOpenAI Pricing, 2025
2026$0,10 (input) / $0,40 (output)Gemini 2.5 Flash-LiteGoogle AI Pricing, 2026

A taxa de queda varia conforme o benchmark de desempenho analisado. O Epoch AI, que monitora preços de APIs de múltiplos provedores com regressão log-linear, encontrou uma mediana de 50x de queda por ano entre todos os períodos analisados de 2020 a início de 2025. Após janeiro de 2024, a mediana acelerou para 200x por ano. Para modelos com desempenho em questões científicas de nível PhD (GPQA-Diamond), a queda foi de 40x por ano. O range total registrado: entre 9x e 900x por ano, dependendo do benchmark.

A redução de custo por token de IA é mais rápida que a Lei de Moore (que dobrava transistores a cada 2 anos) e que a Lei de Edholm (que dobrava a largura de banda de telecomunicações). Para desenvolvedores e empresas, cada trimestre de espera representa dezenas de porcento de desconto em infraestrutura de IA. Veja como isso se traduz em ROI real em Estatísticas de ROI da IA no Marketing Digital 2026.

2. Tabela comparativa: quanto custa 1M tokens em 2026

Os preços abaixo refletem as tarifas oficiais dos provedores em maio de 2026. Um alerta metodológico importante: output tokens custam entre 3x e 10x mais do que input tokens na maioria dos modelos — o custo real de uma aplicação depende da proporção de saída gerada pelo modelo, e não apenas do preço anunciado na entrada.

ProvedorModeloInput ($/1M)Output ($/1M)Categoria
GoogleGemini 1.5 Flash$0,08$0,30Budget
GoogleGemini 2.5 Flash-Lite$0,10$0,40Budget
OpenAIGPT-4o Mini$0,15$0,60Budget
GoogleGemini 2.5 Flash$0,175$0,75Mid-tier
xAIGrok 4.1 Fast$0,20$0,50Mid-tier
GoogleGemini 3 Flash$0,50$3,00Mid-tier
AnthropicClaude Haiku 4.5$1,00$5,00Mid-tier
GoogleGemini 2.5 Pro$1,25$10,00Flagship
OpenAIGPT-5.2$1,75$14,00Flagship
GoogleGemini 3.1 Pro (≤200K)$2,00$12,00Flagship
OpenAIGPT-4o$2,50$10,00Flagship
AnthropicClaude Sonnet 4.6$3,00$15,00Flagship
AnthropicClaude Opus 4.6$5,00$25,00Premium
OpenAIGPT-5.2 Pro$21,00$168,00Premium

O spread total entre o modelo de API mais barato (Gemini 1.5 Flash em $0,38/M total) e o mais caro (GPT-5.2 Pro em $189/M total) é de aproximadamente 500x. Para uso prático, o spread entre os modelos flagship de consumo geral é de 250x — de Gemini 2.5 Flash-Lite ($0,50/M total) a Claude Opus 4.6 ($30/M total), conforme análise da CloudIDR publicada em março de 2026.

A relação input/output é crítica para o planejamento de custos. Um chatbot com respostas longas pode ter 80% dos tokens sendo output — o que significa que o custo real se aproxima do preço de output, e não do input anunciado na maioria dos comparativos. Para aplicações de análise de documentos, o oposto: input domina. Modele a proporção real do seu caso de uso antes de comparar provedores.

3. O efeito DeepSeek: como a China reescreveu os preços do mercado

Em janeiro de 2025, o laboratório chinês DeepSeek lançou o modelo R1 com uma combinação que sacudiu o mercado: desempenho próximo ao estado da arte em raciocínio a um custo de infereência radicalmente menor. O impacto foi imediato — as ações da NVIDIA caíram quase 17% em um único dia, e o Nasdaq recuou 3%, em uma das maiores destruições de valor de mercado ligadas ao setor de IA da história.

MétricaValorFonte
Preço DeepSeek R1 — input$0,55 por 1M tokensDeepSeek Pricing, 2025
Preço DeepSeek R1 — output$2,19 por 1M tokensDeepSeek Pricing, 2025
Diferença vs. OpenAI o127x mais barato16x Prompt — análise comparativa, 2025
Diferença vs. OpenAI o3-mini66% mais barato16x Prompt — análise comparativa, 2025
Estimativa Sam Altman (CEO OpenAI)DeepSeek roda 20–50x mais baratoDeclaração pública, janeiro 2025
Distância dos concorrentes ocidentais~90% mais baratoIntrol — Inference Unit Economics, 2025
Impacto na NVIDIA (dia do lançamento)Queda de 16,9% nas açõesRelatórios de mercado, 27/01/2025
DeepSeek V3.2 — novo corte (set/2025)Redução de preços adicional de 50%+DeepSeek — anúncio oficial, setembro 2025

A arquitetura do DeepSeek R1 utiliza Mixture-of-Experts (MoE) — uma técnica que ativa apenas uma fração dos parâmetros do modelo por infereência, reduzindo drasticamente o custo computacional. O modelo foi treinado com técnicas de reinforcement learning que dispensaram a necessidade de grandes volumes de dados supervisionados de alta qualidade, outro fator que reduziu os custos de desenvolvimento.

O efeito DeepSeek vai além do próprio modelo. Ele estabeleceu um novo patamar de expectativa de mercado: desempenho de fronteira por uma fração do preço. OpenAI, Anthropic e Google responderam com reduções de preço e lançamento de modelos mais econômicos em 2025. Em setembro de 2025, o próprio DeepSeek cortou preços pela segunda vez — o sinal mais claro de que a competição por custo de tokens ainda não terminou.

Quer aplicar IA de forma prática no seu negócio?

O ebook “IA no Piloto Automático” mostra como usar IA em marketing, vendas e automações — mesmo sem equipe técnica e sem gastar fortunas em API.

Ver o ebook por R$19,90 →

4. Por que os preços continuam caindo: eficiência algorítmica e hardware

A queda no custo por token não é aleatória — ela resulta de dois vetores simultâneos e independentes: hardware mais barato e eficiente, e algoritmos que extraem mais desempenho de cada operação. O paper aceito no NeurIPS 2025 por Gundlach, Lynch, Mertens e Thompson (MIT CSAIL e MIT Sloan) quantificou esse fenômeno com precisão inédita, analisando 93 modelos com 138 pontos de preço entre abril de 2024 e outubro de 2025.

FatorTaxa de melhoriaFonte
Eficiência algorítmica (ajustada por hardware)~3x por anoGundlach et al. — NeurIPS 2025 (MIT CSAIL)
Queda de custo de hardware (GPUs/TPUs)~30% ao anoStanford HAI AI Index 2025
Melhoria de eficiência energética do hardware~40% ao anoStanford HAI AI Index 2025
Redução de energia por prompt (mai/2024 → mai/2025)33x em 12 mesesAnálise de sistemas de produção, 2025
Queda no custo de modelos GPQA-Diamond5.315x por ano (Pareto)Gundlach et al. — NeurIPS 2025
Queda no custo de modelos AIME11.664x por ano (Pareto)Gundlach et al. — NeurIPS 2025
Quantização (8-bit): redução de tamanho50–75% do modelo com ~1% de perdaIntrol — Inference Unit Economics, 2025
Continuous batching: melhoria de utilização2x mais throughputIntrol — Inference Unit Economics, 2025
Speculative decoding: redução de latência2–3x mais rápidoIntrol — Inference Unit Economics, 2025
Potencial combinado das otimizaçõesAté 16x de redução de custoIntrol — Inference Unit Economics, 2025

O trabalho do MIT CSAIL revelou uma assimetria importante: a taxa de melhoria varia enormemente conforme o nível de performance exigido. Para benchmarks exigentes como GPQA-Diamond, as melhorias são extremas — os autores encontraram taxas de até 900x por ano na faixa de modelos superiores. Para modelos de desempenho médio, a melhoria é mais modesta: cerca de 1,7x ao ano. Em termos práticos, quanto mais difícil a tarefa, mais rápido o custo cai.

A principal contribuição do paper de Gundlach et al. (NeurIPS 2025) é mostrar que a queda de custo de infereência não é apenas reflexo do hardware mais barato — o progresso algorítmico representa cerca de 3x de ganho adicional por ano após descontar a melhoria natural do hardware. Isso significa que mesmo sem novos chips, os modelos ficariam mais baratos todos os anos. A combinação dos dois vetores é o que produz quedas de 50x–200x ao ano na mediana.

5. Open source vs. proprietário: a equação de custo real

A escolha entre modelos proprietários (OpenAI, Anthropic, Google) e open source (Llama, DeepSeek, Qwen, Mistral) tem implicações financeiras diretas. Uma análise de 94 modelos líderes publicada em 2026 mostra que modelos open source oferecem 7,3x melhor relação custo-benefício e são 86% mais baratos para cerca de 80% dos casos de uso empresariais reais.

ModeloTipoCusto por 1M tokensScore de qualidadeFonte
DeepSeek V3.2Open source (API)$0,17–$0,42/M~57 (LMArena Elo ~1421)WhatLLM.org, 2026
Qwen3-235BOpen source (API)$0,17–$0,42/M~55WhatLLM.org, 2026
Llama 3.3 70BOpen source (API)$0,17–$0,42/M~50WhatLLM.org, 2026
GPT-5.2Proprietário$1,75/$14,00/MFlagship OpenAIOpenAI Pricing, 2026
Claude Sonnet 4.6Proprietário$3,00/$15,00/MFlagship AnthropicAnthropic Pricing, 2026
Llama 4 Maverick (self-hosted, 8×H100)Open source (auto-hospedado)$49,24/hora fixoBreak-even: 500M tokens/diaIntrol — Inference Unit Economics, 2025

Auto-hospedar modelos open source só faz sentido financeiro a partir de determinado volume. Um cluster de 8 GPUs H100 em cloud custa entre $49,24/hora (Hyperbolic) e $6,98/hora por GPU isolada no Azure — totalizando $8–$15/hora considerando energia, resfriamento e overhead operacional. O break-even com APIs externas ocorre por volta de 8.000 conversas por dia ou 500 milhões de tokens diários, dependendo do modelo e do provedor de cloud escolhido. Abaixo desse volume, API é mais barato. Acima, self-hosting começa a fazer sentido — especialmente para empresas com exigências de privacidade de dados.

A equação open source mudou radicalmente em 2025. Modelos como DeepSeek V3.2 e Qwen3-235B alcançam scores de qualidade que antes pertenciam exclusivamente a modelos proprietários premium — mas a uma fração do preço. Para quem usa IA em automações de marketing e criação de conteúdo, como explicamos em Como usar Claude para criar anúncios no Meta Ads, a escolha do modelo certo pode representar 70–90% de economia sem perda perceptível de qualidade.

6. Impacto empresarial: de $15.000 para $200 por mês

A queda no custo por token de IA produziu mudanças concretas nos orçamentos de tecnologia de empresas de todos os tamanhos. O exemplo mais citado: em 2023, manter um chatbot de atendimento ao cliente com GPT-4 custava entre $8.000 e $15.000 por mês para uma empresa de médio porte. Em 2026, o mesmo volume de interações com modelos de performance equivalente (GPT-4.1 Nano ou Gemini 2.5 Flash) sai por menos de $200 por mês.

CasoCusto antesCusto atualEconomiaFonte
Chatbot empresa média (GPT-4 → modelos atuais)$8.000–$15.000/mês (2023)< $200/mês (2026)97–98%Medium — AI Price Collapse, 2026
Midjourney (H100 → TPU v6 Google)$2,1M/mês< $700K/mês$16,8M/anoIntrol — Inference Unit Economics, 2025
Character.AI — migração de infraestruturaBaseline anterior3,8x mais eficiente~74%Introl — Inference Unit Economics, 2025
Processar kernel Linux completo (~40M linhas)Inviável em 2022< $1,00 em 2024a16z — LLMflation, 2024
OpenAI — compute margin~35% (jan/2024)~70% (out/2025)+35pp em 21 mesesSaaStr — AI Gross Margins, 2025
Anthropic — margem bruta–94% (2024)50% projetado (2025)+144pp em 1 anoRelatórios financeiros Anthropic, 2025

A melhoria de margens dos próprios provedores é outro termômetro relevante. A Anthropic saiu de uma margem bruta negativa de 94% em 2024 — gastava quase o dobro do que recebia em custos de infereência — para uma projeção de 50% em 2025, com expectativa de atingir 77% em 2028. A OpenAI viu sua margem de compute saltar de 35% para 70% entre janeiro de 2024 e outubro de 2025, segundo análise publicada pelo SaaStr. Essa melhoria reflete diretamente a queda nos custos de rodar os modelos nos servidores.

A queda de custo por token está desbloqueando casos de uso que eram inviáveis há dois anos: análise de contratos completos, indexação de bases de conhecimento corporativas, geração de conteúdo em escala. Para quem usa IA em marketing digital, as implicações são diretas — veja os dados de ROI em Estatísticas de ROI da IA no Marketing Digital 2026 e o panorama completo da adoção no mercado em IA no Marketing Digital: Guia Completo.

Custo por Token de IA em Números: Tabela Completa

Consolidação das principais métricas do artigo para consulta e citação rápida.

MétricaValorFonte
Queda de custo por token (2021–2024)1.000x em 3 anosa16z — LLMflation, 2024
Queda para desempenho GPT-3.5 equivalente (18 meses)280x — $20/M → $0,07/MStanford HAI AI Index 2025
Taxa mediana de queda de preço (2020–2025)50x por anoEpoch AI — LLM Inference Price Trends, 2025
Taxa mediana pós-jan/2024200x por anoEpoch AI — LLM Inference Price Trends, 2025
Range de queda por benchmark9x a 900x por anoEpoch AI / Gundlach et al. NeurIPS 2025
Eficiência algorítmica (além do hardware)~3x por anoGundlach et al. — NeurIPS 2025 (MIT CSAIL)
Queda de custo de hardware (anual)~30%Stanford HAI AI Index 2025
Ganho energético do hardware (anual)~40%Stanford HAI AI Index 2025
Redução de energia por prompt (12 meses)33xAnálise de sistemas de produção, 2025
Modelo mais barato em 2026 (API)Gemini 1.5 Flash — $0,08/M inputGoogle AI Pricing, 2026
Modelo mais caro em 2026 (API)GPT-5.2 Pro — $21,00/M inputOpenAI Pricing, 2026
Spread total (mais barato vs. mais caro)250x (flagship) / 500x (full range)CloudIDR — LLM Pricing Comparison 2026
Diferença output vs. input tokens3–10x mais caroCloudIDR — LLM Pricing Comparison 2026
DeepSeek R1 — custo vs. OpenAI o127x mais barato16x Prompt, 2025
DeepSeek R1 — custo vs. o3-mini66% mais barato16x Prompt, 2025
NVIDIA — queda após lançamento DeepSeek R1–16,9% em 1 diaRelatórios de mercado, jan/2025
Open source vs. proprietário — economia86% mais barato para 80% dos casosSwfte AI — análise de 94 modelos, 2026
Open source — relação custo-benefício7,3x melhor que proprietárioWhatLLM.org, 2026
Self-hosting break-even> 8.000 conversas/dia ou 500M tokens/diaIntrol — Inference Unit Economics, 2025
Chatbot empresarial — custo 2023 vs. 2026$8.000–$15.000/mês → < $200/mêsMedium — AI Price Collapse, 2026
Anthropic — margem bruta 2024 → 2025–94% → 50% projetadoRelatórios financeiros Anthropic, 2025
OpenAI — compute margin 2024 → 202535% → 70%SaaStr — AI Gross Margins, 2025

Metodologia e Fontes

As estatísticas foram coletadas em maio de 2026, priorizando fontes primárias com metodologia declarada: preços oficiais dos provedores, relatórios de pesquisa de institutos independentes e papers revisados por pares. Dados sem fonte rastrecável foram descartados. Nenhuma estatística foi inventada ou arredondada para dramatizar. Preços de API mudam com frequência — esta página é revisada trimestralmente.

Última atualização: maio de 2026. Para citar este relatório: viniensina.com.br/custo-token-ia-2026/

🔥 Ebook Recomendado

IA no Piloto Automático

Aprenda a usar IA + Meta Ads para automatizar seu marketing e vender todos os dias — mesmo sem equipe técnica.

R$19,90
acesso imediato · ebook completo
Quero Acesso Agora →
🔒 Garantia de 7 dias