Custo por Token de IA em 2026: Tabela Comparativa e Histórico de Preços [48 Stats]

maio 11, 2026

IA & Tecnologia

O custo por token de IA caiu 1.000x em 3 anos — o que custava $60 por milhão de tokens em 2021 hoje sai por $0,06. Segundo o Stanford HAI AI Index 2025, um modelo com performance equivalente ao GPT-3.5 passou de $20/M tokens em novembro de 2022 para $0,07/M em outubro de 2024: queda de 280x em apenas 18 meses. Compilamos 48 estatísticas verificadas de Stanford HAI, Epoch AI, MIT CSAIL, a16z e Anthropic para o panorama mais completo sobre preços de tokens de IA em 2026.

Neste relatório

A queda de 1.000x: histórico de preços por token (2021–2026)
Tabela comparativa: quanto custa 1M tokens em 2026
O efeito DeepSeek: como a China reescreveu os preços do mercado
Por que os preços continuam caindo: eficiência algorítmica e hardware
Open source vs. proprietário: a equação de custo real
Impacto empresarial: de R$75.000 para R$1.000 por mês
Custo por Token de IA em Números: Tabela Completa
Metodologia e Fontes

Principais Descobertas: Custo por Token de IA em 2026

Queda de 1.000x em 3 anos — GPT-3 custava $60/M tokens em 2021; Llama 3.2 3B custa $0,06/M hoje (a16z, 2024)
280x de queda em 18 meses para performance equivalente ao GPT-3.5: de $20/M para $0,07/M (Stanford HAI AI Index 2025)
Mediana de 50x de queda por ano em custo de infereência entre 2020 e 2025; após janeiro de 2024, a taxa acelerou para 200x/ano (Epoch AI, 2025)
Spread de 250x entre o modelo mais barato (Gemini 2.5 Flash-Lite, $0,50/M total) e o mais caro (Claude Opus 4.6, $30/M total) em 2026
DeepSeek R1 é 27x mais barato que o OpenAI o1 — seu lançamento derrubou as ações da NVIDIA em 17% em um único dia
Output tokens custam 3–10x mais que input tokens — o preço anunciado pelo provedor quase sempre subestima o custo real
Eficiência algorítmica melhora 3x por ano, além da queda do hardware, segundo paper aceito no NeurIPS 2025 (MIT CSAIL)
Open source é 86% mais barato que proprietário para cerca de 80% dos casos de uso empresariais (análise de 94 modelos, 2026)
Chatbot empresarial com GPT-4 custava $8.000–$15.000/mês em 2023; mesmo volume hoje com modelos equivalentes sai por menos de $200/mês
Anthropic saiu de margem bruta negativa de 94% para projeção de 50% em 2025 e 77% em 2028, à medida que custos de infereência caem

Os dados abaixo foram coletados em maio de 2026 a partir de fontes primárias — preços oficiais dos provedores, relatórios de pesquisa com metodologia declarada e papers revisados por pares. Para o contexto completo sobre o mercado de tokens de IA, incluindo consumo de energia e infraestrutura global, veja o relatório hub: Tokens de IA 2026: 55 Estatísticas de Consumo, Custo e Infraestrutura.

1.000x

queda no custo por token entre 2021 e 2024 (a16z)

280x

redução em 18 meses para desempenho GPT-3.5 equivalente (Stanford HAI)

27x

diferença de preço entre DeepSeek R1 e OpenAI o1

86%

economia média com modelos open source vs. proprietários

1. A queda de 1.000x: histórico de preços por token (2021–2026)

Nenhuma tecnologia na história recente experimentou queda de custo tão rápida quanto a infereência de modelos de linguagem. Quando o GPT-3 se tornou acessível via API em novembro de 2021, o preço era de $60 por milhão de tokens. Três anos depois, o Llama 3.2 3B — um modelo de código aberto que supera o desempenho do GPT-3 nos benchmarks originais — custa $0,06 por milhão de tokens: mil vezes menos, segundo análise publicada pela Andreessen Horowitz (a16z).

O Stanford HAI AI Index 2025 documentou outra trajetória igualmente impressionante: o custo para atingir desempenho equivalente ao GPT-3.5 (64,8 no benchmark MMLU) caiu de $20/M tokens em novembro de 2022 para $0,07/M tokens em outubro de 2024 — uma redução de 280 vezes em apenas 18 meses. O modelo que atingiu esse nível de custo mais baixo foi o Gemini-1.5-Flash-8B do Google.

Período	Custo por 1M tokens	Modelo de referência	Fonte
Novembro 2021	$60,00	GPT-3 (API pública)	a16z — LLMflation, 2024
Novembro 2022	$20,00	GPT-3.5 equivalente (MMLU 64,8)	Stanford HAI AI Index 2025
Março 2023	$30,00 (input) / $60,00 (output)	GPT-4 (lançamento)	OpenAI Pricing, 2023
2024	$0,06	Llama 3.2 3B via Together.ai	a16z — LLMflation, 2024
Outubro 2024	$0,07	Gemini-1.5-Flash-8B (MMLU 64,8)	Stanford HAI AI Index 2025
2025	$3,00 (input) / $10,00 (output)	GPT-4o	OpenAI Pricing, 2025
Abril 2025	$0,10 (input) / $0,40 (output)	GPT-4.1 Nano	OpenAI Pricing, 2025
2026	$0,10 (input) / $0,40 (output)	Gemini 2.5 Flash-Lite	Google AI Pricing, 2026

A taxa de queda varia conforme o benchmark de desempenho analisado. O Epoch AI, que monitora preços de APIs de múltiplos provedores com regressão log-linear, encontrou uma mediana de 50x de queda por ano entre todos os períodos analisados de 2020 a início de 2025. Após janeiro de 2024, a mediana acelerou para 200x por ano. Para modelos com desempenho em questões científicas de nível PhD (GPQA-Diamond), a queda foi de 40x por ano. O range total registrado: entre 9x e 900x por ano, dependendo do benchmark.

A redução de custo por token de IA é mais rápida que a Lei de Moore (que dobrava transistores a cada 2 anos) e que a Lei de Edholm (que dobrava a largura de banda de telecomunicações). Para desenvolvedores e empresas, cada trimestre de espera representa dezenas de porcento de desconto em infraestrutura de IA. Veja como isso se traduz em ROI real em Estatísticas de ROI da IA no Marketing Digital 2026.

2. Tabela comparativa: quanto custa 1M tokens em 2026

Os preços abaixo refletem as tarifas oficiais dos provedores em maio de 2026. Um alerta metodológico importante: output tokens custam entre 3x e 10x mais do que input tokens na maioria dos modelos — o custo real de uma aplicação depende da proporção de saída gerada pelo modelo, e não apenas do preço anunciado na entrada.

Provedor	Modelo	Input ($/1M)	Output ($/1M)	Categoria
Google	Gemini 1.5 Flash	$0,08	$0,30	Budget
Google	Gemini 2.5 Flash-Lite	$0,10	$0,40	Budget
OpenAI	GPT-4o Mini	$0,15	$0,60	Budget
Google	Gemini 2.5 Flash	$0,175	$0,75	Mid-tier
xAI	Grok 4.1 Fast	$0,20	$0,50	Mid-tier
Google	Gemini 3 Flash	$0,50	$3,00	Mid-tier
Anthropic	Claude Haiku 4.5	$1,00	$5,00	Mid-tier
Google	Gemini 2.5 Pro	$1,25	$10,00	Flagship
OpenAI	GPT-5.2	$1,75	$14,00	Flagship
Google	Gemini 3.1 Pro (≤200K)	$2,00	$12,00	Flagship
OpenAI	GPT-4o	$2,50	$10,00	Flagship
Anthropic	Claude Sonnet 4.6	$3,00	$15,00	Flagship
Anthropic	Claude Opus 4.6	$5,00	$25,00	Premium
OpenAI	GPT-5.2 Pro	$21,00	$168,00	Premium

O spread total entre o modelo de API mais barato (Gemini 1.5 Flash em $0,38/M total) e o mais caro (GPT-5.2 Pro em $189/M total) é de aproximadamente 500x. Para uso prático, o spread entre os modelos flagship de consumo geral é de 250x — de Gemini 2.5 Flash-Lite ($0,50/M total) a Claude Opus 4.6 ($30/M total), conforme análise da CloudIDR publicada em março de 2026.

A relação input/output é crítica para o planejamento de custos. Um chatbot com respostas longas pode ter 80% dos tokens sendo output — o que significa que o custo real se aproxima do preço de output, e não do input anunciado na maioria dos comparativos. Para aplicações de análise de documentos, o oposto: input domina. Modele a proporção real do seu caso de uso antes de comparar provedores.

3. O efeito DeepSeek: como a China reescreveu os preços do mercado

Em janeiro de 2025, o laboratório chinês DeepSeek lançou o modelo R1 com uma combinação que sacudiu o mercado: desempenho próximo ao estado da arte em raciocínio a um custo de infereência radicalmente menor. O impacto foi imediato — as ações da NVIDIA caíram quase 17% em um único dia, e o Nasdaq recuou 3%, em uma das maiores destruições de valor de mercado ligadas ao setor de IA da história.

Métrica	Valor	Fonte
Preço DeepSeek R1 — input	$0,55 por 1M tokens	DeepSeek Pricing, 2025
Preço DeepSeek R1 — output	$2,19 por 1M tokens	DeepSeek Pricing, 2025
Diferença vs. OpenAI o1	27x mais barato	16x Prompt — análise comparativa, 2025
Diferença vs. OpenAI o3-mini	66% mais barato	16x Prompt — análise comparativa, 2025
Estimativa Sam Altman (CEO OpenAI)	DeepSeek roda 20–50x mais barato	Declaração pública, janeiro 2025
Distância dos concorrentes ocidentais	~90% mais barato	Introl — Inference Unit Economics, 2025
Impacto na NVIDIA (dia do lançamento)	Queda de 16,9% nas ações	Relatórios de mercado, 27/01/2025
DeepSeek V3.2 — novo corte (set/2025)	Redução de preços adicional de 50%+	DeepSeek — anúncio oficial, setembro 2025

A arquitetura do DeepSeek R1 utiliza Mixture-of-Experts (MoE) — uma técnica que ativa apenas uma fração dos parâmetros do modelo por infereência, reduzindo drasticamente o custo computacional. O modelo foi treinado com técnicas de reinforcement learning que dispensaram a necessidade de grandes volumes de dados supervisionados de alta qualidade, outro fator que reduziu os custos de desenvolvimento.

O efeito DeepSeek vai além do próprio modelo. Ele estabeleceu um novo patamar de expectativa de mercado: desempenho de fronteira por uma fração do preço. OpenAI, Anthropic e Google responderam com reduções de preço e lançamento de modelos mais econômicos em 2025. Em setembro de 2025, o próprio DeepSeek cortou preços pela segunda vez — o sinal mais claro de que a competição por custo de tokens ainda não terminou.

Quer aplicar IA de forma prática no seu negócio?

O ebook “IA no Piloto Automático” mostra como usar IA em marketing, vendas e automações — mesmo sem equipe técnica e sem gastar fortunas em API.

Ver o ebook por R$19,90 →

4. Por que os preços continuam caindo: eficiência algorítmica e hardware

A queda no custo por token não é aleatória — ela resulta de dois vetores simultâneos e independentes: hardware mais barato e eficiente, e algoritmos que extraem mais desempenho de cada operação. O paper aceito no NeurIPS 2025 por Gundlach, Lynch, Mertens e Thompson (MIT CSAIL e MIT Sloan) quantificou esse fenômeno com precisão inédita, analisando 93 modelos com 138 pontos de preço entre abril de 2024 e outubro de 2025.

Fator	Taxa de melhoria	Fonte
Eficiência algorítmica (ajustada por hardware)	~3x por ano	Gundlach et al. — NeurIPS 2025 (MIT CSAIL)
Queda de custo de hardware (GPUs/TPUs)	~30% ao ano	Stanford HAI AI Index 2025
Melhoria de eficiência energética do hardware	~40% ao ano	Stanford HAI AI Index 2025
Redução de energia por prompt (mai/2024 → mai/2025)	33x em 12 meses	Análise de sistemas de produção, 2025
Queda no custo de modelos GPQA-Diamond	5.315x por ano (Pareto)	Gundlach et al. — NeurIPS 2025
Queda no custo de modelos AIME	11.664x por ano (Pareto)	Gundlach et al. — NeurIPS 2025
Quantização (8-bit): redução de tamanho	50–75% do modelo com ~1% de perda	Introl — Inference Unit Economics, 2025
Continuous batching: melhoria de utilização	2x mais throughput	Introl — Inference Unit Economics, 2025
Speculative decoding: redução de latência	2–3x mais rápido	Introl — Inference Unit Economics, 2025
Potencial combinado das otimizações	Até 16x de redução de custo	Introl — Inference Unit Economics, 2025

O trabalho do MIT CSAIL revelou uma assimetria importante: a taxa de melhoria varia enormemente conforme o nível de performance exigido. Para benchmarks exigentes como GPQA-Diamond, as melhorias são extremas — os autores encontraram taxas de até 900x por ano na faixa de modelos superiores. Para modelos de desempenho médio, a melhoria é mais modesta: cerca de 1,7x ao ano. Em termos práticos, quanto mais difícil a tarefa, mais rápido o custo cai.

A principal contribuição do paper de Gundlach et al. (NeurIPS 2025) é mostrar que a queda de custo de infereência não é apenas reflexo do hardware mais barato — o progresso algorítmico representa cerca de 3x de ganho adicional por ano após descontar a melhoria natural do hardware. Isso significa que mesmo sem novos chips, os modelos ficariam mais baratos todos os anos. A combinação dos dois vetores é o que produz quedas de 50x–200x ao ano na mediana.

5. Open source vs. proprietário: a equação de custo real

A escolha entre modelos proprietários (OpenAI, Anthropic, Google) e open source (Llama, DeepSeek, Qwen, Mistral) tem implicações financeiras diretas. Uma análise de 94 modelos líderes publicada em 2026 mostra que modelos open source oferecem 7,3x melhor relação custo-benefício e são 86% mais baratos para cerca de 80% dos casos de uso empresariais reais.

Modelo	Tipo	Custo por 1M tokens	Score de qualidade	Fonte
DeepSeek V3.2	Open source (API)	$0,17–$0,42/M	~57 (LMArena Elo ~1421)	WhatLLM.org, 2026
Qwen3-235B	Open source (API)	$0,17–$0,42/M	~55	WhatLLM.org, 2026
Llama 3.3 70B	Open source (API)	$0,17–$0,42/M	~50	WhatLLM.org, 2026
GPT-5.2	Proprietário	$1,75/$14,00/M	Flagship OpenAI	OpenAI Pricing, 2026
Claude Sonnet 4.6	Proprietário	$3,00/$15,00/M	Flagship Anthropic	Anthropic Pricing, 2026
Llama 4 Maverick (self-hosted, 8×H100)	Open source (auto-hospedado)	$49,24/hora fixo	Break-even: 500M tokens/dia	Introl — Inference Unit Economics, 2025

Auto-hospedar modelos open source só faz sentido financeiro a partir de determinado volume. Um cluster de 8 GPUs H100 em cloud custa entre $49,24/hora (Hyperbolic) e $6,98/hora por GPU isolada no Azure — totalizando $8–$15/hora considerando energia, resfriamento e overhead operacional. O break-even com APIs externas ocorre por volta de 8.000 conversas por dia ou 500 milhões de tokens diários, dependendo do modelo e do provedor de cloud escolhido. Abaixo desse volume, API é mais barato. Acima, self-hosting começa a fazer sentido — especialmente para empresas com exigências de privacidade de dados.

A equação open source mudou radicalmente em 2025. Modelos como DeepSeek V3.2 e Qwen3-235B alcançam scores de qualidade que antes pertenciam exclusivamente a modelos proprietários premium — mas a uma fração do preço. Para quem usa IA em automações de marketing e criação de conteúdo, como explicamos em Como usar Claude para criar anúncios no Meta Ads, a escolha do modelo certo pode representar 70–90% de economia sem perda perceptível de qualidade.

6. Impacto empresarial: de $15.000 para $200 por mês

A queda no custo por token de IA produziu mudanças concretas nos orçamentos de tecnologia de empresas de todos os tamanhos. O exemplo mais citado: em 2023, manter um chatbot de atendimento ao cliente com GPT-4 custava entre $8.000 e $15.000 por mês para uma empresa de médio porte. Em 2026, o mesmo volume de interações com modelos de performance equivalente (GPT-4.1 Nano ou Gemini 2.5 Flash) sai por menos de $200 por mês.

Caso	Custo antes	Custo atual	Economia	Fonte
Chatbot empresa média (GPT-4 → modelos atuais)	$8.000–$15.000/mês (2023)	< $200/mês (2026)	97–98%	Medium — AI Price Collapse, 2026
Midjourney (H100 → TPU v6 Google)	$2,1M/mês	< $700K/mês	$16,8M/ano	Introl — Inference Unit Economics, 2025
Character.AI — migração de infraestrutura	Baseline anterior	3,8x mais eficiente	~74%	Introl — Inference Unit Economics, 2025
Processar kernel Linux completo (~40M linhas)	Inviável em 2022	< $1,00 em 2024	—	a16z — LLMflation, 2024
OpenAI — compute margin	~35% (jan/2024)	~70% (out/2025)	+35pp em 21 meses	SaaStr — AI Gross Margins, 2025
Anthropic — margem bruta	–94% (2024)	50% projetado (2025)	+144pp em 1 ano	Relatórios financeiros Anthropic, 2025

A melhoria de margens dos próprios provedores é outro termômetro relevante. A Anthropic saiu de uma margem bruta negativa de 94% em 2024 — gastava quase o dobro do que recebia em custos de infereência — para uma projeção de 50% em 2025, com expectativa de atingir 77% em 2028. A OpenAI viu sua margem de compute saltar de 35% para 70% entre janeiro de 2024 e outubro de 2025, segundo análise publicada pelo SaaStr. Essa melhoria reflete diretamente a queda nos custos de rodar os modelos nos servidores.

A queda de custo por token está desbloqueando casos de uso que eram inviáveis há dois anos: análise de contratos completos, indexação de bases de conhecimento corporativas, geração de conteúdo em escala. Para quem usa IA em marketing digital, as implicações são diretas — veja os dados de ROI em Estatísticas de ROI da IA no Marketing Digital 2026 e o panorama completo da adoção no mercado em IA no Marketing Digital: Guia Completo.

Custo por Token de IA em Números: Tabela Completa

Consolidação das principais métricas do artigo para consulta e citação rápida.

Métrica	Valor	Fonte
Queda de custo por token (2021–2024)	1.000x em 3 anos	a16z — LLMflation, 2024
Queda para desempenho GPT-3.5 equivalente (18 meses)	280x — $20/M → $0,07/M	Stanford HAI AI Index 2025
Taxa mediana de queda de preço (2020–2025)	50x por ano	Epoch AI — LLM Inference Price Trends, 2025
Taxa mediana pós-jan/2024	200x por ano	Epoch AI — LLM Inference Price Trends, 2025
Range de queda por benchmark	9x a 900x por ano	Epoch AI / Gundlach et al. NeurIPS 2025
Eficiência algorítmica (além do hardware)	~3x por ano	Gundlach et al. — NeurIPS 2025 (MIT CSAIL)
Queda de custo de hardware (anual)	~30%	Stanford HAI AI Index 2025
Ganho energético do hardware (anual)	~40%	Stanford HAI AI Index 2025
Redução de energia por prompt (12 meses)	33x	Análise de sistemas de produção, 2025
Modelo mais barato em 2026 (API)	Gemini 1.5 Flash — $0,08/M input	Google AI Pricing, 2026
Modelo mais caro em 2026 (API)	GPT-5.2 Pro — $21,00/M input	OpenAI Pricing, 2026
Spread total (mais barato vs. mais caro)	250x (flagship) / 500x (full range)	CloudIDR — LLM Pricing Comparison 2026
Diferença output vs. input tokens	3–10x mais caro	CloudIDR — LLM Pricing Comparison 2026
DeepSeek R1 — custo vs. OpenAI o1	27x mais barato	16x Prompt, 2025
DeepSeek R1 — custo vs. o3-mini	66% mais barato	16x Prompt, 2025
NVIDIA — queda após lançamento DeepSeek R1	–16,9% em 1 dia	Relatórios de mercado, jan/2025
Open source vs. proprietário — economia	86% mais barato para 80% dos casos	Swfte AI — análise de 94 modelos, 2026
Open source — relação custo-benefício	7,3x melhor que proprietário	WhatLLM.org, 2026
Self-hosting break-even	> 8.000 conversas/dia ou 500M tokens/dia	Introl — Inference Unit Economics, 2025
Chatbot empresarial — custo 2023 vs. 2026	$8.000–$15.000/mês → < $200/mês	Medium — AI Price Collapse, 2026
Anthropic — margem bruta 2024 → 2025	–94% → 50% projetado	Relatórios financeiros Anthropic, 2025
OpenAI — compute margin 2024 → 2025	35% → 70%	SaaStr — AI Gross Margins, 2025

Metodologia e Fontes

As estatísticas foram coletadas em maio de 2026, priorizando fontes primárias com metodologia declarada: preços oficiais dos provedores, relatórios de pesquisa de institutos independentes e papers revisados por pares. Dados sem fonte rastrecável foram descartados. Nenhuma estatística foi inventada ou arredondada para dramatizar. Preços de API mudam com frequência — esta página é revisada trimestralmente.

Andreessen Horowitz (a16z) — LLMflation: LLM Inference Cost Is Going Down Fast, 2024
Stanford HAI — AI Index Report 2025
Epoch AI — LLM Inference Price Trends, 2025
Gundlach, Lynch, Mertens, Thompson — The Price of Progress: Algorithmic Efficiency and the Falling Cost of AI Inference (MIT CSAIL / NeurIPS 2025)
CloudIDR — Complete LLM Pricing Comparison 2026: 105 Models Analyzed
IntuitionLabs — AI API Pricing Comparison 2026: Grok vs Gemini vs GPT-4o vs Claude
Introl — Inference Unit Economics: The True Cost Per Million Tokens, 2025
16x Prompt — DeepSeek R1: Comparing Pricing and Speed Across Providers, 2025
Swfte AI — Open Source LLMs: How Enterprises Save 86% on AI Costs in 2026
WhatLLM.org — Open Source vs Proprietary LLMs: Complete 2025 Benchmark Analysis
SaaStr — The Real Math Behind OpenAI’s 70% Compute Margin, 2025
OpenAI Pricing — openai.com/api/pricing (consultado em maio/2026)
Anthropic Pricing — anthropic.com/pricing (consultado em maio/2026)
Google AI Pricing — ai.google.dev/pricing (consultado em maio/2026)

Última atualização: maio de 2026. Para citar este relatório: viniensina.com.br/custo-token-ia-2026/

🔥 Ebook Recomendado

IA no Piloto Automático

Aprenda a usar IA + Meta Ads para automatizar seu marketing e vender todos os dias — mesmo sem equipe técnica.

R$19,90

acesso imediato · ebook completo

Quero Acesso Agora →

🔒 Garantia de 7 dias

Custo por Token de IA em 2026: Tabela Comparativa e Histórico de Preços [48 Stats]

Neste relatório

Principais Descobertas: Custo por Token de IA em 2026

1. A queda de 1.000x: histórico de preços por token (2021–2026)

2. Tabela comparativa: quanto custa 1M tokens em 2026

3. O efeito DeepSeek: como a China reescreveu os preços do mercado

Quer aplicar IA de forma prática no seu negócio?

4. Por que os preços continuam caindo: eficiência algorítmica e hardware

5. Open source vs. proprietário: a equação de custo real

6. Impacto empresarial: de $15.000 para $200 por mês

Custo por Token de IA em Números: Tabela Completa

Metodologia e Fontes

IA no Piloto Automático

Mais posts

Como Instalar o Claude Code no Windows (Guia 2026) – Sem WSL

Custo por Token de IA em 2026: Tabela Comparativa e Histórico de Preços [48 Stats]

O Crescimento Explosivo do Consumo de Tokens de IA em 2026: Dados e Análise

Como Automatizar Atendimento no WhatsApp em 2026 (Passo a Passo Completo)

Prompts ChatGPT para Automação de Marketing: 20 Prontos para Usar (2026)