A infraestrutura além da GPU - Imagem gerada Nano Banana Pro | Capital Pulse

A grande inversão: Enquanto o mundo celebra cada novo modelo de inteligência artificial, o dinheiro real está migrando para um problema bem menos glamoroso — simplesmente manter essas máquinas funcionando.

Por que isso importa: A Andreessen Horowitz acabou de investir $150 milhões (valorizando a startup Inferact em $800 milhões logo na largada) numa tese contraintuitiva: o desafio mais caro da IA não é criar modelos mais inteligentes, mas operá-los de forma econômica em escala.

O custo que ninguém enxerga

Treinar o GPT-4 custou cerca de US$ 100 milhões. Parece muito — e é. Mas esse é um investimento pontual. Você sofre por alguns meses durante o treinamento e pronto.

Agora, rodar esse modelo para bilhões de usuários todos os dias? Isso consome centenas de milhões de dólares por ano, indefinidamente. E diferente do treinamento, ninguém ainda realmente dominou como fazer isso de forma eficiente.

Os números expõem o problema: as empresas conseguem usar apenas 30-50% da capacidade de suas GPUs em produção. Metade do hardware mais caro do mundo fica ocioso, esperando. Numa conta anual de US$1 bilhão em infraestrutura, melhorar a eficiência em 10% representa US$ 100 milhões economizados.

Como Jennifer Li, sócia da a16z, explicou em podcast recente: "Historicamente, depois de construir um sistema, a parte difícil acabava. Com modelos de linguagem grandes, esse modelo quebrou completamente."

Por que isto é diferente?

Imagine um restaurante onde você não sabe quanto cada prato vai demorar até começar a prepará-lo. Um cliente pede "algo leve" e sai em 5 minutos. Outro pede "algo especial" e você descobre, tarde demais, que vai levar 2 horas.

É exatamente assim com modelos de IA: um usuário pede "resuma este email" — resposta em segundos. Outro pede "escreva um artigo completo" — consome 60 vezes mais recursos. Você só descobre o custo real depois que já começou.

Some a isso o fato de que o hardware muda constantemente. A NVIDIA lança GPUs novas a cada 18 meses. AMD, Intel, Amazon e Google desenvolvem chips próprios. Se sua infraestrutura depende de um só fornecedor, você fica refém.

A solução que hoje já vale US$ 800 milhões

O vLLM — software open source que a Inferact comercializa — resolve três problemas críticos:

Elimina desperdício de memória. Processa 24 vezes mais requisições no mesmo hardware, gerenciando melhor a memória.

Mantém GPUs sempre trabalhando. Substitui tarefas completas imediatamente, sem esperar lotes inteiros terminarem.

Funciona em qualquer hardware. NVIDIA, AMD, chips da Amazon ou Google. Você não fica preso a um fornecedor.

E é gratuito. Então por que investir $150 milhões em algo grátis?

O jogo real: padrão vale mais que produto

A a16z está apostando que o vLLM se torne o padrão da indústria — e que a Inferact seja a empresa que ajuda empresas a usá-lo profissionalmente.

É o jogo que funcionou para MongoDB, Databricks e Confluent:

  1. Software grátis atrai desenvolvedores naturalmente

  2. Gigantes contribuem melhorias (NVIDIA, Google, Microsoft)

  3. Quando startups crescem, pagam por suporte profissional, certificações e consultoria

A aposta é que empresas preferem expertise independente a ficar reféns da Amazon ou Microsoft.

E o risco?

Nada impede a Amazon de lançar sua versão própria. A defesa da Inferact é ser reconhecida como autoridade — controlar a direção do projeto, ter os melhores engenheiros, mover mais rápido.

Mas o histórico é misto. Muitos projetos open source viraram commodity com o tempo.

A mudança estrutural que importa

O valuation agressivo sinaliza uma reorganização de onde o dinheiro se acumula:

2020-2023: A era da pesquisa

  • Manchetes sobre GPT-4, Claude, Gemini

  • Dinheiro concentrado em negócios que desenvolvem modelos

  • Investimento focado em chips NVIDIA

2024-2026: A era da operação

  • Problema real: manter modelos rodando eficientemente

  • Dinheiro migrando para infraestrutura e otimização

  • Investimento diversificando em nuvens especializadas

Como Jennifer Li observou: "A especificação da sua API é mais importante que seu site hoje, porque recebe muito mais tráfego — de máquinas."

A Vercel (gerenciador de websites) reporta que 30-40% do tráfego nos seus sites administrados já vem de agentes automatizados. Não daqui a 5 anos. Agora.

Onde está a oportunidade real?

O mercado de inferência vai ultrapassar US$ 100 bilhões até 2030. Diferente do treinamento (concentrado em poucos labs), inferência é distribuída — toda empresa que usa IA precisa resolver isso.

Três áreas com tese clara:

Ferramentas de orquestração. Empresas usarão múltiplos modelos. Software que escolhe automaticamente o mais barato/rápido para cada tarefa economiza milhões — 90% das perguntas podem ser respondidas por modelos pequenos (baratos), apenas 10% precisam do Claude Opus (caro).

Observabilidade para IA. Datadog domina software tradicional. Mas IA se comporta diferente — logs imensos, custos imprevisíveis, falhas sutis. Há espaço para "Datadog nativo de IA".

Processamento de documentos. Jennifer Li chama isso de "ETL da era de agentes". Empresas têm terabytes em PDFs, contratos, recibos e notas fiscais. Transformar isso em dados estruturados é infraestrutura crítica.

E o Brasil nisso tudo?

Aqui está uma oportunidade pouco discutida: o Brasil pode manter fábricas de inferência locais.

Diferente do treinamento — que exige milhares de GPUs em supercomputadores — os datacenters que fazem inferência rodam de forma independente.

O caso econômico:

Energia é mais barata no Brasil (hidroelétrica). As GPUs e TPUs a consomem vorazmente — isso importa.

Dados sensíveis não podem sair do país. Bancos, hospitais, governo precisam rodar modelos localmente.

Latência é vantagem. Modelo em São Paulo responde milésimos de segundos mais rápido que em Northern Virginia. Para aplicações interativas, isso importa.

O que falta:

Não precisamos treinar modelos fronteira brasileiros — isso já é uma corrida perdida. Mas podemos ser excelentes em operar modelos open source (Llama, Mistral) de forma otimizada.

Ifood, Nubank, Mercado Livre já têm a expertise. Falta visão de que inferência é oportunidade estrutural.

Imagine uma “AWS brasileira” focada exclusivamente em inferência — latência local, conformidade regulatória, energia competitiva. Não compete globalmente em tudo. Mas e na América Latina? Me parece uma boa oportunidade...

Última linha

A manchete produzida pela a16z é "US$ 150 milhões em capital semente". A história real é uma indústria percebendo que operar IA é problema completamente diferente de criá-la — e o mercado de infraestrutura que resolve isso pode ser tão grande quanto o dos modelos.

Para nós investidores: Não é só sobre quem treina os melhores modelos. É sobre quem resolve como rodar esses modelos de forma que empresas possam pagar a conta e escalar.

A tese de investimento muda de "quem cria IA mais inteligente" para "quem torna IA economicamente viável". E essa segunda pergunta ainda está largamente em aberto — tanto globalmente quanto, especialmente, em mercados emergentes como o Brasil.

O tipo de oportunidade que gosto de analisar.

Forte abraço,

João Piccioni

Entre em contato pelo email: [email protected].

Mande suas dúvidas, sugestões e críticas! Obrigado!

Reply

Avatar

or to participate

Recommended for you

No posts found