OpenAI lançou GPT-5.3-Codex-Spark em chips da Cerebras, marcando a primeira implantação de produção fora da Nvidia. O modelo, anunciado em 13 de fevereiro de 2026, estreia como prévia de pesquisa para assinantes do ChatGPT Pro.
O GPT-5.3-Codex-Spark é uma variante enxuta e de baixo consumo do Codex, focada em tarefas de codificação rápidas e interrompíveis, como edição de trechos específicos de código e execução de testes direcionados. A OpenAI afirma que, quando servido no hardware de baixa latência da Cerebras, o modelo pode ultrapassar 1.000 tokens por segundo em determinadas configurações e, por padrão, realiza edições mínimas e não executa testes automaticamente sem instrução.

O hardware usado é o terceiro Wafer Scale Engine da Cerebras. Ao contrário de clusters de GPU formados por muitos chips menores interconectados, a abordagem da Cerebras utiliza um único processador em escala de wafer com centenas de milhares de núcleos de IA e grandes bancos de memória on-chip, projetado para reduzir a movimentação de dados e diminuir a latência em workloads interativos.
A OpenAI disse ter assinado um acordo para implantar hardware da Cerebras para inferência de baixa latência e planeja levar 750 megawatts de capacidade apoiada pela Cerebras ao ar em fases até 2028. A empresa ressalta que essa capacidade não substituirá o papel da Nvidia no treinamento, mas criará um nível dedicado otimizado para responsividade.
Fontes: Tom’s Hardware
