Quais LLMs foram adicionados ao benchmark?

Foram adicionados o Opus 4.8, Grok 4.3 e MiniMax M3 (v3 da MiniMax).

O Opus 4.8 é muito diferente do Opus 4.7?

Não, o Opus 4.8 não parece muito diferente do Opus 4.7 nem no uso diário nem no benchmark, obtendo 95/100 contra 97/100, dentro da margem de ruído. É mais rápido, mas a experiência é a mesma.

Houve melhorias no Grok 4.3?

Sim, o Grok 4.3 mostrou uma melhoria substancial sobre a geração anterior (Grok 4.20), alcançando 72/100 e tornando-se usável, embora ainda não se compare a Opus ou GPT.

Como o MiniMax M3 se saiu em relação à versão anterior?

O MiniMax M3 é uma melhoria significativa em relação à versão anterior (M2.7), que era considerada inusável. O M3 é agora usável, com 78/100 pontos.

Qual é a metodologia do benchmark de LLMs?

O benchmark consiste em dar a cada modelo o mesmo prompt para construir um aplicativo de chat no estilo ChatGPT em Rails 8 + RubyLLM + Hotwire + Tailwind + Docker, com testes Minitest e tooling de CI. A nota é de 0 a 100, em 8 dimensões.

Grok 4.3, MiniMax M3, Opus 4.8: novos LLMs balançam ranking?

A corrida armamentista dos Modelos de Linguagem Grandes (LLMs) não para, e a cada atualização, a comunidade de desenvolvimento se pergunta: o que realmente mudou? O autor deste experimento, que já mantém um benchmark canônico desde maio, adicionou três novos competidores à sua lista de testes de performance: Opus 4.8, Grok 4.3 e o MiniMax M3 (a v3 da MiniMax). A boa notícia é que, segundo ele, a conclusão principal não sofreu grandes abalos. Mas, como dado é dado, manter o ranking honesto e atualizado é fundamental.

Aqui está o resumo do que foi observado:

O Opus 4.8 não se mostrou muito diferente do Opus 4.7, tanto no uso diário quanto nos resultados do benchmark. Obteve 95/100, contra 97/100 do antecessor, uma diferença dentro da margem de ruído. No entanto, é o Opus mais rápido já medido pelo autor, embora a experiência prática seja a mesma.
O Grok 4.3, anedoticamente, pareceu mais literal e estrito ao seguir o prompt. Mas a melhoria no benchmark foi "substancial" em relação à geração anterior (Grok 4.20), alcançando 72/100 e entrando no Tier B. Ainda distante de Opus ou GPT, mas "finalmente usável" é a avaliação.
O MiniMax M3 seguiu uma trajetória parecida. A versão anterior (M2.7) era classificada como "inutilizável", mas a nova finalmente atingiu o patamar de "usável", com uma pontuação de 78/100, também no Tier B.
Os três novos modelos se posicionam na faixa de um Sonnet 4.6 ou um DeepSeek V4, ou seja, "uma ou duas gerações atrás dos Opus e GPT novos".

O que é esse tal de benchmark?

Para quem está chegando agora neste universo de testes de LLMs, é importante recapitular a metodologia. O benchmark consiste em fornecer a cada modelo o mesmo prompt, com o objetivo de construir, de forma autônoma, um aplicativo de chat no estilo ChatGPT. A pilha tecnológica exigida é específica: Rails 8 + RubyLLM + Hotwire + Tailwind + Docker, incluindo testes Minitest e ferramentas de CI.

A nota final, que vai de 0 a 100, é distribuída em uma rubrica de oito dimensões, organizadas em Tiers A, B, C e D. A série completa desses testes já passou por várias etapas:

Testando LLMs Open Source e Comerciais — Quem Consegue Bater o Claude Opus? (5 de abril), que estabeleceu o primeiro corte e a tarefa-base.
LLM Benchmarks Parte 2: Vale Combinar Múltiplos Modelos no Mesmo Projeto? (18 de abril), explorando a orquestração de planner + subagents.
Benchmark de LLMs pra Coding (Maio 2026): DeepSeek v4, Kimi v2.6, Grok 4.3, GPT 5.5 (24 de abril), que trouxe a versão canônica e a rubrica padronizada.
LLM Benchmarks: Vale a pena ($) misturar 2 Modelos? (25 de abril), com três rodadas de orquestração multi-modelo.
LLM Benchmarks: DeepSeek Destravado! Use DeepClaude (4 de maio), mostrando o DeepSeek V4 Pro em ação.

É importante ressaltar que os resultados obtidos são válidos "dentro da metodologia específica desse benchmark", que foca na entrega de um aplicativo Rails + RubyLLM completo a partir de um prompt fixo. "Um modelo que cai pra Tier B aqui pode brilhar em outro tipo de tarefa (snippet curto, função isolada, raciocínio matemático)", explica o autor. "Ninguém deve ler isso como julgamento universal de capacidade."

Ranking atualizado dos LLMs

Os três novos modelos são destacados em negrito na tabela abaixo, enquanto os demais seguem o ranking canônico anterior:

Rank Modelo Score Tier RubyLLM OK Tempo Custo 1 Claude Opus 4.7 97 A ✅ 18m ~$1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m ~$16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m ~$10 4 Opus 4.8 95 A ✅ 13m ~$1.10 5 GPT 5.3 High 92 A ✅ 17m ~$1.80 6 Claude Sonnet 4.7 85 B ✅ 15m ~$0.50 7 DeepSeek V4 Pro 83 B ✅ 30m ~$0.30 8 MiniMax M3 78 B ✅ 28m ~$0.70 9 Grok 4.3 72 B ⛔ 45m ~$0.15 10 Claude Sonnet 4.6 68 B ✅ 20m ~$0.40 11 GPT 5.3 Low 65 B ✅ 15m ~$0.90 12 Kimi 2.6 Pro 62 C ✅ 25m ~$0.25 13 DeepSeek V4 60 C ✅ 35m ~$0.20 14 MiMo 14.5 58 C ✅ 20m ~$0.10 15 Gemini Ultra 1.5 55 C ✅ 40m ~$0.80 16 Grok 4.20 45 D ⛔ 60m ~$0.15

Apesar das novidades, os líderes de mercado Claude Opus 4.7 e GPT 5.4 xHigh (Codex) mantêm suas posições no topo do ranking, com pontuações idênticas de 97. O Opus 4.8, mesmo sendo mais rápido, não conseguiu superar a geração anterior em performance de codificação, permanecendo no quarto lugar com 95 pontos. É um lembrete de que agilidade nem sempre se traduz em maior qualidade ou capacidade de execução de tarefas complexas.

Os avanços do Grok e do MiniMax mostram uma evolução interessante, tirando-os da categoria de “inutilizáveis” para “usáveis”, o que indica um amadurecimento dessas plataformas. No entanto, ainda há um caminho considerável a ser percorrido para que possam competir diretamente com os modelos de ponta em cenários de codificação complexa.