Google DeepMind: IA local 4x mais rápida com DiffusionGemma?

Mais um dia, mais um modelo de inteligência artificial do Google. Desta vez, o Google DeepMind revelou um novo membro da família de modelos abertos Gemma 4, mas este é fundamentalmente diferente dos demais. O DiffusionGemma não gera resultados de forma linear, como a maioria dos modelos de IA. Em vez disso, ele é capaz de produzir um bloco inteiro de texto em paralelo.

O Google afirma que essa abordagem o torna mais rápido e eficiente ao rodar em hardware local, seja em um supercomputador como o Nvidia DGX ou em uma GPU de jogos mais modesta.

A maioria dos modelos de IA é projetada para ser autorregressiva, gerando texto da esquerda para a direita, um token por vez. O DiffusionGemma, por outro lado, tem mais em comum com os modelos de geração de imagens, que começam com um "ruído" estático e o "denoising" para criar o conteúdo desejado. Este modelo trabalha com um campo de tokens de espaço reservado, executando-os sobre uma tela várias vezes para gerar tokens prováveis e usando-os para melhorar a estimativa de outros. No final do processo, o modelo finaliza suas saídas de tokens em um grande bloco – a "tela de texto denoised".

Um gigante eficiente no hardware local

O DiffusionGemma é relativamente grande dentro do universo de modelos abertos do Google. Ele é um modelo Mixture of Experts (MoE) com um total de 26 bilhões de parâmetros, mas apenas 3,8 bilhões são ativados durante a inferência. Isso significa que ele deve se encaixar nos 18 GB de RAM de uma GPU de alto desempenho.

Em testes realizados com uma RTX 5090, o DiffusionGemma produz cerca de 700 tokens por segundo. Com um único acelerador de IA Nvidia H100, o modelo pode gerar mais de 1.000 tokens por segundo. Isso representa aproximadamente quatro vezes a saída dos modelos Gemma autorregressivos de tamanho similar.

A capacidade de processar informações em paralelo é a chave para essa velocidade. Enquanto modelos tradicionais constroem a resposta palavra por palavra, o DiffusionGemma processa todo o bloco de texto simultaneamente, como se estivesse preenchendo uma tela em vez de desenhar uma linha.