Xeon de 10 anos roda IA de 25B de parâmetros sem GPU? Pois é

A busca por hardware de ponta para rodar modelos gigantes de inteligência artificial é uma constante na indústria. No entanto, uma experiência recente desafia essa premissa, mostrando que nem sempre é preciso ter o chip mais recente ou uma GPU de última geração para lidar com cargas de trabalho impressionantes. Um Intel Xeon de 10 anos de idade, acompanhado de 128 GB de RAM DDR3, conseguiu executar um modelo de linguagem de 25 bilhões de parâmetros.

Essa façanha não é trivial e envolveu algumas escolhas técnicas significativas. O modelo em questão é o Gemma 4, uma arquitetura de Mistura de Especialistas (MoE) com 25 bilhões de parâmetros, configurado para o modo de 26B-A4B MTP Drafters. O mais notável é que tudo isso foi feito sem o auxílio de uma Unidade de Processamento Gráfico (GPU), geralmente considerada indispensável para tarefas de inferência de IA nessa escala.

O Setup Inusitado e Seus Desafios

O hardware utilizado foi um servidor baseado em um processador Xeon fabricado em 2016, com seus 128 GB de memória DDR3. A memória mais antiga e com menor largura de banda, em comparação com os padrões atuais (DDR4 ou DDR5), adicionou uma camada de complexidade ao desafio. Para contornar as limitações, foi necessário um ajuste fino considerável, incluindo a utilização de 25 flags (parâmetros de configuração) específicos para otimizar a execução do modelo.

A experiência demonstra que, com as otimizações corretas e um entendimento profundo da arquitetura do modelo e do hardware, é possível extrair desempenho de sistemas mais antigos. Embora o desempenho exato não tenha sido detalhado em termos de velocidade ou latência, o fato de o modelo ter sido executado com sucesso já é um feito notável. Isso abre portas para discussões sobre a democratização do acesso a modelos de IA mais complexos, permitindo que pesquisadores e entusiastas com orçamentos limitados possam experimentá-los sem a necessidade de investimentos massivos em GPUs.

A abordagem de Mistura de Especialistas (MoE), como a utilizada no Gemma 4, é uma técnica que divide o modelo em partes menores, ou 'especialistas', que são ativados conforme a necessidade. Isso pode reduzir a carga computacional em comparação com um modelo denso do mesmo tamanho, tornando-o mais viável para hardware com recursos limitados. A memória DDR3, embora mais lenta, ofereceu a capacidade total necessária para carregar os parâmetros do modelo, um fator crucial para evitar o uso excessivo de memória virtual em disco, que degradaria o desempenho de forma ainda mais drástica.

Essa demonstração sublinha a importância da engenharia de software e da otimização de sistemas, mostrando que o poder bruto do hardware nem sempre é o único caminho. Em um cenário onde os custos de hardware para IA continuam a subir, encontrar maneiras eficientes de utilizar recursos existentes pode ser uma estratégia valiosa para o desenvolvimento e a experimentação na área de inteligência artificial.

Ainda é cedo para dizer se essa abordagem se tornará uma tendência para a execução de modelos de IA em larga escala. No entanto, ela certamente inspira a comunidade a explorar soluções criativas e a reavaliar os requisitos mínimos de hardware para projetos ambiciosos de inteligência artificial.