O que a startup Subquadratic afirma ter resolvido?

A Subquadratic afirma ter resolvido um gargalo matemático que tem limitado o desenvolvimento dos grandes modelos de linguagem (LLMs) por quase uma década.

O que é o SubQ, o novo modelo da Subquadratic?

O SubQ é um novo tipo de LLM que a Subquadratic diz ser mais rápido, mais barato e consumir menos energia do que outros modelos, além de processar até 12 vezes mais texto de uma vez.

Quais foram os resultados dos testes independentes do SubQ?

A empresa terceirizada Appen realizou testes que parecem corroborar as alegações da Subquadratic, com a diretora de pesquisa da Appen, Jeanine Sinanan-Singh, descrevendo os resultados como 'emocionantes'.

Por que as alegações da Subquadratic causaram ceticismo inicial?

As alegações causaram ceticismo porque a empresa forneceu poucas evidências além de testes próprios e ainda não disponibilizou o SubQ amplamente para que as pessoas pudessem experimentar.

Qual é a visão da Subquadratic para o futuro dos LLMs?

A Subquadratic espera que sua inovação inicie uma nova era de eficiência e que, em alguns anos, ninguém mais estará construindo LLMs com a arquitetura de transformers atual.

LLMs mais rápidos? Startup quebra gargalo de computação

A Subquadratic, uma startup de inteligência artificial baseada em Miami, saiu do modo stealth no mês passado com uma alegação audaciosa. A empresa anunciou ter solucionado um gargalo matemático que, por quase uma década, estava freando o desenvolvimento dos grandes modelos de linguagem (LLMs).

Os detalhes eram escassos, e o ceticismo foi imediato. Mas a Subquadratic começou a apresentar evidências, compartilhando os resultados de uma avaliação independente de sua nova tecnologia. Tais resultados sugerem que as afirmações da empresa talvez mereçam atenção.

Segundo a Subquadratic, ela desenvolveu um novo tipo de LLM, chamado SubQ, que é mais rápido, mais barato e consome muito menos energia do que qualquer outro modelo no mercado. A empresa também afirma que o SubQ é capaz de processar até 12 vezes mais texto de uma vez do que a maioria dos outros modelos. Isso permitiria a execução de uma série de tarefas intensivas em dados, como a análise de centenas de documentos ou bases de código inteiras.

Além disso, a Subquadratic garante que o SubQ faz tudo isso mantendo um desempenho similar ao dos melhores modelos da Google DeepMind, OpenAI e Anthropic em tarefas cruciais, como programação.

O problema inicial foi que a empresa forneceu poucas provas para suas afirmações, além de alguns resultados de testes publicados por ela mesma. E o SubQ ainda não foi amplamente disponibilizado para que as pessoas possam experimentar por conta própria.

Não é surpresa, portanto, que as alegações da Subquadratic tenham sido recebidas com ceticismo. Dan McAteer, engenheiro de inteligência artificial, capturou a reação geral no X (antigo Twitter):

SubQ é o maior avanço desde o Transformer … ou é o Theranos da IA.

Um mês depois, a empresa publicou mais informações sobre seu modelo, incluindo os resultados de testes independentes adicionais realizados pela empresa terceirizada Appen.

Esperávamos um ceticismo saudável. Em retrospectiva, lançar os benchmarks de terceiros junto com o anúncio inicial teria evitado muito do ceticismo, e é por isso que estamos dedicando tempo para garantir que quaisquer resultados futuros sejam totalmente verificados antes de serem divulgados.

Essa é a fala de Alex Whedon, cofundador e CTO da Subquadratic.

A Subquadratic solicitou que a Appen, que avalia modelos de outras empresas, executasse seus testes no SubQ. Os resultados parecem corroborar muitas das afirmações da Subquadratic.

Foi realmente emocionante para mim, validou a arquitetura deles. Eu pensei, 'Uau, isso poderia mudar o jogo', porque os modelos lutam com velocidade e ineficiência. Mas quando você tem resultados tão chocantes, não é tão crível quando você mesmo os anuncia.

Quem disse isso foi Jeanine Sinanan-Singh, diretora de pesquisa em IA generativa da Appen.

A acusação central da Lepton

O SubQ não substituirá os modelos de ponta existentes em todas as áreas, mas poderia oferecer grandes aumentos de velocidade a uma fração do custo típico para certas tarefas. A Subquadratic insiste que, a longo prazo, sua inovação poderia mudar a forma como os LLMs são construídos. Justin Dangel, cofundador e CEO da empresa, é categórico:

Esperamos que estejamos iniciando uma nova era de eficiência. Não achamos que alguém estará construindo [LLMs] com transformers em alguns anos.

Para entender por que as afirmações da Subquadratic são importantes, é preciso aprofundar um pouco em como a maioria dos LLMs funciona. O mecanismo-chave dentro de um LLM é um tipo de rede neural chamada transformer, que executa um processo conhecido como atenção densa. Os LLMs atuais geralmente encadeiam múltiplos transformers. O artigo fundamental dos transformers foi publicado em 2017 e tem como título "Attention Is All You Need".