Em um movimento incomum, trinta matemáticos se reuniram em Harvard para uma tarefa inesperada: corrigir provas feitas por inteligência artificial. O projeto, batizado de First Proof, colocou quatro sistemas de IA à prova com dez problemas matemáticos que, até então, haviam sido resolvidos apenas por humanos e nunca publicados.
O anúncio dos resultados surpreendeu a comunidade: sete dos dez problemas receberam ao menos uma solução considerada correta. Os sistemas testados utilizaram predominantemente o GPT-5.5 Pro, da OpenAI, presente em três das quatro configurações, e o Gemini 3.1 Pro Preview, do Google. O Claude Opus 4.7, da Anthropic, apareceu em uma das configurações, mas como modelo secundário.
Algumas das soluções apresentadas pelas IAs foram classificadas como “impecáveis”. Em um dos casos, um modelo chegou a impressionar os avaliadores ao empregar uma estratégia de resolução diferente daquela usada por humanos.
Por que matemáticos criaram seu próprio teste?
A iniciativa do First Proof nasceu de uma insatisfação crescente com a forma como as empresas de tecnologia divulgam os avanços das IAs. Frequentemente, as companhias anunciam grandes conquistas, mas a verificação dessas soluções se mostra complexa, e a consistência dos modelos ainda é um desafio.
“Não escreve da forma como nós escrevemos – de certa forma, não escreve de maneira honesta”,
disse Martin Hairer, matemático do Imperial College London e vencedor da Medalha Fields, ao Washington Post, expressando o ceticismo.
Humanos como alpinistas, IA como saltadores
Terry Tao, outro medalhista Fields e professor da Universidade da Califórnia em Los Angeles, buscou uma analogia para ilustrar a diferença fundamental entre a abordagem humana e a da IA na matemática. Para ele, especialistas humanos são como alpinistas: exploram o terreno com paciência, definem submetas e colaboram entre si.
Já os sistemas de IA seriam “saltadores”. Eles conseguem atingir alturas que os humanos não alcançariam de uma só vez, mas, segundo Tao, “não falham com elegância”. Uma tentativa frustrada de uma IA raramente oferece informações úteis para o próximo passo.
O que a IA ainda não sabe fazer
Apesar dos resultados promissores na resolução de problemas, matemáticos apontam que o verdadeiro ponto crítico para a IA ainda não é resolver, mas sim escolher quais problemas devem ser resolvidos. Definir o que vale a pena investigar exige julgamento, intuição e uma percepção mais ampla do contexto da disciplina.
Lauren Williams, professora em Harvard e uma das líderes do First Proof, exemplificou a questão ao Washington Post: um geólogo poderia indagar sobre a cor média de uma pedra na Terra. Uma pergunta válida, mas provavelmente não interessante. A IA, segundo ela, não distingue entre uma e outra.
Sébastien Bubeck, matemático da OpenAI, concorda com a observação: os modelos conseguem resolver, mas não compreendem a razão pela qual estão resolvendo, nem qual o papel daquele problema dentro do panorama maior da matemática.
2.300 matemáticos assinam manifesto
Paralelamente aos testes em Harvard, a comunidade matemática lançou a Declaração de Leiden. Trata-se de um manifesto internacional que já conta com mais de 2.300 signatários e estabelece diretrizes para o uso ético e transparente da inteligência artificial na área.
A declaração reconhece o potencial transformador da tecnologia, mas também alerta para riscos importantes. Entre eles, destaca-se o fato de que os modelos de IA não costumam creditar as ideias que utilizam, e as empresas tendem a promover apenas os sucessos, sem transparência sobre os casos de falha.
O contexto: o problema de 80 anos
Em maio, a OpenAI havia gerado grande repercussão ao anunciar que um modelo de IA teria refutado uma conjectura de Paul Erdős que permanecia sem solução há 80 anos. O feito foi, inclusive, descrito como uma “solução espetacular” pelo matemático de Princeton, Noga Alon.
Nesse cenário de avanços e questionamentos, o First Proof surge como uma resposta organizada da comunidade científica. Em vez de apenas reagir aos anúncios das grandes empresas, os matemáticos passaram a definir seus próprios critérios e metodologias para avaliar o real desempenho da IA na matemática.