O que foi o projeto First Proof?

O First Proof foi um projeto realizado em Harvard, onde trinta matemáticos testaram quatro sistemas de IA com dez problemas matemáticos inéditos que haviam sido resolvidos apenas por humanos.

Quantos problemas as IAs conseguiram resolver corretamente?

Sete dos dez problemas apresentados foram resolvidos corretamente por pelo menos um dos sistemas de IA testados.

Qual a principal limitação da IA na matemática, segundo os especialistas?

Matemáticos apontam que a principal limitação da IA não é resolver problemas, mas sim escolher quais problemas são relevantes e interessantes para investigar, algo que exige julgamento, intuição e contexto.

IA na matemática: 7 de 10 problemas solucionados em Harvard

Q: Quais modelos de IA foram usados nos testes?

Os sistemas testados utilizaram principalmente o GPT-5.5 Pro da OpenAI e o Gemini 3.1 Pro Preview do Google. O Claude Opus 4.7 da Anthropic foi usado como modelo secundário em uma das configurações.

Q: O que a Declaração de Leiden defende?

A Declaração de Leiden é um manifesto internacional assinado por mais de 2.300 matemáticos, que estabelece diretrizes para o uso ético e transparente da IA na matemática, apontando potenciais riscos como a falta de crédito e a não transparência sobre falhas.

Em um movimento incomum, trinta matemáticos se reuniram em Harvard para uma tarefa inesperada: corrigir provas feitas por inteligência artificial. O projeto, batizado de First Proof, colocou quatro sistemas de IA à prova com dez problemas matemáticos que, até então, haviam sido resolvidos apenas por humanos e nunca publicados.

O anúncio dos resultados surpreendeu a comunidade: sete dos dez problemas receberam ao menos uma solução considerada correta. Os sistemas testados utilizaram predominantemente o GPT-5.5 Pro, da OpenAI, presente em três das quatro configurações, e o Gemini 3.1 Pro Preview, do Google. O Claude Opus 4.7, da Anthropic, apareceu em uma das configurações, mas como modelo secundário.

Algumas das soluções apresentadas pelas IAs foram classificadas como “impecáveis”. Em um dos casos, um modelo chegou a impressionar os avaliadores ao empregar uma estratégia de resolução diferente daquela usada por humanos.

Por que matemáticos criaram seu próprio teste?

A iniciativa do First Proof nasceu de uma insatisfação crescente com a forma como as empresas de tecnologia divulgam os avanços das IAs. Frequentemente, as companhias anunciam grandes conquistas, mas a verificação dessas soluções se mostra complexa, e a consistência dos modelos ainda é um desafio.

“Não escreve da forma como nós escrevemos – de certa forma, não escreve de maneira honesta”,

disse Martin Hairer, matemático do Imperial College London e vencedor da Medalha Fields, ao Washington Post, expressando o ceticismo.

Humanos como alpinistas, IA como saltadores

Terry Tao, outro medalhista Fields e professor da Universidade da Califórnia em Los Angeles, buscou uma analogia para ilustrar a diferença fundamental entre a abordagem humana e a da IA na matemática. Para ele, especialistas humanos são como alpinistas: exploram o terreno com paciência, definem submetas e colaboram entre si.

Já os sistemas de IA seriam “saltadores”. Eles conseguem atingir alturas que os humanos não alcançariam de uma só vez, mas, segundo Tao, “não falham com elegância”. Uma tentativa frustrada de uma IA raramente oferece informações úteis para o próximo passo.

O que a IA ainda não sabe fazer

Apesar dos resultados promissores na resolução de problemas, matemáticos apontam que o verdadeiro ponto crítico para a IA ainda não é resolver, mas sim escolher quais problemas devem ser resolvidos. Definir o que vale a pena investigar exige julgamento, intuição e uma percepção mais ampla do contexto da disciplina.

Lauren Williams, professora em Harvard e uma das líderes do First Proof, exemplificou a questão ao Washington Post: um geólogo poderia indagar sobre a cor média de uma pedra na Terra. Uma pergunta válida, mas provavelmente não interessante. A IA, segundo ela, não distingue entre uma e outra.

Sébastien Bubeck, matemático da OpenAI, concorda com a observação: os modelos conseguem resolver, mas não compreendem a razão pela qual estão resolvendo, nem qual o papel daquele problema dentro do panorama maior da matemática.

2.300 matemáticos assinam manifesto

Paralelamente aos testes em Harvard, a comunidade matemática lançou a Declaração de Leiden. Trata-se de um manifesto internacional que já conta com mais de 2.300 signatários e estabelece diretrizes para o uso ético e transparente da inteligência artificial na área.

A declaração reconhece o potencial transformador da tecnologia, mas também alerta para riscos importantes. Entre eles, destaca-se o fato de que os modelos de IA não costumam creditar as ideias que utilizam, e as empresas tendem a promover apenas os sucessos, sem transparência sobre os casos de falha.

O contexto: o problema de 80 anos

Em maio, a OpenAI havia gerado grande repercussão ao anunciar que um modelo de IA teria refutado uma conjectura de Paul Erdős que permanecia sem solução há 80 anos. O feito foi, inclusive, descrito como uma “solução espetacular” pelo matemático de Princeton, Noga Alon.

Nesse cenário de avanços e questionamentos, o First Proof surge como uma resposta organizada da comunidade científica. Em vez de apenas reagir aos anúncios das grandes empresas, os matemáticos passaram a definir seus próprios critérios e metodologias para avaliar o real desempenho da IA na matemática.

IA na matemática: 7 de 10 problemas solucionados em Harvard

Por que matemáticos criaram seu próprio teste?

Humanos como alpinistas, IA como saltadores

Perguntas Frequentes

O que foi o projeto First Proof?

Quantos problemas as IAs conseguiram resolver corretamente?

Quais modelos de IA foram usados nos testes?

O que a Declaração de Leiden defende?

Qual a principal limitação da IA na matemática, segundo os especialistas?