Copilot: Falha crítica permitia roubar códigos 2FA. Como?

A Microsoft corrigiu, na última terça-feira, uma vulnerabilidade classificada como “crítica” em sua plataforma de IA, o M365 Copilot. Uma falha que permitia a cibercriminosos roubar códigos de autenticação de dois fatores (2FA) e outros dados sensíveis diretamente dos e-mails acessíveis ao Copilot, conforme revelado pelos pesquisadores que a encontraram e reportaram à empresa.

Essa vulnerabilidade não é um caso isolado. Tanto a Microsoft quanto outros provedores de Large Language Models (LLMs) têm enfrentado dificuldades em evitar que seus produtos cumpram requisições maliciosas destinadas a revelar dados. O ponto central dessa fragilidade reside na incapacidade dos bots de IA de diferenciar instruções fornecidas pelos usuários daquelas inseridas em conteúdo de terceiros que os modelos estão processando — seja sumarizando, elaborando respostas ou executando outras ações em nome do utilizador.

Sem uma maneira eficaz de garantir essa fronteira crucial, a Microsoft e seus concorrentes se veem obrigados a construir “barreiras de proteção” (guardrails) complexas e improvisadas. Essas medidas são projetadas para conter as consequências dessa que é descrita como uma “ingenuidade incurável” dos sistemas de IA.

Como os hackers saltaram as barreiras de proteção?

Uma das barreiras implementadas no Copilot e na maioria dos outros LLMs visa impedir que eles submetam formulários da web, enviem e-mails ou realizem ações semelhantes que poderiam ser usadas para exfiltrar dados do usuário. No entanto, os hackers de LLMs descobriram maneiras de contornar essa proteção.

Uma das táticas envolveu o uso de linguagens de marcação. Elas permitem, entre outras coisas, que os usuários adicionem elementos de formatação — como títulos, listas e links — a textos sem a necessidade de tags HTML. Outra abordagem foi encapsular dados sensíveis dentro de tags HTML específicas, como e

Em ambos os cenários, uma requisição web contendo os dados era enviada ao servidor do atacante. Lá, a informação secreta era capturada e registrada nos logs, permitindo o roubo dos dados confidenciais, incluindo os códigos 2FA.