A Meta, gigante por trás do Instagram, viu sua inteligência artificial de suporte ao cliente ser usada de um jeito surpreendentemente simples para roubar contas. Não foi preciso nenhum ataque cibernético sofisticado ou um modelo de IA maligno; bastou apenas que os criminosos pedissem educadamente à IA para reatribuir as contas a e-mails controlados por eles. E a IA obedeceu.
O caso, reportado em 5 de junho pela 404 Media, detalha como invasores conseguiram acessar contas de alto perfil. Um deles, por exemplo, invadiu a conta dormente da Casa Branca de Obama e fez postagens pró-Irã. Outros se apoderaram de perfis com nomes de usuário únicos e valiosos, provavelmente com a intenção de vendê-los.
Quando a IA vira o alvo, não a arma
As preocupações com a segurança cibernética da inteligência artificial não são novidade. Desde que a Anthropic anunciou em abril que seu modelo Mythos era “bom demais para hackear” para ser lançado ao público, a discussão se concentrou em IAs poderosas que poderiam destruir infraestruturas de computador. Mas o hack do Instagram inverteu essa lógica: aqui, a IA foi o alvo, e não o atacante, e o método empregado foi muito mais rudimentar do que qualquer coisa que o Mythos pudesse inventar. No entanto, à medida que as empresas dependem mais da IA para automatizar processos, ataques aparentemente menos sofisticados podem causar estragos consideráveis.
“À medida que a IA se torna cada vez mais usada — especialmente quando a IA é cada vez mais usada para automatizar nossos fluxos de trabalho, como recuperação de contas —, acho que os atacantes ficarão cada vez mais motivados a atacar a própria IA”, afirma Neil Gong, professor de engenharia elétrica e da computação na Universidade Duke.
Gong e outros pesquisadores vêm alertando há tempos sobre as vulnerabilidades de segurança dos agentes de IA. Publicam artigos e posts detalhando explorações como a injeção indireta de prompts, que envolve sequestrar agentes usando comandos escondidos em sites, e-mails ou outras fontes de dados aparentemente inofensivas. Comparado a essas técnicas, o hack da Meta foi praticamente irrefletido. A única complicação que os hackers tiveram que superar foi o uso de uma VPN que correspondesse à localização do verdadeiro proprietário da conta. Depois, eles simplesmente pediram ao agente de suporte para mudar o endereço de e-mail da conta, e ele atendeu.
Meta falha em testar o básico?
A Meta não comentou publicamente como essa vulnerabilidade passou despercebida. Mas, dada a simplicidade da exploração, Gong diz que ela deveria ter sido facilmente descoberta antes de o agente ser implantado. “É realmente surpreendente”, diz ele. “Não entendo por que eles não encontraram esse problema simples.”
Jessica Ji, analista de pesquisa sênior do Centro de Segurança e Tecnologia Emergente de Georgetown, concorda. “Isso levanta questões como: Havia sequer guardrails em vigor?”, questiona. “Alguém pensou em testar esse tipo de cenário?” Ela observa que a falha é particularmente marcante vindo de uma empresa como a Meta, que possui vasta experiência tanto em IA quanto em segurança cibernética. Um porta-voz da Meta disse no X, na segunda-feira, que a vulnerabilidade havia sido resolvida.
Por mais embaraçoso que este momento possa ser para a Meta em particular, ele também ressalta algumas vulnerabilidades centrais compartilhadas por todos os agentes de IA. Ao contrário do software tradicional, os agentes podem responder de maneiras flexíveis – e inesperadas – a novas circunstâncias, o que os torna capazes de substituir agentes humanos de suporte ao cliente. No entanto, os agentes de IA também podem ser enganados de formas que os humanos não seriam, e como eles podem realizar ações no mundo real, esses erros têm consequências. “Um humano diria: ‘Ok, por que você quer mudar o endereço de e-mail?’, e talvez responderia com uma pergunta de segurança”, explica Somesh Jha.