A Califórnia Consumer Privacy Act (CCPA), que entrou em vigor em 1º de janeiro de 2020, foi aclamada como a GDPR dos Estados Unidos. Ela prometia dar aos residentes direitos inéditos sobre seus dados pessoais, tornando-se a lei de privacidade mais forte do país.
No entanto, apenas seis anos depois, o cenário digital mudou drasticamente. As principais empresas de Inteligência Artificial (IA) coletaram, retiveram e treinaram seus modelos com dados de californianos de maneiras que os criadores da CCPA jamais poderiam prever.
A lei é real, os direitos são reais, mas o abismo entre a promessa legal e a sua execução prática é imenso. Este é o ponto de encontro entre a legislação de privacidade de 2018 e a tecnologia de 2026.
O que a CCPA Garante, de Fato?
A California Consumer Privacy Act, emendada pela CPRA em 2020 e com efeito em 2023, concede aos residentes da Califórnia direitos específicos. Estes visam aumentar o controle individual sobre as informações digitais.
Direito de saber: Quais informações pessoais uma empresa coleta, usa, divulga e vende.
Direito de exclusão: Exigir que as empresas excluam as informações pessoais coletadas.
Direito de optar por não participar: Impedir que as empresas vendam ou compartilhem suas informações pessoais.
Direito de correção: Exigir que as empresas corrijam informações pessoais imprecisas.
Direito de limitar: Restringir o uso de informações pessoais sensíveis.
Direito de não discriminação: Exercer esses direitos sem ser penalizado.
Para empresas de IA, esses direitos impõem obrigações complexas. A indústria tem investido bilhões de dólares em honorários advocatícios para minimizar, reinterpretar e contornar essas exigências.
O Desafio dos Dados de Treinamento
Aqui, a CCPA encontra um conflito estrutural direto com os modelos de negócios da IA. A maioria dos grandes sistemas de IA é treinada com dados extraídos da internet.
Isso inclui uma vasta quantidade de informações pessoais de residentes da Califórnia, como publicações em blogs, redes sociais, comentários em fóruns, avaliações de produtos e e-mails. Todos esses dados são considerados informações pessoais sob a ampla definição da CCPA.
Será que os californianos podem exigir que as empresas de IA excluam seus dados dos conjuntos de treinamento? Teoricamente, sim. Na prática, a tecnologia atual não permite isso.
"Quando você treina uma rede neural em um conjunto de dados, os dados não existem como registros discretos no modelo. Os pesos do modelo — bilhões de números de ponto flutuante — codificam padrões estatísticos de todo o corpus de treinamento. Você não pode remover cirurgicamente os dados de uma pessoa de um modelo treinado, assim como não pode remover um ingrediente de um bolo depois de assado."
Empresas de IA argumentam que os pesos do modelo treinado não contêm "informações pessoais" conforme a CCPA. Elas também dizem que as solicitações de exclusão se aplicam aos dados brutos de treinamento, que geralmente são descartados após o processo inicial. Além disso, alegam que a inviabilidade técnica cria uma exceção implícita.
A California Privacy Protection Agency (CPPA) ainda não decidiu se os pesos do modelo constituem informações pessoais. Essa questão legal poderá definir o futuro da indústria de IA por décadas.
A Abordagem da OpenAI
A OpenAI processa solicitações de exclusão da CCPA seguindo passos específicos. Eles excluem todos os dados de conta e histórico de conversas.
A empresa também suprime dados específicos em treinamentos futuros, usando técnicas como filtragem RLHF. Contudo, alegam incapacidade técnica para a exclusão de dados já "incorporados" nos pesos dos modelos existentes.
Esta abordagem satisfaz a letra da CCPA, ao mesmo tempo em que preserva o valor comercial dos dados já integrados em modelos como GPT-4 e GPT-4o. O modelo comportamental de como os californianos escrevem, perguntam e estruturam seus pensamentos permanece permanentemente nos pesos do modelo.
As Batalhas pela Definição de "Venda"
A CCPA proíbe a venda de informações pessoais sem consentimento. Mas o que exatamente constitui uma "venda"?
A lei define venda como a transferência de informações pessoais por consideração monetária ou outra consideração valiosa. Essa definição abre margem para várias interpretações.
Quando a Google utiliza o comportamento de busca e navegação de residentes californianos para treinar sistemas de IA que tornam o Google Search mais valioso, isso é uma venda? No Brasil Vibe Coding, estamos atentos a essas nuances.
Da mesma forma, quando o Meta usa posts, reações e padrões de comportamento de usuários californianos do Facebook para treinar o LLaMA, seria isso uma venda?
A complexidade dessas situações mostra o quão desatualizada a legislação de privacidade pode estar em um mundo impulsionado pela IA. Continue acompanhando o Brasil Vibe Coding para mais novidades sobre este tema crucial.