Cérebro em neon azul e rosa com fios de dados, simbolizando a complexidade da inteligência artificial e a privacidade.

IA vs. Privacidade: Como a Califórnia Luta Contra o Presente

Por Pedro W. • 4 min de leitura

A Califórnia Consumer Privacy Act (CCPA), que entrou em vigor em 1º de janeiro de 2020, foi amplamente divulgada como a GDPR dos Estados Unidos. A promessa era clara: garantir aos residentes direitos sem precedentes sobre seus dados pessoais, estabelecendo-se como a lei de privacidade mais robusta do país.

Contudo, apenas seis anos depois, o cenário digital se transformou radicalmente. As principais empresas de Inteligência Artificial (IA) coletaram, armazenaram e treinaram seus modelos com dados de californianos de formas que os criadores da CCPA jamais poderiam ter imaginado.

A lei é uma realidade, os direitos são reais, mas o descompasso entre a promessa legal e a sua aplicação prática é enorme. Este é o encontro da legislação de privacidade de 2018 com a tecnologia de 2026.

O que a CCPA Realmente Garante?

A California Consumer Privacy Act, emendada pela CPRA em 2020 e com efeito em 2023, concede aos residentes da Califórnia direitos específicos. O objetivo é aumentar o controle individual sobre as informações digitais.

Para empresas de IA, esses direitos impõem obrigações complexas. A indústria tem investido bilhões de dólares em honorários advocatícios para minimizar, reinterpretar e contornar essas exigências.

A Complexidade dos Dados de Treinamento

Nesse ponto, a CCPA entra em conflito direto com os modelos de negócios da IA. A maioria dos grandes sistemas de IA é treinada com dados extraídos da internet.

Isso inclui uma vasta quantidade de informações pessoais de residentes da Califórnia, como publicações em blogs, redes sociais, comentários em fóruns, avaliações de produtos e e-mails. Todos esses dados são considerados informações pessoais sob a ampla definição da CCPA.

Californianos podem exigir que as empresas de IA excluam seus dados dos conjuntos de treinamento? Teoricamente, sim. Na prática, a tecnologia atual não permite isso.

"Quando você treina uma rede neural em um conjunto de dados, os dados não existem como registros discretos no modelo. Os pesos do modelo — bilhões de números de ponto flutuante — codificam padrões estatísticos de todo o corpus de treinamento. Você não pode remover cirurgicamente os dados de uma pessoa de um modelo treinado, assim como não pode remover um ingrediente de um bolo depois de assado."

Empresas de IA argumentam que os pesos do modelo treinado não contêm "informações pessoais" conforme a CCPA. Elas também afirmam que as solicitações de exclusão se aplicam aos dados brutos de treinamento, que geralmente são descartados após o processo inicial. Além disso, alegam que a inviabilidade técnica cria uma exceção implícita.

A California Privacy Protection Agency (CPPA) ainda não decidiu se os pesos do modelo constituem informações pessoais. Essa questão legal poderá definir o futuro da indústria de IA por décadas.

A Abordagem da OpenAI

A OpenAI processa solicitações de exclusão da CCPA seguindo passos específicos. Eles excluem todos os dados de conta e histórico de conversas.

A empresa também suprime dados específicos em treinamentos futuros, utilizando técnicas como filtragem RLHF. Contudo, alegam incapacidade técnica para a exclusão de dados já integrados nos pesos dos modelos existentes.

Esta abordagem atende à letra da CCPA, ao mesmo tempo em que preserva o valor comercial dos dados já incorporados em modelos como GPT-4 e GPT-4o. O modelo comportamental de como os californianos escrevem, perguntam e estruturam seus pensamentos permanece permanentemente nos pesos do modelo.

As Disputas pela Definição de "Venda"

A CCPA proíbe a venda de informações pessoais sem consentimento. Mas o que exatamente constitui uma "venda"?

A lei define venda como a transferência de informações pessoais por consideração monetária ou outra consideração valiosa. Essa definição abre margem para várias interpretações.

Quando a Google utiliza o comportamento de busca e navegação de residentes californianos para treinar sistemas de IA que tornam o Google Search mais valioso, isso é uma venda?

Da mesma forma, quando o Meta usa posts, reações e padrões de comportamento de usuários californianos do Facebook para treinar o LLaMA, seria isso uma venda?

A complexidade dessas situações demonstra o quão desatualizada a legislação de privacidade pode estar em um mundo impulsionado pela IA.

Tags: IA privacidade CCPA Califórnia proteção de dados

Perguntas Frequentes

O que é a CCPA?

A California Consumer Privacy Act (CCPA) é uma lei de privacidade que concede direitos aos residentes da Califórnia sobre seus dados pessoais, sendo considerada a legislação de privacidade mais forte nos EUA, similar à GDPR europeia.

Quais são os principais direitos garantidos pela CCPA?

A CCPA garante direitos como saber quais dados são coletados, solicitar a exclusão de dados, optar por não ter dados vendidos ou compartilhados, corrigir informações imprecisas e limitar o uso de dados sensíveis.

Por que a CCPA enfrenta desafios com a IA?

A CCPA foi criada antes do boom da IA moderna. A forma como a IA é treinada, usando vastos conjuntos de dados da internet e incorporando-os nos pesos do modelo, torna a exclusão individual de dados tecnicamente inviável, criando um conflito com os direitos de privacidade.

Como a OpenAI lida com as solicitações de exclusão da CCPA?

A OpenAI exclui dados de conta e histórico de conversas, suprime dados específicos em treinamentos futuros, mas alega incapacidade técnica para remover dados já 'assados' nos pesos dos modelos existentes, mantendo o valor comercial de seus modelos treinados.

O que a CCPA define como 'venda' de dados?

A CCPA define 'venda' como a transferência de informações pessoais por consideração monetária ou outra consideração valiosa. Isso gera debate sobre se o uso de dados para treinar modelos de IA que aumentam o valor de um produto ou serviço se enquadra nessa definição.