Um relatório divulgado nesta última semana pela ONG Human Rights Watch (HRW) afirma que fotos pessoais de crianças brasileiras as crianças estão sendo roubadas na internet para serem usadas na criação de poderosas ferramentas de inteligência artificial (IA), sem o conhecimento ou consentimento dos pais. Pelo menos a HRW constatou que foram roubadas pelo menos 170 fotos de crianças e adolescentes brasileiros.
A ONG garante que as fotos roubadas da web são inseridas em um grande conjunto de dados que as empresas usam para treinar suas ferramentas de IA. Por sua vez, há casos mais graves onde criminosos estão usando essas ferramentas para criar deepfakes maliciosos, colocando as crianças em risco de exploração e danos.
Ausência de proteção governamental
“Crianças e adolescentes não deveriam ter que viver com medo de que suas fotos possam ser roubadas e usadas contra eles”, disse Hye Jung Han, pesquisadora de direitos da criança e tecnologia da Human Rights Watch. “O governo deveria adotar urgentemente políticas para proteger os dados das crianças contra uso indevido impulsionado por IA.”
Uma análise da Human Rights Watch descobriu que o LAION-5B, um conjunto de dados usado para treinar ferramentas populares de IA e construído a partir do roubo de grande parte da Internet, contém links para fotos identificáveis de crianças brasileiras. Os nomes de algumas crianças estão listados nas respectivas legendas ou na URL onde a imagem está armazenada. Em muitos casos, suas identidades são facilmente rastreáveis, incluindo informações sobre quando e onde a criança estava no momento que a foto foi tirada.
Uma dessas fotos mostra uma menina de 2 anos com os lábios entreabertos de admiração enquanto toca os dedinhos de sua irmã recém-nascida. A legenda e as informações incorporadas na foto revelam não apenas os nomes das duas crianças, mas também o nome e a localização exata do hospital em Santa Catarina onde o bebê nasceu há nove anos, em uma tarde de inverno.
Crianças de pelo menos 10 Estados brasileiros
A Human Rights Watch encontrou 170 fotos de crianças de pelo menos 10 estados: Alagoas, Bahia, Ceará, Mato Grosso do Sul, Minas Gerais, Paraná, Rio de Janeiro, Rio Grande do Sul, Santa Catarina e São Paulo. É provável que essa seja uma subestimação significativa da quantidade total de dados pessoais de crianças existentes no LAION-5B, uma vez que a Human Rights Watch analisou menos de 0,0001% dos 5,85 bilhões de imagens e legendas contidas no conjunto de dados.
As fotos analisadas abrangem toda a infância e adolescência, capturando momentos íntimos de bebês nascendo nas mãos enluvadas de médicos; crianças pequenas soprando velas no seu bolo de aniversário ou dançando de cueca e calcinha em casa; estudantes fazendo uma apresentação na escola; e adolescentes posando para fotos no Carnaval de seu colégio.
Fotos que tinham alguma privacidade, afirma a HRW
Muitas dessas fotos foram vistas originalmente por poucas pessoas e parece que tinham alguma medida de privacidade anteriormente. Não parece ser possível encontrá-las por meio de uma pesquisa on-line. Algumas dessas fotos foram postadas por crianças e adolescentes, seus pais ou familiares em blogs pessoais e sites de compartilhamento de fotos e vídeos. Algumas foram postadas anos ou até mesmo uma década antes da criação do LAION-5B.
Quando seus dados são coletados e inseridos em sistemas de IA, essas crianças enfrentam mais ameaças à sua privacidade devido a falhas na tecnologia, diz a ONG. Os modelos de IA, inclusive aqueles treinados no LAION-5B, são notórios por vazar informações privadas; eles podem reproduzir cópias idênticas do material no qual foram treinados, inclusive registros médicos e fotos de pessoas reais. As barreiras de proteção estabelecidas por algumas empresas para evitar o vazamento de dados confidenciais têm sido repetidamente quebradas.
Caminho para danos maiores
Esses riscos à privacidade abrem caminho para danos maiores. O treinamento em fotos de crianças reais tem permitido que os modelos de IA criem clones convincentes de qualquer criança com base em um punhado de fotos ou até mesmo em uma única imagem. Atores mal-intencionados usam ferramentas de IA treinadas pelo LAION para gerar imagens explícitas de crianças a partir de fotos inofensivas, bem como imagens explícitas de crianças sobreviventes cujas imagens de abuso sexual foram raspadas para o LAION-5B.
Da mesma forma, a presença de crianças brasileiras no LAION-5B contribui para que modelos de IA treinados nesse conjunto de dados tenham a capacidade de produzir imagens realistas de crianças brasileiras. Isso amplia substancialmente o risco que crianças enfrentam de alguém roubar sua imagem das fotos ou vídeos publicados on-line e usar a IA para manipulá-las a dizer ou fazer coisas que elas nunca disseram ou fizeram.
Pelo menos 85 meninas de Alagoas, Minas Gerais, Pernambuco, Rio de Janeiro, Rio Grande do Sul e São Paulo relataram assédio por parte de colegas de classe que usaram ferramentas de IA para criar deepfakes sexualmente explícitos das meninas com base em suas fotos nas redes sociais e, em seguida, circularam as imagens falsas on-line.
Atualmente a IA cria resultados realistas em segundos
A mídia fabricada sempre existiu, mas exigia tempo, recursos e conhecimento especializado para ser criada e, em geral, não era muito realista. As ferramentas atuais de IA criam resultados realistas em segundos, geralmente são gratuitas e fáceis de usar, arriscando a proliferação de deepfakes não consensuais que podem recircular on-line por toda a vida e causar danos duradouros.
Em resposta, a LAION, organização alemã sem fins lucrativos que gerencia o LAION-5B, confirmou que o conjunto de dados continha as fotos pessoais das crianças encontradas pela Human Rights Watch e se comprometeu a removê-las. Ela contestou que os modelos de IA treinados no LAION-5B pudessem reproduzir dados pessoais literalmente. A LAION também disse que as crianças e seus responsáveis são responsáveis por remover suas fotos pessoais da Internet, argumentando ser a proteção mais eficaz contra o uso indevido.
Legisladores têm proposto a proibição do uso não consensual de IA para gerar imagens sexualmente explícitas de pessoas, inclusive crianças. Esses esforços são urgentes e importantes, mas abordam apenas um sintoma de um problema mais profundo: o fato de que os dados pessoais de crianças permanecem em grande parte desprotegidos contra o uso indevido. Da forma como está redigida, a Lei Geral de Proteção de Dados Pessoais do Brasil não oferece proteção suficiente para as crianças.
Falta uma lei efetiva de proteção de dados
O governo deveria fortalecer a lei de proteção de dados adotando salvaguardas adicionais e abrangentes para a privacidade dos dados das crianças. Em abril, o Conselho Nacional dos Direitos da Criança e do Adolescente (CONANDA), um órgão deliberativo estabelecido por lei para proteger os direitos das crianças, publicou uma resolução orientando que o Conselho e o Ministério dos Direitos Humanos e Cidadania desenvolvam uma política nacional para proteger os direitos das crianças e dos adolescentes no ambiente digital no prazo de 90 dias. Eles deveriam cumprir a resolução.
A nova política deveria proibir a raspagem de dados pessoais de crianças para sistemas de IA considerando os riscos de privacidade envolvidos e o potencial de novas formas de uso indevido à medida que a tecnologia evolui. Deveria também proibir a replicação digital não consensual ou a manipulação de imagens de crianças. E deveria fornecer mecanismos às crianças que sofrerem danos para buscar justiça e reparação significativa.
O Congresso brasileiro também deveria garantir que propostas de regulamentações de IA incorporem proteções de privacidade de dados para todos, e especialmente para as crianças.
“A IA generativa ainda é uma tecnologia incipiente, e os danos associados que as crianças já estão enfrentando não são inevitáveis”, disse Han. “Proteger agora a privacidade dos dados de crianças ajudará a moldar o desenvolvimento dessa tecnologia para uma que promova, em vez de violar, os direitos das crianças.”