A autoridade de proteção de dados da Irlanda pediu à empresa de Mark Zuckerberg suspenda temporariamente a sua iniciativa
Por Charles Machado – DF
No mês de maio, quase metade da população do mundo, recebeu um e-mail que iniciou uma grande polêmica.
Os cerca de 2,96 bilhões de usuário do Facebook, e os outro 2,01 bilhões de usuários ativos do Instagram – ainda que muitos desses usuários tenhas as duas redes -, receberam por e-mail que seus dados seriam usados para treinar os modelos de inteligência artificial (IA) nos quais a Meta, empresa controladora dessas redes sociais, trabalha.
A empresa instituiu uma possibilidade para os que não gostariam de participar desse “jogo”, porém, a história sempre se repete, o processo era complicado e, muitas vezes simplesmente não funcionava.
Na Europa, a autoridade de proteção de dados da Irlanda, país em que tem sua sede europeia(para pagar menos tributo), pediu à empresa de Mark Zuckerberg que suspendesse temporariamente a sua iniciativa. O que como resposta ocorreu apenas em 14 de junho na Europa.
A iniciativa do grupo Meta, só ocorreu, quatro dias após a ONG Human Rights Watch (HRW) ter publicado uma estudo investigativo onde revelou que fotografias de menores tiradas da internet sem consentimento estavam sendo usadas para treinar “poderosas ferramentas de IA”.
O repositório de imagens LAION-5B, que vários desenvolvedores usam para alimentar seus bancos de dados, “contém links para fotos identificáveis de crianças brasileiras”, disse a ONG.
“Os nomes de alguns deles aparecem na legenda ou na URL onde a imagem está armazenada. Em muitos casos, suas identidades são facilmente rastreáveis, incluindo informações sobre quando e onde a criança estava no momento em que a foto foi tirada”. É assustador? Mas isso mesmo.
O trabalho da ONG, detectou ao menos 170 fotos de menores brasileiros inseridas no banco de dados sem permissão. Após o aviso da HRW, o LAION-5B reconheceu que eles tinham essas imagens e procedeu a removê-las de seu repositório.
Se você acha que foram apenas crianças brasileiras, não se engane, cerca de 190 fotos de crianças australianas também foram utilizadas, sem o consentimento de seus pais. Sendo que alguns desses registros foram retirados do YouTube.
É bom destacar que a base para o relatório foi apenas de 5 mil imagens de crianças de cada país, o que representa cerca de 0,0001% do todo repositório LAION-5B, ou seja é uma base muito baixa, o que torna o número ainda mais assustador.
Como é possível, imagens de menores de 14 anos serem utilizadas sem o consentimento legal, previsto na LGPD, dado pelos pais ou responsável?
No caso brasileiro a LGPD elege como fundamentos a proteção dos dados(art.2°), (I) o respeito à privacidade; (IV) a inviolabilidade da intimidade, da honra e da imagem; (VII) 0s direitos humanos, o livre desenvolvimento da personalidade, a dignidade e o exercício da cidadania pelas pessoas naturais. Logo o uso de imagem para serem tratadas sem o consentimento fere todos os princípios listados acima.
É de se destacar que os modelos não memorizam imagens, apenas aprendem os padrões matemáticos subjacentes para fabricar imagens sintéticas precisas para os bancos de dados de treinamento.
Facebook, Instagram e X querem aproveitar seus dados
O que não retira sob nenhuma hipótese a necessidade do pedido de consentimento dos menores e ou de seus pais para o uso dessas imagens, além é claro de ser removido o contexto das fotos (anonimização), no tratamento dos metadados (como a data ou local em que a foto foi tirada).
Mesmo para os maiores de idade é fundamental além do consentimento a facilitação ao exercício do direito de acesso e supressão. Ou seja, precisamos saber se nossos dados estão de fato sendo usados para essa tarefa.
Devemos deixar claro também, que o Facebook e o Instagram não são as únicas redes sociais que desejam aproveitar os dados de seus usuários para treinar as IAs da Meta.
O X, o antigo Twitter, também faz isso por padrão. Aqueles que não querem que seus tweets e mensagens privadas sejam usados para treinar o Grok, a ferramenta de IA generativa de Elon Musk, devem desabilitar essa função (que é ativada por padrão) nas configurações da plataforma.
Na economia da atenção/desatenção, a origem dos dados que alimentam grandes modelos de linguagem está começando a representar certos problemas para os usuários que buscam proteger sua privacidade na Internet.
É cada dia mais difícil, visto que a lógica dessa economia se baseia na captura de dados para retenção de tempo, e logo quanto mais tempo mais dados e quanto mais dados mais tempo, tudo com o propósito de monetizar o seu modelo de negócio.
A Meta argumenta o uso dos seus dados públicos (que estão nas rede sociais)tem o propósito de melhorar seu modelo de linguagem. Porém em muitos os casos, não aceitar a nova política pode representar ter de parar de usar os aplicativos da empresa.
A justificativa da empresa é de dar risada: “Estamos trabalhando duro para criar tecnologia de IA de ponta que reflita seus idiomas, geografia e referências culturais da mesma forma que outras regiões do mundo”, declarou Stefano Fratta, diretor de engajamento global e política de privacidade da Meta, em um comunicado.
“Estamos seguindo o exemplo de outros, incluindo Google e OpenAI, que já usaram dados europeus para treinar IA. Nossa abordagem é mais transparente e oferece controles mais simples do que muitos de nossos colegas do setor que já treinam seus modelos com informações semelhantes disponíveis publicamente”.
A declaração é ótima né, afinal em outras palavras equivale a dizer “estamos fazendo o que outros também fazem.”
As polêmicas não param por ai, basta lembrar que a OpenAI., no final de 2021, um ano antes do lançamento do ChatGPT, já havia usado todos os textos em inglês de qualidade da internet para alimentar seu modelo, mas não foi suficiente.
A OpenAI teve que inventar um sistema de transcrição de áudio para poder usar um milhão de horas de Youtube.
De acordo com uma reportagem do The New York Times, que foi o veículo de comunicação que revelou o uso dessa ferramenta e sua legalidade questionável, o próprio Google também havia usado um programa semelhante para transcrever vídeos do YouTube e alimentar seu modelo. Um autêntico “isso é a prática do mercado.”
Existe uma clara sensação de que o usuário é apenas um número para as big techs.