Meta Enfrenta Processo Judicial por Uso de Dados com Direitos Autorais
Uma importante ação judicial de direitos autorais contra a Meta revelou uma série de comunicações internas a respeito dos planos da empresa para desenvolver seus modelos de IA de código aberto, conhecidos como Llama. Entre essas mensagens, surgem discussões sobre como evitar a “cobertura da mídia sugerindo que usamos um conjunto de dados que sabemos ser pirata”.
Essas conversas, que foram parte de uma série de documentos liberados por um tribunal da Califórnia, indicam que a Meta teria utilizado dados protegidos por direitos autorais no treinamento de seus sistemas de IA e trabalhou para encobrir esse uso. O objetivo era superar concorrentes como OpenAI e Mistral. Parte dessas mensagens foi divulgada na semana passada.
Comunicações Internas Reveladoras
Em um email datado de outubro de 2023, o vice-presidente de IA generativa da Meta, Ahmad Al-Dahle, enviou uma mensagem para o pesquisador da Meta, Hugo Touvron, afirmando que a meta da empresa precisava ser “GPT4”, uma referência ao renomado modelo de linguagem da OpenAI. Al-Dahle acrescentou que a Meta “precisava aprender a construir fronteiras e vencer essa corrida”. Para isso, planos envolvendo o site de pirataria de livros Library Genesis (LibGen) foram considerados para treinar os sistemas de IA.
Um email sem data do diretor de produtos da Meta, Sony Theakanath, enviado à vice-presidente de pesquisa em IA, Joelle Pineau, discutiu se a equipe deveria usar o LibGen internamente, apenas para referência em uma postagem de blog, ou se deveria criar um modelo treinado com dados do site. Theakanath afirmou que a “GenAI foi aprovada para usar LibGen para Llama3… com várias mitig ações acordadas”, após submeter a questão a “MZ” — presumivelmente, o CEO da Meta, Mark Zuckerberg.
Riscos e Estratégias de Encobrimento
Os documentos judiciais fazem parte de uma ação coletiva movida por Richard Kadrey, a comediante Sarah Silverman e outros, acusando a Meta de utilizar conteúdo protegido por direitos autorais de forma ilegal para treinar seus modelos de IA, em violação às leis de propriedade intelectual. A Meta, assim como outras empresas de IA, defende que o uso de material protegido poderia se encaixar na “fair use” (uso justo) legal.
Entre as “mitigações” discutidas para o uso do LibGen, está a necessidade de que a Meta “remova dados claramente marcados como piratas/roubados”, evitando ao mesmo tempo citar externamente “o uso de qualquer dado de treinamento” do site. O mesmo email ainda alertava que a empresa deveria “red team” (simular ataques) nos modelos da empresa em relação a riscos de “bioweapons e CBRNE” (Químicos, Biológicos, Radiológicos, Nucleares e Explosivos).
A Pressão por Dados e a Corrida na Indústria de IA
Foi reportado pelo New York Times que, após o lançamento do ChatGPT, a Meta encontrou dificuldades ao perceber que havia esgotado quase todos os livros, artigos e poemas disponíveis em inglês online. Em busca de mais dados, os executivos da empresa chegaram a discutir a compra da Simon & Schuster e contratar profissionais na África para resumir livros sem permissão.
A situação atual da escassez de dados está levando empresas como Meta a buscar maneiras alternativas e prontificadas de reunir informações únicas para treinar seus sistemas de IA. Com isso, a validade dos dados coletados e sua aplicação legal torna-se um tema quente de discussão.
Reflexões Finais
Em meio à competitividade crescente no setor de IA, será que a busca desenfreada por dados justificará práticas questionáveis? Como as empresas, inclusive a Meta, devono equilibrar inovação e legalidade? Esses desafios não são só éticos, mas também impactam diretamente a reputação e a confiança dos usuários na tecnologia.