Mark Zuckerberg se defende em caso de uso de conteúdo protegido
O CEO da Meta, Mark Zuckerberg, usou a situação do YouTube em sua luta contra conteúdo pirata para justificar o uso de um conjunto de dados que contém e-books protegidos por direitos autorais. Essa declaração foi feita durante uma deposição que ele deu no final do ano passado, e partes desse testemunho foram divulgadas recentemente.
A deposição faz parte do processo judicial Kadrey v. Meta Platforms, onde autores e detentores de propriedade intelectual disputam o uso de suas obras por empresas de inteligência artificial (IA). Na maioria dos casos, as empresas de IA, que são os réus, afirmam que o treinamento em conteúdos protegidos é um exemplo de “uso justo”. Por outro lado, muitos detentores de direitos autorais discordam dessa afirmação.
YouTube como exemplo
Zuckerberg comentou: “Por exemplo, o YouTube pode acabar hospedando alguns conteúdos que as pessoas pirateiam por um tempo, mas o YouTube está tentando remover essas coisas”. Ele ainda observou que a maioria do conteúdo na plataforma é legítimo e possui as licenças apropriadas.
“E a vasta maioria das coisas no YouTube, eu assumiria, é do tipo bom e eles têm a licença para isso.”
A deposição de Zuckerberg trouxe algumas pistas sobre sua visão a respeito de conteúdos protegidos e uso justo. Entretanto, ainda não foi liberada a transcrição completa do seu depoimento, e a TechCrunch está aguardando uma resposta da Meta para mais informações.
Uso de LibGen para treinamento de IA
Pelas informações reveladas, parece que Zuckerberg defendeu o uso do conjunto de dados de e-books chamado LibGen para desenvolver os modelos de IA conhecidos como Llama. Essa linha de modelos da Meta compete com modelos de destaque de outras empresas de IA, como a OpenAI.
LibGen, que se descreve como um agregador de links, oferece acesso a obras protegidas de editoras renomadas, como Cengage Learning e Macmillan Learning. Este site já enfrentou diversos processos por violação de direitos autorais e foi multado em dezenas de milhões de dólares.
Controvérsias sobre o uso do dataset
De acordo com documentos judiciais que foram dessealed esta semana, Zuckerberg teria autorizado o uso do LibGen para treinar pelo menos um dos modelos Llama, mesmo com preocupações de executivos da Meta sobre as implicações legais disso.
Os advogados dos autores, incluindo os bestsellers Sarah Silverman e Ta-Nehisi Coates, mencionaram funcionários da Meta que se referiram ao LibGen como um “conjunto de dados que sabemos ser pirata” e destacaram que isso poderia prejudicar a posição da Meta nas negociações com reguladores.
Posição cautelosa em relação ao uso de material protegido
Durante a sua deposição, Zuckerberg afirmou que ele não tinha conhecimento do LibGen. Ele disse: “Eu entendo que você está tentando me levar a dar uma opinião sobre o LibGen, mas eu realmente não ouvi falar disso. É só que eu não tenho conhecimento sobre essa coisa específica.”
Questionado por um dos advogados, David Boies, Zuckerberg explicou porque seria razoável não proibir o uso de um conjunto de dados como o LibGen: “Então eu não gostaria de ter uma política contra pessoas usando o YouTube porque algum conteúdo pode ser protegido por direitos autorais? Não.” Ele enfatizou que uma proibição generalizada poderia não ser a coisa certa a se fazer.
Ele também ressaltou que a Meta deveria ser cuidadosa ao treinar em materiais protegidos: “Se alguém está oferecendo um site e tentando violar intencionalmente os direitos das pessoas… isso é algo que devemos evitar ou termos cuidado sobre como lidamos com isso.”
Novas alegações no caso
Os advogados dos autores na ação Kadrey v. Meta Platforms realizaram várias emendas na reclamação desde que foi apresentada em 2023. A mais recente inclui novas alegações de que a Meta cross-referenciou livros pirateados no LibGen com livros protegidos disponíveis para licenciamento, usando essa informação para decidir se valeria a pena buscar um acordo de licenciamento com editoras.
De acordo com a nova reclamação, a Meta teria usado o LibGen para treinar sua mais recente linha de modelos Llama, o Llama 3, e estaria usando esse dataset também para o próximo modelo, o Llama 4.
Além disso, os pesquisadores da Meta teriam tentado ocultar que os modelos Llama foram treinados com materiais protegidos, introduzindo “amostras supervisionadas” no ajuste fino do Llama. A Meta até baixou e-books pirateados de outra fonte, a Z-Library, para treinamento do Llama, conforme relato da nova reclamação.
A Z-Library enfrentou várias ações legais e, em 2022, seus supostos mantentores foram acusados de violação de direitos autorais, fraude e lavagem de dinheiro.
Reflexão Final
A situação entre as empresas de tecnologia, como a Meta, e os detentores de direitos autorais é um tema cada vez mais complexo. Enquanto o uso de dados abertos e acessíveis pode ajudar no desenvolvimento de novas tecnologias, é essencial que essas empresas respeitem os direitos dos criadores. O que você acha disso?