OpenAI Acusada de Exclusão de Dados Relevantes em Processo Judicial
Os advogados do The New York Times e do Daily News, que estão processando a OpenAI por supostamente utilizar seus conteúdos para treinar modelos de Inteligência Artificial sem autorização, afirmam que engenheiros da OpenAI acidentalmente deletaram dados que poderiam ser relevantes para o caso.
No início do outono, a OpenAI concordou em fornecer duas máquinas virtuais para que as equipes jurídicas dos jornais pudessem realizar buscas em seus conteúdos protegidos por direitos autorais nos conjuntos de dados de treinamento da IA. Essas máquinas virtuais são computadores baseados em software que operam dentro do sistema operacional de outro computador, geralmente usadas para testes, backup de dados e execução de aplicativos.
Em uma carta, os advogados dos editores afirmam que eles e os especialistas que contrataram investiram mais de 150 horas desde 1º de novembro empenhados em procurar dados de treinamento da OpenAI.
Entretanto, em 14 de novembro, engenheiros da OpenAI apagaram todos os dados de busca dos editores armazenados em uma das máquinas virtuais. Isso foi relatado na carta mencionada, que foi protocolada no Tribunal Distrital dos EUA para o Distrito Sul de Nova Iorque na quarta-feira passada.
A OpenAI tentou recuperar os dados e teve sucesso em grande parte, mas, devido à perda “irreversível” da estrutura de pastas e nomes de arquivos, os dados recuperados “não podem ser usados para determinar onde os artigos copiados dos jornais foram usados para construir os modelos da OpenAI”, conforme descrito na carta.
“Os demandantes foram forçados a recriar seu trabalho do zero, utilizando um tempo significativo de pessoas e processamento de computador”, relataram os advogados do The Times e do Daily News.
Além disso, eles informaram que apenas na véspera souberam que os dados recuperados eram inutilizáveis, o que exigiu a reexecução de todo o trabalho feito por seus especialistas e advogados ao longo da semana anterior. “Por isso, esta carta suplementar está sendo protocolada hoje”, afirmaram.
Os advogados dos demandantes ressaltaram que não têm motivo para suspeitar que a exclusão foi intencional. No entanto, afirmaram que o incidente evidencia que a OpenAI “está em melhor condição para pesquisar seus próprios conjuntos de dados” em busca de conteúdos que possam infringir direitos autorais, utilizando suas próprias ferramentas.
Um porta-voz da OpenAI se recusou a comentar sobre o assunto.
No entanto, na sexta-feira à noite, 22 de novembro, os advogados da OpenAI enviaram uma resposta à carta dos advogados do The Times e Daily News enviada na quarta-feira. Nessa resposta, os advogados da OpenAI negaram categoricamente que a empresa tenha deletado qualquer evidência, sugerindo que os demandantes seriam os responsáveis por uma má configuração do sistema, que resultou em um problema técnico.
“Os demandantes solicitaram uma alteração de configuração em uma das várias máquinas que a OpenAI disponibilizou para buscar nos conjuntos de dados de treinamento”, escreveram os advogados da OpenAI.
“No entanto, a implementação da alteração solicitada pelos demandantes resultou na remoção da estrutura de pastas e de alguns nomes de arquivos em um dos discos rígidos — um disco que deveria ser utilizado como cache temporário… Em qualquer caso, não há razão para crer que algum arquivo foi efetivamente perdido.”
A OpenAI tem sustentado que treinar modelos usando dados disponíveis publicamente — incluindo artigos do The Times e do Daily News — é um uso justo. Portanto, ao criar modelos como o GPT-4o, que aprendem com bilhões de exemplos de e-books, ensaios e mais, a OpenAI acredita que não precisa licenciar ou pagar pelos exemplos, mesmo que derive lucro desses modelos.
No entanto, a OpenAI firmou contratos de licenciamento com um número crescente de novos editores, incluindo a Associated Press, o proprietário do Business Insider, Axel Springer, o Financial Times, a empresa mãe da People, a Dotdash Meredith, e a News Corp. Embora a OpenAI tenha se recusado a divulgar os termos desses acordos, um dos parceiros de conteúdo, a Dotdash, supostamente recebe pelo menos $16 milhões por ano.
A OpenAI não confirmou nem negou que treinou seus sistemas de IA com obras específicas protegidas por direitos autorais sem a devida permissão.
Atualização: Adicionada a resposta da OpenAI às alegações.