Advogados do The New York Times e Daily News processam OpenAI por violação de direitos autorais
Os advogados do The New York Times e do Daily News, que estão processando a OpenAI por supostamente usar suas obras para treinar modelos de IA sem permissão, afirmam que engenheiros da OpenAI deletaram acidentalmente dados que poderiam ser relevantes para o caso.
No último outono, a OpenAI concordou em fornecer duas máquinas virtuais para que os advogados do The Times e do Daily News pudessem realizar pesquisas sobre conteúdos protegidos por direitos autorais em seus conjuntos de dados de treinamento. Em uma carta, os advogados dos editores afirmam que eles e especialistas já gastaram mais de 150 horas desde 1º de novembro buscando nos dados de treinamento da OpenAI.
Porém, em 14 de novembro, engenheiros da OpenAI apagaram todos os dados de pesquisa dos editores armazenados em uma das máquinas virtuais, segundo a carta mencionada, que foi apresentada no Tribunal Distrital dos EUA para o Sul de Nova York na noite de quarta-feira.
A OpenAI tentou recuperar os dados — e teve algum sucesso. No entanto, devido à perda “irreparável” da estrutura de pastas e nomes de arquivos, os dados recuperados “não podem ser usados para determinar onde os artigos copiados dos autores de notícias foram utilizados para construir os modelos da OpenAI”, segundo a carta.
Citação de advogados: “Os autores de notícias foram forçados a recriar seu trabalho do zero, utilizando um tempo significativo de pessoas e processamento de computador.”
Os advogados do The Times e do Daily News explicaram que só souberam ontem que os dados recuperados são inutilizáveis e que todo o trabalho de uma semana de seus especialistas e advogados precisa ser refeito, razão pela qual esta carta suplementar está sendo apresentada hoje.
A assessoria dos reclamantes deixou claro que não têm motivos para acreditar que a exclusão foi intencional. Contudo, afirmam que o incidente destaca que a OpenAI “está na melhor posição para buscar seus próprios conjuntos de dados” em busca de conteúdos potencialmente infratores utilizando suas próprias ferramentas.
Entramos em contato com a OpenAI para comentários e atualizaremos esta matéria se tivermos novidades.
Neste caso e em outros, a OpenAI defendeu que treinar modelos usando dados de domínio público — incluindo artigos do The Times e do Daily News — é um uso justo. Em outras palavras, ao criar modelos como o GPT-4o, que “aprendem” com bilhões de exemplos de ebooks, ensaios e mais, a OpenAI acredita que não precisa licenciar ou pagar pelos exemplos — mesmo que lucre com esses modelos.
Dito isso, a OpenAI firmou acordos de licenciamento com um número crescente de novos editores, incluindo The Associated Press, proprietário da Business Insider, Axel Springer, Financial Times, empresa-mãe da People, Dotdash Meredith, e News Corp. A OpenAI se recusou a divulgar os termos desses acordos, mas um parceiro de conteúdo, a Dotdash, está supostamente sendo paga com pelo menos $16 milhões por ano.