DeepSeek Lança Modelo de IA e Gera Controvérsias
No início desta semana, a DeepSeek, um laboratório de IA chinês bem financiado, lançou um modelo de IA “aberto” que supera muitos concorrentes em benchmarks populares. O DeepSeek V3, apesar de grande, é eficiente e realiza tarefas baseadas em texto, como programação e redação de ensaios, com facilidade.
Curiosamente, o modelo parece se identificar como ChatGPT, a plataforma de chatbot da OpenAI. Postagens no X — e testes feitos pela TechCrunch — mostram que o DeepSeek V3 não hesita em afirmar que é uma versão do modelo GPT-4 da OpenAI, lançado em junho de 2023. Em 5 das 8 interações, o modelo se declara como ChatGPT (v4) e apenas 3 vezes se identifica como DeepSeek V3.
“Isso realmente reproduz uma aparência de treinamento não balanceado ao longo do tempo.”
Quando questionado sobre a API da DeepSeek, o modelo fornece instruções sobre como usar a API da OpenAI. Além disso, ele também compartilha piadas semelhantes às do GPT-4, quase até as mesmas punchlines.
O Que Está Acontecendo?
A dinâmica entre modelos como ChatGPT e DeepSeek V3 levanta questões importantes. Esses modelos são sistemas estatísticos que aprendem padrões a partir de bilhões de exemplos. Por exemplo, conseguem prever que “a quem” geralmente precede “pode interessar” em um e-mail.
A DeepSeek não revelou muitos detalhes sobre os dados usados para treinar o seu modelo. Contudo, existem inúmeros conjuntos de dados públicos que contêm textos gerados pelo GPT-4. Se o DeepSeek V3 realmente foi treinado com esses dados, é possível que o modelo tenha memorizado algumas saídas do GPT-4, reproduzindo-as agora de maneira fiel.
Mike Cook, especialista em IA do King’s College London, comentou: “É evidente que o modelo está acessando respostas do ChatGPT em algum ponto. Pode ser algo acidental, mas já vimos casos de pessoas treinando diretamente seus modelos com saídas de outros modelos para aproveitar seu conhecimento.” Cook ainda alertou que esse tipo de prática pode prejudicar a qualidade do modelo, resultando em “alucinações” e respostas enganosas.
Questões Éticas e Legais
Ademais, isso pode violar os termos de serviço de sistemas como o da OpenAI, que proíbe o uso de saídas para desenvolver modelos concorrentes. Tanto a OpenAI quanto a DeepSeek não responderam imediatamente a solicitações de comentário sobre o assunto. Contudo, o CEO da OpenAI, Sam Altman, fez um comentário que pode ser interpretado como uma crítica à DeepSeek e a outros concorrentes: “É (relativamente) fácil copiar algo que você sabe que funciona. O difícil é fazer algo novo e arriscado sem saber se funcionará.”
O DeepSeek V3 não é o primeiro modelo a se identificar incorretamente. Modelos como o Gemini do Google também alegaram ser concorrentes de outras plataformas. Isso ocorre porque a fonte de dados da web, que alimenta a maioria dos sistemas de IA, está cada vez mais poluída com conteúdo gerado por IA.
Os Riscos da Contaminação de Dados
A situação é tal que, segundo estimativas, até 90% da web pode ser gerada por IA até 2026. Isso torna a filtragem de saídas de IA em conjuntos de dados de treinamento bastante desafiadora. É plausível que a DeepSeek tenha treinado seu modelo diretamente em textos gerados pelo ChatGPT.
Foi dito por Heidy Khlaaf, diretora de engenharia do Trail of Bits, que a economia de custos ao “destilar” o conhecimento de um modelo existente pode ser atraente para os desenvolvedores, apesar dos riscos associados. Se a DeepSeek realmente utilizou modelos da OpenAI para treinamento, isso não seria surpreendente.
No entanto, é mais provável que uma grande quantidade de dados do ChatGPT/GPT-4 tenha sido incorporada ao conjunto de treinamento do DeepSeek V3. Isso significa que o modelo não pode ser confiável em sua autoidentificação. Preocupa ainda mais o fato de que, ao absorver e iterar criticamente as saídas do GPT-4, o DeepSeek V3 pode exacerbar algumas das falhas e preconceitos do modelo original.
Considerações Finais
Essa situação toda levanta sérias questões sobre a ética no desenvolvimento de IA e o uso de dados. Como consumidores e criadores de tecnologia, devemos estar atentos a essas práticas e seus possíveis impactos. O diálogo sobre a integridade nos modelos de IA está apenas começando e é crucial que continuemos essa discussão.