Inteligência Artificial Treinada com Dados Gerados por Outra IA: Uma Nova Fronteira?
Você já parou para pensar se é possível treinar uma inteligência artificial (IA) apenas com dados gerados por outra IA? A ideia pode parecer loucura, mas essa discussão já está em andamento há algum tempo. E, com a dificuldade crescente em conseguir dados reais, essa abordagem está ganhando força.
A Anthropic utilizou dados sintéticos para treinar seu modelo de destaque, o Claude 3.5. A Meta também ajustou seus modelos Llama 3.1 com dados gerados por IA. Além disso, há rumores de que a OpenAI está obtendo dados sintéticos para seu modelo Orion, de seu modelo de raciocínio o1.
A Importância das Anotações
Mas por que a IA precisa de dados, e quais tipos são necessários? Mais importante, será que dados sintéticos podem realmente substituir os dados reais?
Os sistemas de IA são máquinas estatísticas. Eles são treinados com muitos exemplos, aprendendo padrões para fazer previsões. Ou seja, anotações, que geralmente incluem rótulos que definem o significado ou partes dos dados, são cruciais nesse processo. Esses rótulos guiam o modelo, ensinando-o a distinguir entre objetos, lugares e ideias.
Por exemplo, imagine um modelo de classificação de fotos que vê diversas imagens de cozinhas rotuladas como “cozinha”. Com o treino, o modelo começará a associar a palavra “cozinha” a características gerais do ambiente, como a presença de geladeiras e bancadas. Quando apresentado a uma nova foto de cozinha, o modelo deverá reconhecê-la. Contudo, se as fotos forem rotuladas de forma errada, como “vaca”, o modelo fará associações erradas, reforçando a importância de boas anotações.
A demanda por IA e a necessidade de fornecer dados rotulados para seu desenvolvimento aumentaram o mercado de serviços de anotação. Segundo a Dimension Market Research, esse mercado vale atualmente $838,2 milhões e poderá chegar a $10,34 bilhões em 10 anos.
Seca de Dados
Há razões humanísticas e práticas para buscar alternativas às anotações geradas por humanos. Por exemplo, a Uber está expandindo sua equipe de trabalhadores temporários para fotografia e rotulagem de dados para IA. No entanto, existem limitações na velocidade com que humanos podem rotular. Além disso, pessoas que trabalham na anotação podem ter preconceitos que se refletem nas suas rotulações. Isso pode levar a erros e decisões tendenciosas.
Para complicar ainda mais, a obtenção de dados se tornou mais difícil. Muitas empresas, como a Shutterstock e Reddit, estão cobrando valores altos por acesso aos seus arquivos. E, mais de 35% dos principais sites do mundo agora bloqueiam ferramentas de coleta de dados da OpenAI, tornando a aquisição de dados um desafio ainda maior.
Alternativas Sintéticas
Os dados sintéticos parecem ser uma solução à primeira vista. Se você precisa de anotações, basta gerá-las. Se precisar de mais dados de exemplo, é só criar. Segundo Os Keyes, doutorando na Universidade de Washington, “se dados são o novo petróleo, os dados sintéticos são como biocombustíveis, criáveis sem os efeitos colaterais negativos”.
Recém-lançado, o modelo Palmyra X 004, da empresa Writer, foi treinado quase que inteiramente com dados sintéticos, com um custo de apenas $700.000, em contraste com os estimados $4,6 milhões de um modelo similar da OpenAI.
Ainda assim, os dados sintéticos não são uma cura mágica, já que a qualidade de saída depende muito da qualidade do que foi inserido. Se a IA é alimentada por dados tendenciosos, o resultado será um modelo tendencioso. Pesquisas indicam que, ao depender excessivamente de dados sintéticos durante o treinamento, a qualidade e a diversidade do modelo podem diminuir, levando a uma repetição de erros.
Um Futuro com Humanos junto da IA
No final das contas, apesar do avanço dos dados sintéticos, ainda precisaremos da supervisão humana em algum ponto do processo de treinamento. Isso garante que os modelos não se tornem tendenciosos ou imprecisos. O CEO da OpenAI, Sam Altman, acredita que um dia a IA poderá gerar dados suficientes para se treinar sozinha, mas essa tecnologia ainda não existe. Por enquanto, humanos parecem ser indispensáveis.
“Pesquisadores precisam examinar os dados gerados, iterar o processo de geração e identificar salvaguardas para remover pontos de dados de baixa qualidade”, comentou Luca Soldaini, do Allen Institute for AI.
Com esses novos avanços, o futuro da IA se mostra repleto de possibilidades, mas também de desafios. E você, o que acha? É seguro confiar só em dados gerados por IA, ou os humanos ainda são essenciais nesse processo?