Dados de Treinamento de IA Têm um Grande Custo
Os dados de treinamento para Inteligência Artificial possuem um preço alto, acessível apenas para as grandes empresas de tecnologia. É por isso que a Universidade de Harvard planeja lançar um conjunto de dados que incluirá cerca de um milhão de livros em domínio público, abrangendo diversos gêneros, idiomas e autores, como Dickens, Dante e Shakespeare, que não estão mais protegidos por direitos autorais devido à sua antiguidade.
O novo conjunto de dados ainda não está disponível e não está claro quando ou como será lançado. No entanto, ele inclui livros provenientes do projeto de digitalização de livros de longa data do Google, Google Books, portanto, o Google estará envolvido na liberação desse “tesouro”.
Harvard já havia mencionado a Iniciativa de Dados Institucionais (IDI) em março, delineando seus planos de criar um “canal confiável para dados legais para IA” [Wired]. No entanto, pouco se soube até o seu lançamento formal hoje [IDL], que veio acompanhado da confirmação de que a IDI inclui apoio financeiro da Microsoft e OpenAI.
O diretor executivo da IDI, Greg Leppert, afirma que o conjunto de dados foi projetado para “nivelar o campo de jogo”, abrindo um conjunto tão grande de dados para qualquer um — desde laboratórios de pesquisa até startups de IA — que desejam treinar seus modelos de linguagem de grande porte (LLMs).