Harvard Lança Conjunto de Dados para IA

Felipe Massari
12/12/2024
10:10

Blog / Notícias / Harvard Lança Conjunto de Dados para IA

Nota: As imagens são meramente ilustrativas e, em sua maioria, geradas pelo MidJourney.

Dados de Treinamento de IA Têm um Grande Custo

Os dados de treinamento para Inteligência Artificial possuem um preço alto, acessível apenas para as grandes empresas de tecnologia. É por isso que a Universidade de Harvard planeja lançar um conjunto de dados que incluirá cerca de um milhão de livros em domínio público, abrangendo diversos gêneros, idiomas e autores, como Dickens, Dante e Shakespeare, que não estão mais protegidos por direitos autorais devido à sua antiguidade.

O novo conjunto de dados ainda não está disponível e não está claro quando ou como será lançado. No entanto, ele inclui livros provenientes do projeto de digitalização de livros de longa data do Google, Google Books, portanto, o Google estará envolvido na liberação desse “tesouro”.

Harvard já havia mencionado a Iniciativa de Dados Institucionais (IDI) em março, delineando seus planos de criar um “canal confiável para dados legais para IA” [Wired]. No entanto, pouco se soube até o seu lançamento formal hoje [IDL], que veio acompanhado da confirmação de que a IDI inclui apoio financeiro da Microsoft e OpenAI.

O diretor executivo da IDI, Greg Leppert, afirma que o conjunto de dados foi projetado para “nivelar o campo de jogo”, abrindo um conjunto tão grande de dados para qualquer um — desde laboratórios de pesquisa até startups de IA — que desejam treinar seus modelos de linguagem de grande porte (LLMs).

Automatize seu negócio

Felipe Massari

Visuailzer co-founder

Psicólogo e Neurocientista, especialista em Neuromarketing e Marketing Digital. Domina Engenharia de Prompts e Redes Neurais. Atua no Comercial e Vendas, unindo Ciência, Tecnologia e estratégia para criar soluções inovadoras e focadas em resultados para Empresas.