OLMo 2: Nova Família de Modelos de IA Chega ao Mercado
Uma nova família de modelos de inteligência artificial (IA) está na área, e é uma das poucas que podem ser reproduzidas do zero.
Na última terça-feira, a Ai2, organização sem fins lucrativos de pesquisa em IA fundada pelo falecido Paul Allen, lançou o OLMo 2, a segunda família de modelos da sua série OLMo. (OLMo é a sigla para “Open Language Model”, ou Modelo de Linguagem Aberta). Embora existam vários modelos de linguagem “abertos” disponíveis, como o Llama da Meta, o OLMo 2 atende à definição de IA de código aberto da Open Source Initiative, o que significa que as ferramentas e dados utilizados para desenvolvê-lo estão disponíveis publicamente.
A Open Source Initiative é uma instituição respeitada que visa definir e “administrar” tudo relacionado ao open source. Recentemente, ela finalizou sua definição de IA de código aberto em outubro. Contudo, os primeiros modelos OLMo, lançados em fevereiro, já atendiam a esse critério.
“OLMo 2 foi desenvolvido do início ao fim com dados de treinamento abertos e acessíveis, código de treinamento de código aberto, receitas de treinamento reproduzíveis, avaliações transparentes e mais,” afirmou a Ai2 em um post no blog. “Ao compartilhar abertamente nossos dados, receitas e descobertas, esperamos fornecer à comunidade de código aberto os recursos necessários para descobrir novas e inovadoras abordagens.”
Na família OLMo 2, encontramos dois modelos: um com 7 bilhões de parâmetros (OLMo 7B) e outro com 13 bilhões de parâmetros (OLMo 13B). Esses parâmetros correspondem, mais ou menos, às habilidades de resolução de problemas do modelo; geralmente, modelos com mais parâmetros apresentam um desempenho superior.
Assim como a maioria dos modelos de linguagem, o OLMo 2 com 7B e 13B pode realizar uma variedade de tarefas baseadas em texto, como responder perguntas, resumir documentos e escrever código.
Para treinar os modelos, a Ai2 utilizou um conjunto de dados composto por 5 trilhões de tokens. Os tokens representam partes de dados brutos; 1 milhão de tokens equivalem a aproximadamente 750 mil palavras. O conjunto de treinamento incluiu sites “filtrados para alta qualidade”, artigos acadêmicos, fóruns de perguntas e respostas e livros de matemática “gerados tanto artificialmente quanto por humanos”.
A Ai2 afirma que o resultado são modelos competitivos em termos de desempenho, equiparando-se a modelos abertos como o Llama 3.1 da Meta.
“Não apenas observamos uma melhoria dramática no desempenho em todas as tarefas em comparação com o nosso modelo OLMo anterior, mas, notavelmente, o OLMo 2 7B se destaca em relação ao Llama 3.1 8B,” afirmou a Ai2. “OLMo 2 representa os melhores modelos de linguagem totalmente abertos até hoje.”
Os modelos OLMo 2 e todos os seus componentes podem ser baixados diretamente no site da Ai2. Eles estão sob a licença Apache 2.0, o que significa que podem ser usados comercialmente.
Recentemente, houve debates sobre a segurança de modelos abertos, especialmente com relatos de que modelos Llama estão sendo utilizados por pesquisadores chineses para desenvolver ferramentas de defesa. Quando perguntei ao engenheiro da Ai2, Dirk Groeneveld, em fevereiro, se ele estava preocupado com o abuso do OLMo, ele me disse que acredita que os benefícios superam, em última análise, os danos.
“Sim, é possível que modelos abertos sejam usados de maneira inadequada ou para fins não intencionais,” afirmou. “[No entanto, essa] abordagem também promove avanços técnicos que levam a modelos mais éticos; é um pré-requisito para verificação e reprodutibilidade, pois esses objetivos só podem ser alcançados com acesso ao conjunto completo; e reduz a crescente concentração de poder, criando um acesso mais equitativo.”