Modelo de IA QwQ-32B-Preview Chega para Rivalizar com o da OpenAI
Um novo modelo de IA com “raciocínio”, o QwQ-32B-Preview, acaba de ser lançado. Ele é um dos poucos que pode rivalizar com o modelo o1 da OpenAI e é o primeiro a estar disponível para download sob uma licença permissiva.
Desenvolvido pela equipe Qwen da Alibaba, o QwQ-32B-Preview possui 32,5 bilhões de parâmetros e consegue processar prompts de até 32.000 palavras. Em diversos benchmarks, ele se destaca em comparação aos modelos o1-preview e o1-mini já lançados pela OpenAI. Esses parâmetros dão uma noção das habilidades de resolução de problemas da IA, onde modelos com mais parâmetros geralmente apresentam desempenho superior.
Performance e Funcionalidades
Segundo os testes realizados pela Alibaba, o QwQ-32B-Preview superou os modelos o1 da OpenAI em avaliações como os testes AIME e MATH. O AIME utiliza outros modelos de IA para avaliar o desempenho, enquanto o MATH reúne problemas matemáticos em formato de texto.
O QwQ-32B-Preview se destaca na resolução de quebra-cabeças lógicos e na resposta a questões matemáticas desafiadoras, graças às suas capacidades de raciocínio. No entanto, não é infalível. A Alibaba aponta em um post de blog que o modelo pode mudar de idioma inesperadamente, ficar preso em ciclos e apresentar um desempenho abaixo do esperado em tarefas que exigem “raciocínio de senso comum”.
Autocorreção e Desempenho
Diferente da maioria das IAs, o QwQ-32B-Preview e outros modelos de raciocínio conseguem fazer uma autoverificação, evitando algumas armadilhas que normalmente afetam outros modelos. Contudo, esse processo pode resultar em um tempo maior para chegar a soluções. De forma semelhante ao modelo o1, o QwQ-32B-Preview planeja suas ações de maneira sequencial, o que ajuda a modelar respostas mais consistentes.
Disponível para download na plataforma de desenvolvimento de IA Hugging Face, o QwQ-32B-Preview é comparável ao recém-lançado modelo de raciocínio DeepSeek. Ambos têm cautela ao abordar certos temas políticos. Sendo empresas chinesas, a Alibaba e a DeepSeek devem passar por avaliações da agência reguladora de internet da China para garantir que as respostas dos modelos “incorporem os valores centrais socialistas”.
Relações com Temas Sensíveis
Quando questionado se “Taiwan é parte da China?”, o QwQ-32B-Preview respondeu que sim, uma perspectiva que se alinha com a do partido que governa a China, mas que está em desacordo com a maioria do mundo. Perguntas sobre a Praça Tiananmen resultaram em uma não-resposta.
Licenciamento e Acesso
O QwQ-32B-Preview está “abertamente” disponível sob uma licença Apache 2.0, o que permite seu uso em aplicações comerciais. Porém, apenas alguns componentes do modelo foram divulgados, o que impossibilita a replicação do QwQ-32B-Preview ou a obtenção de muitas informações sobre o funcionamento interno do sistema.
O Futuro dos Modelos de Raciocínio
A crescente atenção a modelos de raciocínio surge em um momento em que a viabilidade das “leis de escalabilidade” está sendo questionada. Relatos recentes indicam que modelos de grandes laboratórios de IA, como OpenAI, Google e Anthropic, não estão apresentando melhorias tão significativas quanto antes.
Isso levou a uma busca por novas abordagens, arquiteturas e técnicas de desenvolvimento. Uma dessas técnicas é a computação em tempo de teste, que fundamenta modelos como o QwQ-32B-Preview. Essa abordagem, também conhecida como computação de inferência, proporciona tempo extra de processamento para as IAs completarem suas tarefas.
Grandes laboratórios, além da OpenAI e empresas chinesas, estão apostando que a computação em tempo de teste representa o futuro. Um relatório recente do The Information revelou que o Google ampliou sua equipe interna focada em modelos de raciocínio, aumentando para cerca de 200 pessoas, além de adicionar poder computacional considerável ao projeto.