Nvidia entra no mundo dos modelos de IA
A Nvidia está dando um passo importante ao entrar no universo dos
modelos de mundo, que se inspiram nos modelos mentais que nós, humanos, desenvolvemos naturalmente sobre o ambiente ao nosso redor.
Durante a a Consumer Electronics Show em Las Vegas, a empresa anunciou que vai disponibilizar uma nova linha de modelos, chamada Cosmos World Foundation Models, ou Cosmos WFM para os íntimos. Esses modelos têm a capacidade de prever e gerar vídeos que levam em conta as leis da física.
Flexibilidade e acesso aos modelos
Esses modelos podem ser ajustados para atender a aplicações específicas e estão disponíveis por meio da API da Nvidia, nos catálogos do NGC e na plataforma de desenvolvedores de IA, Hugging Face.
“A Nvidia está disponibilizando a primeira onda de Cosmos WFMs para simulações baseadas em física e geração de dados sintéticos”.
Isso significa que qualquer pesquisador ou desenvolvedor, independentemente do tamanho da empresa, pode usar os modelos Cosmos de forma gratuita e comercial, de acordo com a licença permissiva da Nvidia.
Características dos modelos Cosmos WFM
A linha de modelos Cosmos é composta por três categorias:
- Nano: para aplicações de baixa latência e em tempo real;
- Super: modelos de base com alta performance;
- Ultra: focados em qualidade máxima e alto nível de fidelidade.
Os tamanhos dos modelos variam de 4 bilhões a 14 bilhões de parâmetros, sendo que o Nano é o menor e o Ultra, o maior. Em modelos de IA, mais parâmetros geralmente significam melhores habilidades de resolução de problemas.
Novidades da linha Cosmos WFM
Além dos modelos principais, a Nvidia também apresentará um modelo de upsampling, um decodificador de vídeo otimizado para realidade aumentada, e modelos de segurança (guardrails) para garantir um uso responsável. Eles também incluem modelos ajustados para aplicações práticas, como a geração de dados de sensores para o desenvolvimento de veículos autônomos. Esses modelos foram treinados em 9 mil trilhões de tokens oriundos de 20 milhões de horas de interações humanas reais, dados de ambientes industriais e de robótica.
A Nvidia não revelou a origem exata desses dados, mas surgiram informações de que a empresa pode ter treinado esses modelos com vídeos do YouTube sem autorização, resultando em um processo judicial.
O que isso significa para os desenvolvedores?
Os modelos Cosmos WFM podem gerar dados sintéticos de alta qualidade a partir de textos ou quadros de vídeo. A Nvidia destaca que os desenvolvedores podem personalizar esses modelos com conjuntos de dados específicos, como gravações de viagens de veículos autônomos.
Companhias como Waabi, Wayve, Fortellix e Uber já estão aderindo à pilota do Cosmos WFM em diversas aplicações.
A questão do código aberto
É importante ressaltar que os modelos da Nvidia não são considerados “código aberto” no sentido mais rigoroso. Para um modelo ser classificado como código aberto, ele deve fornecer informações suficientes para que alguém consiga reproduzi-lo substancialmente, além de divulgar detalhes sobre seus dados de treinamento.
A Nvidia não publicou informações detalhadas sobre os dados usados nos Cosmos WFM, tampouco disponibilizou todas as ferramentas necessárias para que esses modelos possam ser recriados do zero. Por isso, a empresa se refere a eles como “abertos”, e não como propriamente código aberto.
Opinião
A nova abordagem da Nvidia com os Cosmos WFMs representa um marco interessante no desenvolvimento de IA, ao permitir que mais desenvolvedores explorem a criação de soluções complexas. Contudo, a falta de transparência sobre os dados utilizados gera preocupações sobre a ética no treinamento de modelos de IA. Seria bom ver a Nvidia se comprometer a uma política mais aberta e acessível no futuro.