DeepMind Lança Genie 2: Um Modelo de IA Que Cria Mundos 3D Jogáveis
A DeepMind, a organização de pesquisa em inteligência artificial do Google, revelou seu mais novo modelo, chamado Genie 2, que promete gerar uma variedade “infinita” de mundos 3D interativos.
A nova versão é a sucessora do Genie, lançado no início deste ano. O Genie 2 tem a capacidade de gerar cenas em tempo real a partir de uma única imagem e uma descrição em texto. Por exemplo, você pode pedir uma cena com “Um robô humanoide fofo na floresta”.
Esse modelo é semelhante a outros em desenvolvimento, como os da empresa World Labs, liderada por Fei-Fei Li, e a startup israelense Decart.
Recursos e Capacidades do Genie 2
A DeepMind afirma que o Genie 2 pode gerar “uma vasta diversidade de mundos 3D ricos”, em que os usuários podem realizar ações como pular e nadar usando teclado ou mouse. Treinado com vídeos, o modelo simula interações de objetos, animações, iluminação, física, reflexos e o comportamento de personagens não jogáveis (NPCs).
O que impressiona é que muitas simulações do Genie 2 se assemelham a jogos de alta qualidade. A razão pode estar no fato de que os dados de treinamento incluem jogadas de jogos populares. Contudo, a DeepMind, assim como muitos laboratórios de IA, não revelou detalhes sobre suas fontes de dados, provavelmente por razões competitivas.
Questões de Propriedade Intelectual
Perguntas sobre as implicações legais surgem: sendo uma subsidiária do Google, a DeepMind tem acesso irrestrito ao YouTube. A empresa já insinuou que seus Termos de Serviço permitem o uso de vídeos do YouTube para treinar modelos. Mas será que o Genie 2 está, na verdade, criando cópias não autorizadas dos jogos que “assistiu”? Essa questão será decidida nos tribunais.
Desempenho do Modelo
O Genie 2 pode gerar mundos consistentes com diferentes perspectivas, como visões em primeira pessoa e isométricas, por até um minuto, com a maioria das simulações durando entre 10 a 20 segundos.
“O Genie 2 responde de forma inteligente a ações realizadas através do teclado, identificando o personagem corretamente e movendo-o de forma adequada”, explicou a DeepMind em uma postagem de blog. “Por exemplo, nosso modelo pode perceber que as teclas de seta devem mover um robô e não árvores ou nuvens.”
Comparação com Outros Modelos de Mundo
Embora muitos modelos como o Genie 2 – conhecidos como modelos de mundo – possam simular jogos e ambientes 3D, eles costumam apresentar problemas de artefatos e inconsistência. Um exemplo é o simulador Minecraft da Decart, chamado Oasis, que possui baixa resolução e rapidamente “esquece” a disposição dos níveis.
No entanto, a DeepMind afirma que o Genie 2 consegue lembrar partes de uma cena simulada que não estão visíveis e renderizá-las com precisão quando se tornam visíveis novamente.
Desenvolvimento e Futuro do Genie 2
Apesar de os jogos criados com o Genie 2 não serem particularmente divertidos, já que o progresso pode ser perdido a cada minuto, a DeepMind posiciona o modelo como uma ferramenta de pesquisa e criatividade. É um recurso para prototipar experiências interativas e avaliar agentes de IA.
“Graças às capacidades de generalização fora da distribuição do Genie 2, artes e desenhos podem ser transformados em ambientes totalmente interativos”, declarou a DeepMind. “E ao usar o Genie 2 para criar rapidamente ambientes ricos e diversos para agentes de IA, nossos pesquisadores podem gerar tarefas de avaliação que os agentes não viram durante o treinamento.”
A DeepMind acredita que, embora o Genie 2 ainda esteja nos estágios iniciais, ele será um componente chave no desenvolvimento dos agentes de IA do futuro.
A Google tem investido cada vez mais em modelos de mundo, que prometem ser a próxima grande onda na IA. Em outubro, a DeepMind contratou Tim Brooks, que liderava o desenvolvimento do gerador de vídeos Sora da OpenAI, para trabalhar em tecnologias de geração de vídeos e simuladores de mundos.