DeepMind Lança Genie 2: O Futuro da IA 3D

Eduardo Azevedo
04/12/2024
20:31

Blog / Notícias / DeepMind Lança Genie 2: O Futuro da IA 3D

Nota: As imagens são meramente ilustrativas e, em sua maioria, geradas pelo MidJourney.

DeepMind Lança Genie 2: Um Modelo de IA Que Cria Mundos 3D Jogáveis

A DeepMind, a organização de pesquisa em inteligência artificial do Google, revelou seu mais novo modelo, chamado Genie 2, que promete gerar uma variedade “infinita” de mundos 3D interativos.

A nova versão é a sucessora do Genie, lançado no início deste ano. O Genie 2 tem a capacidade de gerar cenas em tempo real a partir de uma única imagem e uma descrição em texto. Por exemplo, você pode pedir uma cena com “Um robô humanoide fofo na floresta”.

Esse modelo é semelhante a outros em desenvolvimento, como os da empresa World Labs, liderada por Fei-Fei Li, e a startup israelense Decart.

Recursos e Capacidades do Genie 2

A DeepMind afirma que o Genie 2 pode gerar “uma vasta diversidade de mundos 3D ricos”, em que os usuários podem realizar ações como pular e nadar usando teclado ou mouse. Treinado com vídeos, o modelo simula interações de objetos, animações, iluminação, física, reflexos e o comportamento de personagens não jogáveis (NPCs).

O que impressiona é que muitas simulações do Genie 2 se assemelham a jogos de alta qualidade. A razão pode estar no fato de que os dados de treinamento incluem jogadas de jogos populares. Contudo, a DeepMind, assim como muitos laboratórios de IA, não revelou detalhes sobre suas fontes de dados, provavelmente por razões competitivas.

Questões de Propriedade Intelectual

Perguntas sobre as implicações legais surgem: sendo uma subsidiária do Google, a DeepMind tem acesso irrestrito ao YouTube. A empresa já insinuou que seus Termos de Serviço permitem o uso de vídeos do YouTube para treinar modelos. Mas será que o Genie 2 está, na verdade, criando cópias não autorizadas dos jogos que “assistiu”? Essa questão será decidida nos tribunais.

Desempenho do Modelo

O Genie 2 pode gerar mundos consistentes com diferentes perspectivas, como visões em primeira pessoa e isométricas, por até um minuto, com a maioria das simulações durando entre 10 a 20 segundos.

“O Genie 2 responde de forma inteligente a ações realizadas através do teclado, identificando o personagem corretamente e movendo-o de forma adequada”, explicou a DeepMind em uma postagem de blog. “Por exemplo, nosso modelo pode perceber que as teclas de seta devem mover um robô e não árvores ou nuvens.”

Comparação com Outros Modelos de Mundo

Embora muitos modelos como o Genie 2 – conhecidos como modelos de mundo – possam simular jogos e ambientes 3D, eles costumam apresentar problemas de artefatos e inconsistência. Um exemplo é o simulador Minecraft da Decart, chamado Oasis, que possui baixa resolução e rapidamente “esquece” a disposição dos níveis.

No entanto, a DeepMind afirma que o Genie 2 consegue lembrar partes de uma cena simulada que não estão visíveis e renderizá-las com precisão quando se tornam visíveis novamente.

Desenvolvimento e Futuro do Genie 2

Apesar de os jogos criados com o Genie 2 não serem particularmente divertidos, já que o progresso pode ser perdido a cada minuto, a DeepMind posiciona o modelo como uma ferramenta de pesquisa e criatividade. É um recurso para prototipar experiências interativas e avaliar agentes de IA.

“Graças às capacidades de generalização fora da distribuição do Genie 2, artes e desenhos podem ser transformados em ambientes totalmente interativos”, declarou a DeepMind. “E ao usar o Genie 2 para criar rapidamente ambientes ricos e diversos para agentes de IA, nossos pesquisadores podem gerar tarefas de avaliação que os agentes não viram durante o treinamento.”

A DeepMind acredita que, embora o Genie 2 ainda esteja nos estágios iniciais, ele será um componente chave no desenvolvimento dos agentes de IA do futuro.

A Google tem investido cada vez mais em modelos de mundo, que prometem ser a próxima grande onda na IA. Em outubro, a DeepMind contratou Tim Brooks, que liderava o desenvolvimento do gerador de vídeos Sora da OpenAI, para trabalhar em tecnologias de geração de vídeos e simuladores de mundos.

Automatize seu negócio

Eduardo Azevedo

Visuailzer co-founder

Desenvolvedor com mais de 15 anos de experiência. Especialista em automações utilizando Inteligência Artificial, também atua em DevOps e Infraestrutura, desenvolvendo soluções inovadoras para otimizar processos e melhorar a eficiência de sistemas empresariais