Google DeepMind Lança Veo 2: O Novo Concorrente no Gênero de Geração de Vídeos
A Google DeepMind, o laboratório de pesquisa em inteligência artificial da gigante Google, está determinada a superar a OpenAI no jogo de geração de vídeos — e pode ter conseguido, pelo menos por enquanto.
Nesta segunda-feira, a DeepMind anunciou o Veo 2, uma nova geração de IA para geração de vídeos e sucessor do Veo, que alimenta uma crescente gama de produtos dentro do portfólio da Google. O Veo 2 é capaz de criar clipes de mais de dois minutos em resoluções de até 4K (4096 x 2160 pixels).
Esse desempenho é quatro vezes a resolução e mais de seis vezes a duração que o Sora da OpenAI consegue alcançar. No entanto, isso é uma vantagem apenas teórica neste momento. No experimento da Google com sua ferramenta de criação de vídeos, o VideoFX, onde o Veo 2 está agora exclusivamente disponível, os vídeos são limitados a 720p e com duração de oito segundos. (O Sora pode produzir clipes de até 1080p e 20 segundos de duração.)
Google VideoFX
O VideoFX está em uma lista de espera, mas a Google afirma que está expandindo o número de usuários que têm acesso a ele esta semana. Eli Collins, VP de produto na DeepMind, também compartilhou com o Visualizer que a Google planeja disponibilizar o Veo 2 por meio de sua plataforma de desenvolvedores Vertex AI “quando o modelo estiver pronto para uso em larga escala.”
“Nos próximos meses, continuaremos a iterar com base no feedback dos usuários,” disse Collins, “e [nós] pretendemos integrar as capacidades atualizadas do Veo 2 em casos de uso atraentes em todo o ecossistema da Google… [Nós] esperamos compartilhar mais atualizações no próximo ano.”
Novidades no Veo 2
Assim como o Veo, o Veo 2 pode gerar vídeos a partir de um prompt em texto (exemplo: “Um carro correndo em uma estrada”) ou de uma imagem de referência junto ao texto.
Mas o que há de novo no Veo 2? A DeepMind afirma que o modelo, capaz de gerar clipes em uma variedade de estilos, possui uma melhor “compreensão” da física e do controle de câmeras, resultando em filmagens “mais claras”. Ao afirmar que é mais claro, a DeepMind se refere a texturas e imagens em clipes que são mais nítidas — especialmente em cenas com muito movimento. Os novos controles de câmera também permitem que o Veo 2 posicione a “câmera” virtual nos vídeos que ele gera de forma mais precisa, além de mover essa câmera para capturar objetos e pessoas de diferentes ângulos.
A DeepMind também alega que o Veo 2 pode modelar o movimento de forma mais realista, dinâmica de fluidos (como o café sendo derramado em uma caneca) e propriedades da luz (como sombras e reflexos). Isso inclui diferentes lentes e efeitos cinematográficos, segundo a DeepMind, bem como expressões humanas “nuançadas”.
Críticas e Melhorias Necessárias
Ainda assim, apesar da insistência da DeepMind de que o modelo é menos propenso a “alucinações” — onde aparecem elementos inesperados, como dedos extras ou objetos inusitados —, o Veo 2 não consegue ultrapassar o chamado “vale da estranheza”.
Collins admitiu que há muito trabalho pela frente. “Coerência e consistência são áreas para crescimento”, disse ele. “O Veo pode seguir consistentemente um prompt por alguns minutos, mas [não consegue] manter a aderência a prompts complexos ao longo de longos períodos. Da mesma forma, a consistência de personagens pode ser um desafio. Há também espaço para melhorar na geração de detalhes intrincados, movimentos rápidos e complexos, e continuar a empurrar os limites do realismo.”
Modelo de Treinamento e Questões de Direitos Autorais
O Veo 2 foi treinado com muitos vídeos, utilizando uma abordagem comum de IA: fornecendo exemplos repetidamente, os modelos captam padrões nos dados que permitem gerar novos dados. A DeepMind não revela exatamente de onde coletou os vídeos para treinar o Veo 2, mas o YouTube é uma possível fonte; a Google é proprietária do YouTube e a DeepMind já mencionou anteriormente que os modelos da Google, como o Veo, “podem” ser treinados com algum conteúdo do YouTube.
“O Veo foi treinado com pares de vídeo e descrição de alta qualidade,” explicou Collins. “Os pares são compostos de um vídeo e uma descrição associada do que acontece nele.”
Embora a DeepMind forneça ferramentas que permitem a webmasters bloquear os bots do laboratório de extrair dados de treinamento de seus sites, não oferece um mecanismo para que os criadores retirem obras de seus conjuntos de dados de treinamento. A lab e sua empresa mãe afirmam que treinar modelos usando dados públicos é um uso justo, o que significa que a DeepMind acredita não ter a obrigação de pedir permissão aos proprietários dos dados.
“Estamos comprometidos em trabalhar colaborativamente com criadores e nossos parceiros para atingir objetivos comuns,” afirmou Collins. “Continuamos a trabalhar com a comunidade criativa e pessoas de toda a indústria, reunindo informações e ouvindo feedback, incluindo aqueles que usam o VideoFX.”
Atualizações no Imagen 3
Além do Veo 2, a Google DeepMind anunciou melhorias no Imagen 3, seu modelo comercial de geração de imagens. Uma nova versão do Imagen 3 está sendo lançada para os usuários do ImageFX, ferramenta de geração de imagens da Google, a partir de hoje. Ele pode criar imagens e fotos “mais brilhantes e bem compostas” em estilos como fotorrealismo, impressionismo e anime, segundo a DeepMind.
“Esta atualização [do Imagen 3] também segue prompts de forma mais fiel e renderiza detalhes e texturas mais ricos,” escreveu a DeepMind em um post no blog disponibilizado ao Visualizer.
\n
Conclusão
\n
A nova ferramenta de geração de vídeos do Google, Veo 2, chega trazendo promessas de inovação, mas ainda enfrenta desafios significativos em termos de realismo e coerência. Enquanto a empresa continua aprimorando sua tecnologia e ouvindo o feedback dos usuários, a competição com a OpenAI promete tornar o cenário de geração de vídeos ainda mais dinâmico.