Sora da OpenAI: O Futuro da Geração de Vídeos de IA

Felipe Massari
12/12/2024
12:31

Blog / Notícias / Sora da OpenAI: O Futuro da Geração de Vídeos de IA

Nota: As imagens são meramente ilustrativas e, em sua maioria, geradas pelo MidJourney.

A primeira versão do Sora da OpenAI

A primeira versão do Sora, da OpenAI, consegue gerar vídeos de praticamente qualquer coisa que você imaginar — super-heróis, paisagens urbanas, filhotes animados. É um passo impressionante para o gerador de vídeo de IA, mas os resultados reais estão longe de serem satisfatórios. Muitos vídeos estão tão repletos de anomalias e inconsistências que é difícil imaginar alguém encontrando utilidade neles.

Lançamento e limitações iniciais

Sora foi lançado na segunda-feira, após quase um ano de teasers sobre suas capacidades. No entanto, há alguns obstáculos antes de acessar os recursos de geração de vídeo. A criação de contas foi encerrada em questão de horas, devido à demanda esmagadora. Aqueles que conseguiram se inscrever descobrirão que suas funcionalidades também exigem uma assinatura: uma adesão “Plus” de $20 mensais permite gerar vídeos em 480p ou 720p, limitados a cinco ou 10 segundos de duração, dependendo da resolução. Para desbloquear tudo, incluindo qualidade 1080p e vídeos de 20 segundos, é necessário desembolsar $200 por mês para a assinatura “Pro” do Sora.

Os resultados dos meus testes com a camada Plus foram decepcionantes. Prompts simples com descrições limitadas parecem funcionar melhor — “um gato brincando com um novelo de lã”, por exemplo, gera um gato com aparência muito realista pulando animadamente pelo chão. No entanto, Sora deu ao gato uma segunda cauda por alguns momentos e o novelo ficou tremido, parecendo um CGI mal inserido.

“Um gato laranja brincando com um novelo de lã.” A iluminação e os reflexos são realmente espetaculares.

Esses problemas visuais ocorreram com mais frequência e intensidade em prompts complexos que apresentavam descrições de cena detalhadas. É difícil obter um movimento humano minimamente natural: as mãos se agitavam para todos os lados quando pedi para ver alguém se maquiando, e vídeos de pessoas comendo salada e enrolados de salsicha traziam à memória os clipes virais de IA do Will Smith devorando espaguete.

Recursos e funcionalidades

Sora possui um recurso interessante de Storyboard que ajuda a organizar as instruções de prompt para vídeos mais longos. Ele se assemelha a uma linha do tempo de edição de vídeo, permitindo que os usuários expliquem o que querem que Sora gere a cada dois segundos, em vez de inserir uma grande descrição para todo o vídeo. É fácil de usar, mas os resultados foram ainda piores. Quanto mais detalhes eu adicionava, mais distorções e estranhezas surgiam.

Alguns pontos positivos

Houve aspectos que me impressionaram, no entanto. A geração de vídeo foi mais rápida do que o esperado, geralmente abaixo de 30 segundos para até 10 segundos de clipes. Padrões em pelagens e têxteis também se mantiveram consistentes, mesmo durante movimentos acelerados, enquanto os efeitos de iluminação, sombra e espelho gerados pelo Sora fazem um trabalho fantástico ao simular o real. Luz solar entrando pela janela trazia um brilho ofuscante e brilhava lindamente através de todos os materiais que se esperaria.

“Uma jovem mulher negra com cabelo trançado, se maquilando na frente de um espelho” — o que ela está aplicando aqui?

Comparações com outros geradores

Apesar de todas as suas falhas, Sora fez um trabalho melhor do que o Runway AI, que é considerado um dos melhores geradores de vídeo de IA para simular fotorrealismo. Quando prompts idênticos foram inseridos em ambas as plataformas, os resultados do Sora pareciam mais realistas e continham muito menos distorções visuais. A qualidade das saídas do Sora também está à altura das demos que vi em outubro do modelo Firefly Video da Adobe na Adobe Max, embora a OpenAI claramente falte a vantagem de prometer que os conteúdos gerados são seguros para uso comercial.

Preocupações com copyright e limitações

Embora existam vários mecanismos de proteção contra violações de direitos autorais, o sucesso varia. O Sora bloqueia tentativas de gerar figuras políticas como Donald Trump e Kamala Harris, alertando o usuário de que tais prompts podem violar os termos de serviço da OpenAI. Nomes de celebridades como Taylor Swift e Lewis Hamilton não são bloqueados, mas o vídeo apenas insere uma pessoa aleatória sem semelhança. Ele também evita personagens reconhecíveis e ícones de marcas, mesmo com descrições que tentam forçar resultados como “um ouriço azul bípede de desenho animado usando sapatos vermelhos”.

Questões éticas e limitações da experiência

O Sora possui um recurso que permite o envio de imagens de referência. Uma mensagem pop-up obriga os usuários a marcar uma série de caixas prometendo que possuem os direitos sobre as imagens e não enviarão nada envolvendo menores, violência ou temas explícitos, ou correm o risco de suspensão ou banimento da conta. Mas a maior barreira para prevenir abusos desse recurso é financeira — apenas usuários com assinaturas Pro podem enviar imagens com pessoas. Se essa é a funcionalidade usada para criar as demos mais impressionantes do Sora, isso é uma limitação significativa.

O futuro do Sora e da criação de conteúdo

Estamos apenas no começo, e há questões óbvias a serem resolvidas, mas nada do que vi até agora me faz pensar que Sora vai revolucionar a produção de vídeo da noite para o dia. Os recursos para criar saídas de alta qualidade estão bloqueados atrás de uma assinatura que é tão cara quanto as ferramentas tradicionais de filmagem e criação de vídeo, tornando-se inacessível para muitos. É difícil imaginar um filme inteiro sendo produzido com essa tecnologia em seu estado atual, que seja realmente agradável de assistir.

Apesar dos problemas de qualidade, as pessoas já estão tentando lucrar com a conveniência que as ferramentas de vídeo de IA oferecem — o YouTube já está saturado com conteúdos gerados por IA direcionados a crianças. O Sora é mais do que capaz de produzir conteúdo semelhante neste momento, e custará apenas $20 por mês para fazê-lo.

Automatize seu negócio

Felipe Massari

Visuailzer co-founder

Psicólogo e Neurocientista, especialista em Neuromarketing e Marketing Digital. Domina Engenharia de Prompts e Redes Neurais. Atua no Comercial e Vendas, unindo Ciência, Tecnologia e estratégia para criar soluções inovadoras e focadas em resultados para Empresas.