Novas Aplicações de IA em Vídeos e Textos

Modelos de IA que Entendem Vídeos e Texto Potencializam Novas Aplicações

Nota: As imagens são meramente ilustrativas e, em sua maioria, geradas pelo MidJourney.

Modelos de IA que Entendem Vídeos e Texto Potencializam Novas Aplicações

Modelos de inteligência artificial que compreendem vídeos da mesma forma que entendem textos podem abrir portas para novas aplicações poderosas. Ao menos, é o que acredita Jae Lee, cofundador da Twelve Labs.

Lee, como você pode imaginar, está um pouco enviesado. A Twelve Labs treina modelos de análise de vídeo para diversos casos de uso. Entretanto, sua afirmação pode ter fundamentos sólidos.

Buscas Eficientes em Vídeos

Com os modelos da Twelve Labs, os usuários conseguem pesquisar vídeos por momentos específicos, resumir clipes ou até fazer perguntas como: “Quando a pessoa da camisa vermelha entrou no restaurante?” Esse conjunto de capacidades é bastante poderoso, e talvez explique por que a empresa conquistou grandes apoiadores como Nvidia, Samsung e Intel.

Para Lee, que é cientista de dados por formação, a busca básica sempre foi insatisfatória para vídeos. Buscas por palavras-chave podem encontrar títulos, tags e descrições, mas não conseguem acessar o conteúdo real dos clipes.

“Vídeo é o meio que mais cresce e que mais demanda dados, ainda assim, a maioria das organizações não vai dedicar recursos humanos para filtrar todos os seus arquivos de vídeo,” Lee afirmou.

Ele complementou: “Mesmo que você tente etiquetar manualmente, isso não resolveria o problema. Encontrar um momento ou ângulo específico em vídeos pode ser como buscar uma agulha em um palheiro.”

A Gênese da Twelve Labs

Depois de não encontrar uma solução melhor, Lee recrutou seus colegas Aiden Lee, SJ Kim, Dave Chung e Soyoung Lee para construir uma. Assim nasceu a Twelve Labs, que treina modelos para mapear textos com o que está acontecendo em um vídeo, incluindo ações, objetos e sons de fundo.

Modelos, como o Gemini do Google, conseguem buscar filmagens, enquanto Microsoft e Amazon oferecem serviços de análise de vídeo para identificar objetos nos clipes. Porém, Lee argumenta que os produtos da Twelve Labs se destacam pelas opções de personalização, que permitem que os clientes ajustem os modelos usando seus próprios dados.

Diferenciação no Mercado de IA

“Empresas como OpenAI e Google estão investindo pesadamente em modelos multimodais de uso geral,” declarou Lee, “mas esses modelos não são otimizados para vídeo. Nossa diferenciação reside em ser video-first desde o princípio… Acreditamos que o vídeo merece nosso foco exclusivo — não é um complemento.”

Desenvolvedores podem criar aplicativos em cima dos modelos da Twelve Labs para buscar por vídeos e muito mais. A tecnologia da empresa pode impulsionar ferramentas como inserção de anúncios, moderação de conteúdo e geração automática de reels com destaques dos clipes.

Prevenindo Viés nos Modelos

Durante uma conversa com Lee no ano passado, perguntei sobre o potencial de viés nos modelos da Twelve Labs. Este é um grande fator de risco. Um estudo de 2021 descobriu que treinar um modelo de compreensão de vídeo em clipes de notícias locais, que tendem a cobrir crimes de maneira racializada, poderia fazer com que o modelo aprendesse padrões racistas.

Naquela época, Lee mencionou que a Twelve Labs planejava lançar benchmarks e conjuntos de dados relacionados à ética dos modelos. Até agora, isso ainda não aconteceu. Em nossa conversa recente, Lee me garantiu que essas ferramentas estão a caminho e que a Twelve Labs realiza testes de viés em todos os seus modelos antes de lançá-los.

“Não lançamos benchmarks formais de viés ainda porque queremos garantir que sejam significativos, práticos e acionáveis,” afirmou Lee. “Nosso objetivo geral é desenvolver benchmarks que não apenas nos responsabilizem, mas também estabeleçam um padrão na indústria…”

Crescimento e Novas Apostas

A análise de vídeo continua sendo o núcleo do que a Twelve Labs faz. No entanto, buscando se manter ágil, a empresa também está se aventurando em áreas como buscas qualquer-a-qualquer e embeddings multimodais.

Um dos modelos da Twelve Labs, Marengo, pode buscar entre imagens e áudio, além de vídeo, e aceitar gravações de áudio, imagens ou clipes de vídeo como referência para ajudar a guiar uma busca.

A empresa também oferece uma API, a Embed API, para criar embeddings multimodais para vídeos, textos, imagens e arquivos de áudio. Esses embeddings são representações matemáticas que capturam o significado e as relações entre diferentes pontos de dados, tornando-os úteis para aplicações como detecção de anomalias.

Parcerias Estratégicas

A crescente linha de produtos da Twelve Labs ajudou a startup a garantir clientes em setores de empresa, mídia e entretenimento. Dois parceiros principais são Databricks e Snowflake, que estão integrando as ferramentas da Twelve Labs em suas ofertas.

A Databricks desenvolveu uma integração que permite que clientes invoquem o serviço de embedding da Twelve Labs a partir de seus pipelines de dados existentes. Já a Snowflake está criando conectores para os modelos da Twelve Labs em seu serviço totalmente gerenciado de IA, Cortex AI.

“Atualmente, temos mais de 30.000 desenvolvedores utilizando nossa plataforma, que variam desde indivíduos em experimentação até grandes empresas integrando nossa tecnologia em seus fluxos de trabalho,” disse Lee.

Novas Contratações e Expansão

Fazendo uma menção sobre contratações, a Twelve Labs anunciou nesta quinta-feira a adição de um presidente à sua diretoria: Yoon Kim, ex-CTO da SK Telecom e um dos arquitetos-chave por trás da Siri da Apple. Yoon também atuará como diretor de estratégia da Twelve Labs, liderando o plano de expansão agressiva da startup.

“Embora seja incomum para uma empresa da idade e estágio da Twelve Labs contratar um presidente, essa movimentação é um testemunho da demanda que temos experienciado,” disse Lee, acrescentando que Yoon dividirá seu tempo entre a sede da Twelve Labs em São Francisco e seus escritórios em Seul.

“Yoon é a pessoa certa para nos ajudar a executar — ele será fundamental para impulsionar o crescimento futuro com aquisições estratégicas, expandindo nossa presença global e alinhando nossas equipes em direção a metas ambiciosas,” finalizou Lee.

Ele também mencionou a intenção de crescer em novos verticais adjacentes, como automotivo e segurança, nos próximos anos. Considerando a participação da In-Q-Tel, o setor de segurança (e possivelmente defesa) se coloca como uma prioridade.

“O investimento da In-Q-Tel reflete a versatilidade e potencial de nossa tecnologia em vários setores, incluindo segurança nacional,” disse Lee. “Estamos sempre abertos a explorar oportunidades onde nossa tecnologia possa ter um impacto positivo, significativo e responsável que se alinha com nossas diretrizes éticas.”

Felipe Massari

Visuailzer co-founder

Psicólogo e Neurocientista, especialista em Neuromarketing e Marketing Digital. Domina Engenharia de Prompts e Redes Neurais. Atua no Comercial e Vendas, unindo Ciência, Tecnologia e estratégia para criar soluções inovadoras e focadas em resultados para Empresas.

Veja Também

  • All Posts
    •   Back
    • Inteligência Artificial
    • Negócios
    • Produtividade
    • Tecnologia
    • Política

Assuntos Relacionados

  • All Posts
  • Dicas e Tutoriais
  • Notícias
    •   Back
    • Inteligência Artificial
    • Negócios
    • Produtividade
    • Tecnologia
    • Política