Novidades sobre o Modo de Voz Avançado com Visão da OpenAI
Na semana passada, a OpenAI lançou o Modo de Voz Avançado com Visão, uma função que fornece vídeos em tempo real para o ChatGPT. Isso permite que o chatbot “veja” além da interface em que está inserido. A ideia é que, ao proporcionar uma consciência contextual mais ampla ao ChatGPT, o bot possa responder de maneira mais natural e intuitiva.
No entanto, logo na minha primeira tentativa, o resultado foi enganoso.
“Esse sofá parece confortável!” disse o ChatGPT quando levantei o meu celular para mostrar a sala de estar. O bot confundiu o otomano com um sofá.
Quando o corrigi, o ChatGPT respondeu: “Desculpe, meu erro! Bem, ainda assim, parece um ambiente aconchegante.”
Já se passou quase um ano desde que a OpenAI demonstrou pela primeira vez o Modo de Voz Avançado com Visão, uma inovação que a empresa promoveu como um passo rumo à inteligência artificial, conforme retratada no filme de Spike Jonze, “Ela”. O que a OpenAI havia prometido era que esse modo conferiria superpoderes ao ChatGPT — permitindo que o bot resolvesse problemas de matemática esboçados, lesse emoções e respondesse a cartas afetuosas.
Mas, será que isso tudo foi realmente alcançado? Mais ou menos. Apesar do Modo de Voz Avançado com Visão ter suas funcionalidades, ele não resolveu o principal problema do ChatGPT: a confiabilidade. Na verdade, essa nova função torna as alucinações do bot mais evidentes.
Certa vez, curioso para ver se o modo de voz poderia ajudar o ChatGPT a oferecer dicas de moda, habilitei a função e pedi para que ele desse uma nota a uma roupa minha. Ele fez isso alegremente. Porém, enquanto comentava sobre a combinação de jeans e camisa verde oliva, frequentemente ignorava a jaqueta marrom que eu estava usando.
Não sou o único a notar essas falhas. Quando o presidente da OpenAI, Greg Brockman, demonstrou o Modo Avançado no programa “60 Minutes”, o ChatGPT cometeu um erro ao resolver um problema de geometria. Ao calcular a área de um triângulo, ele identificou erroneamente a altura do triângulo.
Então, a questão que fica é: quão bom é um AI parecido com o da “Ela” se não podemos confiar nele?
A cada erro do ChatGPT, sentia-me cada vez menos inclinado a pegar meu celular, destravá-lo e iniciar o ChatGPT, ativando o modo de voz e a visão — uma sequência de passos que, nas melhores condições, já é incômoda. O Modo de Voz Avançado, com sua aparência amigável, foi claramente projetado para inspirar confiança. Contudo, quando não cumpre essa promessa implícita, isso é desolador e decepcionante.
Talvez um dia a OpenAI consiga resolver o problema das alucinações de uma vez por todas. Até lá, continuaremos com um bot que vê o mundo através de conexões cruzadas. E, para ser sincero, não sei quem realmente desejaria isso.
NOTÍCIAS
Continuam os 12 dias de “shipmas” da OpenAI: A OpenAI está lançando novos produtos diariamente até o dia 20 de dezembro. Confira um resumo de todos os anúncios, que estamos atualizando regularmente.
YouTube permite que criadores optem por não participar: O YouTube está dando a criadores mais escolha sobre como terceiros podem usar seu conteúdo para treinar seus modelos de IA. Criadores e detentores de direitos poderão sinalizar se permitem que empresas específicas treinem modelos com seus clipes.
Óculos inteligentes da Meta recebem atualizações: Os óculos inteligentes da Meta, Ray-Ban Meta, receberam várias atualizações novas alimentadas por IA, incluindo a capacidade de ter conversas em andamento com a IA da Meta e traduzir entre idiomas.
Resposta da DeepMind ao Sora: O Google DeepMind anunciou o Veo 2, um modelo de IA de geração de vídeo de próxima geração que pode criar clipes de mais de dois minutos em resoluções de até 4k.
Denunciante da OpenAI encontrado morto: Um ex-empregado da OpenAI, Suchir Balaji, foi encontrado morto em seu apartamento em São Francisco. Ele havia levantado preocupações sobre a violação de direitos autorais pela OpenAI quando foi entrevistado pelo The New York Times.
Grammarly adquire Coda: A Grammarly, conhecida por seus ferramentas de correção de texto, adquiriu a startup de produtividade Coda por um valor não revelado. O CEO da Coda, Shishir Mehrotra, se tornará o novo CEO da Grammarly.
Cohere trabalha com Palantir: A Cohere, uma startup de IA avaliada em 5,5 bilhões de dólares, firmou parceria com a empresa de análise de dados Palantir. A Palantir é conhecida por seu trabalho próximo — e às vezes polêmico — com agências de defesa e inteligência dos EUA.
PAPEL DE PESQUISA DA SEMANA
A Anthropic revelou o Clio (“Claude insights and observations”), um sistema projetado para entender como os clientes utilizam seus diversos modelos de IA. Comparado a ferramentas de análise como o Google Trends, o Clio está fornecendo “insights valiosos” para melhorar a segurança da IA da Anthropic.
A Anthropic utilizou o Clio para compilar dados de uso anonimizados, alguns dos quais foram divulgados na semana passada. Os produtos da Anthropic estão sendo utilizados em várias tarefas, incluindo desenvolvimento de aplicativos web e mobile, criação de conteúdo e pesquisas acadêmicas.
MODELO DA SEMANA
A startup de IA Pika lançou seu modelo de geração de vídeo de próxima geração, Pika 2, que pode criar clipes a partir de um personagem, objeto e localização fornecidos pelos usuários. Os usuários podem subir várias referências e o Pika 2 irá “intuir” o papel de cada referência antes de combiná-las em uma única cena.
Ainda assim, nenhum modelo é perfeito, como podemos ver no “anime” gerado pelo Pika 2, que demonstra consistência impressionante, mas sofre da estranheza estética presente em todos os vídeos gerados por IA.
CONSIDERAÇÕES FINAIS
O Future of Life Institute (FLI), uma organização sem fins lucrativos co-fundada pelo cosmólogo do MIT, Max Tegmark, lançou um “Índice de Segurança de IA” projetado para avaliar as práticas de segurança de empresas líderes em IA em cinco áreas principais: danos atuais, estruturas de segurança, estratégia de segurança existencial, governança e responsabilidade, e transparência e comunicação.
A Meta recebeu a pior classificação, com nota geral F no Índice. Por outro lado, a Anthropic foi a melhor, mas não conseguiu um resultado melhor que C, indicando que ainda há espaço para melhorias.