OpenAI Lança Funcionalidade de Vídeo em Tempo Real para ChatGPT
A OpenAI finalmente lançou as capacidades de vídeo em tempo real para o ChatGPT, uma funcionalidade que foi demonstrada há cerca de sete meses atrás. Na quinta-feira, durante uma transmissão ao vivo, a empresa anunciou que o Modo de Voz Avançado, uma característica que permite conversas semelhantes às humanas, agora também conta com visão.
Utilizando o aplicativo do ChatGPT, os usuários que assinam o ChatGPT Plus, Team e Pro podem apontar suas câmeras para objetos e receber respostas do ChatGPT em quase tempo real.
Modo de Voz Avançado com Visão
O novo modo Avançado com visão também pode compreender o que está na tela de um dispositivo, por meio do compartilhamento de tela. Ele é capaz de explicar vários menus de configurações ou dar sugestões sobre problemas de matemática.
Para acessar o Modo de Voz Avançado com Visão, basta tocar no ícone de voz ao lado da barra de chat. Uma vez no modo de voz, clique no ícone de vídeo no canto inferior esquerdo para iniciar a função de vídeo. Para compartilhar a tela, toque no menu de três pontos e selecione “Compartilhar Tela”.
Disponibilidade e Limitações
O lançamento do Modo de Voz Avançado com Visão começa hoje, de acordo com a OpenAI, e deve se concluir na próxima semana. No entanto, nem todos os usuários terão acesso imediato. A OpenAI informou que os usuários do ChatGPT Enterprise e Edu só terão acesso à funcionalidade em janeiro, e ainda não há previsão para usuários do ChatGPT na UE, Suíça, Islândia, Noruega e Liechtenstein.
Em uma demonstração recente no programa 60 Minutes da CNN, o presidente da OpenAI, Greg Brockman, utilizou o Modo de Voz Avançado com Visão para fazer perguntas sobre habilidades anatômicas ao apresentador Anderson Cooper. Enquanto Cooper desenhava partes do corpo em um quadro negro, o ChatGPT conseguia “compreender” o que estava sendo desenhado.
“A localização está perfeita”, disse o assistente. “O cérebro está exatamente ali na cabeça. Quanto à forma, é um bom começo. O cérebro é mais oval”.
No entanto, durante a mesma demonstração, o Modo de Voz Avançado com Visão cometeu um erro em um problema de geometria, sugerindo que o sistema ainda pode estar sujeito a alucinações.
Desenvolvimentos e Retardos
O lançamento do Modo de Voz Avançado com Visão foi adiado várias vezes. Isso aconteceu, em parte, porque a OpenAI anunciou a funcionalidade muito antes de estar pronta para produção. Em abril, a OpenAI prometeu que o Modo de Voz Avançado seria disponibilizado aos usuários “dentro de algumas semanas”, mas meses depois, a empresa afirmou que precisava de mais tempo.
Quando o Modo de Voz Avançado finalmente chegou no início do outono para alguns usuários do ChatGPT, ele não continha o componente de análise visual. Em preparação para o lançamento de hoje, a OpenAI concentrou a maior parte de sua atenção em trazer a experiência de Modo de Voz apenas para voz para mais plataformas e usuários na UE.
Para mais informações, acesse o site da OpenAI.