Nvidia Apresenta Prototipo de Avatar AI na CES 2025
A Nvidia revelou um protótipo de avatar AI na CES 2025, que reside no desktop do seu computador. Conhecido como R2X, esse assistente virtual tem a aparência de um personagem de videogame e pode te ajudar a navegar pelos aplicativos.
O avatar R2X é renderizado e animado com modelos de AI da Nvidia. Os usuários podem rodar este avatar utilizando modelos de linguagem de sua escolha, como o GPT-4o da OpenAI ou o Grok da xAI. É possível se comunicar com R2X por meio de texto e voz, também enviar arquivos para processamento ou mesmo habilitar o assistente para visualizar o que está acontecendo ao vivo na tela ou na câmera.
Tendência Crescente de Avatares AI
Recentemente, as empresas de tecnologia têm criado uma variedade de avatares AI, não apenas para videogames, mas também para clientes empresariais e consumidores. Os primeiros demonstrações são um tanto estranhas, mas muitos acreditam que esses avatares podem ser uma interface de usuário promissora para assistentes de AI. Com o R2X, a Nvidia tenta combinar a capacidade de gerar vídeos de jogos com assistentes de AI avançados, criando um assistente que se comporta e parece humano.
Veja a demonstração do protótipo do avatar R2X, um assistente AI que mora na sua área de trabalho. Tuite aqui
Funcionalidades do R2X
Assim como o recurso Recall da Microsoft, que foi atrasado devido a preocupações com privacidade, o R2X pode tirar capturas de tela constantemente e rodá-las através de um modelo de AI para processamento, embora essa funcionalidade esteja desativada por padrão. Quando ativado, o assistente pode oferecer feedback sobre aplicativos em uso no computador e, por exemplo, ajudar em tarefas complexas de programação.
No entanto, o R2X ainda é um protótipo e a Nvidia reconhece que existem alguns bugs a serem resolvidos. Durante as demonstrações com o TechCrunch, o avatar apresentou um efeito desconfortável, às vezes se mantendo em posições estranhas e com um tom um pouco agressivo. Na verdade, muitos acham esquisito ter um pequeno avatar humanóide olhando para eles enquanto trabalham.
Veja o R2X da Nvidia, acionado pelo Grok. Confira aqui
Desempenho e Limitações
O avatar geralmente ofereceu instruções úteis e visualizou com precisão o que estava na tela. No entanto, houve um momento em que o R2X deu instruções incorretas e, em seguida, parou de visualizar a tela completamente. Isso pode indicar um problema com o modelo de AI subjacente, mas mostra as limitações dessa tecnologia inicial.
Durante uma das demonstrações, um líder de produto da Nvidia mostrou como o R2X pode observar e ajudar os usuários com os aplicativos em sua tela. O R2X, por exemplo, nos ajudou a usar o recurso de preenchimento generativo do Adobe Photoshop. A imagem escolhida era do CEO da Nvidia, Jensen Huang, em um restaurante asiático com dois funcionários. O avatar, no entanto, deu instruções erradas para encontrar o recurso de preenchimento generativo. Após trocar o modelo de AI para o Grok, o avatar recuperou suas habilidades de visualização.
R2X nos ajudando a usar o preenchimento generativo no Photoshop (ele nos deu instruções erradas, porém). Veja aqui
Processamento de Documetos e Futuras Funcionalidades
Em outra demonstração, o R2X foi capaz de analisar um PDF do desktop e responder a perguntas sobre ele. Esse processo se baseia em um recurso chamado geração aumentada por recuperação, que permite que esses avatares AI extraiam informações de um documento para processamento.
Veja o R2X analisando arquivos e respondendo perguntas sobre eles. Confira aqui
Integração Futuras e Domínio da Voz
A Nvidia utiliza alguns modelos de AI da sua divisão de videogames para criar a aparência desses avatares. Para gerar os avatares, a Nvidia aplica seu algoritmo de rostos neurais RTX. Além disso, o movimento de rosto, lábios e língua é automatizado por um novo modelo chamado Audio2Face™-3D. Contudo, esse modelo aparentou travar em alguns momentos, mantendo o rosto do avatar em posições desconfortáveis.
A empresa também afirma que esses avatares R2X poderão participar de reuniões no Microsoft Teams, atuando como assistentes pessoais. Um líder de produto da Nvidia mencionou que a empresa está trabalhando para dar aos avatares AI habilidades de agência, para que o R2X um dia possa executar ações diretamente na sua área de trabalho. Contudo, essas funcionalidades parecem estar distantes e provavelmente exigiriam parcerias com desenvolvedores de software como Microsoft e Adobe, que também estão buscando desenvolver sistemas semelhantes.
Por fim, ainda não está claro como a Nvidia está gerando as vozes desses produtos. A voz do R2X, usando o GPT-4o, soa diferente de qualquer uma das vozes pré-definidas do ChatGPT, enquanto o chatbot Grok da xAI ainda não possui um modo de voz.
A empresa planeja tornar esses avatares de código aberto na primeira metade de 2025. A Nvidia vê isso como uma nova interface de usuário para que desenvolvedores construam suas soluções, permitindo que os usuários conectem seus produtos de software AI favoritos ou até rodem os avatares localmente.
Opinião
Esse protótipo de avatar AI da Nvidia é um passo interessante em direção à interface do futuro. Embora ainda existam falhas a serem corrigidas, a ideia de ter um assistente virtual que interage de forma mais humanizada pode revolucionar a forma como trabalhamos e interagimos com nossas tecnologias.