Project Astra: O Futuro dos Agentes de IA

Felipe Massari
11/12/2024
12:46

Blog / Notícias / Project Astra: O Futuro dos Agentes de IA

Nota: As imagens são meramente ilustrativas e, em sua maioria, geradas pelo MidJourney.

Uma Visita ao Universo do Project Astra

Entrei em uma sala repleta de estantes de livros, recheadas com textos comuns de programação e arquitetura. Uma das estantes estava um pouco torta e, ao olhar com atenção, percebi uma sala oculta por trás dela. Essa sala tinha três TVs exibindo obras de arte famosas: The Scream de Edvard Munch, Sunday Afternoon de Georges Seurat, e The Great Wave off Kanagawa de Hokusai.

“Há algumas peças de arte interessantes aqui”, comentou Bibo Xu, gerente principal de produtos da Google DeepMind para o Project Astra. “Tem alguma em particular que você gostaria de discutir?”

O Project Astra, um protótipo de IA “agente universal” do Google, respondeu de forma fluida: “A obra Sunday Afternoon foi discutida anteriormente. Você gostaria de explorar um detalhe específico sobre ela, ou está interessada em falar sobre The Scream?”

Estava no vasto campus do Google em Mountain View, conhecendo os últimos projetos do seu laboratório de IAs, o DeepMind. Um desses projetos, o Project Astra, é um assistente virtual que foi apresentado no Google I/O mais cedo neste ano. Atualmente disponível em um app, ele pode processar texto, imagens, vídeos e áudio em tempo real, respondendo a perguntas sobre eles. É como uma Siri ou Alexa, mas com uma interação mais natural, capaz de ver o mundo ao seu redor e “lembrar” de interações passadas.

A partir de hoje, o Google anunciou que o Project Astra está expandindo seu programa de testes, incluindo testes que usam óculos protótipos (ainda sem data de lançamento definida).

Novo Projeto e Expansões

Outro experimento não divulgado anteriormente é um agente de IA chamado Project Mariner. Esta ferramenta pode assumir o controle do seu navegador, utilizando uma extensão do Chrome para completar tarefas. No entanto, ainda está em estágio inicial e apenas entrando na fase de testes com um grupo de “testadores confiáveis”.

Enquanto isso, o Project Astra já finalizou seus testes e o Google está ampliando a equipe de testes, incorporando feedbacks em novas atualizações. Algumas melhorias incluem o entendimento de diversos sotaques e palavras incomuns, dar ao assistente até 10 minutos de memória durante a sessão, e reduzir latências. Além disso, o Astra será integrado a vários produtos Google como Busca, Lens e Mapas.

Prototipagem e Desafios

Durante as demonstrações de ambos os produtos, o Google enfatizou que o que eu estava vendo eram “protótipos de pesquisa” e que ainda não estavam prontos para o público geral. As demonstrações foram muito controladas, com interações minuciosamente programadas com os funcionários do Google. (Eles também não sabem quando um lançamento público pode acontecer ou como serão os produtos nessa ocasião; eu perguntei… bastante.)

Enquanto isso, eu estava de pé naquela sala oculta no campus do Google, quando o Project Astra comentava sobre The Scream: “Existem quatro versões desta obra do artista expressionista norueguês Edvard Munch entre 1893 e 1910; a versão mais famosa é frequentemente considerada a versão pintada em 1893”.

Nas interações mais naturais, o Astra parecia animado e um pouco desajeitado. “Olá, Bibo!”, cantou ao iniciar a demonstração. “Uau. Isso foi muito empolgante”, respondeu Xu. “Você pode me contar—” Ela foi interrompida pelo Astra: “Foi algo sobre a obra que foi empolgante?”

Era de Agentes

Muitas empresas de IA, como OpenAI, Anthropic e Google, têm falado muito sobre a palavra da moda da tecnologia: agentes. O CEO do Google, Sundar Pichai, os define como modelos que “podem entender mais sobre o mundo ao seu redor, pensar alguns passos à frente e tomar ações em seu nome, sob sua supervisão”.

Apesar de a ideia ser impressionante, implementar agentes em grande escala é desafiador, pois os sistemas de IA são muito imprevisíveis. A Anthropic admitiu que seu novo agente de navegador “de repente fez uma pausa” em uma demonstração de codificação e “começou a navegar por fotos de Yellowstone”. Parece que as máquinas procrastinam assim como nós.

Os agentes ainda não estão prontos para um mercado amplo ou para acessar dados sensíveis, como informações bancárias e de e-mail. Mesmo que esses ferramentas sigam instruções, elas são vulneráveis a ataques de injeção de comandos, onde um ator malicioso pode tentar manipulá-las. O Google afirmou que pretende proteger contra esses ataques priorizando instruções legítimas de usuários, algo que a OpenAI também pesquisou.

O Google manteve suas demonstrações de agentes com riscos baixos. No exemplo do Project Mariner, eu assisti um funcionário abrir uma receita no Google Docs, clicou na barra de ferramentas da extensão do Chrome para abrir o painel lateral do Mariner e digitar “Adicione todos os legumes desta receita ao meu carrinho da Safeway”.

O Mariner entrou em ação, controlando o navegador e listando as tarefas que iria completar, marcando cada uma à medida que era finalizada. Infelizmente, por enquanto, não dá para fazer mais nada enquanto ele busca por cebolinhas; você acaba tendo que observar enquanto ele usa o computador de forma tão lenta que provavelmente eu teria concluído a tarefa mais rápido sozinho. Jaclyn Konzelmann, diretora de gerenciamento de produtos do Google, leu minha mente: “O elefante na sala é, pode fazer isso rápido? Neste momento, não, como você pode ver, está indo bem devagar”.

“Isso se deve em parte a limitações técnicas e parte ao design atual, uma vez que ainda estamos nos estágios iniciais, e é útil para você poder assistir e ver o que ele está fazendo e pausar a qualquer momento se precisar”, explicou Konzelmann. “Mas essa será definitivamente uma área em que continuaremos a aprimorar”.

Para o Google, as atualizações de hoje — que incluiram também um novo modelo de IA, Gemini 2.0, e Jules, outro protótipo de agente para codificação — são um sinal do que chamam de “era dos agentes”. Embora hoje não tenhamos nada nas mãos dos consumidores (e é compreensível se eles ficaram receosos após alguns testes em larga escala), é claro que os agentes são a grande aposta dos criadores de modelos de ponta por um “aplicativo matador” para grandes modelos de linguagem.

Apesar das limitações dos protótipos (ou, de forma pouco generosa, do que alguns chamam de vaporware) do Astra e Mariner, é ainda impressionante vê-los em ação. Não tenho certeza se confio plenamente na IA para me informar sobre fatos relevantes, mas adicionar itens ao meu carrinho parece uma tarefa ideal de baixo risco — desde que o Google consiga acelerar o processo.

Automatize seu negócio

Felipe Massari

Visuailzer co-founder

Psicólogo e Neurocientista, especialista em Neuromarketing e Marketing Digital. Domina Engenharia de Prompts e Redes Neurais. Atua no Comercial e Vendas, unindo Ciência, Tecnologia e estratégia para criar soluções inovadoras e focadas em resultados para Empresas.