Novos Recursos da AWS Prometem Reduzir Custos com Inteligência Artificial Generativa
As empresas estão deixando de lado os protótipos limitados de inteligência artificial generativa e avançando para a produção em larga escala. No entanto, a consciência sobre custos está crescendo. Afinal, utilizar grandes modelos de linguagem não é barato. Uma alternativa para a redução de custos é o retorno a um conceito antigo: o caching. Outra estratégia consiste em direcionar consultas mais simples para modelos menores e mais econômicos. Durante a conferência re:invent, realizada em Las Vegas, a AWS anunciou ambos os recursos para seu serviço de hospedagem de LLMs, o Bedrock.
Caching: A Chave para Economizar Recursos
Começando pelo serviço de caching, Atul Deo, diretor de produtos do Bedrock, explicou: “Imagine um documento, onde várias pessoas estão fazendo perguntas sobre o mesmo conteúdo. Toda vez que isso acontece, você está pagando por isso.” Deo mencionou que as janelas de contexto estão se tornando cada vez mais longas. Com a nova versão do Nova, por exemplo, a AWS terá 300 mil tokens de contexto e 2 milhões de tokens em algum momento no futuro. “Acredito que, no próximo ano, isso poderá aumentar ainda mais.”
O caching, essencialmente, garante que você não precise pagar para o modelo realizar trabalhos repetitivos e processar as mesmas consultas várias vezes. De acordo com a AWS, essa abordagem pode reduzir os custos em até 90%. Um benefício adicional é que a latência para obter respostas do modelo é significativamente menor, com a AWS afirmando uma redução de até 85%. A Adobe, que testou o caching de prompts em algumas de suas aplicações de IA generativa no Bedrock, observou uma redução de 72% no tempo de resposta.
Roteamento Inteligente de Prompts
A nova funcionalidade significativa do Bedrock é o roteamento inteligente de prompts. Com isso, o Bedrock pode rotear automaticamente os prompts para diferentes modelos dentro da mesma família de modelos, ajudando as empresas a encontrar o equilíbrio ideal entre desempenho e custo. O sistema prevê automaticamente como cada modelo irá performar para uma determinada consulta e encaminha a solicitação de acordo.
Como Deo destacou, “Às vezes, minha consulta pode ser muito simples. Será que realmente preciso enviá-la para o modelo mais capaz, que é extremamente caro e lento? Provavelmente não. Portanto, a ideia é criar um mecanismo que, em tempo real, com base no prompt recebido, envie a consulta para o modelo certo.”
Embora o roteamento de LLM não seja uma nova ideia — startups como a Martian e vários projetos de código aberto também abordem esse tema — a AWS argumenta que sua oferta se diferencia por permitir que o roteador direcione as consultas de forma inteligente, sem tanta intervenção humana. Entretanto, essa tecnologia é limitada, pois só pode direcionar consultas para modelos da mesma família. A longo prazo, Deo mencionou que a equipe planeja expandir esse sistema e oferecer mais opções de personalização.
Marketplace para Modelos Especializados
Por último, a AWS está lançando um novo marketplace para o Bedrock. Deo mencionou que, enquanto a Amazon está formando parcerias com muitos dos maiores provedores de modelos, já existem centenas de modelos especializados que podem ter apenas alguns usuários dedicados. Dado que esses clientes estão solicitando suporte, a AWS criará um marketplace para esses modelos, com a única diferença de que os usuários precisarão provisionar e gerenciar a capacidade de sua infraestrutura por conta própria — algo que o Bedrock tradicionalmente faz de forma automática. Ao todo, a AWS oferecerá cerca de 100 modelos emergentes e especializados, com mais a caminho.