Google Lança Novo Modelo de IA para Combater Concorrência
Na última quarta-feira, o Google anunciou o Gemini 2.0 Flash, um novo modelo de inteligência artificial projetado para competir com as diversas inovações da OpenAI. Segundo a gigante de tecnologia, essa versão é capaz de gerar nativamente imagens e áudio, além de texto. O Gemini 2.0 Flash também é integrado a aplicativos e serviços de terceiros, podendo acessar o Google Search, executar código, entre outras funções.
Disponibilidade e Funcionalidades
Uma versão experimental do 2.0 Flash estará disponível através da API Gemini e das plataformas de desenvolvimento de IA do Google, AI Studio e Vertex AI, a partir de hoje. Entretanto, as capacidades de geração de áudio e imagem estão sendo lançadas apenas para “parceiros de acesso antecipado”, com um lançamento mais amplo previsto para janeiro.
Durante os próximos meses, o Google afirmou que expandirá o 2.0 Flash em diferentes produtos, como Android Studio, Chrome DevTools, Firebase, Gemini Code Assist, entre outros.
Flash, Agora Melhorado
A primeira versão do Flash, 1.5 Flash, era limitada à geração de texto e não foi desenvolvida para cargas de trabalho muito exigentes. De acordo com o Google, o novo modelo é muito mais versátil. Isso se deve, em parte, à capacidade de chamar ferramentas como o Google Search e interagir com APIs externas.
“Sabemos que o Flash é extremamente popular entre os desenvolvedores por seu equilíbrio entre velocidade e performance”, comentou Tulsee Doshi, chefe de produto do modelo Gemini no Google, durante um briefing na terça-feira. “E com o 2.0 Flash, ele é tão rápido quanto sempre foi, mas agora está ainda mais poderoso.”
O Google afirma que o 2.0 Flash é duas vezes mais rápido que o modelo Gemini 1.5 Pro em determinados testes. Também apresenta melhorias significativas em áreas como codificação e análise de imagens, substituindo o 1.5 Pro como o modelo principal do Gemini graças às suas habilidades matemáticas superiores e precisão factual.
Geração e Modificação de Imagens
Além do texto, o 2.0 Flash pode gerar e modificar imagens e, ainda, utilizar fotos e vídeos, assim como gravações de áudio, para responder a perguntas sobre eles, como por exemplo, “O que ele disse?”.
A outra funcionalidade-chave do 2.0 Flash é a geração de áudio. Doshi a descreveu como “ajustável” e “customizável”. O modelo pode narrar textos usando uma de suas oito vozes, cada uma otimizada para diferentes sotaques e idiomas.
“Você pode pedir para ele falar mais devagar, mais rápido ou até mesmo como um pirata”, acrescentou.
Preocupações com Abuso
É importante destacar que o Google não forneceu amostras de áudio ou imagens do 2.0 Flash até o momento, o que nos impede de avaliar a qualidade comparativa com outros modelos. O Google utiliza sua tecnologia SynthID para marcar todas as imagens e áudios gerados pelo 2.0 Flash, visando mitigar preocupações relacionadas ao uso indevido dessa tecnologia, especialmente considerando que os deepfakes representam uma ameaça crescente.
Segundo a Sumsub, serviço de verificação de identidade, houve um aumento de 4x na detecção de deepfakes em todo o mundo de 2023 a 2024.
API Multimodal
A versão de produção do 2.0 Flash deverá ser lançada em janeiro. Enquanto isso, o Google disponibiliza uma API chamada Multimodal Live API, que auxilia desenvolvedores na criação de aplicativos com funcionalidades de streaming de áudio e vídeo em tempo real.
Com a Multimodal Live API, os desenvolvedores terão a capacidade de criar aplicativos multimodais em tempo real com inputs de áudio e vídeo tratados com eficiência. A API suporta a integração de ferramentas para a realização de tarefas, sendo capaz de lidar com padrões de conversação natural, como interrupções, semelhante à Realtime API da OpenAI.
A Multimodal Live API já está disponível a partir de hoje.