Google Lança Gemini 2.0 Flash: IA Revolucionária

Felipe Massari
11/12/2024
12:32

Blog / Notícias / Google Lança Gemini 2.0 Flash: IA Revolucionária

Nota: As imagens são meramente ilustrativas e, em sua maioria, geradas pelo MidJourney.

Google Lança Novo Modelo de IA para Combater Concorrência

Na última quarta-feira, o Google anunciou o Gemini 2.0 Flash, um novo modelo de inteligência artificial projetado para competir com as diversas inovações da OpenAI. Segundo a gigante de tecnologia, essa versão é capaz de gerar nativamente imagens e áudio, além de texto. O Gemini 2.0 Flash também é integrado a aplicativos e serviços de terceiros, podendo acessar o Google Search, executar código, entre outras funções.

Disponibilidade e Funcionalidades

Uma versão experimental do 2.0 Flash estará disponível através da API Gemini e das plataformas de desenvolvimento de IA do Google, AI Studio e Vertex AI, a partir de hoje. Entretanto, as capacidades de geração de áudio e imagem estão sendo lançadas apenas para “parceiros de acesso antecipado”, com um lançamento mais amplo previsto para janeiro.

Durante os próximos meses, o Google afirmou que expandirá o 2.0 Flash em diferentes produtos, como Android Studio, Chrome DevTools, Firebase, Gemini Code Assist, entre outros.

Flash, Agora Melhorado

A primeira versão do Flash, 1.5 Flash, era limitada à geração de texto e não foi desenvolvida para cargas de trabalho muito exigentes. De acordo com o Google, o novo modelo é muito mais versátil. Isso se deve, em parte, à capacidade de chamar ferramentas como o Google Search e interagir com APIs externas.

“Sabemos que o Flash é extremamente popular entre os desenvolvedores por seu equilíbrio entre velocidade e performance”, comentou Tulsee Doshi, chefe de produto do modelo Gemini no Google, durante um briefing na terça-feira. “E com o 2.0 Flash, ele é tão rápido quanto sempre foi, mas agora está ainda mais poderoso.”

O Google afirma que o 2.0 Flash é duas vezes mais rápido que o modelo Gemini 1.5 Pro em determinados testes. Também apresenta melhorias significativas em áreas como codificação e análise de imagens, substituindo o 1.5 Pro como o modelo principal do Gemini graças às suas habilidades matemáticas superiores e precisão factual.

Geração e Modificação de Imagens

Além do texto, o 2.0 Flash pode gerar e modificar imagens e, ainda, utilizar fotos e vídeos, assim como gravações de áudio, para responder a perguntas sobre eles, como por exemplo, “O que ele disse?”.

A outra funcionalidade-chave do 2.0 Flash é a geração de áudio. Doshi a descreveu como “ajustável” e “customizável”. O modelo pode narrar textos usando uma de suas oito vozes, cada uma otimizada para diferentes sotaques e idiomas.

“Você pode pedir para ele falar mais devagar, mais rápido ou até mesmo como um pirata”, acrescentou.

Preocupações com Abuso

É importante destacar que o Google não forneceu amostras de áudio ou imagens do 2.0 Flash até o momento, o que nos impede de avaliar a qualidade comparativa com outros modelos. O Google utiliza sua tecnologia SynthID para marcar todas as imagens e áudios gerados pelo 2.0 Flash, visando mitigar preocupações relacionadas ao uso indevido dessa tecnologia, especialmente considerando que os deepfakes representam uma ameaça crescente.

Segundo a Sumsub, serviço de verificação de identidade, houve um aumento de 4x na detecção de deepfakes em todo o mundo de 2023 a 2024.

API Multimodal

A versão de produção do 2.0 Flash deverá ser lançada em janeiro. Enquanto isso, o Google disponibiliza uma API chamada Multimodal Live API, que auxilia desenvolvedores na criação de aplicativos com funcionalidades de streaming de áudio e vídeo em tempo real.

Com a Multimodal Live API, os desenvolvedores terão a capacidade de criar aplicativos multimodais em tempo real com inputs de áudio e vídeo tratados com eficiência. A API suporta a integração de ferramentas para a realização de tarefas, sendo capaz de lidar com padrões de conversação natural, como interrupções, semelhante à Realtime API da OpenAI.

A Multimodal Live API já está disponível a partir de hoje.

Automatize seu negócio

Felipe Massari

Visuailzer co-founder

Psicólogo e Neurocientista, especialista em Neuromarketing e Marketing Digital. Domina Engenharia de Prompts e Redes Neurais. Atua no Comercial e Vendas, unindo Ciência, Tecnologia e estratégia para criar soluções inovadoras e focadas em resultados para Empresas.