Microsoft Anuncia Nova Função no Teams para Clonagem de Voz
A Microsoft está prestes a transformar a forma como nos comunicamos nas reuniões. Durante o evento Microsoft Ignite 2024 nesta terça-feira, a empresa apresentou a ferramenta Interpreter in Teams, que irá permitir que os usuários do Microsoft Teams clonem suas vozes e se comuniquem em diferentes idiomas.
A partir do início de 2025, aqueles que utilizarem o Teams para reuniões poderão usar o Interpreter para simular suas vozes em até nove idiomas, incluindo inglês, francês, alemão, italiano, japonês, coreano, português, mandarim e espanhol.
“Imagine poder soar exatamente como você, só que em outro idioma”, escreveu Jared Spataro, CMO da Microsoft, em um post no blog compartilhado com o TechCrunch. “O Interpreter no Teams fornece tradução de fala para fala em tempo real durante as reuniões, e você pode optar por ter sua voz simulada para uma experiência mais pessoal e envolvente.”
A Microsoft não forneceu muitos detalhes concretos sobre a nova função, que estará disponível apenas para assinantes do Microsoft 365. No entanto, a empresa confirmou que a ferramenta não armazena dados biométricos, não adiciona sentimentos além do que está “naturalmente presente” na voz e pode ser desativada nas configurações do Teams.
“O Interpreter foi projetado para replicar a mensagem do orador da maneira mais fiel possível, sem adicionar suposições ou informações desnecessárias”, declarou um porta-voz da Microsoft ao TechCrunch. “A simulação de voz só pode ser ativada quando os usuários dão consentimento por meio de uma notificação durante a reunião ou ativando a opção ‘Consentimento de simulação de voz’ nas configurações.”
Muitas empresas já desenvolveram tecnologias para imitar digitalmente vozes de forma razoavelmente natural. Por exemplo, a Meta mencionou recentemente que está testando uma ferramenta de tradução que traduz automaticamente as vozes em Instagram Reels, enquanto a ElevenLabs oferece uma plataforma robusta para gerar fala multilíngue.
No entanto, as traduções feitas por IA costumam ser menos ricas lexicalmente quando comparadas às realizações de intérpretes humanos. Isso ocorre porque tradutores de IA geralmente enfrentam dificuldades em transmitir gírias, analogias e nuances culturais com precisão. Apesar disso, a economia de custos torna essa troca atraente para alguns. Segundo a Markets and Markets, o setor de tecnologias de processamento de linguagem natural, que inclui tecnologias de tradução, pode valer até $35,1 bilhões até 2026.
Entretanto, os clones de IA também trazem desafios de segurança. Os deepfakes, por exemplo, têm se espalhado rapidamente nas redes sociais, dificultando a distinção entre a verdade e a desinformação. Neste ano, deepfakes envolvendo figuras como o presidente Joe Biden e a cantora Taylor Swift acumularam milhões de visualizações e compartilhamentos.
Esses deepfakes já foram usados para atingir indivíduos, como no caso de
imitações de entes queridos. As perdas relacionadas a fraudes de imitação ultrapassaram $1 bilhão no ano passado, segundo a FTC. Este ano, um grupo de cibercriminosos encenou uma reunião no Teams tão convincente que a empresa alvo transferiu $25 milhões para os criminosos.
Diante de todos esses riscos, a OpenAI decidiu, no início deste ano, não lançar sua tecnologia de clonagem de voz, o Voice Engine. Isso mostra como é essencial equilibrar a inovação com a segurança.
O Interpreter in Teams representa uma aplicação relativamente restrita da clonagem de voz. Contudo, o potencial para abusos existe. Imagine um ator mal-intencionado alimentando o Interpreter com uma gravação enganosa, como um pedido de informações bancárias, para obter uma tradução no idioma de seu alvo.
Esperamos que a Microsoft revele mais sobre as medidas de segurança que serão implementadas ao redor do Interpreter nos próximos meses.