O Crescimento do PlayAI: Da Extensão do Chrome ao Reconhecimento no Mercado
Em 2016, Hammad Syed e Mahmoud Felfel, um ex-engenheiro do WhatsApp, decidiram construir uma extensão para o Chrome que transformava texto em fala para artigos do Medium. A extensão, que podia ler qualquer história do Medium em voz alta, foi destaque no Product Hunt. Um ano depois, essa ideia evoluiu para um negócio sólido.
“Percebemos uma oportunidade maior em ajudar indivíduos e organizações a criar conteúdo em áudio realista para suas aplicações”, contou Syed ao TechCrunch. “Sem a necessidade de construir seu próprio modelo, eles poderiam implantar experiências de fala com qualidade humana mais rapidamente do que nunca.”
Conheça o PlayAI
A empresa de Syed e Felfel, PlayAI (anteriormente PlayHT), se apresenta como a “interface de voz da IA”. Os clientes podem escolher entre diversas vozes pré-definidas ou clonar uma voz e utilizar a API do PlayAI para integrar o texto em fala em suas aplicações.
Alteradores permitem que os usuários ajustem a entonação, cadência e tom das vozes. O PlayAI também oferece um “parque de diversões”, onde os usuários podem fazer upload de arquivos para gerar versões lidas em voz alta e um painel para criar narrações e voiceovers mais polidos. Recentemente, a empresa entrou no segmento de “agentes de IA”, com ferramentas que podem ser usadas para automatizar tarefas, como responder chamadas de clientes em um negócio.
Experimentos Inovadores: PlayNote
Um dos experimentos mais interessantes do PlayAI é o PlayNote, que transforma PDFs, vídeos, fotos, músicas e outros arquivos em shows no estilo podcast, resumos lidos em voz alta, debates um a um e até histórias infantis. Assim como o NotebookLM do Google, o PlayNote gera um script a partir de um arquivo ou URL enviado e o alimenta a uma coleção de modelos de IA, que juntas produzem o produto final.
Eu testei a ferramenta, e os resultados foram bastante satisfatórios. O modo “podcast” do PlayNote produz clipes que competem em qualidade com os do NotebookLM, e a capacidade da ferramenta de absorver fotos e vídeos gera criações fascinantes. Dada uma foto de um prato de mole de frango que eu tinha feito recentemente, o PlayNote escreveu um script de podcast de cinco minutos sobre o assunto. Verdadeiramente, estamos vivendo no futuro.
Desafios e Questões Éticas
Claro, a ferramenta, como todas as ferramentas de IA, gera artefatos estranhos e alucinações de tempos em tempos. E, embora o PlayNote busque adaptar um arquivo ao formato escolhido, não espere que um sec gibi legal se torne um ótimo material fonte.
“O formato de podcast do PlayNote é viabilizado pelo modelo mais recente do PlayAI, PlayDialog, que, segundo Syed, pode utilizar o “contexto e a história” de uma conversa para gerar uma fala que reflete o fluxo da conversa.”
A PlayAI também foi criticada no passado por sua abordagem laissez-faire em relação à segurança. A ferramenta de clonagem de voz da empresa requer que os usuários confirmem que possuem todos os direitos ou consentimentos necessários para clonar uma voz — mas não há um mecanismo de enforcement. Eu não tive problemas em criar um clone da voz de Kamala Harris a partir de uma gravação.
Isso é preocupante considerando o potencial para golpes e deepfakes. Syed afirma que o PlayAI responde a denúncias de vozes clonadas sem consentimento bloqueando o usuário responsável e removendo a voz clonada imediatamente.
“PlayAI possui várias salvaguardas éticas implementadas,” disse Syed. “Implementamos mecanismos robustos para identificar se uma voz foi sintetizada usando nossa tecnologia, por exemplo.”
O Futuro do PlayAI
A abordagem da PlayAI para treinar sua IA de clonagem de voz ainda é um pouco nebulosa. A empresa não revela de onde obteve os dados para seus modelos, supostamente por razões competitivas.
Recentemente, a empresa fechou uma rodada de seed de US$ 20 milhões co-liderada pela 500 Startups e Kindred Ventures, totalizando assim US$ 21 milhões levantados.
“O novo capital será utilizado para investir em nossos modelos de voz de IA generativa e na plataforma de agentes de voz, além de encurtar o tempo que as empresas levam para criar experiências de fala de qualidade humana”, conclui Syed.
Com um desenvolvimento tão promissor, a PlayAI pode seguir adiante, garantindo que o futuro da voz na tecnologia continue a evoluir de maneira ética e inovadora.