Custo crescente para desenvolver e operar IA
Desenvolver e operar inteligência artificial (IA) está se tornando cada vez mais caro. As operações da OpenAI podem alcançar 7 bilhões de dólares este ano, enquanto o CEO da Anthropic sugeriu recentemente que modelos que custarão mais de 10 bilhões possam chegar em breve.
Sendo assim, a busca por formas de tornar a IA mais barata está em alta.
Otimização de arquiteturas de modelos
Alguns pesquisadores focam em técnicas para otimizar as arquiteturas de modelos existentes – ou seja, a estrutura e os componentes que fazem os modelos funcionarem. Outros estão desenvolvendo novas arquiteturas que acreditam ter uma chance melhor de escalar de forma acessível.
Karan Goel faz parte do segundo grupo. Na startup que ajudou a cofundar, a Cartesia, Goel trabalha com o que chama de modelos de espaço de estado (SSMs), uma arquitetura de modelo nova e altamente eficiente que pode lidar com grandes volumes de dados — textos, imagens e afins — simultaneamente.
“Acreditamos que novas arquiteturas de modelo são necessárias para construir modelos de IA verdadeiramente úteis,” disse Goel ao Visualizer. “A indústria de IA é um espaço competitivo, tanto comercial quanto open source, e construir o melhor modelo é crucial para o sucesso.”
Raízes acadêmicas
Antes de se juntar à Cartesia, Goel foi candidato a Ph.D. no laboratório de IA de Stanford, onde trabalhou sob a supervisão do cientista da computação Christopher Ré, entre outros. Durante seu tempo em Stanford, Goel conheceu Albert Gu, um colega de Ph.D. no laboratório, e os dois esboçaram o que se tornaria o SSM.
Goel acabou aceitando um emprego na Snorkel AI, e depois na Salesforce, enquanto Gu se tornou professor assistente na Carnegie Mellon. Mas Gu e Goel continuaram estudando os SSMs, publicando vários artigos de pesquisa importantes sobre a arquitetura.
Em 2023, Gu e Goel – juntamente com dois ex-colegas de Stanford, Arjun Desai e Brandon Yang – decidiram se unir para lançar a Cartesia e comercializar suas pesquisas.
Modelo Sonic
A Cartesia, cuja equipe fundadora também inclui Ré, está por trás de muitos derivados do Mamba, talvez o SSM mais popular atualmente. Gu e o professor de Princeton Tri Dao iniciaram o Mamba como um projeto de pesquisa aberto no último dezembro e continuam a refiná-lo através de lançamentos subsequentes.
A Cartesia constrói sobre o Mamba, além de treinar seus próprios SSMs. Como todos os SSMs, os modelos da Cartesia dão à IA algo parecido com uma memória de trabalho, tornando os modelos mais rápidos – e potencialmente mais eficientes – ao acessar a potência computacional.
Comparação: SSMs vs. Transformers
A maioria dos aplicativos de IA hoje, desde o ChatGPT até o Sora, é alimentada por modelos com arquitetura de transformador. Quando um transformador processa dados, ele adiciona entradas a algo chamado estado oculto para “lembrar” o que processou.
No entanto, isso também causa ineficiências. Para “dizer” até mesmo uma única palavra sobre um livro, o modelo deve escanear todo o seu estado oculto, o que é uma tarefa tão exigente quanto reler o livro inteiro.
Em comparação, os SSMs condensam cada ponto de dado anterior em um tipo de resumo de tudo o que já viram. Com a entrada de novos dados, o “estado” do modelo é atualizado e o SSM descarta a maior parte dos dados anteriores.
O resultado? Os SSMs podem lidar com grandes quantidades de dados enquanto superam os transformadores em certas tarefas de geração de dados. Com os custos de inferência se elevando, essa é uma proposta atraente.
Preocupações éticas
A Cartesia opera como um laboratório de pesquisa comunitário, desenvolvendo SSMs em parceria com organizações externas e de forma interna. O Sonic, o mais recente projeto da empresa, é um SSM que pode clonar a voz de uma pessoa ou gerar uma nova voz, ajustando o tom e a cadência na gravação.
Goel afirma que Sonic, disponível por meio de uma API e painel web, é o modelo mais rápido em sua classe. “Sonic é uma demonstração de como os SSMs se destacam em dados de longas contextos, como audio, mantendo o mais alto padrão de estabilidade e precisão”, explicou.
Embora a Cartesia tenha conseguido disponibilizar produtos rapidamente, ela enfrentou muitas das mesmas armadilhas éticas que afetaram outros fabricantes de modelos de IA. A empresa treinou alguns de seus SSMs com The Pile, um conjunto de dados aberto conhecido por conter livros protegidos por direitos autorais sem licença.
É importante ressaltar que, há algumas semanas, consegui criar um clone da voz da ex-vice-presidente Kamala Harris usando discursos de campanha — o que só requer que você marque uma caixa indicando que cumprirá os Termos de Serviço da startup.
Oportunidades de negócios
Goel afirma que “centenas” de clientes estão pagando pelo acesso à API do Sonic, que é a principal fonte de receita da Cartesia, incluindo o aplicativo de chamadas automatizadas Goodcall. A API é gratuita para até 100.000 caracteres lidos em voz alta, com o plano mais caro atingindo 299 dólares por mês para 8 milhões de caracteres.
Hoje, o Sonic está sendo utilizado para jogos, dublagem de voz e muito mais. Mas Goel acredita que está apenas arranhando a superfície do que os SSMs podem fazer, almejando contar com modelos que possam rodar em qualquer dispositivo e entender e gerar qualquer modalidade de dados — textos, imagens, vídeos, etc. — quase que instantaneamente.
Com um novo aporte de investimento, a Cartesia conseguiu um total de 27 milhões de dólares. Com tecnologia que está bem posicionada, Goel acredita que a Cartesia finalmente pode se consolidar em um setor extremamente competitivo.