A Inteligência Artificial Chegando ao Setor de Biotecnologia
A inteligência artificial está infiltrando todos os cantos da pesquisa em biotecnologia e farmacêutica. Contudo, sua implementação nunca é tão direta quanto se esperaria. A Converge Bio desenvolveu uma ferramenta para empresas fazerem seus LLMs (Modelos de Linguagem de Grande Escala) focados em biologia realmente funcionarem, desde a “enriquecimento” de dados até a explicação de respostas. A empresa já arrecadou $5.5 milhões em uma rodada inicial de investimentos para expandir seu produto.
“Um modelo é apenas um modelo. Não é suficiente”, afirmou o CEO e cofundador Dov Gertz. “É necessário criar um fluxo de trabalho para que as empresas possam realmente usar o modelo em seu processo de P&D. O mercado é muito fragmentado, mas as empresas farmacêuticas e de biotecnologia querem consumir essa tecnologia de forma consolidada, em um único lugar. Queremos ser esse lugar.”
Desafios em Modelos de Linguagem de Grande Escala
Se você não é um engenheiro de aprendizado de máquina atuando na descoberta de medicamentos, este problema pode parecer estranho. Contudo, existem modelos fundamentais poderosos, ou seja, LLMs que não são treinados em livros ou na internet, mas em enormes bancos de dados de DNA, estruturas de proteínas e genômica.
Esses modelos são versáteis, mas, assim como os LLMs de produtos como ChatGPT, eles exigem um esforço significativo para serem moldados de forma que possam ser utilizados no dia a dia. Esse trabalho é especialmente difícil em domínios especializados, como microbiologia ou imunologia. Transformar um LLM “pronto” treinado com bilhões de sequências de proteínas em algo que um técnico de laboratório pode usar em sua pesquisa diária é um desafio considerável.
Aplicações Práticas e Melhoria
Como exemplo, Gertz trouxe à tona a pesquisa de anticorpos. Um LLM treinado especificamente para biologia de anticorpos existe, mas é bastante genérico. A Converge Bio oferece uma série de melhorias que podem ser feitas de maneira segura, utilizando a propriedade intelectual da empresa.
- O primeiro passo é o “enriquecimento de dados”, que agrega ao LLM de anticorpos informações importantes relacionadas, como interações antígeno-anticorpo e proteína-proteína.
- Com esse conhecimento mais específico, o modelo pode ser ajustado para o antígeno que a equipe deseja atingir, do qual pode ter dados proprietários.
Gertz destacou: “Agora temos uma aplicação: a entrada é uma sequência, a saída é a afinidade de ligação.” Em seguida, a plataforma adiciona outra camada importante: a explicabilidade. Os pesquisadores podem investigar a saída não apenas para descobrir que “essa sequência funciona melhor que aquela”, mas também identificar exatamente, até o nível de aminoácido ou par de bases, qual parte da sequência parece estar otimizando os resultados.
Inovações e Oportunidades no Mercado
Por último, a Converge Bio gera novas sequências que proporcionam resultados melhores, também com explicações detalhadas. Gertz mencionou que a explicabilidade tem surpreendido devido à sua popularidade entre os clientes. Essa funcionalidade é vantajosa, pois permite que especialistas apliquem seu conhecimento em áreas como interações proteicas ao novo e complexo campo da bioinformática e aprendizado de máquina.
A empresa utiliza diversos modelos de fundação open source e gratuitos, mas também está trabalhando em desenvolver o seu próprio. Segundo Gertz, já possuem um processo proprietário focado na parte de explicabilidade. O currículo de enriquecimento de dados é inteiramente desenvolvido por eles, um trabalho não trivial. Além disso, as metodologias de treinamento representam um dos segredos mais bem guardados pelas empresas de IA mais bem-sucedidas.
Esse é um dos pilares que a Converge Bio pretende construir. Como Gertz resumiu: “Esta é provavelmente a maior oportunidade na biotecnologia em cinco décadas”.
Futuro Promissor
No entanto, muitas – talvez a maioria – das empresas de biotecnologia não têm uma solução dedicada para realizar trabalhos relacionados a LLM em seu campo, buscando ativamente nichos que as soluções generalistas não atendem.
“A ideia é ser a loja completa de genAI em biotecnologia, utilizando isso como uma alavanca para oferecer mais ao longo do tempo”, disse Gertz. “O comportamento na indústria farmacêutica e biotecnológica é que, uma vez que estabelecem laços com um fornecedor de sua confiança, tendem a querer utilizar seus serviços em outros casos, seja design de anticorpos ou vacinas. Por isso, acredito que essa abordagem seja a mais adequada para o momento atual do mercado.”
Os investidores parecem concordar, investindo $5.5 milhões em uma rodada inicial conduzida pelos TLV Partners.
A empresa utilizará esses recursos para contratar mais staff e conquistar clientes, como é comum para startups nesse estágio. Além disso, irá publicar um artigo científico sobre design de anticorpos (usando seus próprios sistemas, é claro) e treinar um modelo de fundação apropriado.