Dados de alta qualidade podem ser a chave para uma IA de alta qualidade
Estudos recentes têm mostrado que a curadoria de conjuntos de dados, e não seu tamanho, é o que realmente impacta no desempenho de um modelo de IA. Isso torna evidente o crescente foco nas práticas de gerenciamento de dados. De acordo com algumas pesquisas e dados de levantamentos, os pesquisadores de IA hoje em dia passam grande parte de seu tempo em tarefas de preparação e organização de dados.
A experiência dos irmãos Petrosyan
Os irmãos Vahan e Tigran Petrosyan sentiram na pele a dificuldade de gerenciar grandes volumes de dados enquanto treinavam algoritmos na faculdade. Vahan chegou a desenvolver uma ferramenta de gerenciamento de dados durante sua pesquisa de doutorado sobre segmentação de imagens.
Alguns anos depois, Vahan percebeu que desenvolvedores — e até mesmo empresas — estariam dispostos a pagar por ferramentas semelhantes. Assim, os irmãos fundaram a SuperAnnotate para criar essa solução.
“Durante a explosão de inovações em 2023 em torno de modelos e IA multimodal, a necessidade de conjuntos de dados de alta qualidade tornou-se mais exigente, com cada organização tendo múltiplos casos de uso que requerem dados especializados,” disse Vahan em um comunicado.
“Vimos uma oportunidade de construir uma plataforma fácil de usar e de baixo código, como um canivete suíço para dados de treinamento de IA modernos.”
Funcionalidades da SuperAnnotate
A SuperAnnotate, que atende clientes como Databricks e Canva, ajuda os usuários a criar e gerenciar grandes conjuntos de dados de treinamento de IA. A startup inicialmente focou em software de rotulagem, mas agora fornece ferramentas para ajustar, iterar e avaliar conjuntos de dados.
Com a plataforma da SuperAnnotate, os usuários podem conectar dados de fontes locais e da nuvem para criar projetos de dados que podem ser colaborativos. A partir de um painel de controle, é possível comparar o desempenho de modelos com base nos dados utilizados para treiná-los, e, em seguida, implantar esses modelos em diferentes ambientes assim que estiverem prontos.
A SuperAnnotate também oferece às empresas acesso a um mercado de trabalhadores colaborativos para tarefas de anotação de dados. As anotações geralmente consistem em partes de texto que rotulam o significado ou partes dos dados que os modelos aprendem, servindo como sinalizadores que “ensinham” aos modelos a distinguir coisas, lugares e ideias.
Críticas e concorrência
Por outro lado, existem diversas discussões no Reddit sobre como a SuperAnnotate trata os anotadores de dados que utiliza, e as opiniões não são favoráveis. Muitos anotadores reclamam sobre problemas de comunicação, expectativas pouco claras e bajos salários.
A SuperAnnotate, por sua vez, afirma que paga taxas justas de mercado e que suas exigências em relação aos anotadores não estão além do que é padrão na indústria. Pedimos à empresa mais informações detalhadas sobre suas práticas e atualizaremos este artigo assim que tivermos resposta.
Existem vários concorrentes na área de gerenciamento de dados para IA, incluindo startups como Scale AI, Weka e Dataloop. A SuperAnnotate, sediada em São Francisco, conseguiu se manter forte, levantando recentemente $36 milhões em uma rodada de investimento Série B liderada pela Socium Ventures, com a participação da Nvidia, Databricks Ventures e Play Time Ventures.
Planos futuros
Esses novos recursos, que elevam o total arrecadado pela SuperAnnotate para pouco mais de $53 milhões, serão usados para expandir a equipe atual de cerca de 100 pessoas, investir em pesquisa e desenvolvimento de produtos e aumentar a base de clientes da empresa, que conta com aproximadamente 100 empresas.
“Nosso objetivo é construir uma plataforma capaz de se adaptar totalmente às necessidades em evolução das empresas, oferecendo uma ampla personalização na ajuste de dados,” disse Vahan.