Limites da Quantização em Modelos de IA
Uma das técnicas mais utilizadas para tornar os modelos de IA mais eficientes é a quantização, mas estudos recentes sugerem que a indústria pode estar se aproximando dos seus limites. Quando falamos de quantização em IA, nos referimos a reduzir o número de bits – as menores unidades que um computador pode processar – necessários para representar informações.
Imagine a seguinte situação: quando alguém pergunta as horas, você provavelmente diria “meio-dia”, e não “doze horas, um segundo e quatro milissegundos”. Essa é a quantização; ambas as respostas estão corretas, mas uma delas é um pouco mais precisa. A quantidade de precisão que você realmente precisa depende do contexto.
Componentes dos Modelos de IA
Modelos de IA consistem em vários componentes que podem ser quantizados, especialmente parâmetros, que são as variáveis internas que os modelos usam para fazer previsões ou decisões. Isso é conveniente, já que os modelos realizam milhões de cálculos ao serem executados. Modelos quantizados, com menos bits representando seus parâmetros, exigem menos recursos computacionais. É importante ressaltar que isso é diferente de “destilação”, que envolve um processo mais complexo de poda de parâmetros.
Estudo Revelador
Um estudo realizado por pesquisadores de Harvard, Stanford, MIT, Databricks e Carnegie Mellon revelou que modelos quantizados podem ter desempenho inferior se a versão original, não quantizada, tiver sido treinada por um longo período em grandes quantidades de dados. Em outras palavras, pode ser mais vantajoso treinar um modelo menor do que tentar simplificar um maior.
Essa descoberta é preocupante para as empresas de IA que treinam modelos extremamente grandes, conhecidos por melhorar a qualidade das respostas, mas tentam quantizá-los para reduzir custos operacionais.
Os efeitos já estão sendo percebidos. Alguns desenvolvedores e acadêmicos relataram que a quantização do modelo Llama 3 da Meta apresentou resultados que foram classificados como “mais prejudiciais” do que em outros modelos, possivelmente devido ao método de treinamento empregado.
“Na minha opinião, o maior custo para todos na IA é e continuará a ser a inferência, e nosso trabalho mostra que uma maneira importante de reduzi-lo não funcionará para sempre”, afirma Tanishq Kumar, estudante de matemática em Harvard.
Custo da Inferência em IA
Contrariando a crença popular, a inferência de modelos de IA — quando um modelo, como o ChatGPT, responde a uma pergunta — é muitas vezes mais custosa no total do que o treinamento do modelo. Por exemplo, estima-se que o Google gastou cerca de 191 milhões de dólares para treinar um de seus modelos principais do Gemini. No entanto, se a empresa usasse um modelo para gerar respostas de 50 palavras para metade das consultas do Google, os gastos poderiam ultrapassar 6 bilhões de dólares por ano.
Relação entre Dados e Performance
Laboratórios de IA têm adotado o treinamento de modelos em conjuntos de dados imensos, com a crença de que “aumentar” — ou seja, aumentar a quantidade de dados e recursos computacionais utilizados no treinamento — levará a IAs cada vez mais capazes. O modelo Llama 3, por exemplo, foi treinado em um conjunto de 15 trilhões de tokens, enquanto a versão anterior, Llama 2, utilizou apenas 2 trilhões de tokens.
Evidências indicam que aumentar a escala pode resultar em retornos decrescentes; empresas como Anthropic e Google recentemente treinaram modelos enormes que não atenderam às expectativas internas.
A Busca por Maior Robustez
Se os laboratórios estão relutantes em treinar modelos em conjuntos de dados menores, existe uma maneira de torná-los menos vulneráveis à degradação? Kumar afirma que, ao treinar modelos em “baixa precisão”, pode-se aumentar a robustez dos mesmos. A precisão refere-se ao número de dígitos que um tipo de dado numérico pode representar com exatidão.
Atualmente, a maioria dos modelos é treinada com precisão de 16 bits, sendo quantizada posteriormente para 8 bits. Os fornecedores de hardware, como a Nvidia, estão promovendo a utilização de precisões menores para a inferência de modelos quantizados, como no novo chip Blackwell, que suporta 4 bits de precisão.
Porém, um nível de quantização extremamente baixo pode não ser desejado. Kumar alerta que, a menos que o modelo original seja muito grande em termos de contagem de parâmetros, precisões inferiores a 7 ou 8 bits podem afetar sua qualidade significativamente.
Conclusão e Perspectivas Futuras
O ponto crucial do estudo é que existem limitações que não podem ser ignoradas. Kumar conclui que espera que sua pesquisa traga mais nuances à discussão sobre os padrões de baixa precisão em treinamento e inferência.
Ainda assim, ele acredita que, no futuro, haverá um foco maior na curadoria e filtragem de dados para garantir que apenas os dados de alta qualidade sejam utilizados nos modelos menores. Além disso, espera-se que novas arquiteturas que visam tornar o treinamento de baixa precisão mais estável sejam desenvolvidas.
No fundo, o que podemos levar dessa discussão é que as economias em precisão podem gerar custos futuros imprevisíveis, e o setor deve estar preparado para abordar essas questões com cautela.