Limitações da Quantização em Modelos de IA Reveladas por Estudo
Uma das técnicas mais utilizadas para aumentar a eficiência de modelos de inteligência artificial (IA), a quantização, apresenta limites, e a indústria pode estar se aproximando rapidamente deles.
No contexto da IA, a quantização refere-se à redução do número de bits — as menores unidades que um computador pode processar — necessárias para representar informações. Para ilustrar, quando alguém pergunta as horas, você provavelmente diria “meio-dia” — e não “doze horas, um segundo e quatro milissegundos.” Esta analogia demonstra a quantização, onde ambas as respostas estão corretas, mas uma é um pouco mais precisa. A necessidade de precisão depende do contexto.
Componentes dos Modelos de IA e Quantização
Os modelos de IA consistem em vários componentes que podem ser quantizados, especialmente os parâmetros, que são as variáveis internas que os modelos utilizam para fazer previsões ou decisões. Isso é conveniente, já que os modelos realizam milhões de cálculos durante sua execução. Modelos quantizados, com menos bits representando seus parâmetros, se tornam menos exigentes do ponto de vista matemático e, portanto, computacional. Cabe esclarecer que esse processo é diferente do “destilamento”, que se refere a uma poda mais seletiva dos parâmetros.
O Modelo em Encolhimento Constante
Segundo um estudo publicado por pesquisadores de Harvard, Stanford, MIT, Databricks e Carnegie Mellon, modelos quantizados têm desempenho pior se a versão original e não quantizada foi treinada por períodos prolongados em grandes volumes de dados. Em outras palavras, em determinados momentos, pode ser mais vantajoso treinar um modelo menor ao invés de tentar reduzir um modelo maior.
Essa situação pode ser preocupante para empresas de IA que treinam modelos extremamente grandes (conhecidos por melhorar a qualidade das respostas) e depois tentam quantizá-los para reduzir custos operacionais.
Efeitos Visíveis
Os efeitos disso já estão se manifestando. Há alguns meses, desenvolvedores e acadêmicos relataram que a quantização do modelo Llama 3 da Meta tende a ser “mais prejudicial” em comparação a outros modelos, possivelmente devido à forma como foi treinado.
“Na minha opinião, o maior custo para todos em IA é e continuará sendo a inferência, e nosso trabalho mostra que uma importante forma de reduzi-lo não funcionará para sempre”, disse Tanishq Kumar, estudante de matemática de Harvard e autor principal do estudo.
Custo de Inferência de Modelos de IA
Contrariando a crença popular, a inferência de modelos de IA — o processo de execução de um modelo, como quando o ChatGPT responde uma pergunta — é, em termos agregados, frequentemente mais caro do que o treinamento do modelo. Por exemplo, estima-se que o Google gastou cerca de $191 milhões para treinar um de seus modelos principais, o Gemini. No entanto, se a empresa utilizasse um modelo para gerar respostas de 50 palavras para metade de todas as consultas de busca no Google, gastaria cerca de $6 bilhões por ano.
O Desafio da Escala
As principais laboratórios de IA têm abraçado o treinamento de modelos em conjuntos de dados massivos sob a suposição de que “aumentar a escala” — incrementar a quantidade de dados e cálculos utilizados no treinamento — levará a uma IA cada vez mais capaz.
Por exemplo, a Meta treinou o Llama 3 em um conjunto de 15 trilhões de tokens, enquanto a geração anterior, o Llama 2, foi treinada com “apenas” 2 trilhões de tokens. No entanto, evidências sugerem que aumentar a escala acaba trazendo retornos decrescentes, com a Anthropic e o Google recentemente tendo dificuldade em atender suas expectativas internas com modelos enormes.
Buscando Soluções
Se os laboratórios são relutantes em treinar modelos em conjuntos de dados menores, existe alguma maneira de tornar os modelos menos suscetíveis à degradação? Possivelmente. Kumar afirma que ele e seus co-autores descobriram que treinar modelos em “baixa precisão” pode torná-los mais robustos.
A “precisão” refere-se ao número de dígitos que um tipo de dado numérico pode representar com precisão. A maioria dos modelos atuais é treinada em precisão de 16 bits ou “meia precisão” e quantizada posteriormente para 8 bits. Certos componentes do modelo, como seus parâmetros, são convertidos para um formato de precisão inferior, embora isso implique em alguma perda de precisão na exatidão.
Considerações Finais
Kumar conclui que há limitações que não podem ser evitadas de forma ingênua. Ele espera que seu trabalho acrescente nuances à discussão que, muitas vezes, busca cada vez mais padrões de baixa precisão para treinamento e inferência. Em suma, a precisão dos bits importa e não é gratuita. Não se pode simplesmente reduzir para sempre sem que os modelos sofram. “Acho que muito mais esforço será direcionado à curadoria e filtragem de dados, garantindo que apenas os dados da mais alta qualidade sejam colocados em modelos menores. Estou otimista de que novas arquiteturas com foco em treinos de baixa precisão estáveis serão importantes no futuro.”