Benchmarks Estranhos e a Popularidade da IA em 2024
Quando uma empresa lança um novo gerador de vídeos com inteligência artificial (IA), não demora muito para que alguém use essa tecnologia para criar um vídeo do ator Will Smith comendo espaguete. Isso virou uma espécie de meme e um parâmetro para avaliar a capacidade dos geradores de vídeo. A missão? Ver se eles conseguem representar realisticamente Smith devorando um prato de macarrão.
Will Smith entrou na onda e fez uma paródia desse fenômeno em uma postagem no Instagram, em fevereiro deste ano.
Google Veo 2 conseguiu!
Finalmente estamos comendo espaguete. pic.twitter.com/AZO81w8JC0
A conexão entre Will Smith e o espaguete é apenas uma das várias referências “não oficiais” que têm movimentado a comunidade de IA em 2024. Um desenvolvedor de 16 anos criou um aplicativo que dá controle da construção de estruturas em Minecraft à IA. Além disso, um programador britânico lançou uma plataforma onde a IA compete em jogos como Pictionary e Conecta 4.
Por Que Benchmarks Estranhos Chamam a Atenção?
Apesar de existirem testes acadêmicos rigorosos para avaliar o desempenho da IA, os benchmarks mais excêntricos ganharam destaque. Mas por quê?
Primeiro, muitos dos benchmarks tradicionais não falam muito com o público em geral. As empresas costumam citar a habilidade de suas IAs em resolver questões de Olimpíadas de Matemática ou problemas complexos de doutorado. No entanto, a maioria das pessoas, inclusive eu, usa chatbots para tarefas cotidianas, como responder e-mails e realizar pesquisas simples.
Métricas da indústria nem sempre são melhores ou mais informativas. Um exemplo é o Chatbot Arena, um benchmark público que muitos entusiastas e desenvolvedores de IA seguem com atenção. No Chatbot Arena, qualquer pessoa pode avaliar como a IA se sai em tarefas específicas, como criar um aplicativo web ou gerar uma imagem. No entanto, a amostra de avaliadores geralmente vem de círculos da indústria de tecnologia, o que pode distorcer os resultados por conta de preferências pessoais.
Falta de Comparação Relevante
O professor de gestão, Ethan Mollick, apontou recentemente uma falha em muitos benchmarks da indústria de IA: eles não comparam o desempenho da IA com o de uma pessoa média. Como ele disse:
“É uma pena que não existam 30 benchmarks diferentes de organizações distintas nas áreas de medicina, direito e qualidade de conselhos, pois as pessoas estão usando sistemas para essas finalidades, independente disso.”
Benchmarks estranhos como o de Conecta 4, Minecraft, e Will Smith comendo espaguete definitivamente não são empíricos e não se generalizam bem. O fato de uma IA passar no “teste Will Smith” não significa que ela consiga, por exemplo, gerar um hambúrguer adequadamente.
O Futuro dos Benchmarks de IA
Um especialista que consultei sugeriu que a comunidade de IA deveria focar nas consequências das IAs em vez de suas habilidades em domínios restritos. Isso parece sensato. No entanto, tenho a impressão de que esses benchmarks curiosos não vão a lugar algum tão cedo. Eles são não apenas divertidos, mas também fáceis de entender. Conforme meu colega Max Zeff comentou, a indústria ainda luta para simplificar uma tecnologia tão complexa como a IA em algo digerível para o público.
A pergunta que fica é: quais novos benchmarks estranhos vão viralizar em 2025?