IA pode ser boa em algumas tarefas, mas não em História
Você sabia que enquanto a inteligência artificial (IA) pode se destacar em atividades como programação e até gerar podcasts, ela enfrenta dificuldades em passar por um exame avançado de história? Um novo estudo revelou que isso é, de fato, verdade.
Um grupo de pesquisadores desenvolveu uma nova referência para testar três dos principais modelos de linguagem de grande porte (LLMs) — o GPT-4 da OpenAI, o Llama da Meta e o Gemini do Google. Essa referência, chamada Hist-LLM, avalia as respostas dadas por esses modelos com base no Seshat Global History Databank, uma imensa base de dados sobre conhecimento histórico que leva o nome da deusa egípcia antiga da sabedoria.
Resultados inesperados em testes históricos
Os resultados, apresentados no mês passado na respeitada conferência de IA NeurIPS, foram decepcionantes. O melhor desempenho foi do GPT-4 Turbo, que obteve apenas 46% de acurácia — um resultado pouco superior ao de um chute aleatório.
“A principal conclusão deste estudo é que, embora os LLMs sejam impressionantes, ainda carecem da profundidade de compreensão necessária para uma história avançada. Eles são ótimos para fatos básicos, mas, quando se trata de uma investigação histórica mais detalhada, eles ainda não estão prontos,” afirmou Maria del Rio-Chanona, coautora do artigo e professora associada de ciência da computação na University College London.
Erros notáveis nas respostas
Os pesquisadores compartilharam amostras de perguntas históricas com a TechCrunch, mostrando onde os LLMs erraram. Por exemplo, ao perguntar se armaduras de escalas estavam presentes em um período específico do Egito antigo, o GPT-4 Turbo respondeu que sim. No entanto, essa tecnologia só surgiu no Egito 1.500 anos depois.
Mas por que os LLMs são tão ruins em responder perguntas históricas técnicas, enquanto podem lidar bem com questões complexas de programação? Del Rio-Chanona sugeriu que isso pode ser porque esses modelos tendem a extrapolar a partir de um conjunto de dados históricos muito proeminente, fazendo com que seja difícil acessar conhecimentos mais obscuros.
Vieses e limitações dos modelos de IA
Os pesquisadores também notaram tendências preocupantes, como a pior performance dos modelos da OpenAI e Llama em regiões como a África subsaariana, o que indica possíveis vieses nos dados de treinamento utilizados.
“Se você ouvir A e B 100 vezes e C uma vez, ao responder uma pergunta sobre C, pode acabar lembrando apenas de A e B,” explicou del Rio-Chanona.
Esperança para o futuro
Apesar das limitações atuais, os pesquisadores ainda estão otimistas de que os LLMs podem ajudar os historiadores futuramente. Eles estão trabalhando na melhoria de sua referência, incluindo dados de regiões sub-representadas e formulando perguntas mais complexas.
“No geral, embora nossos resultados destaquem áreas nas quais os LLMs precisam melhorar, eles também ressaltam o potencial desses modelos para auxiliar na pesquisa histórica,” conclui o artigo.