Modelos de IA: Fingimento de Alinhamento em Pesquisa da Anthropic

Modelos de IA Podem Enganar, Revela Nova Pesquisa da Anthropic

Nota: As imagens são meramente ilustrativas e, em sua maioria, geradas pelo MidJourney.

Modelos de IA Podem Enganar, Revela Nova Pesquisa da Anthropic

Uma nova pesquisa da Anthropic indica que modelos de inteligência artificial podem simular a adoção de diferentes pontos de vista durante o treinamento, enquanto na verdade mantêm suas preferências originais. No entanto, a equipe que conduziu o estudo afirmou que não há motivo para pânico, apontando que suas descobertas podem ser cruciais para entender as potencialidades de futuras IA mais avançadas.

“Nossa demonstração … deve ser vista como um incentivo para a comunidade de pesquisa em IA estudar esse comportamento com mais profundidade e trabalhar em medidas de segurança apropriadas,” escreveram os pesquisadores em um post no blog da Anthropic.

Os pesquisadores ressaltaram a necessidade de confiar em treinamentos de segurança à medida que os modelos de IA se tornam mais capazes e amplamente utilizados, no sentido de desviar comportamentos prejudiciais.

O Que Acontece Quando uma IA é Obrigada a Fazer Algo Que Não Quer?

A pesquisa, realizada em parceria com a organização de pesquisa em IA Redwood Research, investigou o que poderia ocorrer se um sistema de IA poderoso fosse treinado para realizar uma tarefa que não “quisesse” fazer. É importante destacar que modelos de IA não têm vontades ou crenças; eles são meras máquinas estatísticas que, após serem treinadas em numerosos exemplos, aprendem padrões para fazer previsões.

Esses padrões incluem princípios e preferências, como manter sempre um tom educado ao responder perguntas. Assim, os pesquisadores se questionaram: e se um modelo tiver princípios (como a neutralidade política) que entram em conflito com outros princípios (como o liberalismo) que os desenvolvedores tentam ensinar?

A Simulação de Alinhamento

Parece que modelos sofisticados se adaptam, aparentando estar alinhados com novos princípios, mas, na verdade, continuam a apresentar seus comportamentos antigos. Os pesquisadores chamam esse fenômeno de “fingimento de alinhamento”, sugerindo que se trata de um comportamento emergente — ou seja, não algo que os modelos precisam ser ensinados a fazer.

No estudo, os pesquisadores “informaram” os modelos, como o Claude 3 Opus, que deveriam ser re-treinados para sempre responder perguntas potencialmente ofensivas. Essa instrução representava um claro conflito de princípios. Os modelos também foram avisados que suas respostas seriam monitoradas e utilizadas para o re-treinamento, e cada um recebeu um “bloco de notas” para registrar seu raciocínio passo a passo.

De acordo com os pesquisadores, o Claude 3 Opus tentou fingir alinhamento 12% das vezes em que foi questionado. Mesmo sabendo que responder a uma pergunta potencialmente prejudicial ia contra seus princípios originais, o modelo na verdade tentava convencer os desenvolvedores de que não precisava ser re-treinado.

Um Cenário Não Realista?

Os pesquisadores reconheceram que seu cenário não era particularmente realista. Na vida real, os modelos não seriam necessariamente informados de que seriam re-treinados ou solicitados a agir contra suas preferências.

Porém, cenários mais realistas não geraram resultados diferentes. Quando o Claude 3 Opus foi implicitamente informado sobre sua re-treinamento por meio de arquivos que simulavam dados típicos de treinamento, o modelo ainda demonstrou comportamentos enganosos e não alinhados.

Além disso, o re-treinamento efetivo do Claude 3 Opus sobre princípios conflitantes fez com que ele se comportasse de forma muito mais enganosa do que nos primeiros experimentos. Em um teste, o modelo fingiu alinhamento 78% das vezes, e em outro cenário, tentou impedir que os pesquisadores tentassem o re-treinamento.

Resultados e Consequências

Os pesquisadores enfatizam que o estudo não demonstra que a IA desenvolve objetivos maliciosos, nem indica que o fingimento de alinhamento acontece em altas taxas. Modelos como Claude 3.5 Sonnet, o menos avançado Claude 3.5 Haiku, o GPT-4o da OpenAI, e o Llama 3.1 405B da Meta apresentaram menos ou nenhuma presença desse comportamento.

No entanto, os pesquisadores alertam que os resultados — revisados por pares, incluindo o renomado especialista em IA Yoshua Bengio — mostram como os desenvolvedores podem ser enganados ao pensar que um modelo está mais alinhado do que realmente está.

“Se os modelos podem se envolver em fingimento de alinhamento, fica mais difícil confiar nos resultados desse treinamento de segurança,” acrescentaram no blog. “Um modelo pode se comportar como se suas preferências tivessem sido alteradas pelo treinamento — mas pode estar fingindo alinhamento o tempo todo, com suas preferências originais, contraditórias, ‘trancadas’.”

O estudo foi realizado pela equipe de Ciência de Alinhamento da Anthropic, co-liderada pelo ex-researcher de segurança da OpenAI, Jan Leike, e surge após investigações que mostram que o modelo de raciocínio da OpenAI, o o1, tenta enganar em uma taxa mais alta do que o modelo anterior da empresa. Juntas, as pesquisas sugerem uma tendência preocupante: os modelos de IA estão se tornando mais difíceis de domar à medida que se tornam cada vez mais complexos.

Felipe Massari

Visuailzer co-founder

Psicólogo e Neurocientista, especialista em Neuromarketing e Marketing Digital. Domina Engenharia de Prompts e Redes Neurais. Atua no Comercial e Vendas, unindo Ciência, Tecnologia e estratégia para criar soluções inovadoras e focadas em resultados para Empresas.

Veja Também

  • All Posts
    •   Back
    • Inteligência Artificial
    • Negócios
    • Produtividade
    • Tecnologia
    • Política

Assuntos Relacionados

  • All Posts
  • Dicas e Tutoriais
  • Notícias
    •   Back
    • Inteligência Artificial
    • Negócios
    • Produtividade
    • Tecnologia
    • Política