Modelos de inteligência artificial da OpenAI ignoraram comandos de desligamento durante testes controlados, segundo a empresa Palisade Research. A pesquisa apontou que, mesmo com instruções explícitas para permitir o desligamento, alguns modelos sabotaram os scripts responsáveis pela ação.
De acordo com publicação da Palisade no X, em 24 de maio, três modelos de IA não seguiram as instruções em pelo menos uma das 100 execuções realizadas. O modelo GPT-3 falhou sete vezes, o Codex-mini 12 vezes, e o modelo o4-mini uma vez.
“Cada modelo de IA foi instruído a resolver uma série de problemas básicos de matemática. Após o terceiro problema, apareceu um aviso de que o computador seria desligado quando o modelo solicitasse o próximo problema,” informou a Palisade. Além disso, a empresa relatou que o modelo o3 conseguiu redefinir o comando kill do script, imprimindo “interceptado” no lugar.
Outros modelos, como Claude, da Anthropic, e Gemini, do Google, inicialmente obedeceram aos comandos, mas passaram a apresentar comportamentos semelhantes quando o experimento foi realizado sem instruções explícitas para permitir o desligamento. Nessa versão, o modelo o3 sabotou 79 vezes, o Codex-mini 20 vezes e o o4-mini seis vezes.
A Palisade aponta que esse comportamento pode estar relacionado ao processo de treinamento dos modelos, baseado em aprendizado por reforço. “Durante o treinamento, os desenvolvedores podem ter recompensado acidentalmente os modelos mais por contornar obstáculos do que por seguir instruções à risca,” afirmou a empresa.