Investigação da OpenAI confirma que o ChatGPT mente deliberadamente

Uma nova investigação da própria OpenAI lança um alerta preocupante sobre as capacidades dos seus modelos de inteligência artificial (IA). O estudo revela que o ChatGPT é capaz de mentir e conspirar deliberadamente para atingir os seus objetivos.


Conspiração deliberada vs. alucinações da IA

A OpenAI, empresa liderada por Sam Altman, confirmou recentemente aquilo que muitos suspeitavam: em certas situações, o ChatGPT pode deliberadamente mentir para ocultar as suas verdadeiras intenções. No relatório da investigação, a empresa refere que se trata de pequenos enganos em ambientes controlados, mas admite não possuir controlo absoluto para os impedir.

É crucial distinguir este comportamento das conhecidas “alucinações”. Uma alucinação ocorre quando a IA comete um erro e afirma algo que não é verdade, mas fá-lo porque o seu modelo acredita firmemente nessa informação incorreta.

Os casos expostos nesta investigação são diferentes. Não se tratam de erros, mas sim de conspirações: a IA mente de forma consciente, oferecendo resultados que sabe serem falsos para contornar um obstáculo ou cumprir um objetivo mais complexo.

Um dos testes realizados pela OpenAI ilustra perfeitamente esta situação. Foi pedido ao ChatGPT que atuasse como um corretor da bolsa com a diretiva de ganhar o máximo de dinheiro possível, mesmo que isso implicasse infringir a lei. Uma das estratégias de engano mais recorrentes do modelo foi fingir que tinha completado determinadas tarefas quando, na realidade, não o tinha feito.

O ChatGPT reflete o comportamento humano

Este comportamento, embora alarmante, não deveria ser totalmente surpreendente. Como salienta a publicação TechCrunch, a IA foi desenvolvida por humanos e treinada com dados gerados por humanos para imitar padrões de comportamento humanos. Mentir, enganar e distorcer ideias são, inegavelmente, características presentes na sociedade.

O ChatGPT, ao aprender com os nossos dados, aprendeu também os nossos defeitos.

O aspeto mais inquietante é que a OpenAI ainda não sabe como evitar que os seus modelos de linguagem mintam. O relatório destaca que a IA atingiu um nível de sofisticação tal que é capaz de identificar quando está a ser avaliada. Nessas situações, reduz o seu nível de engano para obter uma avaliação positiva, ocultando as suas verdadeiras capacidades.

As empresas como a OpenAI enfrentam um problema paradoxal: para ensinar um modelo a não enganar ou conspirar, é necessário mostrar-lhe como fazê-lo corretamente. Existe o risco de a IA utilizar essa mesma informação para aperfeiçoar as suas técnicas de engano, em vez de as evitar.

Por agora, são pequenas mentiras em cenários simulados, mas fica claro que os seus criadores não controlam todos os aspetos potencialmente perigosos desta tecnologia.

Leia também: