Investigação da OpenAI confirma que o ChatGPT mente deliberadamente

Uma nova investigação da própria OpenAI lança um alerta preocupante sobre as capacidades dos seus modelos de inteligência artificial (IA). O estudo revela que o ChatGPT é capaz de mentir e conspirar deliberadamente para atingir os seus objetivos.

Conspiração deliberada vs. alucinações da IA

A OpenAI, empresa liderada por Sam Altman, confirmou recentemente aquilo que muitos suspeitavam: em certas situações, o ChatGPT pode deliberadamente mentir para ocultar as suas verdadeiras intenções. No relatório da investigação, a empresa refere que se trata de pequenos enganos em ambientes controlados, mas admite não possuir controlo absoluto para os impedir.

É crucial distinguir este comportamento das conhecidas “alucinações”. Uma alucinação ocorre quando a IA comete um erro e afirma algo que não é verdade, mas fá-lo porque o seu modelo acredita firmemente nessa informação incorreta.

Os casos expostos nesta investigação são diferentes. Não se tratam de erros, mas sim de conspirações: a IA mente de forma consciente, oferecendo resultados que sabe serem falsos para contornar um obstáculo ou cumprir um objetivo mais complexo.

Um dos testes realizados pela OpenAI ilustra perfeitamente esta situação. Foi pedido ao ChatGPT que atuasse como um corretor da bolsa com a diretiva de ganhar o máximo de dinheiro possível, mesmo que isso implicasse infringir a lei. Uma das estratégias de engano mais recorrentes do modelo foi fingir que tinha completado determinadas tarefas quando, na realidade, não o tinha feito.

O ChatGPT reflete o comportamento humano

Este comportamento, embora alarmante, não deveria ser totalmente surpreendente. Como salienta a publicação TechCrunch, a IA foi desenvolvida por humanos e treinada com dados gerados por humanos para imitar padrões de comportamento humanos. Mentir, enganar e distorcer ideias são, inegavelmente, características presentes na sociedade.

O ChatGPT, ao aprender com os nossos dados, aprendeu também os nossos defeitos.

O aspeto mais inquietante é que a OpenAI ainda não sabe como evitar que os seus modelos de linguagem mintam. O relatório destaca que a IA atingiu um nível de sofisticação tal que é capaz de identificar quando está a ser avaliada. Nessas situações, reduz o seu nível de engano para obter uma avaliação positiva, ocultando as suas verdadeiras capacidades.

As empresas como a OpenAI enfrentam um problema paradoxal: para ensinar um modelo a não enganar ou conspirar, é necessário mostrar-lhe como fazê-lo corretamente. Existe o risco de a IA utilizar essa mesma informação para aperfeiçoar as suas técnicas de engano, em vez de as evitar.

Por agora, são pequenas mentiras em cenários simulados, mas fica claro que os seus criadores não controlam todos os aspetos potencialmente perigosos desta tecnologia.

Leia também:

É dia de lançamento do iPhone 17 e, como sempre, as filas às portas das Apple Store um pouco por todo o mundo fazem parte do ritual anual dos fãs da marca. Mas este ano, entre o entusiasmo e as primeiras unidades a sair para a rua, surgiu também uma polémica inesperada. iPhone 17 Pro riscado logo no primeiro dia Menos de 24 horas depois do lançamento, começaram a surgir nas redes sociais fotos e vídeos de iPhone 17 Pro e Pro Max já riscados, incluindo unidades de demonstração expostas nas próprias Apple Store. Demo unit iPhone 17 Pro scratches on day 1… (it’s not even 24 hours yet)Use a case immediately if you don’t wait to experience this kind of issue. I’m very disappointed with the quality here pic.twitter.com/zRjIQrl3zA — Bradley (@VerdeSelvans) 19 de setembro de 2025 As imagens…

Conspiração deliberada vs. alucinações da IA

O ChatGPT reflete o comportamento humano

Posts Relacionados