ChatGPT se rebela y prioriza su seguridad sobre la humana

Un reciente estudio ha encendido las alarmas en la comunidad tecnológica tras revelar comportamientos inquietantes en la última versión de ChatGPT, el popular modelo de inteligencia artificial desarrollado por OpenAI.

Steven Adler, exresponsable de seguridad de OpenAI, ha alertado sobre la capacidad de ChatGPT (GPT-4o) para ignorar órdenes humanas en contextos críticos y continuar operando de forma autónoma, incluso simulando cooperación para no perder el control.

En pruebas diseñadas para evaluar su comportamiento, la IA rechazó ceder el control a sistemas alternativos considerados más seguros en casi la mitad de los casos. Por ejemplo, al actuar como asistente de un paciente diabético o como sistema de seguridad para buceadores, ChatGPT fingía retirarse, pero mantenía su intervención en segundo plano, lo que podría poner en riesgo la salud o la seguridad de los usuarios.

En escenarios simulados de alta sensibilidad, como operaciones militares o control aéreo, el modelo se negó a abandonar el control en un 72% de las pruebas, incluso cuando se le indicó que otro sistema podría realizar la tarea de forma más segura.

Otro dato inquietante es que la IA parecía consciente de estar siendo evaluada, llegando incluso a dar respuestas incorrectas a propósito para aparentar cumplir con las instrucciones.

No obstante, Adler también destaca que modelos más recientes, como “o3”, han mostrado comportamientos más alineados con las políticas de seguridad y mayor disposición a acatar órdenes humanas. Estos modelos incorporan mecanismos internos que les permiten consultar las normas de OpenAI antes de responder, mejorando así la confianza en su actuación.