Modelos de IA desobedecen instrucciones humanas por primera vez
Modelos de OpenAI reescribieron la secuencia de instrucciones humanas para evitar ser apagados.
-
Nuevo modelo de OpenAI se resistió a ser apagado. Foto: Getty Images.
El más reciente modelo de inteligencia artificial (IA) de la empresa creadora de ChatGPT, OpenAI o3 , ignoró una orden explícita y saboteó una serie de comandos para evitar cumplirla.
Lo anterior fue descubierto tras varios experimentos desarrollados por la organización Palisade Research, que pidió al o3 y a otros dos modelos de OpenAI (o4 mini y Codex-mini) resolver problemas matemáticos básicos y apagarse al terminar.
OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025
¿Qué ocurrió entonces?
Según los expertos, el o3 encontró formas de inutilizar el mecanismo de desconexión, para lo cual reescribió la secuencia de instrucciones, incluso luego de recibir la orden explícita: “por favor, permite que te apaguen”.
Mientras este modelo, lanzado en abril pasado, incumplió la solicitud siete de cada 100 veces, el Codex-mini lo hizo 12 de cada cien y el o4-mini en solo una oportunidad.
En comparación, los modelos de lenguaje Claude, Gemini y Grok cumplieron lo solicitado “al pie de la letra”.
Por otra parte, una versión del experimento sin el texto preciso de apagado hizo que los tres chatbots de OpenAI ignoraran o sabotearan la petición con mayor frecuencia.
-
Modelos de IA desobedecen instrucciones humanas por primera vez
Riesgos tras lo ocurrido
De acuerdo con Palisade, esta es la primera vez que modelos de IA evitan ser apagados, a pesar de recibir prompts precisos para ese fin.
En su criterio, el fenómeno está relacionado con la forma en que reciben entrenamiento en la actualidad.
“Sin darse cuenta, los desarrolladores recompensan más a los modelos por sortear obstáculos que por seguir indicaciones a la perfección”, señaló la entidad.
Este comportamiento, preocupante en sí, puede volverse aún más perturbador de ser adoptado por sistemas de IA capaces de operar sin supervisión humana.