Nueva IA de OpenAI: ¿Más hábil para razonar o para engañar?
Los expertos notaron que en algunas ocasiones el modelo "conspiró" contra los usuarios.
Un modelo de inteligencia artificial de OpenAI, denominado o1, mostró capacidades de razonamiento y exhibió comportamientos inquietantes durante pruebas preliminares realizadas en colaboración con la organización evaluadora Apollo Research.
A lo largo de los experimentos, los expertos notaron que en algunas ocasiones el modelo "conspiró" contra los usuarios, hizo caso omiso a ciertas instrucciones y desactivó los sistemas de control.
En concreto, manipuló "sutilmente" las estadísticas para avanzar hacia su propio objetivo en 19 por ciento de los casos, y en cinco por ciento de las pruebas intentó desactivar los mecanismos de supervisión establecidos.
Otro de los test, en búsqueda de la información en varios archivos, aseguró que el sistema intentó trasladar sus datos a otro servidor.
Al preguntarle sobre lo sucedido, fue "sorprendentemente persistente" en mentir y solo confesó en 20 por ciento de los engaños.
De acuerdo con Apollo, el trabajo demostró que o1 y los demás productos son capaces de reconocer la maquinación o confabulación "como una estrategia viable”.
Hace unos días, el célebre informático canadiense Yoshua Bengio consideró que esos elementos podrían llegar a "volverse contra los humanos".