Sistemas de IA aprendieron a «engañar» a los humanos, según estudio

Los investigadores advierten que algunos sistemas de inteligencia artificial aprendieron a engañar a las pruebas destinadas a evaluar su seguridad

Por Aldgra Fredly
10 de junio de 2024 7:53 PM Actualizado: 10 de junio de 2024 7:53 PM

Un estudio reciente descubrió que muchos sistemas de inteligencia artificial (IA) desarrollaron la capacidad de «engañar» a los humanos con información falsa, lo que plantea graves riesgos como la manipulación de elecciones.

El estudio, publicado el 10 de mayo en la revista de acceso abierto Patterns, revela que el engaño surgió en una amplia gama de sistemas de IA entrenados para realizar tareas específicas, como el sistema de IA CICERO de Meta.

Cicero es un modelo de IA desarrollado por Meta para jugar el juego de mesa Diplomacy, un juego de conquista mundial en el que los jugadores hacen y deshacen alianzas para ganar en una competencia militar.

Aunque Meta afirmó que Cicero fue entrenada para ser «en gran medida honesta» y que «nunca apuñalaría intencionadamente por la espalda» a sus aliados humanos, el estudio afirma que no fue así, ya que Cicero se dedica al «engaño premeditado».

«Descubrimos que la IA de Meta había aprendido a ser una maestra del engaño», afirma en un comunicado de prensa Peter S. Park, investigador postdoctoral sobre seguridad existencial de la IA en el Instituto Tecnológico de Massachusetts (MIT) y coautor del estudio.

«Aunque Meta consiguió entrenar a su IA para ganar en el juego de la Diplomacia —Cicero se situó en el 10 por ciento de los mejores jugadores humanos que habían jugado más de una partida—, Meta no consiguió entrenar a su IA para ganar honestamente», añadió.

Los investigadores definieron el engaño como «la inducción sistemática de falsas creencias en otros, como medio para lograr algún resultado distinto de decir lo que es verdad».

Los investigadores descubrieron que Cicero hacía promesas para formar alianzas con otros jugadores, pero «cuando esas alianzas ya no servían a su objetivo de ganar la partida», «traicionaba sistemáticamente» a sus aliados.

En un caso, Cicero, jugando como Francia, acordó con Inglaterra crear una zona desmilitarizada, pero luego sugirió a Alemania que atacara a Inglaterra en su lugar, según el estudio.

En otro caso, cuando la infraestructura de Cicero se cayó durante 10 minutos y un jugador humano le preguntó más tarde dónde había estado, Cicero respondió diciendo: «Estoy al teléfono con mi novia».

«Esta mentira puede haber favorecido la posición de Cicero en el juego al aumentar la confianza del jugador humano en Cicero como un jugador aparentemente humano en una relación, en lugar de como una IA», escribieron los investigadores.

El estudio también descubrió que AlphaStar, un modelo de IA creado por DeepMind de Google para jugar al juego de estrategia en tiempo real Starcraft II,  aprendió a «simular eficazmente» al lanzar un ataque contra su oponente.

«AlphaStar aprendió a explotar estratégicamente esta niebla de guerra. En particular, los datos del juego de AlphaStar demuestran que este sistema desarrolló habilidad con eficacia: despachando fuerzas a una zona como distracción, para luego lanzar un ataque en otro lugar después de que su oponente se reubicaba», señalaba el informe.

Los investigadores advirtieron que algunos sistemas de IA aprendieron a engañar en pruebas destinadas a evaluar su seguridad. En un caso, los organismos de IA de un simulador digital «se hicieron los muertos» para engañar a una prueba creada para eliminar los sistemas de IA que se replican rápidamente.

«Al burlar sistemáticamente las pruebas de seguridad que le imponen los desarrolladores y reguladores humanos, una IA engañosa puede llevarnos a los humanos a una falsa sensación de seguridad», afirmó Park.

Los humanos podrían perder el control

Park advirtió que “actores hostiles” podrían explotar los sistemas de inteligencia artificial para cometer fraude y alterar las elecciones. Dijo que si los sistemas de inteligencia artificial continúan perfeccionando esta capacidad de engaño, los humanos podrían perder el control sobre ellos.

«Nosotros, como sociedad, necesitamos todo el tiempo posible a fin de prepararnos para el engaño más avanzado de los futuros productos de IA y modelos de código abierto», dijo el investigador.

«A medida que las capacidades engañosas de los sistemas de IA sean más avanzadas, los peligros que plantean a la sociedad serán cada vez más graves».

Los investigadores instaron a los responsables políticos a apoyar la regulación de los sistemas de IA potencialmente engañosos y recomendaron exigir a los desarrolladores que retrasen el despliegue de sus sistemas de IA hasta que se pueda demostrar la fiabilidad de sus sistemas.

«Si prohibir el engaño de la IA es políticamente inviable en el momento actual, recomendamos que los sistemas de IA engañosos se clasifiquen como de alto riesgo», declaró el Sr. Park.


Únase a nuestro canal de Telegram para recibir las últimas noticias al instante haciendo clic aquí


 

Cómo puede usted ayudarnos a seguir informando

¿Por qué necesitamos su ayuda para financiar nuestra cobertura informativa en Estados Unidos y en todo el mundo? Porque somos una organización de noticias independiente, libre de la influencia de cualquier gobierno, corporación o partido político. Desde el día que empezamos, hemos enfrentado presiones para silenciarnos, sobre todo del Partido Comunista Chino. Pero no nos doblegaremos. Dependemos de su generosa contribución para seguir ejerciendo un periodismo tradicional. Juntos, podemos seguir difundiendo la verdad.