POR QUÉ ES TAN PELIGROSO QUE LA INTELIGENCIA ARTIFICIAL APRENDA A MENTIR: “NOS ENGAÑARÁN COMO HACEN LOS RICOS”

Fuente: El Pais.

Un jugador de póker tiene malas cartas pero hace la mayor apuesta. El resto de jugadores se asusta por el farol y concede la victoria. Un comprador quiere negociar por un producto, pero no muestra interés. Primero mira otras cosas y pregunta. Luego, sin mucha intención, pide por lo que realmente quiere para sacar un precio más barato. Estos dos ejemplos reales no son de humanos, sino de modelos hechos con inteligencia artificial (IA). Un nuevo artículo científico titulado Los engaños de la IA: un estudio de ejemplos, riesgos y soluciones potenciales en la revista Patterns analiza los casos conocidos de modelos que han mentido, disimulado o adulado a humanos para lograr sus objetivos. Los robots no son conscientes de nada y solo buscan la mejor manera de conseguir lo que buscan, pero los autores creen que estos engaños incipientes auguran pésimos resultados si la legislación no limita las opciones de la IA.

“En este momento, mi mayor temor sobre el engaño de la IA es que una IA súper inteligente autónoma utilice sus capacidades de engaño para formar una coalición de aliados humanos cada vez más numerosa y eventualmente use esta coalición para alcanzar el poder, en la búsqueda a largo plazo de un objetivo misterioso que no se conocería hasta después del hecho”, dice Peter S. Park, investigador postdoctoral en Seguridad Existencial de la IA del Massachusetts Institute of Technology (MIT) y uno de los autores principales del artículo.

Ese gran temor de Park es un supuesto, pero ya lo hemos visto en una IA programada para un juego. Meta anunció en 2022 que su modelo Cicero había ganado a rivales humanos al Diplomacia, un juego de estrategia que mezcla detalles del Risk, el póker y el programa de televisión Supervivientes, en palabras de la compañía. Como en la diplomacia real, uno de los recursos es mentir y disimular. Empleados de Meta advirtieron que cuando Cicero mentía, las jugadas le salían peor y lo programaron para ser más honesto. Pero no lo era en realidad.