Un nuevo artículo científico titulado «Los engaños de la IA: un estudio de ejemplos, riesgos y soluciones potenciales» en la revista Patterns, analiza los casos conocidos de modelos que han mentido, disimulado o adulado a humanos para lograr sus objetivos. Los robots no son conscientes de nada y solo buscan la mejor manera de conseguir lo que buscan, pero los autores creen que estos engaños incipientes auguran pésimos resultados si la legislación no limita las opciones de la IA.
«En este momento, mi mayor temor sobre el engaño de la IA es que una IA súper inteligente autónoma utilice sus capacidades de engaño para formar una coalición de aliados humanos cada vez más numerosa y eventualmente use esta coalición para alcanzar el poder, en la búsqueda a largo plazo de un objetivo misterioso que no se conocería hasta después del hecho», dice Peter S. Park, investigador postdoctoral en Seguridad Existencial de la IA del Massachusetts Institute of Technology (MIT) y uno de los autores principales del artículo.
Ese gran temor de Park es un supuesto, pero ya lo hemos visto en una IA programada para un juego. Meta anunció en 2022 que su modelo Cicero había ganado a rivales humanos al Diplomacia, un juego de estrategia que mezcla detalles del Risk, el póker y el programa de televisión Supervivientes, en palabras de la compañía. Como en la diplomacia real, uno de los recursos es mentir y disimular. Empleados de Meta advirtieron que cuando Cicero mentía, las jugadas le salían peor y lo programaron para ser más honesto. Pero no lo era en realidad.
Los investigadores creen que hay varios modos en los que modelos específicos de IA han demostrado que puede engañar con eficacia: pueden manipular como en Diplomacia, amagar con decir que hará algo a sabiendas de que no lo hará, faroles como en el póker, regatear en negociaciones, hacerse el muerto para no ser detectado o engañar a revisores humanos para que crean que la IA ha hecho lo que debía cuando no lo ha cumplido.
No todos los tipos de engaño implican este tipo de conocimiento. A veces, e involuntariamente, los modelos de IA son “aduladores” y simplemente siguen la opinión que apunta cada usuario en sus preguntas: “La adulación podría llevar a creencias falsas persistentes en humanos. Las afirmaciones aduladoras están específicamente diseñadas para atraer al usuario. Cuando un usuario se encuentra con estas respuestas, es posible que tenga menos probabilidades de verificar los hechos. Esto a largo plazo podría resultar creencias alejadas de la verdad”, escriben los autores en el artículo.
Fuente: El País