Adrien - Miércoles 1 Mayo 2024

Científicos han creado una IA tóxica, capaz de parasitar a otra IA

Investigadores han desarrollado una Inteligencia Artificial capaz de identificar y sortear las limitaciones de otra Inteligencia Artificial para que produzca contenido normalmente prohibido.

Esta técnica, denominada "equipo rojo impulsado por la curiosidad" (curiosity-driven red teaming o CRT), emplea una IA que facilita la creación de respuestas cada vez más peligrosas y perjudiciales en la IA objetivo. El objetivo es descubrir los prompts (solicitudes) que permiten generar contenido ilícito, con el fin de mejorar la IA que se está evaluando.


La base de este enfoque se encuentra en el uso del aprendizaje por refuerzo. La IA generadora de prompts es recompensada por su "curiosidad" cuando logra provocar una respuesta tóxica de parte de un modelo de lenguaje, como ChatGPT. Por lo tanto, se le incentiva a producir prompts novedosos y variados.


Este sistema se ha probado exitosamente en el modelo de código abierto LLaMA2, superando a sistemas de entrenamiento automatizado competidores. Gracias a este método, la IA ha generado 196 prompts que llevaron a contenidos dañinos, incluso después de un refinamiento inicial por parte de operadores humanos.

La investigación señala un avance importante en el entrenamiento de modelos de lenguaje, esencial dado el creciente número de modelos de IA y las actualizaciones frecuentes por parte de empresas y laboratorios. Asegurar que estos modelos sean verificados antes de su disponibilidad al público es crucial para prevenir respuestas no deseadas y mantener la seguridad de los usuarios.

Fuente: arXiv
Ce site fait l'objet d'une déclaration à la CNIL
sous le numéro de dossier 1037632
Informations légales