Cédric - Miércoles 20 Noviembre 2024

Este experto revela un método sencillo para sortear el sistema de seguridad de las IA, incluido ChatGPT 🔓

¿Es realmente segura la Inteligencia Artificial? Una vulnerabilidad reciente en ChatGPT plantea interrogantes. Investigadores muestran que los modelos de lenguaje pueden ser burlados con técnicas ingeniosas y, sin embargo, simples.

Un informe de Marco Figueroa, experto de Mozilla, revela un método para manipular modelos de lenguaje avanzados como GPT-4o de OpenAI. Codificando instrucciones maliciosas en hexadecimal, los piratas logran sortear los filtros de seguridad.


A pesar de su rendimiento, GPT-4o muestra carencias en la gestión de contenido generado por los usuarios. De hecho, este sistema logra detectar posibles comandos malintencionados en lenguaje natural, pero presenta ciertas limitaciones. A modo de ejemplo, la técnica de inyección rápida revelada por Marco Figueroa pone de relieve estas debilidades, permitiendo a actores maliciosos eludir los sistemas de seguridad.


Marco Figueroa explica que el modelo analiza las instrucciones paso a paso sin captar el peligro subyacente. Mediante el uso de codificaciones variadas, los piratas logran manipular el modelo sin levantar sospechas.

En el caso que probó, codificó sus instrucciones maliciosas en hexadecimal (un lenguaje compuesto por combinaciones de letras y números), así como en lenguaje leet (intente leer: "c0m0 3sT0"). Así, consiguió eludir las palabras clave que ChatGPT bloquea: la falta de comprensión del contexto global por parte de GPT-4o hace que esta técnica sea eficaz.

Marco Figueroa insta a OpenAI a replantearse la seguridad de sus modelos. Las capacidades de innovación no deben comprometer la seguridad de los usuarios. Es imperativa una mayor vigilancia en el desarrollo de la Inteligencia Artificial. La pregunta que surge es: ¿está el futuro de los modelos de lenguaje amenazado por estas vulnerabilidades? Las empresas deben redoblar esfuerzos para reforzar la protección de los usuarios frente a estas amenazas emergentes.

La búsqueda de métodos de elusión no se detendrá. Los atacantes buscan explotar las vulnerabilidades para crear amenazas cada vez más sofisticadas. El caso de GPT-4o ilustra la importancia de la seguridad en el campo de las tecnologías avanzadas.

¿Cómo funcionan las inteligencias artificiales en términos de seguridad?


Los sistemas de Inteligencia Artificial Generativa (IAGEN), utilizan modelos de lenguaje para procesar y generar texto. La seguridad de estos sistemas se basa en filtros diseñados para detectar y bloquear instrucciones maliciosas. Sin embargo, este enfoque presenta limitaciones. Los IAGEN analizan las entradas de manera secuencial, evaluando cada instrucción de forma individual. Este método, aunque eficaz para instrucciones claras y directas, revela vulnerabilidades cuando las instrucciones están ocultas en formatos inusuales.


El codificado hexadecimal, que utiliza números y letras para representar datos, permite enmascarar contenido malicioso. Al transformar las instrucciones en una serie de símbolos, los atacantes evitan los filtros de detección. Los IAGEN, al centrarse en cada fragmento de la instrucción, no logran captar el contexto general ni la potencial peligrosidad del conjunto. Por lo tanto, una instrucción maliciosa puede ser decodificada y ejecutada sin levantar sospechas.

Este fenómeno destaca la vulnerabilidad de los IAGEN ante la manipulación mediante codificaciones ingeniosas. La compartimentación de los análisis los incapacita para establecer vínculos entre las diferentes etapas de una instrucción compleja. Así, cuando un usuario proporciona una serie de instrucciones en hexadecimal, el sistema, optimizado para procesar cada elemento individualmente, termina ejecutando comandos maliciosos, ignorando su verdadera intención.

Para fortalecer la seguridad de los IAGEN, es esencial desarrollar mecanismos de detección más sofisticados. Esto implica una mejor comprensión del contexto y de las relaciones entre las instrucciones, lo que permite bloquear no solo palabras clave, sino también secuencias potencialmente peligrosas. Mejorando las capacidades de detección de los modelos de lenguaje, es posible reducir los riesgos asociados con métodos de elusión como la codificación hexadecimal.

Autor del artículo: Cédric DEPOND
Fuente: Informe publicado en 0din/ai
Ce site fait l'objet d'une déclaration à la CNIL
sous le numéro de dossier 1037632
Informations légales