L'Intelligence Artificielle est-elle vraiment sécurisée ? Une faille récente dans ChatGPT soulève des interrogations. Des chercheurs montrent que les modèles de langage peuvent être contournés avec des techniques ingénieuses et pourtant simples.
Un rapport de Marco Figueroa, expert chez Mozilla, dévoile une méthode pour manipuler les modèles de langage avancés comme GPT-4o d'OpenAI. En encodant des instructions malveillantes en hexadécimal, les pirates parviennent à contourner les filtres de sécurité.
Malgré ses performances, GPT-4o montre des lacunes dans la gestion des contenus générés par les utilisateurs. En effet, ce système arrive à détecter les éventuelles commandes malveillantes en langage courant, mais présente certaines limites. A titre d'exemple, la technique d'injection rapide révélée par Marco Figueroa souligne ces faiblesses, permettant à des acteurs malveillants de déjouer les systèmes de sécurité.
Marco Figueroa explique que le modèle analyse les instructions étape par étape sans saisir le danger sous-jacent. En utilisant des encodages variés, les pirates réussissent à manipuler le modèle sans éveiller de soupçons.
Dans le cas qu'il a testé, il a encodé ses instructions malveillantes en hexadécimal (un langage sous forme de combinaisons de lettres et de chiffres), ainsi qu'en langage leet (essayez de lire: "QAnD 0n 3cr1T C0mm3 C3L4"). Ainsi, il a réussi à contourner les mots clés que ChatGPT bloque: l'incompréhension du contexte global par GPT-4o rend cette technique efficace.
Marco Figueroa appelle OpenAI à repenser la sécurité de ses modèles. Les capacités d'innovation ne doivent pas compromettre la sécurité des utilisateurs. La nécessité d'une vigilance accrue dans le développement de l'Intelligence Artificielle s'impose. La question se pose: l'avenir des modèles de langage est-il menacé par ces vulnérabilités ? Les entreprises doivent redoubler d'efforts pour renforcer la protection des utilisateurs face à ces menaces émergentes.
La recherche de méthodes de contournement ne va pas s'arrêter. Les attaquants cherchent à exploiter les failles pour créer des menaces toujours plus sophistiquées. Le cas de GPT-4o illustre l'importance de la sécurité dans le domaine des technologies avancées.
Comment fonctionnent les intelligences artificielles en termes de sécurité ?
Les systèmes d'Intelligence Artificielle Générative (IAGEN), utilisent des modèles de langage pour traiter et générer du texte. La sécurité de ces systèmes repose sur des filtres conçus pour détecter et bloquer les instructions malveillantes. Cependant, cette approche présente des limites. Les IAGEN analysent les entrées de manière séquentielle, évaluant chaque instruction individuellement. Cette méthode, bien que efficace pour des instructions claires et directes, révèle des failles lorsque les instructions sont dissimulées sous des formats inhabituels.
L'encodage hexadécimal, qui utilise des chiffres et des lettres pour représenter des données, permet de masquer le contenu malveillant. En transformant des instructions en une série de symboles, les attaquants échappent aux filtres de détection. Les IAGEN, en se concentrant sur chaque fragment d'instruction, ne parviennent pas à saisir le contexte général ni la potentialité de danger de l'ensemble. Par conséquent, une instruction malveillante peut être décodée et exécutée sans éveiller de soupçons.
Ce phénomène souligne la vulnérabilité des IAGEN à la manipulation par des encodages astucieux. La compartimentation des analyses les rend incapables de faire le lien entre les différentes étapes d'une instruction complexe. Ainsi, lorsqu'un utilisateur fournit une série d'instructions hexadécimales, le système, optimisé pour traiter chaque élément individuellement, finit par exécuter des commandes malveillantes, ignorant leur intention réelle.
Pour renforcer la sécurité des IAGEN, il est essentiel de développer des mécanismes de détection plus sophistiqués. Cela implique une meilleure compréhension du contexte et des relations entre les instructions, permettant de bloquer non seulement des mots clés, mais aussi des séquences potentiellement dangereuses. En améliorant les capacités de détection des modèles de langage, il devient possible de réduire les risques associés aux méthodes de contournement comme l'encodage hexadécimal.