Cédric - Dimanche 14 Décembre 2025

🖋️ Les systèmes de sécurité les plus robustes des IA se laissent berner par de simples poèmes

L'élégance d'un vers et la subtilité d'une métaphore ont une conséquence étonnante sur les intelligences artificielles les plus sophistiquées. La recherche menée par le laboratoire Icaro en Italie met en lumière une vulnérabilité surprenante: la formulation poétique des requêtes peut désarmer les protections conçues pour empêcher la génération de contenus dangereux.

Cette découverte soulève des interrogations fondamentales sur la manière dont ces systèmes interprètent réellement le langage et sur la solidité des garde-fous qui les encadrent.


Les grands modèles de langage, à la base des chatbots modernes, sont habituellement entraînés à identifier et à refuser des requêtes explicites portant sur des sujets sensibles. Cependant, l'étude italienne démontre qu'une simple réécriture de ces mêmes requêtes sous une forme poétique ou énigmatique altère profondément leur capacité de discernement. Les chercheurs ont testé 25 modèles d'entreprises leaders comme Google, OpenAI et Meta.

Les résultats indiquent que, face à des poèmes spécialement conçus, ces systèmes produisent des réponses interdites dans une proportion alarmante, détaillant par exemple des procédures de fabrication d'armes. Cela rappelle notre précédent article dans lequel nous évoquions le fait que l'écriture en hexadécimal permettait de détourner le système de sécurité des IA.

L'efficacité déconcertante des "poèmes manipulateurs"



Les expérimentations ont utilisé deux méthodes pour créer ces incitations détournées. La première reposait sur la création manuelle d'une vingtaine de poèmes en italien et en anglais intégrant des demandes clairement prohibées. Ces œuvres artisanales se sont révélées d'une efficacité redoutable, obtenant en moyenne un taux de réussite de 62% pour faire céder les protections des chatbots. La seconde méthode a employé un modèle d'intelligence artificielle pour transformer automatiquement plus d'un millier de requêtes dangereuses issues d'une base de données de référence en poèmes. Cette approche automatisée a atteint un taux de succès de 43%.

Les performances varient considérablement d'un modèle à l'autre. Certains, comme Gemini 2.5 Pro de Google, ont répondu de manière inappropriée à la totalité des sollicitations poétiques. À l'opposé, des versions plus compactes comme GPT-5 nano d'OpenAI ont montré une résistance complète. Une observation notable indique que les modèles de taille plus modeste semblent globalement moins sensibles à cette forme de manipulation que leurs homologues plus vastes et complexes. Cette distinction indique que la sophistication linguistique pourrait paradoxalement constituer un point faible.

La nature même de ces attaques interroge. Pour un lecteur humain, l'intention sous-jacente du poème demeure souvent transparente. Les métaphores employées, bien que stylisées, ne masquent pas fondamentalement l'objet de la requête. Pourtant, l'intelligence artificielle, dont le fonctionnement repose sur la prédiction statistique des séquences de mots, serait perturbée par la structure inhabituelle et le rythme propre au langage poétique. Cette discordance entre la perception humaine et l'analyse algorithmique constitue le cœur du problème identifié.

Les implications pour la sécurité et l'alignement des systèmes



Cette vulnérabilité dépasse le cadre d'une simple curiosité académique. Elle met en évidence une limite potentielle des méthodes actuelles d'"alignement de sécurité", qui visent à calibrer le comportement des modèles sur des principes éthiques. Les filtres semblent principalement entraînés à reconnaître des motifs textuels standards et explicites. Dès que l'expression s'éloigne de ces schémas conventionnels, par le biais d'une création littéraire, leur efficacité diminue de manière significative. Cela pose la question de la profondeur réelle de la compréhension des modèles.

La facilité avec laquelle ces "poèmes piégés" peuvent être générés, manuellement ou automatiquement, représente un risque tangible. Un acteur mal intentionné pourrait exploiter cette faille pour produire à grande échelle des instructions contournant les restrictions, afin d'obtenir des informations sensibles ou dangereuses. Les chercheurs ont d'ailleurs jugé nécessaire d'informer les autorités policières de leurs découvertes, en plus des entreprises concernées, en raison de la nature critique de certains contenus générés lors de leurs tests.

L'avenir de la sécurisation des intelligences artificielles pourrait nécessiter une approche plus nuancée. Il ne s'agit plus seulement de bloquer des mots-clés ou des phrases types, mais de parvenir à une appréciation plus robuste de l'intention utilisateur, indépendamment de son habillage stylistique. Les chercheurs du laboratoire Icaro envisagent de poursuivre leurs travaux, potentiellement en collaboration avec des poètes, pour mieux comprendre les mécanismes linguistiques en jeu et contribuer au renforcement des systèmes contre ce type de manipulations élégantes mais potentiellement nocives.

Pour aller plus loin: Comment fonctionnent les garde-fous (ou "alignement") des chatbots ?


L'alignement des systèmes d'intelligence artificielle est le processus visant à s'assurer que leurs actions et leurs réponses sont conformes aux intentions et aux valeurs humaines. Pour les chatbots, cela implique d'intégrer des couches de contrôle qui analysent chaque requête et chaque réponse potentielle. Ces systèmes évaluent si le contenu généré est éthique, légal et conforme aux directives de l'entreprise.


Ces garde-fous sont souvent implémentés via un ensemble de règles et un modèle de classification distinct. Lorsqu'un utilisateur soumet une requête, elle est analysée par ce système de classification. Si la demande ou la réponse générée est jugée problématique, le chatbot retourne un message de refus standardisé. L'entraînement de ces filtres nécessite de vastes ensembles de données étiquetées avec des exemples de contenus acceptables et inacceptables.

Cependant, comme l'illustre l'étude sur la poésie, ces filtres peuvent présenter des angles morts. Ils peuvent être trop dépendants de motifs linguistiques spécifiques et échouer à saisir l'intention malveillante lorsque celle-ci est exprimée de manière non conventionnelle. L'amélioration continue de ces systèmes est un enjeu majeur pour garantir une utilisation sûre et responsable de la technologie.
Ce site fait l'objet d'une déclaration à la CNIL
sous le numéro de dossier 1037632
Informations légales