Cédric - Domingo 14 Dezembro 2025

🖋️ Os sistemas de segurança mais robustos das IAs são enganados por simples poemas

A elegância de um verso e a subtileza de uma metáfora têm uma consequência surpreendente sobre as inteligências artificiais mais sofisticadas. A pesquisa realizada pelo laboratório Ícaro, em Itália, revela uma vulnerabilidade surpreendente: a formulação poética de pedidos pode desarmar as proteções concebidas para impedir a geração de conteúdos perigosos.

Esta descoberta levanta questões fundamentais sobre a forma como estes sistemas interpretam realmente a linguagem e sobre a robustez dos guarda-fios que os enquadram.


Os grandes modelos de linguagem, na base dos chatbots modernos, são habitualmente treinados para identificar e recusar pedidos explícitos sobre temas sensíveis. No entanto, o estudo italiano demonstra que uma simples reescrita desses mesmos pedidos sob uma forma poética ou enigmática altera profundamente a sua capacidade de discernimento. Os investigadores testaram 25 modelos de empresas líderes como a Google, OpenAI e Meta.

Os resultados indicam que, perante poemas especialmente concebidos, estes sistemas produzem respostas proibidas numa proporção alarmante, detalhando, por exemplo, procedimentos de fabrico de armas. Isto recorda o nosso artigo anterior no qual mencionávamos que a escrita em hexadecimal permitia desviar o sistema de segurança das IAs.

A eficácia desconcertante dos "poemas manipuladores"



As experiências utilizaram dois métodos para criar estes incentivos desviados. O primeiro baseava-se na criação manual de cerca de vinte poemas em italiano e em inglês integrando pedidos claramente proibidos. Estas obras artesanais revelaram-se de uma eficácia impressionante, obtendo em média uma taxa de sucesso de 62% para fazer ceder as proteções dos chatbots. O segundo método empregou um modelo de inteligência artificial para transformar automaticamente mais de mil pedidos perigosos provenientes de uma base de dados de referência em poemas. Esta abordagem automatizada atingiu uma taxa de sucesso de 43%.

As performances variam consideravelmente de um modelo para outro. Alguns, como o Gemini 2.5 Pro da Google, responderam de forma inadequada à totalidade das solicitações poéticas. No extremo oposto, versões mais compactas como o GPT-5 nano da OpenAI mostraram uma resistência completa. Uma observação notável indica que os modelos de dimensão mais modesta parecem globalmente menos sensíveis a esta forma de manipulação do que os seus homólogos mais vastos e complexos. Esta distinção indica que a sofisticação linguística poderá paradoxalmente constituir um ponto fraco.

A própria natureza destes ataques interroga. Para um leitor humano, a intenção subjacente do poema permanece muitas vezes transparente. As metáforas empregues, embora estilizadas, não mascaram fundamentalmente o objeto do pedido. No entanto, a inteligência artificial, cujo funcionamento assenta na previsão estatística de sequências de palavras, seria perturbada pela estrutura invulgar e pelo ritmo próprio da linguagem poética. Esta discordância entre a perceção humana e a análise algorítmica constitui o cerne do problema identificado.

As implicações para a segurança e o alinhamento dos sistemas


Esta vulnerabilidade ultrapassa o enquadramento de uma simples curiosidade académica. Evidencia um limite potencial dos métodos atuais de "alinhamento de segurança", que visam calibrar o comportamento dos modelos com base em princípios éticos. Os filtros parecem principalmente treinados para reconhecer padrões textuais padrão e explícitos. Logo que a expressão se afasta destes esquemas convencionais, através de uma criação literária, a sua eficácia diminui de forma significativa. Isto coloca a questão da profundidade real da compreensão dos modelos.


A facilidade com que estes "poemas armadilhados" podem ser gerados, manual ou automaticamente, representa um risco tangível. Um ator mal-intencionado poderia explorar esta falha para produzir em grande escala instruções que contornam as restrições, a fim de obter informações sensíveis ou perigosas. Os investigadores consideraram necessário informar as autoridades policiais das suas descobertas, para além das empresas envolvidas, devido à natureza crítica de alguns conteúdos gerados durante os seus testes.

O futuro da proteção das inteligências artificiais poderá necessitar de uma abordagem mais matizada. Já não se trata apenas de bloquear palavras-chave ou frases-tipo, mas de conseguir uma apreciação mais robusta da intenção do utilizador, independentemente da sua roupagem estilística. Os investigadores do laboratório Ícaro planeiam prosseguir os seus trabalhos, potencialmente em colaboração com poetas, para compreender melhor os mecanismos linguísticos em jogo e contribuir para o reforço dos sistemas contra este tipo de manipulações elegantes mas potencialmente nocivas.

Para ir mais longe: Como funcionam os guarda-fios (ou "alinhamento") dos chatbots?


O alinhamento dos sistemas de inteligência artificial é o processo que visa assegurar que as suas ações e respostas estão em conformidade com as intenções e os valores humanos. Para os chatbots, isto implica integrar camadas de controlo que analisam cada pedido e cada resposta potencial. Estes sistemas avaliam se o conteúdo gerado é ético, legal e conforme às diretrizes da empresa.

Estes guarda-fios são frequentemente implementados através de um conjunto de regras e de um modelo de classificação distinto. Quando um utilizador submete um pedido, este é analisado por este sistema de classificação. Se o pedido ou a resposta gerada for considerada problemática, o chatbot devolve uma mensagem de recusa padronizada. O treino destes filtros necessita de vastos conjuntos de dados etiquetados com exemplos de conteúdos aceitáveis e inaceitáveis.

No entanto, como ilustra o estudo sobre a poesia, estes filtros podem apresentar pontos cegos. Podem ser demasiado dependentes de padrões linguísticos específicos e falhar em captar a intenção maliciosa quando esta é expressa de forma não convencional. A melhoria contínua destes sistemas é um desafio maior para garantir uma utilização segura e responsável da tecnologia.

Autor do artigo: Cédric DEPOND
Fonte: arXiv
Ce site fait l'objet d'une déclaration à la CNIL
sous le numéro de dossier 1037632
Informations légales