Cédric - Quarta-feira 20 Novembro 2024

Este especialista revela um método simples para contornar o sistema de segurança das IAs, incluindo o ChatGPT 🔓

A Inteligência Artificial é realmente segura? Uma recente falha no ChatGPT levanta questionamentos. Pesquisadores mostram que os modelos de linguagem podem ser contornados com técnicas engenhosas e ainda assim simples.

Um relatório de Marco Figueroa, especialista da Mozilla, revela um método para manipular modelos de linguagem avançados como o GPT-4o da OpenAI. Codificando instruções maliciosas em hexadecimal, os hackers conseguem contornar os filtros de segurança.


Apesar de seu desempenho, o GPT-4o apresenta lacunas na gestão dos conteúdos gerados pelos usuários. De fato, este sistema consegue detectar eventuais comandos maliciosos em linguagem comum, mas exibe certas limitações. Como exemplo, a técnica de injeção rápida revelada por Marco Figueroa destaca essas fraquezas, permitindo que atores maliciosos burlassem os sistemas de segurança.


Marco Figueroa explica que o modelo analisa as instruções passo a passo sem perceber o perigo subjacente. Utilizando codificações variadas, os hackers conseguem manipular o modelo sem levantar suspeitas.

No caso que ele testou, codificou suas instruções maliciosas em hexadecimal (uma linguagem em forma de combinações de letras e números), assim como em linguagem leet. Assim, ele conseguiu contornar as palavras-chave que o ChatGPT bloqueia: a falta de compreensão do contexto global por parte do GPT-4o torna essa técnica eficaz.

Marco Figueroa apela à OpenAI para repensar a segurança de seus modelos. As capacidades de inovação não devem comprometer a segurança dos usuários. A necessidade de maior vigilância no desenvolvimento da Inteligência Artificial é imperativa. A questão se coloca: o futuro dos modelos de linguagem está ameaçado por essas vulnerabilidades? As empresas devem redobrar os esforços para reforçar a proteção dos usuários diante dessas ameaças emergentes.

A pesquisa por métodos de contorno não deve parar. Os atacantes buscam explorar as vulnerabilidades para criar ameaças cada vez mais sofisticadas. O caso do GPT-4o ilustra a importância da segurança nas tecnologias avançadas.

Como funcionam as inteligências artificiais em termos de segurança?


Os sistemas de Inteligência Artificial Generativa (IAGEN) utilizam modelos de linguagem para processar e gerar texto. A segurança desses sistemas baseia-se em filtros projetados para detectar e bloquear instruções maliciosas. No entanto, essa abordagem apresenta limitações. Os IAGEN analisam as entradas de maneira sequencial, avaliando cada instrução individualmente. Esse método, embora eficaz para instruções claras e diretas, revela falhas quando as instruções são ocultadas em formatos incomuns.

A codificação hexadecimal, que usa números e letras para representar dados, permite mascarar o conteúdo malicioso. Transformando as instruções em uma série de símbolos, os atacantes escapam dos filtros de detecção. Os IAGEN, ao se concentrarem em cada fragmento de instrução, não conseguem perceber o contexto geral nem a potencialidade de perigo do conjunto. Consequentemente, uma instrução maliciosa pode ser decodificada e executada sem levantar suspeitas.


Esse fenômeno destaca a vulnerabilidade dos IAGEN à manipulação por meio de codificações astutas. A compartimentação das análises os torna incapazes de fazer a ligação entre as várias etapas de uma instrução complexa. Assim, quando um usuário fornece uma série de instruções em hexadecimal, o sistema, otimizado para processar cada elemento individualmente, acaba por executar comandos maliciosos, ignorando sua real intenção.

Para reforçar a segurança dos IAGEN, é essencial desenvolver mecanismos de detecção mais sofisticados. Isso implica em uma melhor compreensão do contexto e das relações entre as instruções, permitindo bloquear não apenas as palavras-chave, mas também sequências potencialmente perigosas. Ao melhorar as capacidades de detecção dos modelos de linguagem, torna-se possível reduzir os riscos associados aos métodos de contorno, como a codificação hexadecimal.

Autor do artigo: Cédric DEPOND
Fonte: Relatório publicado no 0din/ai
Ce site fait l'objet d'une déclaration à la CNIL
sous le numéro de dossier 1037632
Informations légales