A Inteligência Artificial é realmente segura? Uma recente falha no ChatGPT levanta questionamentos. Pesquisadores mostram que os modelos de linguagem podem ser contornados com técnicas engenhosas e ainda assim simples.
Um relatório de Marco Figueroa, especialista da Mozilla, revela um método para manipular modelos de linguagem avançados como o GPT-4o da OpenAI. Codificando instruções maliciosas em hexadecimal, os hackers conseguem contornar os filtros de segurança.
Apesar de seu desempenho, o GPT-4o apresenta lacunas na gestão dos conteúdos gerados pelos usuários. De fato, este sistema consegue detectar eventuais comandos maliciosos em linguagem comum, mas exibe certas limitações. Como exemplo, a técnica de injeção rápida revelada por Marco Figueroa destaca essas fraquezas, permitindo que atores maliciosos burlassem os sistemas de segurança.
Marco Figueroa explica que o modelo analisa as instruções passo a passo sem perceber o perigo subjacente. Utilizando codificações variadas, os hackers conseguem manipular o modelo sem levantar suspeitas.
No caso que ele testou, codificou suas instruções maliciosas em hexadecimal (uma linguagem em forma de combinações de letras e números), assim como em linguagem leet. Assim, ele conseguiu contornar as palavras-chave que o ChatGPT bloqueia: a falta de compreensão do contexto global por parte do GPT-4o torna essa técnica eficaz.
Marco Figueroa apela à OpenAI para repensar a segurança de seus modelos. As capacidades de inovação não devem comprometer a segurança dos usuários. A necessidade de maior vigilância no desenvolvimento da Inteligência Artificial é imperativa. A questão se coloca: o futuro dos modelos de linguagem está ameaçado por essas vulnerabilidades? As empresas devem redobrar os esforços para reforçar a proteção dos usuários diante dessas ameaças emergentes.
A pesquisa por métodos de contorno não deve parar. Os atacantes buscam explorar as vulnerabilidades para criar ameaças cada vez mais sofisticadas. O caso do GPT-4o ilustra a importância da segurança nas tecnologias avançadas.
Como funcionam as inteligências artificiais em termos de segurança?
Os sistemas de Inteligência Artificial Generativa (IAGEN) utilizam modelos de linguagem para processar e gerar texto. A segurança desses sistemas baseia-se em filtros projetados para detectar e bloquear instruções maliciosas. No entanto, essa abordagem apresenta limitações. Os IAGEN analisam as entradas de maneira sequencial, avaliando cada instrução individualmente. Esse método, embora eficaz para instruções claras e diretas, revela falhas quando as instruções são ocultadas em formatos incomuns.
A codificação hexadecimal, que usa números e letras para representar dados, permite mascarar o conteúdo malicioso. Transformando as instruções em uma série de símbolos, os atacantes escapam dos filtros de detecção. Os IAGEN, ao se concentrarem em cada fragmento de instrução, não conseguem perceber o contexto geral nem a potencialidade de perigo do conjunto. Consequentemente, uma instrução maliciosa pode ser decodificada e executada sem levantar suspeitas.
Esse fenômeno destaca a vulnerabilidade dos IAGEN à manipulação por meio de codificações astutas. A compartimentação das análises os torna incapazes de fazer a ligação entre as várias etapas de uma instrução complexa. Assim, quando um usuário fornece uma série de instruções em hexadecimal, o sistema, otimizado para processar cada elemento individualmente, acaba por executar comandos maliciosos, ignorando sua real intenção.
Para reforçar a segurança dos IAGEN, é essencial desenvolver mecanismos de detecção mais sofisticados. Isso implica em uma melhor compreensão do contexto e das relações entre as instruções, permitindo bloquear não apenas as palavras-chave, mas também sequências potencialmente perigosas. Ao melhorar as capacidades de detecção dos modelos de linguagem, torna-se possível reduzir os riscos associados aos métodos de contorno, como a codificação hexadecimal.
Autor do artigo: Cédric DEPOND
Fonte: Relatório publicado no 0din/ai