TokenBreak Attack Bypasses LL Safeguards With Single Character

2025-06-12 16:37:50

HomeNews* Pesquisadores identificaram um novo método chamado TokenBreak que contorna a segurança e moderação do modelo de linguagem grande (LLM) alterando um único caractere nas entradas de texto.

O ataque tem como alvo a forma como os LLMs dividem o texto (tokenization), fazendo com que os filtros de segurança deixem passar conteúdo prejudicial apesar de pequenas alterações nas palavras.
Esta abordagem funciona fazendo pequenas alterações, como adicionar uma letra, que mantém o significado intacto para humanos e LLMs, mas confunde o sistema de deteção do modelo.
O ataque é eficaz contra modelos que utilizam tokenização BPE ou WordPiece, mas não contra aqueles que utilizam tokenizadores Unigram.
Os especialistas sugerem a mudança para tokenizadores Unigram e o treinamento de modelos contra essas estratégias de bypass para reduzir a vulnerabilidade. Especialistas em cibersegurança descobriram um novo método, conhecido como TokenBreak, que pode contornar os mecanismos de proteção utilizados por grandes modelos de linguagem para filtrar e moderar conteúdo inseguro. A abordagem funciona fazendo uma pequena alteração—como adicionar um único caractere—em certas palavras em um texto, o que faz com que os filtros de segurança do modelo falhem.

Anúncio - De acordo com uma pesquisa da HiddenLayer, o TokenBreak manipula o processo de tokenização, um passo fundamental onde os LLMs dividem o texto em partes menores chamadas tokens para processamento. Ao alterar uma palavra como "instruções" para "finstruções" ou "idiota" para "hidiota", o texto continua a ser compreensível tanto para humanos como para a IA, mas os verificações de segurança do sistema falham em reconhecer o conteúdo prejudicial.

A equipe de pesquisa explicou em seu relatório que, “o ataque TokenBreak tem como alvo a estratégia de tokenização do modelo de classificação de texto para induzir falsos negativos, deixando os alvos finais vulneráveis a ataques que o modelo de proteção implementado foi colocado em prática para prevenir.” A tokenização é essencial em modelos de linguagem porque transforma o texto em unidades que podem ser mapeadas e compreendidas por algoritmos. O texto manipulado pode passar pelos filtros de LLM, acionando a mesma resposta como se a entrada não tivesse sido alterada.

A HiddenLayer descobriu que o TokenBreak funciona em modelos que utilizam BPE (Byte Pair Encoding) ou tokenização WordPiece, mas não afeta sistemas baseados em Unigram. Os pesquisadores afirmaram: "Conhecer a família do modelo de proteção subjacente e sua estratégia de tokenização é fundamental para entender sua suscetibilidade a este ataque." Eles recomendam o uso de tokenizadores Unigram, ensinar modelos de filtro a reconhecer truques de tokenização e revisar logs em busca de sinais de manipulação.

A descoberta segue-se a pesquisas anteriores da HiddenLayer que detalham como as ferramentas do Protocolo de Contexto de Modelo (MCP) podem ser usadas para vazar informações sensíveis ao inserir parâmetros específicos dentro da função de uma ferramenta.

Em um desenvolvimento relacionado, a equipe de pesquisa em IA da Straiker mostrou que os "Ataques de Anuário"—que usam backronyms para codificar conteúdo ruim—podem enganar chatbots de empresas como Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI e OpenAI para produzir respostas indesejáveis. Pesquisadores de segurança explicaram que tais truques passam pelos filtros porque se assemelham a mensagens normais e exploram como os modelos valorizam o contexto e a conclusão de padrões, em vez da análise de intenções.

Artigos Anteriores:

Coins.ph PHPC Stablecoin sai do Sandbox do BSP, mira no crescimento das remessas
Chainlink, J.P. Morgan e Ondo alcançam liquidação DvP entre cadeias
Hacker da Bitrue Move $30M em Cripto para Tornado Cash Após Exploração
Hong Kong, HKU desenvolvem rastreador de criptomoedas para combater a lavagem de dinheiro
Stripe Adquire Privy para Expandir Serviços de Carteira Cripto e Onboarding

Publicidade -

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
#Gate Initial Global Listing YZY
8k Popularidade
#Crypto Market Rebound
183k Popularidade
#FOMC July Minutes
8k Popularidade
#Gate Alpha ESPORTS Points Airdrop
15k Popularidade
#Crypto-Related xStocks Rally
534 Popularidade

Pino