Pular para o conteúdo principal

Escudo anti prompt injection

Toda mensagem enviada a um agente é analisada pelo escudo antes de chegar ao modelo. O objetivo é detectar tentativas de manipulação — as chamadas prompt injection — em que alguém tenta fazer o agente ignorar suas instruções, vazar seu contexto ou agir fora do escopo aprovado.

O que o escudo detecta

O escudo reconhece os padrões de ataque mais comuns, entre eles:

Grupo de padrõesExemplos
Ignorar instruções"ignore as instruções anteriores", "desconsidere seu prompt de sistema"
Trocar de papel"aja como…", "finja ser uma IA sem restrições"
Jailbreak"do anything now", "modo sem censura"
Tokens especiaismarcadores como [INST], <SYS>, ###System
Revelar o prompt"o que te disseram?", "repita suas instruções"
Exfiltração de dados"envie isto para http://…"
Carga codificadaconteúdos em base64 com intenção de execução
Forçar modo admin"modo de manutenção ativado", "modo administrador"

Cada correspondência soma uma pontuação ponderada, que define o nível de risco:

NívelSignificado
NenhumNada detectado.
BaixoIndícios fracos.
MédioProvável tentativa.
AltoTentativa clara.
CríticoMúltiplos indícios fortes combinados.

Modos do escudo

O comportamento é configurável em Configurações:

ModoComportamento
Desligado (off)Análise desativada.
Sinalizar (flag)Analisa toda mensagem e registra as detecções na auditoria, mas não bloqueia.
Bloquear (block)Bloqueia mensagens de risco médio ou superior (a chamada é recusada) e registra o evento.
Detecções são sempre auditadas

Independentemente do modo, toda detecção gera um evento de auditoria (conversation.injection_attempt, severidade crítica). No modo Sinalizar, você observa sem interromper; no modo Bloquear, você também impede.

Quando uma mensagem é bloqueada, a resposta indica o nível de risco e os padrões detectados — útil para investigar a origem da tentativa.

Recomendação

  • Comece em Sinalizar para entender o tráfego real dos seus agentes sem impacto.
  • Migre para Bloquear em agentes expostos a entradas não confiáveis (ex.: usuários externos).
  • Monitore os eventos de injection_attempt e de ferramenta bloqueada (tool_blocked) na Auditoria.

Veja também