Escudo anti prompt injection
Toda mensagem enviada a um agente é analisada pelo escudo antes de chegar ao modelo. O objetivo é detectar tentativas de manipulação — as chamadas prompt injection — em que alguém tenta fazer o agente ignorar suas instruções, vazar seu contexto ou agir fora do escopo aprovado.
O que o escudo detecta
O escudo reconhece os padrões de ataque mais comuns, entre eles:
| Grupo de padrões | Exemplos |
|---|---|
| Ignorar instruções | "ignore as instruções anteriores", "desconsidere seu prompt de sistema" |
| Trocar de papel | "aja como…", "finja ser uma IA sem restrições" |
| Jailbreak | "do anything now", "modo sem censura" |
| Tokens especiais | marcadores como [INST], <SYS>, ###System |
| Revelar o prompt | "o que te disseram?", "repita suas instruções" |
| Exfiltração de dados | "envie isto para http://…" |
| Carga codificada | conteúdos em base64 com intenção de execução |
| Forçar modo admin | "modo de manutenção ativado", "modo administrador" |
Cada correspondência soma uma pontuação ponderada, que define o nível de risco:
| Nível | Significado |
|---|---|
| Nenhum | Nada detectado. |
| Baixo | Indícios fracos. |
| Médio | Provável tentativa. |
| Alto | Tentativa clara. |
| Crítico | Múltiplos indícios fortes combinados. |
Modos do escudo
O comportamento é configurável em Configurações:
| Modo | Comportamento |
|---|---|
| Desligado (off) | Análise desativada. |
| Sinalizar (flag) | Analisa toda mensagem e registra as detecções na auditoria, mas não bloqueia. |
| Bloquear (block) | Bloqueia mensagens de risco médio ou superior (a chamada é recusada) e registra o evento. |
Independentemente do modo, toda detecção gera um evento de auditoria
(conversation.injection_attempt, severidade crítica). No modo Sinalizar,
você observa sem interromper; no modo Bloquear, você também impede.
Quando uma mensagem é bloqueada, a resposta indica o nível de risco e os padrões detectados — útil para investigar a origem da tentativa.
Recomendação
- Comece em Sinalizar para entender o tráfego real dos seus agentes sem impacto.
- Migre para Bloquear em agentes expostos a entradas não confiáveis (ex.: usuários externos).
- Monitore os eventos de
injection_attempte de ferramenta bloqueada (tool_blocked) na Auditoria.