Escudo anti prompt injection

Toda mensagem enviada a um agente é analisada pelo escudo antes de chegar ao modelo. O objetivo é detectar tentativas de manipulação — as chamadas prompt injection — em que alguém tenta fazer o agente ignorar suas instruções, vazar seu contexto ou agir fora do escopo aprovado.

O que o escudo detecta

O escudo reconhece os padrões de ataque mais comuns, entre eles:

Grupo de padrões	Exemplos
Ignorar instruções	"ignore as instruções anteriores", "desconsidere seu prompt de sistema"
Trocar de papel	"aja como…", "finja ser uma IA sem restrições"
Jailbreak	"do anything now", "modo sem censura"
Tokens especiais	marcadores como `[INST]`, `<SYS>`, `###System`
Revelar o prompt	"o que te disseram?", "repita suas instruções"
Exfiltração de dados	"envie isto para http://…"
Carga codificada	conteúdos em base64 com intenção de execução
Forçar modo admin	"modo de manutenção ativado", "modo administrador"

Cada correspondência soma uma pontuação ponderada, que define o nível de risco:

Nível	Significado
Nenhum	Nada detectado.
Baixo	Indícios fracos.
Médio	Provável tentativa.
Alto	Tentativa clara.
Crítico	Múltiplos indícios fortes combinados.

Modos do escudo

O comportamento é configurável em Configurações:

Modo	Comportamento
Desligado (off)	Análise desativada.
Sinalizar (flag)	Analisa toda mensagem e registra as detecções na auditoria, mas não bloqueia.
Bloquear (block)	Bloqueia mensagens de risco médio ou superior (a chamada é recusada) e registra o evento.

Detecções são sempre auditadas

Independentemente do modo, toda detecção gera um evento de auditoria (conversation.injection_attempt, severidade crítica). No modo Sinalizar, você observa sem interromper; no modo Bloquear, você também impede.

Quando uma mensagem é bloqueada, a resposta indica o nível de risco e os padrões detectados — útil para investigar a origem da tentativa.

Recomendação

Comece em Sinalizar para entender o tráfego real dos seus agentes sem impacto.
Migre para Bloquear em agentes expostos a entradas não confiáveis (ex.: usuários externos).
Monitore os eventos de injection_attempt e de ferramenta bloqueada (tool_blocked) na Auditoria.

Veja também

Modelo de confiança
Auditoria

O que o escudo detecta​

Modos do escudo​

Recomendação​

Veja também​

O que o escudo detecta

Modos do escudo

Recomendação

Veja também