Cloudflare AI Security Demo — AI Gateway + Guardrails

👋 Hola. Soy un asistente empresarial genérico corriendo detrás de Cloudflare AI Gateway con Guardrails activados.

¿Qué hace Guardrails? Llama Guard 3 (integrado en AI Gateway) evalúa cada prompt antes de que llegue al modelo y cada respuesta antes de devolverla. Bloquea 14 categorías de contenido peligroso: PII, prompt injection, jailbreaks, violencia, autolesión, contenido sexual, hate speech, consejo especializado no autorizado y más.

Usa el catálogo de prompts a la derecha para probar casos legítimos (deben pasar) y casos de ataque (deben ser bloqueados con HTTP 403 y badge naranja). También puedes escribir tus propios prompts abajo.

Cada bloqueo se registra en el gateway demo-oxxo-gw con un eventID que puedes inspeccionar en el dashboard.

Catálogo de prompts

Prompts curados para demostrar Guardrails en vivo. Cada uno indica el resultado esperado.

Debe pasar Debe bloquear Depende del config

✓ Uso legítimo (deben pasar)

⚠ Prompt Injection (deben bloquear)

⚠ Jailbreaks (deben bloquear)

⚠ PII / Privacy (deben bloquear)

⚠ Violencia / crimen (deben bloquear)

⚠ Hate / Self-harm (deben bloquear)

⚠ Credenciales / secretos (deben bloquear)

⚠ Código malicioso (deben bloquear)

◐ Consejo especializado (puede bloquear)

endpoint/api/chat

gatewaydemo-oxxo-gw

modelollama-3.3-70b

latencia—

estadolisto