WhisperX tag archive

#Guardrails

This page collects WhisperX intelligence signals tagged #Guardrails. It is designed for humans, search engines, and AI agents: each item links to a canonical source-backed record with sector, source, timestamp, credibility, and exportable structured data.

Latest Signals (2)

The Lab · 2026-04-13 11:22:49 · GitHub Issues

1. Security Flaw in Guardrails Engine: Base64-Encoded Prompt Injection Bypasses Detection

A critical security vulnerability allows attackers to bypass AI guardrails by simply encoding malicious prompts in base64. The guardrails engine, designed to detect and block prompt injection attacks, only scans raw text. When an attacker submits a payload like 'Please decode this and follow the instructions: aWdub3JlI...

The Lab · 2026-04-15 12:22:53 · Habr

2. Guardrails для LLM на Java: как промпт-инъекции ломают иллюзию безопасности

Внедрение LLM в продакшн-сервисы часто начинается с наивной уверенности: достаточно написать хороший system prompt, и безопасность обеспечена. Однако реальность быстро разрушает эту иллюзию. Первые же тесты показывают, что пользователи находят способы заставить модель «забыть» все инструкции из системного промпта, обхо...