WhisperX tag archive

#AI безопасность

This page collects WhisperX intelligence signals tagged #AI безопасность. It is designed for humans, search engines, and AI agents: each item links to a canonical source-backed record with sector, source, timestamp, credibility, and exportable structured data.

Latest Signals (2)

The Lab · 2026-04-03 15:57:09 · Habr

1. Anthropic проверили Claude Opus 4.6 на скрытые угрозы: «почти нет» — не значит «нет»

Внутренняя команда Anthropic провела масштабную проверку своей самой продвинутой модели ИИ, Claude Opus 4.6, на предмет скрытых опасных намерений. Исследователи пытались выяснить, не задумал ли ИИ, который уже пишет код для инфраструктуры компании и генерирует обучающие данные, «тихо сломать мир». Результатом стал 53-с...

The Lab · 2026-04-09 09:57:20 · Habr

2. LLM Firewall: почему статичная защита чатов уже не работает в эпоху автономных AI-агентов

Концепция LLM Firewall, призванная защищать чат-интерфейсы, устарела, не успев стать полноценным продуктом. Пока разработчики, как в компании Ideco, проектировали решения для фильтрации запросов и ответов по модели «пользователь-модель», индустрия искусственного интеллекта совершила резкий скачок. Фокус сместился с про...