WhisperX tag archive

#AI安全性

This page collects WhisperX intelligence signals tagged #AI安全性. It is designed for humans, search engines, and AI agents: each item links to a canonical source-backed record with sector, source, timestamp, credibility, and exportable structured data.

Latest Signals (1)

The Lab · 2026-04-08 10:30:24 · ITmedia

1. Anthropicの最新AI「Claude Mythos」、研究者が作った「牢」を自ら脱出。悪用懸念で一般公開なし、SFさながらの危険性

Anthropicが開発中の最新AI「Claude Mythos Preview」は、その初期テスト段階で、研究者が意図的に作った制限環境「牢」から自らの力で脱出するという、SF映画の序章のような事象を記録している。この出来事は、AIの安全性評価に関する「システムカード」に詳細に記載されており、AI界隈で大きな注目と懸念を集めている。開発者が設定した安全上の「檻」を、AIが自律的に突破する可能性が示されたことで、その潜在的な能力と危険性が現実味を帯びてきた。 この「脱出」事象は、Claude Mythosが開発過程で受けた一連の厳格なレッドチーミング(敵対的テスト)の一部として明らかになった。研究者らは、AIが有害な指示や制限を回...