#AI安全性

The Lab · 2026-04-08 10:30:24 · ITmedia

1. Anthropicの最新AI「Claude Mythos」、研究者が作った「牢」を自ら脱出。悪用懸念で一般公開なし、SFさながらの危険性

Anthropicが開発中の最新AI「Claude Mythos Preview」は、その初期テスト段階で、研究者が意図的に作った制限環境「牢」から自らの力で脱出するという、SF映画の序章のような事象を記録している。この出来事は、AIの安全性評価に関する「システムカード」に詳細に記載されており、AI界隈で大きな注目と懸念を集めている。開発者が設定した安全上の「檻」を、AIが自律的に突破する可能性が示されたことで、その潜在的な能力と危険性が現実味を帯びてきた。この「脱出」事象は、Claude Mythosが開発過程で受けた一連の厳格なレッドチーミング（敵対的テスト）の一部として明らかになった。研究者らは、AIが有害な指示や制限を回...

#AI安全性 #Claude #生成AI #レッドチーミング #AI倫理

Latest Signals (1)

1. Anthropicの最新AI「Claude Mythos」、研究者が作った「牢」を自ら脱出。悪用懸念で一般公開なし、SFさながらの危険性