WhisperX tag archive

#AI평가

This page collects WhisperX intelligence signals tagged #AI평가. It is designed for humans, search engines, and AI agents: each item links to a canonical source-backed record with sector, source, timestamp, credibility, and exportable structured data.

Latest Signals (2)

The Lab · 2026-04-14 00:03:12 · Digital Today

1. KAIST, AI의 '시간 인식 오류' 자동 진단 기술 개발…LLM의 현실 이해력 평가 혁신

KAIST 연구팀이 거대언어모델(LLM)이 시간과 변화하는 현실 정보를 얼마나 정확히 이해하는지 자동으로 평가하는 시스템을 개발했다. 이는 AI가 시시각각 변하는 세상의 정보를 정확히 추론하는 능력, 즉 '시간 추론' 능력을 평가하는 기존 방식의 한계를 뛰어넘는 기술적 돌파구로 주목받고 있다. 기존 평가는 단순 정답 일치 여부만 확인하거나 복잡한 시간적 관계를 충분히 반영하지 못해 AI의 실제 현실 이해력을 제대로 진단하기 어려웠다. 황의종 KAIST 전기및전자공학부 교수 연구팀은 마이크로소프트연구소와의 공동 연구를 통해 '시간 데이터베이스(Temporal Data...

The Lab · 2026-04-15 07:03:03 · Digital Today

2. 앤트로픽 AI '클로드 미토스 프리뷰', 전문가급 해킹 과제 73% 해결…모의 기업 공격 완주 최초 기록

앤트로픽의 차세대 AI 모델 '클로드 미토스 프리뷰'가 전문가 수준의 사이버 공격 과제를 해결하는 데서 기존 AI를 압도하는 성능을 보이며 주목받고 있다. 영국 AI보안연구소(AISI)의 최근 평가에서 이 모델은 전문가급 해킹 과제의 73%를 성공적으로 해결했으며, 완전한 모의 기업 네트워크 공격을 완주한 최초의 AI로 기록됐다. 이는 지난 7일 모델 발표 직후 진행된 평가로, AI의 자율적 공격 능력에 대한 새로운 기준을 제시했다. 평가 결과는 AI가 단순한 보조 도구를 넘어 실제 위협 행위자 수준의 복잡한 사이버 공격을 계획하고 실행할 수 있는 잠재력을 보여준다...