Anonymous Intelligence Signal
AI Evolution Arena:当大模型匿名盲测,GPT、通义、黑马谁更聪明?
市面上的大模型评测榜单正面临信任危机。无论是冰冷的学术指标,还是由GPT-4等强模型充当裁判的昂贵评估体系,都难以真实反映模型在应对用户闲聊、吐槽或古怪需求时的“人情味”与灵性。更关键的是,这些方法存在固有偏见——模型常给自己打高分,或偏好更长的答案。真正的用户声音,即人类偏好数据,在开源、低门槛的趣味测评中依然稀缺。
为此,一个名为“AI Evolution Arena”(AI进化竞技场)的盲测平台悄然上线。其核心玩法是“双开盲盒”:用户进入后,系统会在后台随机抽取两个匿名大模型进行对战,参与者可能是通义千问、GPT系列,或是某个不知名的黑马。用户可抛出任何问题,从写代码到情感咨询,观看两个模型同时流式输出答案。在整个过程中,模型名称被完全隐藏,用户只能根据回答质量本身进行投票选择。直到投票结束,对战双方的“真面目”才会揭晓,结果往往出人意料。
该项目的初衷是彻底剥离大模型的“品牌光环”,迫使评估回归答案内容本身。平台无需登录,即开即用,并优化了流式渲染体验。所有用户的投票数据,都在为项目积累一份宝贵、真实的人类偏好数据集。随着平台发展,一个基于真实对战结果的胜率排行榜也将逐步完善,这或许能为当前陷入指标与偏见困局的AI评估领域,提供一个更贴近用户感知的新视角。