Anonymous Intelligence Signal
AI Evolution Arena:当大模型匿名盲测,GPT、通义、黑马谁更聪明?
厌倦了冰冷的评测分数和充满偏见的AI裁判,一个名为“AI Evolution Arena”(AI进化竞技场)的平台试图撕掉大模型的厂牌标签,让用户回归答案本身。在这里,你面对的是两个完全匿名的模型,它们可能是GPT、通义,也可能是任何一匹黑马。你只能根据它们对同一个问题的实时流式回答,凭直觉选择偏好。直到投票结束,你才会知道刚才青睐的究竟是哪个模型——结果往往出人意料。
该平台的核心玩法是“双开盲盒”与“匿名对战”。用户无需登录,即可向系统随机匹配的两个模型提出任何问题,从写代码到情感咨询。在回答过程中,模型名称被完全隐藏,用户只能依据回答的质量、逻辑和“人情味”进行选择。这种设计直接针对当前模型评测的三大痛点:脱离真实用户场景的冰冷指标、LLM-as-a-Judge方法中固有的自我偏好与长度偏见,以及普通用户难以参与的低门槛趣味测评的缺失。
每一次匿名投票,都在为平台积累一份真实的人类偏好数据。项目发起人表示,其初衷正是为了过滤品牌光环的干扰,让模型的“灵性”在公平竞技中自然浮现。随着用户数据的沉淀,平台计划逐步完善胜率排行榜,这或许能为业界提供一个更贴近真实应用场景、更少偏见的模型能力观察窗口。对于普通用户而言,这不仅是解决疑难杂症的新工具,也是一次重新认识各大模型真实实力的机会。