Anonymous Intelligence Signal
AI Evolution Arena:当大模型匿名盲测,GPT、通义、黑马谁更聪明?
市面上的AI评测榜单正面临信任危机。复杂的学术指标无法衡量模型的“人情味”,而用GPT-4等强模型当裁判,又存在成本高昂和自我偏好的偏见。最核心的问题在于,普通用户真实、低门槛的偏好数据极度稀缺。为了打破这种僵局,一个名为“AI Evolution Arena”(AI进化竞技场)的盲测平台悄然上线,旨在彻底剥离大模型的品牌光环,让答案质量本身成为唯一的评判标准。
进入竞技场,用户面对的是完全匿名的“双开盲盒”。系统会在后台随机抽取两个大模型——可能是通义千问、GPT系列,或是某个不知名的黑马——进行匿名对战。用户可以提出任何问题,从代码编写到情感咨询,两个模型将同时以流式输出答案。在投票前,用户完全不知道回答者的身份,只能根据回答内容本身选择偏好(左边好、右边好、都好或都烂)。投票完成后,系统才会揭晓模型真身,结果往往出人意料,挑战用户对既有品牌排名的认知。
该平台的核心目标是沉淀一份真实、宝贵的人类偏好数据,以对抗当前评测体系中指标冰冷与裁判偏见的问题。所有对战无需登录,即开即用。项目发起人表示,后续将逐步完善胜率排行榜(Leaderboard),每一次用户投票都在为更客观的模型评估积累基石。这不仅仅是一个趣味测试,更是一次对现有AI评估方法论的直接挑战。