标准 / 稳定 / 可复核 / 可追溯 / 可扩展

一场AI界的《创造101》火了!LMArena让你盲投选出最强AI,三年从校园项目逆袭,刚刚融1.5亿美元,估值飙到17亿美元。众包投票挑战专家权威,争议四起,却已成行业标杆。你的票,就能决定下一个AI顶流!
一切要从2023年说起。当时,加州大学伯克利分校Sky Computing Lab里,一群研究生和教授搞了个开源小项目,叫Chatbot Arena。
他们最初只是想做一个简单实验:让网友匿名比拼不同AI聊天机器人,看哪个回答更好。
短短三年时间,Chatbot Arena就积累了海量用户。2025年5月,它正式转为营利性公司,更名为LMArena,并完成1亿美元种子轮融资,估值6亿美元。
如今,LMArena已经拥有超过500万月活跃用户,覆盖150个国家,每月产生超过6000万次对话。
这些用户像是投票的「全民制作人」。连最顶级AI实验室,都把自家最新模型悄悄送来PK。
从一个学术小实验,到硅谷新贵,LMArena用三年时间完成了许多选秀冠军都羡慕的逆袭。
选秀节目的高潮,是舞台公演和现场打投。LMArena的「公演舞台」也一样刺激:它叫Arena模式,核心就是一个字——盲!
打开lmarena.ai,进入战斗模式,随便输入一个问题,系统开始随机匹配两个匿名AI模型,同时给出答案。
你不知道是谁生成的,只能凭感觉投票。投完票,网站才会揭晓:哦,原来左边是Gemini-3-Pro,右边是Grok-4.1!
总得票数也算入评分体系。LMArena用Elo评分系统实时计算,每赢一次加分,输了扣分。
总得分汇总之后,还会公开不同类别的榜单:文本对话、网页开发、视觉理解文本生成图像、图像编辑、搜索、甚至文本/图像生成视频。
还没公开发布的新模型,都会偷偷托管到LMArena先测试一下,拿网友反馈快速更新迭代。
网友也不只是实验的小白鼠,甚至还有点爽——不用懂技术,上手几分钟就能当「全民制作人」,把喜欢的AI投上C位。
选秀节目再火,也逃不过「黑幕」质疑和粉丝撕X。LMArena同样不例外——它一出道就卷入各种争议,有人喊「太民主了」,有人骂「太乱了」。
2025年,一篇论文直接曝出黑幕:Meta在Llama 4发布前,偷偷提交了36个私有变体模型,反复测试「刷分」,成功gaming 排行榜。
研究者来自Cohere、Stanford、MIT等机构,直指顶级实验室能通过多次私测优化,中小玩家根本玩不起。
类似指控还有:某些大公司被怀疑刷票或优先托管新模型,让排行榜看起来「偏心」。
这就牵扯出最大竞争对手——Scale AI。Scale的评价方式完全不同:他们花大钱雇佣付费专家,比如律师、教授、医生,来给AI答案打分。
2025年9月,Scale直接推出「Seal Showdown」平台,公开叫板 LMArena,宣称自己的方法更有代表性、更严谨,避免了众包的噪音和偏见。
他们认为,用户对自家问题最懂,能给出最诚实的反馈;付费专家反而可能有偏见或不接地气。
争议归争议,LMArena的排行榜还是成了行业事实标准——大公司照样抢着上。
选秀冠军出道后,最兴奋的莫过于「后续规划」:开演唱会、拍综艺、接代言,还是转型演员?
LMArena也一样它不满足于只办比赛,已经在准备进化成AI界的「全能经纪公司」。
公司公告明确表示,资金将用于大规模扩充计算资源、招聘顶级工程师,并推出企业级AI评估服务。
以后,LMArena不光让网友玩盲测,还会为OpenAI、Google、xAI这样的大厂提供付费专业评估,帮他们跑模型、收集反馈、生成报告,甚至深度定制基准测试。
LMArena在强化学习方向同样野心勃勃。联合创始人Ion Stoica早前就透露过,公司正考虑用海量用户投票数据来训练AI模型——这就是传说中的RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)。
把「好回答」当奖励、「差回答」当惩罚,让AI像练习生苦练舞蹈一样,不断优化自己。
一旦成为事实上的基准层,产品自然会扩展。真正价值在于与AI实验室的深度合作——结合他们的内部数据和我们的比较外部数据。”
LMArena用三年时间证明了一个疯狂的事实——在AI时代,众包的力量能碾压传统专家,民主投票能成为最锋利的标尺。
更重要的是,它把我们从旁观者变成了主角。你的每一张票,不只决定了今天的排行榜C位,还可能在悄无声息中塑造明天的超级AI。
ChatGPT、Grok、Gemini……谁能持续霸榜,谁又会突然被黑马反超,全看我们这些「全民制作人」的心情。
来源:【四川日报-川观新闻】川观新闻记者 陈婷今天冷空气离开,加上大范围晴朗天气有充足的光照加热,使得我国大部地区气温回升。四川也不例外。四川省气象台实况观测显示,今天(1月12日)14时,全省各城市气温相比昨天大幅回升。2026年1月12日(左)与11日(右)14时气温对比图。
1月13日,江苏连云港市赣榆区联合调查组发布情况通报:1月13日上午,网传该区沙河自然资源所所长庄某某借款问题。该区已对其停职,将根据调查结果依规依纪依法处理。感谢社会各界的关心和监督。
美国、德国、英国、法国、意大利、加拿大、日本达成一致:减少进口中国稀土!外交部表态→
1月13日,外交部发言人毛宁主持例行记者会。日本电视台记者提问,七国集团财长昨天达成一致,决定加快减少从中国的稀土进口,降低对中国的依赖。中方对此有何评论?毛宁表示,中方维护全球关键矿产产业链稳定和安全的立场没有变化,同时我们也认为各方都有责任这样做。
洛阳市公开通报3起典型案例为维护良好网络舆论秩序,有效净化网络环境,洛龙公安主动出击,全面梳理摸排,网络造谣生事、恶意炒作线索,依法严厉打击整治网络谣言违法犯罪活动,切实营造清朗网络空间,现公开曝光三起打击整治网络谣言典型案例。
夫妻俩收到拆迁款后被控诈骗,羁押707天因证据不足获释,国家补偿款尚未发放完毕
近日,山东济南市市民王延东向华商报大风新闻反映称,他与爱人因自家砖厂拆迁的事,被人以“瞒报土地”为由指控诈骗,经检察院批准逮捕后,被羁押707天,最终因证据不足重获自由。
新华社北京1月13日电 《中国证券报》13日刊发文章《政策资本双轮驱动 脑机接口技术落地与商业化提速并进》。
开车撞人致死却拖欠赔偿金10年 唐山“教科书式老赖”送给女儿的40多万被法院判决“赠与无效”
2025年的最后一周,42岁的赵勇收到了唐山中院的终审判决:黄某芬向女儿刘某“赠与”的40余万元,被判决撤销,刘某需在限期内返还给黄某芬。这次判决所认定的金额,比一审时减少了4万余元。赵勇说,他对此“接受,只希望案件赶快进入执行阶段”。
一枚装在鉴定盒中的“康熙通宝”钱币,在某二手平台以6800元成交,结果在买卖双方复检的过程中,却被同一家鉴定机构判定为“不适合评级包装”。1月12日,封面新闻记者联系到买家张凡,他介绍,大概七年前,他在二手交易平台上购买了一枚直径27.
据中国新闻网报道,2026年1月4日下午,韩国总统李在明的专机降落在北京首都国际机场,拉开为期4天的访华大幕。
#长文创作激励计划#开出租车和专车都是非常辛苦的工作。它需要招揽客人,也需要长时间工作,因此首先是个体力活。