投中網(wǎng) | 陶輝東 · 2026-01-19 17:46
一個大模型“跑分”工具最先賺的盆滿缽滿。
近日,美國AI初創(chuàng)公司LMArena宣布完成A輪融資,融資額為1.5億美元,投后估值達(dá)17億美元(約120億人民幣)。該輪融資由Felicis Ventures和加州大學(xué)伯克利分校旗下的投資基金UC Investments領(lǐng)投,A16Z、光速創(chuàng)投、The House Fund、LDVP、Kleiner Perkins等美國知名VC跟投。
這筆融資之所以有意思,主要有三點(diǎn):
首先是LMArena的估值躥升非常快。它的上一輪融資是2025年5月份的種子輪,由A16Z領(lǐng)投,當(dāng)時估值是6億美元。也就是說,估值在七個月內(nèi)翻了三倍,快速晉升獨(dú)角獸。
其次是LMArena團(tuán)隊(duì)規(guī)模極小。根據(jù)PitchBook等數(shù)據(jù)平臺截至2026年初的記錄,該公司員工總數(shù)僅有29人,相當(dāng)于每個人估值四個億。
最后,LMArena的產(chǎn)品看起來沒啥技術(shù)含量,很多人都覺得“我上我也行”。嚴(yán)格來說,LMArena并不是一家AI公司,它只是一個給大模型打分、做排名的網(wǎng)站,可以理解為大模型版的安兔兔。
在各家大模型卷生卷死的時候,沒想到是一個大模型“跑分”工具最先賺的盆滿缽滿。
無心插柳而來的獨(dú)角獸
LMArena能成為獨(dú)角獸,其實(shí)是無心插柳的結(jié)果。
LMArena起源于一個開源學(xué)術(shù)組織LMSYS Org,該組織由一些來自加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校、卡內(nèi)基梅隆大學(xué)等名校的學(xué)生、教授發(fā)起,核心使命是通過開發(fā)開源模型、系統(tǒng)和數(shù)據(jù)集,使大模型的使用和評估變得平民化。
值得一提的是,LMSYS Org的華人含量非常高,伯克利的博士Lianmin Zheng、UCSD 的助理教授Hao Zhang、伯克利的研究員Wei-Lin Chiang等人都是核心成員。
2023年3月,LMSYS Org發(fā)布了一款名為Vicuna的開源模型,性能可媲美ChatGPT。但是,他們發(fā)現(xiàn)當(dāng)時市面上并沒有可靠的測試方法,可以真正區(qū)分出模型的好壞。于是,研究團(tuán)隊(duì)在2023年4月推出了一個名為Chatbot Arena的開放測試平臺。沒想到,這個平臺在AI圈內(nèi)越來越火。2024年9月,Chatbot Arena平臺正式更名為LMArena,目前已是全球大模型最權(quán)威的大模型評測平臺之一。
LMArena的核心理念非常簡單,就是“匿名對戰(zhàn)”四個字。
進(jìn)入LMArena的網(wǎng)站之后,系統(tǒng)會要求你任意輸入一段提示詞,隨后系統(tǒng)會隨機(jī)挑選兩個AI模型生成對這段提示詞的輸出。用戶在不知道模型身份的情況下,對比兩個輸出的質(zhì)量,選擇哪個模型勝出。勝出的模型加分,敗北的模型減分。經(jīng)過數(shù)十萬、上百萬次這樣的對戰(zhàn)之后,就能得出每一個模型的最終得分。
這一打分機(jī)制雖然簡單,卻用非常直接的方式,解決了大模型評測的核心痛點(diǎn)。
傳統(tǒng)的大模型評測方式一般是“刷題”,比如MMLU(大規(guī)模多任務(wù)語言理解)、GSM8K(小學(xué)數(shù)學(xué))和 HumanEval(代碼生成)。然而,隨著大模型的發(fā)展,這些評測正面臨三大致命挑戰(zhàn):飽和、污染與脫節(jié)。
首先是飽和。隨著大模型的“刷題”能力越來越強(qiáng),已經(jīng)逼近人類上限,這類測試的區(qū)分度越來越小。如果大家都是90分甚至95分以上,考試就沒有了意義。
再來說說污染。由于測試的考題通常在互聯(lián)網(wǎng)上公開,大模型也就可以預(yù)先進(jìn)行針對性的訓(xùn)練,使得測試結(jié)果被污染。
最難以解決的問題是脫節(jié)。考題與用戶的真實(shí)使用場景是不一樣的,會做題的大模型不一定能解決真實(shí)問題,“高分低能”的情況在大模型中同樣存在。
而LMArena則通過收集真實(shí)的人類偏好,把大模型的評價方式從“考場考試”改成“競技場決斗”,一舉解決了上述這三大問題。
現(xiàn)在,LMArena的排名已經(jīng)被AI行業(yè)廣泛接受為最權(quán)威的“人類偏好”風(fēng)向標(biāo),已經(jīng)有400多個大模型被LMArena打分和排名,每月有數(shù)百萬個獨(dú)立用戶參與評測。無論是OpenAI、谷歌還是國內(nèi)的各大AI公司,每次發(fā)布新模型都會送去LMArena打個榜,一旦拿到高分,一定會在發(fā)布會上大吹特吹一番。
“打分”工具商業(yè)化,會被大廠“包養(yǎng)”嗎?
2025年初,LMArena正式注冊為公司,開始從學(xué)術(shù)項(xiàng)目轉(zhuǎn)向商業(yè)化發(fā)展。
一說到“跑分”,很容易讓人聯(lián)想到國內(nèi)曾經(jīng)大行其道的安卓跑分工具。這類工具通常有用戶、知名度和流量,但很難找到商業(yè)化變現(xiàn)的方式。最后的結(jié)局往往是被大廠“包養(yǎng)”,漸漸失去公信力,最后被用戶拋棄。LMArena是否也會面臨這樣的問題?
答案當(dāng)然是肯定的,LM Arena雖然尚未直接接受AI大廠的投資,但包括A16Z在內(nèi)的VC機(jī)構(gòu)重金投資了很多AI公司,間接的利益相關(guān)性也不容忽視。
LM Arena在公信力上遭受的最大質(zhì)疑,當(dāng)屬2024年初在AI圈內(nèi)鬧得沸沸揚(yáng)揚(yáng)的Meta“作弊”事件。
2025年4月,Cohere、斯坦福大學(xué)、麻省理工學(xué)院等多家AI公司、高校的研究人員聯(lián)合發(fā)表了一篇文章,指責(zé)LM Arena幫助部分AI公司操縱排名。
文章指出,Meta在發(fā)布Llama 4之前,私底下在LM Arena的平臺上測試了27個模型變體,但最終只公開了表現(xiàn)最好的一個模型的得分,以達(dá)到在排行榜上名列前茅的目的。另外,文章還認(rèn)為,LM Arena偏向性的增加了包括Meta、OpenAI和谷歌在內(nèi)的大廠的模型的“對戰(zhàn)”次數(shù),使這些公司的模型排名獲得了不公平的優(yōu)勢。
對于這些指責(zé),LM Arena回應(yīng)是“一些說法與事實(shí)不符”,并表示公布預(yù)發(fā)布模型的分?jǐn)?shù)本身就是毫無意義的。
為了維持透明度,LM Arena會開源部分代碼,并定期發(fā)布對戰(zhàn)數(shù)據(jù)集供研究者分析。但公正性的爭議恐怕會一直伴隨LM Arena的商業(yè)化。
要做AI時代的產(chǎn)品“認(rèn)證官”
那么,如果不以犧牲公正性為代價,LM Arena還有哪些更好的商業(yè)化手段呢?
2025年9月,LMArena正式推出第一個商業(yè)化產(chǎn)品AI Evaluations。AI Evaluations主要面向開發(fā)AI大模型的企業(yè)或研究機(jī)構(gòu),為它們提供模型評估服務(wù)。AI Evaluations在2025年12月的ARR(年度經(jīng)常性收入,最近一個月收入乘以12)已達(dá)到了3000萬美元。
考慮到AI Evaluations上線不到四個月,這樣的成績還算不錯。但它顯然還不足以撐起17億美元的估值。投資AI Evaluations的一眾硅谷VC,還看到了AI Evaluations的哪些潛力?
在領(lǐng)投LMArena的種子輪融資后,A16Z曾發(fā)文解釋自己的投資邏輯,其核心觀點(diǎn)大致有三條:
首先,A16Z認(rèn)為LMArena的打分已經(jīng)在“事實(shí)上”成為了評價AI大模型性能的標(biāo)準(zhǔn),是AI產(chǎn)業(yè)發(fā)展的“關(guān)鍵基礎(chǔ)設(shè)施”。
第二,LMArena打造了一個簡單而成功的飛輪機(jī)制:用更多模型吸引更多用戶,從而產(chǎn)生更多的偏好數(shù)據(jù),進(jìn)而吸引更多模型加入。顯然,這個飛輪一旦形成就是難以復(fù)制的壁壘。
第三,A16Z認(rèn)為中立、持續(xù)的評測,未來將是AI大模型監(jiān)管的剛需。
A16Z預(yù)測了LMArena未來幾種可能的業(yè)務(wù)場景,其中最重要的一個就是為受監(jiān)管行業(yè)提供合規(guī)性支持,比如醫(yī)院或其它關(guān)鍵基礎(chǔ)設(shè)施。對于這些行業(yè)來說,AI的可靠性不是依賴AI公司的承諾,而必須通過透明、持續(xù)的評測來保證。A16Z暢想,“LMArena認(rèn)證”未來將成為AI產(chǎn)品的“綠色認(rèn)證”。LMArena平臺上的用戶評測次數(shù),未來將不是數(shù)百萬次,而是數(shù)十億次。
2025年初,LMArena推出了Inclusion Arena產(chǎn)品,直接通過API和SDK的方式將測試嵌入到真實(shí)的AI應(yīng)用中,以收集生產(chǎn)環(huán)境中的反饋數(shù)據(jù)。截至2025年7月,該產(chǎn)品已收集了超過50萬次的真實(shí)對戰(zhàn)記錄。其價值不僅在于極大地增強(qiáng)了排行榜的參考價值,還事實(shí)上構(gòu)建起了一個“AI的持續(xù)集成/持續(xù)部署管道”。
A16Z承認(rèn)LMArena面臨“在商業(yè)壓力下保持中立性”的巨大挑戰(zhàn),但是,能夠讓AI變得“可靠、可預(yù)測且值得信賴”的公司,未來將創(chuàng)造出最大的價值。