近日,LMSYS Org发布最新的基准测试报告,显示Cordulas公司的Claude-3在平台大语言模型中的得分略胜OpenAI的GPT-4。
值得注意的是,LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校以及卡内基梅隆大学共同发起设立的研究组织。
日前,这家机构推出了一项名为Chatbot Arena的服务,这是针对大语言模型(LLM)进行评估的基准平台,该平台采用众包形式对大型语言模型进行匿名随机竞争打分,参考源于竞技比赛领域中广泛应用的Elo评分体系。
分数评价结果主要取决于用户的投票意向,每次由系统随机挑选两个不同的大语言模型参与与用户的对话,同时,为保障客观性,匿名选择哪个版本的大模型表现优秀至关重要。
自去年启动以来,GPT-4一直占据评测榜单之首。然而,昨日,由Anthropos推出的Claude 3 Opus以微弱优势战胜了GPT-4,将OpenAI的LLM挤出了首位。
考虑到细微差距及误差风险,委员会决定授予Claude 3与GPT-4并列第一的荣誉,GPT-4的另外一个预设版也被列入并列第一的行列。此外,更引人注目的是,Claude 3 Haiku成功跻身前十名。Haiku是Anthropos针对本地规模的新型模型,功能类似谷歌的GeminiNano。
相较Opus参数高达几万亿,Haiku体型更为紧凑,运行速度更快。据LMSYS数据显示,Haikn在评测成绩中排名第七,与GPT-4表现不遑多让。
-
谷歌
+关注
关注
27文章
6142浏览量
105116 -
语言模型
+关注
关注
0文章
508浏览量
10247 -
GPT
+关注
关注
0文章
352浏览量
15318
发布评论请先 登录
相关推荐
评论