高端品牌网-带你领略品牌时尚的前沿
    高端品牌网 > 快讯 > 中文通用大模型评测基准SuperCLUE发布:GPT居首、讯飞星火国内第

中文通用大模型评测基准SuperCLUE发布:GPT居首、讯飞星火国内第

发布时间:2023-05-11 14:52 编辑: 来源:TechWeb   阅读量:16628   

,中文通用大模型综合性评测基准SuperCLUE正式发布。

中文通用大模型基准,是针对中文可用的通用大模型的一个测评基准,它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。

它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?

根据首个榜单显示,国内大模型中,近期发布的星火认知大模型最好,总分53.58分,与GPT-4相比有23个百分点的差距,与gpt-3.5-turbo在总分上有13个百分点的差距。

值得一提的是,讯飞星火认知大模型在对话、百科知识、角色模拟、计算能力、语义理解、逻辑推理方面,已经达到GPT 3.5平齐的水准。

在语义理解方面,讯飞星火认知大模型甚至得到100分的满分,超过GPT-4。

据了解,SuperCLUE评测榜单由三部分组成:总榜单、基础能力榜单、中文特性榜单,排行榜会定期更新,可点此访问.

基础能力:包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力:包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力:针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。

总榜单

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

相关文章 ARTICLE
古尔曼称苹果AR/VR头显可运行FinalCutPro和LogicP

,彭博社马克?古尔曼在最新一期PowerOn通讯中,表示苹果即将推出的AR/VR头显可运行FinalCutPro和LogicPro软件。 苹果昨天宣布,旗下专业视频剪辑软件FinalCutPro和专...

来源:IT之家
2023-05-11 14:21
戴尔U3224KB显示器开始上市:32英寸6K分辨率,3200美元

,戴尔在今年CES上发布了新款UltraSharp326K显示器,型号为U3224KB。据TheVerge消息,这款新上市今日开始上市,售价为3200美元。 IT之家整理戴尔U3224KB显示器参数...

来源:IT之家
2023-05-11 14:11
光大嘉宝12亿元中票将兑付利率3.98%

:5月10日,北金所披露了光大嘉宝股份有限公司2020年度第一期中期票据2023年兑付公告。 观点新媒体了解到,该债券简称20光大嘉宝MTN001,代码102001136.IB,发行金额12亿元,期...

来源:证券之星
2023-05-11 13:50
喜茶推出“甄选茶园标准”主要茶叶配方将自主研发

继“真奶标准”之后,喜茶又看向了茶叶。5月10日,喜茶宣布推出“甄选茶园标准”,向外界展示甄选茶园各项细节,呼应消费者对真原茶品质的关注。喜茶还表示,将在2023年实现主要茶叶配方自主的研发。 据喜...

来源:中国网
2023-05-11 13:31
1999元起,realme真我11Pro+手机发布:天玑7050、2

感谢IT之家网友呵_女人、雨雪载途、软媒新友1933769的线索投递! ,在今日下午的realme新品发布会上,realme真我11Pro+手机正式发布,首发价1999元起。 IT之家汇总售价如下...

来源:IT之家
2023-05-11 13:26