中文词汇量测试（探索中文词汇量的奥秘）

juju • 2023年 8月 9日 05:21:13 • 综合

5月9日中文通用大模型综合性评测基准SuperCLUE正式发布。经过一天时间的发酵，论坛上对该评测标准质疑的声音越发多了，这是为什么？大模型评测标准设立的难度又在哪里？
中文评测标准为何重要？
科大讯飞董事长刘庆峰认为：如果要努力追赶OpenAI的进度，需要一套科学系统的评测体系；用这一套科学系统，来判定技术迭代到底到了什么程度，还有哪些任务是不达标的。
市场看重中文大模型评测标准主要基于三方面考虑因素。
第一、数据集的差异性。中文和英文的文本数据集在种类、规模、质量等方面存在很大的差异，需要针对中文特点开发相应的数据集，以确保评测结果的准确性和公正性。
第二、语言结构和语法的差异。例如中文是一种“主谓宾”结构的语言，而英文则是“主语动词宾语”结构的语言。这些差异导致了中英文之间在语言处理任务上存在很大的区别，需要不同的评测标准和方法。
第三、中文词汇量和歧义性。中文的词汇量非常大，而且存在很多歧义性，需要更复杂的处理方法和技术，如分词、词性标注、命名实体识别等。
华尔街见闻·见智研究认为：中文大模型评测标准的重要性在于它可以帮助厂商相对客观地评估模型的质量和性能，比较不同模型的性能和差异。更重要的是标准化的评估方法和数据集能够为开发者提供很好的方向，促进模型迭代速度。
此前，IDC发布的大模型评测标准，从三个维度（产品能力、应用能力和生态能力）、6个一级指标和11个二级指标来评估中国大模型的能力。

并且给出结论：文心大模型在产品力和生态能力上都超过平均分水平。但是由于评测方法没有完全公开，貌似并没有被市场所完全认可。

所以，在大模型层出不穷的当下，市场上非常需要对模型的评估方法和一致性标准。
但从当下来看，这貌似又是一个在短期内非常难以兑现的预期。
中文大模型评测标准化很难，SuperCLUE被吐槽选择题方式单一
刚刚发布的文通用大模型基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。
SuperCLUE从三个不同的维度评价模型的能力：基础能力、专业能力和中文特性能力。
基础能力：包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。
专业能力：包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力。
中文特性能力：针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等10项多种能力。
以SuperCLUE测试结果来看，文心一言的评测结果远不如星火大模型；

而以另一种比较火的评测标准是JioNLP，该评测是由中国科学院计算技术研究所自然语言处理与社会人文计算实验室（简称“计算所NLP”）开发和维护的。
JioNLP评测还提供了多种评测指标和计算工具，以帮助研究者和开发者客观地评估模型的性能和效果，并比较不同模型的优缺点和适用范围。
JioNLP评测方式目前的总下载量达到2.4万次，近三十天下载量为1634次。

通过JioNLP评测，研究者和开发者可以获取实时的评测结果和排名，以及相应的源代码和技术报告，为中文自然语言处理的研究和应用提供参考和支持。
从JioNLP评测的结果来看：文心一言的得分却又高于星火大模型。

这背后的原因是两种评测的方法的设置有很大的差异性。
SuperCLUE是只通过选择题对模型能力进行测试，而JioNLP采用的是客观选择题+主观题（生成题、翻译题和聊天题）进行测试。
但相同的是，在官网留言区对于两个测试标准都出现很多质疑声音。
如：对SuperCLUE评测方法如何限定测试题目数量，生成和创作类评测用选择题测试是否合理，以及建议SuperCLUE像中文Alpaca一样适度公开评测说明和标准。JioNLP也同样存在测试精度、样本量小等问题。
见智研究认为：当下对大模型的评估方法和指标还没有形成共识、更没有统一的标准出现，特别是对于不同场景和任务可能有不同的评价体系和需求出现。
常用的机器学习模型评估标准有7个比较重要的方向：
包括准确度（针对分类能力）、精确度和召回率（模型正确预测的内容占该样本的比例）、对抗攻击鲁棒性（模型在受到输入干扰时保持稳定的能力）、计算效率、均方误差、R方值以及数据隐私。
从当下来看，SuperCLUE的评测方式单一性确实存在一定的弊端，但是该模型采用的人工评价的精度也曾被市场认可确实在精度和灵活度上面高于系统的自动评价方法。
总的来说，大模型测试标准化是行业所需要的，但同样也是非常难实现的。
本文来自华尔街见闻，欢迎下载APP查看更多

本文来自投稿，不代表商川网立场，如若转载，请注明出处：http://www.sclgvs.com/zonghe/65505.html

juju

帝标布艺沙发怎么样，帝标沙发好吗

上一篇 2023年 8月 9日 05:21:12

2021央视七一晚会节目单全部汇总

下一篇 2023年 8月 9日 05:21:14

河池学校(河池学校录取分)

“一学年结束了，我们回望过去，收获满满，这一个学年以来，七彩画室的学生们参加了各项美术比赛，勇敢展现自我，给了老师和家长一份满意的答卷。”2022年河池市“文明出现好习惯平安幸福…

hanhan
2023年 8月 9日 • 院校招生
建材五金代理加盟(建材五金批发市场)

??房地产是很多城市的支柱产业，家装五金建材的市场需求量也一直经久不衰。建材五金商户上接品牌厂家、下接家装客户，一直是比较赚钱的行业。建材五金批发商户都是从哪里进货的？建材五金进货…

shangchuan
小生意 2023年 7月 6日
态的拼音和组词（欢聚一堂）

近些年来，卫视竞争态势的演进在各个内容版块不断深入，晚会历来是其中之一。伴随各大网络视频平台晚会和商业晚会加入角逐行列，以及近来以传统文化为背书的晚会节目异军突起，晚会这一内容版块…

hanhan
2023年 8月 9日 • 知识百科
适合中国宝宝奶粉排名(适合中国宝宝奶粉排名优博)

冬季是一年四季中最寒冷的季节，天气相对于其他季节比较恶劣，对宝宝的照顾千万不能掉以轻心。冬季由于气温波动，宝宝容易受凉感冒，想要提升保护力需要从很多方面下功夫。有一些家长会参考国产…

juju
招商加盟 2023年 8月 8日
知识百科

同安祥平小学怎么样，同安祥平小学怎么样

#厦门头条#厦门同安区教育局发布《2022年秋季小学招生工作意见》6月8日起网上报名积分入学报名已经结束以下介绍的是户籍人口等对象报名↓↓↓关于报名时间同安区报名分网络报名和现场…

hanhan
2023年 6月 6日
新泰新光医院怎么样，遂昌县市场监督管理局电话

中国质量新闻网讯近日，浙江省遂昌县市场监督管理局发布2021年遂昌县食品安全检测情况通报（第10期）。据通报，近期遂昌县市场监管局开展了食品抽样检测，本次共公示检测结果81批次，…

shangchuan
知识百科 2023年 8月 9日
大连樱花日语，大连樱花日语学校

退学要扣软件开通费、注册费？……近日福州、广州两名消费者向《中国消费者报》反映购买了“樱花国际日语”的课程发现与承诺不符要求退学退款却遭各种理由拒绝消费者甚…

juju
培训 2023年 8月 8日
商用冰激凌机十大名牌(商用冰激凌机哪个品牌的好)

本次推荐榜由品牌之星大数据系统提供数据支持，综合考虑了品牌的知名度、企业资产规模与经营情况、员工数量等多项指标。荣登“2022年度雪糕行业十大品牌”推荐榜如下：2022年度雪糕行业…

shangchuan
招商加盟 2023年 8月 9日
山西大同大学怎么样(山西大同大学怎么样好不好)

谈及北方的历史古都，你们大多会想到北京，西安，或是河南洛阳，开封这些声名在外的地方。开封清明上河园山西属实是个小透明，暂不谈经济，关于文化古建，山西绝对是最被低估的那一个。[思考]…

hanhan
2023年 7月 2日 • 院校招生
家用净水器十大名牌(家用净水器十大名牌第一名)

净水器十大名牌，冰尊净水器名列前茅！随着大家越来越关注水质安全问题，家用净水器已经成了不少家庭厨房的标配，尽管如此，还是有相当多的朋友不懂家用净水器怎么选，家用净水器十大品牌推荐什…

juju
创业 2023年 8月 8日
广州吉谷电器怎么样，泡茶烧水壶怎么使用

“OMG！这回又得剁手掏钱了！”，这是很多人第一次看到它的反应，它就是烧水壶中的百搭经典款YYDS，几年过去了，人气和口碑一直都在线。吉谷火山岩涂层电水壶TC0302，大家了解一下…

juju
2023年 8月 9日 • 知识百科
综合

雪佛兰科鲁兹越野车最佳选择

有网友5万5买了一辆15款雪佛兰经典SEAT，16年上的牌，3万公里，车子无伤原漆，我觉得还是非常值得的。15款雪佛兰经典SEAT的原价是在10.99万元，在当时的销量很不错，二手…

juju
2023年 8月 9日

中文词汇量测试（探索中文词汇量的奥秘）

相关推荐