【Github】项目名:CLUE – 中文语言理解测评基准
一、项目简介
CLUE是一个中文语言理解测评基准项目,即Chinese Language Understanding Evaluation Benchmark。它包含了数据集(datasets)、基准(预训练)模型(baselines, pre – trained models)、语料库(corpus)和排行榜(leaderboard)等内容。其数据集具有代表性,覆盖不同任务、数据量和任务难度,例如有蚂蚁语义相似度(AFQMC)、今日头条新闻分类(TNEWS)等多种数据集,可用于多种自然语言处理任务的测评。
二、核心技术
该项目涉及多种自然语言处理技术相关内容。从提供的预训练模型来看,包含了如BERT、ALBERT、RoBERTa等常见的预训练模型技术。在模型训练和评估方面,涉及到不同参数的设置和调整以适应各种任务,如在不同数据集上对模型的batch_size、length、epoch、learning rate等参数进行调整优化。例如在AFQMC数据集中,ALBERT – tiny模型的batch_size设为16,length为128,epoch为3,lr为2e – 5等。同时项目还涉及到数据的筛选方法,采用k折交叉验证的方式对数据集进行过滤以增加模型区分度和增大数据集难度。
三、实践案例
在项目中给出了不同模型在各个任务数据集上的实践结果。以阅读理解任务为例,在CMRC2018简体中文阅读理解任务中,不同模型如BERT – base、ALBERT – large等在训练集、试验集、开发集上有着不同的F1和EM指标结果。在分类任务方面,像AFQMC蚂蚁金融语义相似度任务中,各个模型也有相应的准确率结果展示,如BERT – base在开发集和测试集的准确率分别为74.16%和73.70%等,这些结果为自然语言处理任务中的模型选择和优化提供了参考依据。
四、项目总结
CLUE项目为中文语言理解相关的研究和应用提供了全面的测评基准。通过丰富的数据集、多样的预训练模型、大量的语料库以及公开的排行榜,无论是对于研究人员进行模型开发和优化,还是对于企业进行自然语言处理相关应用的开发,都具有重要的参考价值。欢迎大家在下方留言,分享自己对CLUE项目的看法、使用经验或者提出问题,一起参与讨论。
项目地址
数据统计
数据评估
本站链氪巴士提供的CLUE:中文语言理解测评基准:数据集、模型、语料库与排行榜都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。