【Github】项目名:CLUE – 中文语言理解测评基准
一、项目简介
CLUE是一个中文语言理解测评基准项目,即Chinese Language Understanding Evaluation Benchmark。它包含了数据集(datasets)、基准(预训练)模型(baselines, pre – trained models)、语料库(corpus)和排行榜(leaderboard)等内容。其数据集具有代表性,覆盖不同任务、数据量和任务难度,例如有蚂蚁语义相似度(AFQMC)、今日头条新闻分类(TNEWS)等多种数据集,可用于多种自然语言处理任务的测评。
二、核心技术
该项目涉及多种自然语言处理技术相关内容。从提供的预训练模型来看,包含了如BERT、ALBERT、RoBERTa等常见的预训练模型技术。在模型训练和评估方面,涉及到不同参数的设置和调整以适应各种任务,如在不同数据集上对模型的batch_size、length、epoch、learning rate等参数进行调整优化。例如在AFQMC数据集中,ALBERT – tiny模型的batch_size设为16,length为128,epoch为3,lr为2e – 5等。同时项目还涉及到数据的筛选方法,采用k折交叉验证的方式对数据集进行过滤以增加模型区分度和增大数据集难度。
三、实践案例
在项目中给出了不同模型在各个任务数据集上的实践结果。以阅读理解任务为例,在CMRC2018简体中文阅读理解任务中,不同模型如BERT – base、ALBERT – large等在训练集、试验集、开发集上有着不同的F1和EM指标结果。在分类任务方面,像AFQMC蚂蚁金融语义相似度任务中,各个模型也有相应的准确率结果展示,如BERT – base在开发集和测试集的准确率分别为74.16%和73.70%等,这些结果为自然语言处理任务中的模型选择和优化提供了参考依据。
四、项目总结
CLUE项目为中文语言理解相关的研究和应用提供了全面的测评基准。通过丰富的数据集、多样的预训练模型、大量的语料库以及公开的排行榜,无论是对于研究人员进行模型开发和优化,还是对于企业进行自然语言处理相关应用的开发,都具有重要的参考价值。欢迎大家在下方留言,分享自己对CLUE项目的看法、使用经验或者提出问题,一起参与讨论。
项目地址
数据统计
数据评估
本站链氪巴士提供的CLUE:中文语言理解测评基准:数据集、模型、语料库与排行榜都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。
相关导航
brightmart/albert_zh是一个基于TensorFlow实现的ALiteBertForSelf - SupervisedLearningLanguageRepresentations项目。提供多种版本的中文ALBERT预训练模型,包括不同参数规模和性能特点的模型。项目涵盖预训练、下游任务微调的代码示例,还有如转换为TensorflowLite格式进行移动端部署的操作及性能测试等内容。详细展示了ALBERT模型对BERT的改进之处,如词嵌入向量参数因式分解、跨层参数共享、段落连续性任务等改进方式。这对于自然语言处理研究和应用开发有很大的参考价值。
PaddleHub是一个基于PaddlePaddle的预训练模型工具包。它包含400多个模型,涵盖图像、文本、音频、视频和跨模态等多个领域,具有容易推理和服务的特点。支持多种平台,如Linux、Windows和MacOS。其模型丰富,涉及计算机视觉、自然语言处理、语音、视频和跨模态等领域,使用简单,仅需3行代码即可对400多个AI模型进行预测,还能一行命令提供模型服务。并且该项目一直在更新,2022年8月19日发布v2.3.0版本,支持ERNIE - ViLG等,2月18日将模型发布到HuggingFace PaddlePaddle Space。所有模型开源免费,欢迎关注并加入官方群交流。