【Github】项目名:ymcui/Chinese – XLNet:中文XLNet预训练模型
项目简介
本项目由哈工大讯飞联合实验室的崔一鸣等人提供了面向中文的XLNet预训练模型。其目的在于丰富中文自然语言处理资源,提供多元化的中文预训练模型选择。该项目基于CMU/谷歌官方的XLNet,还提及了诸多相关模型成果及发布情况等信息。
模型相关细节
模型下载
提供了XLNet – mid(24 – layer, 768 – hidden, 12 – heads, 209Mparameters)和XLNet – base(12 – layer, 768 – hidden, 12 – heads, 117Mparameters)的下载,包括Google下载和百度网盘下载方式,同时给出了不同版本(如TensorFlow、PyTorch)下的操作方式,以及针对中国大陆境内和境外用户的下载建议等。
基线系统效果
在简体中文阅读理解(CMRC2018)、繁体中文阅读理解(DRCD)、情感分类(ChnSentiCorp)等任务上,对比了中文BERT、BERT – wwm、BERT – wwm – ext以及XLNet – base、XLNet – mid等模型的效果,给出了不同模型在开发集、测试集等不同数据集上的评测指标结果。
预训练细节
以XLNet – mid模型为例,包括生成词表(按照XLNet官方教程步骤,使用SentencePiece生成大小为32000的词表)、生成tf_records以及预训练(因计算设备受限,相比XLNet – base仅增加层数,其余参数未变动)等过程及相关命令。
下游任务微调细节
下游任务微调使用谷歌CloudTPUv2(64GHBM)设备,针对CMRC2018、DRCD、ChnSentiCorp等不同任务分别给出了脚本参数示例,包括输入文件路径、模型路径、训练相关参数(如batch_size、learning_rate等)等内容。
项目总结
本项目为中文自然语言处理提供了预训练模型资源,具有丰富的模型细节和实验数据。希望广大用户能够从中受益,如果大家有任何想法或者建议,欢迎在评论区留言讨论。
项目地址
数据统计
数据评估
本站链氪巴士提供的ymcui/Chinese-XLNet:中文XLNet预训练模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。
相关导航
brightmart/albert_zh是一个基于TensorFlow实现的ALiteBertForSelf - SupervisedLearningLanguageRepresentations项目。提供多种版本的中文ALBERT预训练模型,包括不同参数规模和性能特点的模型。项目涵盖预训练、下游任务微调的代码示例,还有如转换为TensorflowLite格式进行移动端部署的操作及性能测试等内容。详细展示了ALBERT模型对BERT的改进之处,如词嵌入向量参数因式分解、跨层参数共享、段落连续性任务等改进方式。这对于自然语言处理研究和应用开发有很大的参考价值。