brightmart/roberta_zh:RoBERTa中文预训练模型
本项目是关于RoBERTa在中文环境下的预训练项目。由brightmart开发,用TensorFlow实现大规模中文RoBERTa预训练,也提供PyTorch预训练模型和加载方式。RoBERTa是BERT改进版,在训练...
标签:Github项目brightmart NLP PyTorch RoBERTa TensorFlow 中文预训练【Github】项目名:brightmart/roberta_zh:RoBERTa中文预训练模型
一、项目简介
本项目是用TensorFlow实现了在大规模中文上RoBERTa的预训练,也会提供PyTorch的预训练模型和加载方式。RoBERTa是BERT的改进版,通过改进训练任务和数据生成方式、训练更久、使用更大批次、使用更多数据等获得了较好的效果,可以用Bert直接加载。项目包含不同层数(如6层、12层、24层)的RoBERTa模型,训练数据涵盖新闻、社区问答、多个百科数据等,规模从10G到30G不等。同时还给出了在多个任务(如互联网新闻情感分析、自然语言推断、问题匹配语任务、阅读理解等)上与其他模型(如BERT、Bert – wwm – ext、XLNet等)的效果对比。
二、核心技术
1. 数据生成与改进:取消下一个句子预测,并且数据连续从一个文档中获得。使用30G中文训练数据,包含3亿个句子,100亿个字(token),具有多样性。
2. 训练策略:总共训练近20万次,见过近16亿个训练数据实例;在CloudTPUv3 – 256上训练24小时,相当于在TPUv3 – 8(128G显存)上训练一个月;使用8k的批次batchsize;调整优化器等超参数。
3. 全词mask(whole word mask):如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask,本项目未直接实现dynamic mask,但通过复制训练样本得到多份数据,每份数据使用不同mask并加大复制份数间接得到dynamic mask效果。
三、项目总结
该项目为RoBERTa在中文环境下的预训练提供了全面的方案,包括模型的实现、不同版本的发布、在多种任务上的性能测试以及与其他模型的对比等。希望对自然语言处理领域的研究者和开发者有所帮助。欢迎大家留言分享自己的使用经验或者提出相关问题,一起参与到这个项目的讨论中来。
项目地址
数据统计
数据评估
本站链氪巴士提供的brightmart/roberta_zh:RoBERTa中文预训练模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。
相关导航
brightmart/albert_zh是一个基于TensorFlow实现的ALiteBertForSelf - SupervisedLearningLanguageRepresentations项目。提供多种版本的中文ALBERT预训练模型,包括不同参数规模和性能特点的模型。项目涵盖预训练、下游任务微调的代码示例,还有如转换为TensorflowLite格式进行移动端部署的操作及性能测试等内容。详细展示了ALBERT模型对BERT的改进之处,如词嵌入向量参数因式分解、跨层参数共享、段落连续性任务等改进方式。这对于自然语言处理研究和应用开发有很大的参考价值。