Github项目

brightmart/roberta_zh:RoBERTa中文预训练模型

本项目是关于RoBERTa在中文环境下的预训练项目。由brightmart开发,用TensorFlow实现大规模中文RoBERTa预训练,也提供PyTorch预训练模型和加载方式。RoBERTa是BERT改进版,在训练...

标签:

【Github】项目名:brightmart/roberta_zh:RoBERTa中文预训练模型

一、项目简介

本项目是用TensorFlow实现了在大规模中文上RoBERTa的预训练,也会提供PyTorch的预训练模型和加载方式。RoBERTa是BERT的改进版,通过改进训练任务和数据生成方式、训练更久、使用更大批次、使用更多数据等获得了较好的效果,可以用Bert直接加载。项目包含不同层数(如6层、12层、24层)的RoBERTa模型,训练数据涵盖新闻、社区问答、多个百科数据等,规模从10G到30G不等。同时还给出了在多个任务(如互联网新闻情感分析、自然语言推断、问题匹配语任务、阅读理解等)上与其他模型(如BERT、Bert – wwm – ext、XLNet等)的效果对比。

二、核心技术

1. 数据生成与改进:取消下一个句子预测,并且数据连续从一个文档中获得。使用30G中文训练数据,包含3亿个句子,100亿个字(token),具有多样性。
2. 训练策略:总共训练近20万次,见过近16亿个训练数据实例;在CloudTPUv3 – 256上训练24小时,相当于在TPUv3 – 8(128G显存)上训练一个月;使用8k的批次batchsize;调整优化器等超参数。
3. 全词mask(whole word mask):如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask,本项目未直接实现dynamic mask,但通过复制训练样本得到多份数据,每份数据使用不同mask并加大复制份数间接得到dynamic mask效果。

三、项目总结

该项目为RoBERTa在中文环境下的预训练提供了全面的方案,包括模型的实现、不同版本的发布、在多种任务上的性能测试以及与其他模型的对比等。希望对自然语言处理领域的研究者和开发者有所帮助。欢迎大家留言分享自己的使用经验或者提出相关问题,一起参与到这个项目的讨论中来。

项目地址

GitHub链接直达

数据统计

数据评估

brightmart/roberta_zh:RoBERTa中文预训练模型浏览人数已经达到8,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:brightmart/roberta_zh:RoBERTa中文预训练模型的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找brightmart/roberta_zh:RoBERTa中文预训练模型的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于brightmart/roberta_zh:RoBERTa中文预训练模型特别声明

本站链氪巴士提供的brightmart/roberta_zh:RoBERTa中文预训练模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。

相关导航

暂无评论

暂无评论...