【Github】项目名:ymcui/Chinese – BERT – wwm:基于全词掩码的中文BERT预训练模型
一、项目简介
在自然语言处理领域,预训练语言模型是非常重要的基础技术。此项目发布了基于全词掩码(WholeWordMasking)技术的中文预训练模型BERT – wwm,以及相关模型(如BERT – wwm – ext等)。项目提供了模型的详细信息,包括不同版本模型的参数、数据来源、下载方式等内容,并且展示了这些模型在多个中文数据集上进行测试的结果。
二、核心技术
采用全词掩码(WholeWordMasking)技术,在预训练阶段改变训练样本生成策略。以中文为例,若一个完整词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask。在中文中应用该技术时,使用了中文维基百科(包括简体和繁体)进行训练,并且使用了哈工大LTP作为分词工具。
三、实践案例
在多个中文数据集上进行测试,涵盖句子级和篇章级任务,如CMRC2018(简体中文阅读理解)、DRCD(繁体中文阅读理解)、CJRC(司法阅读理解)、XNLI(自然语言推断)、ChnSentiCorp(情感分析)、LCQMC和BQCorpus(句对分类)、THUCNews(篇章级文本分类)等任务,对比了不同模型(包括BERT – wwm及其相关模型、ERNIE等)的效果。
四、项目总结
这个项目为中文自然语言处理提供了多种预训练模型资源和丰富的实验数据。不同模型在不同任务和数据集上各有表现,为研究者在模型选择、预训练和微调等方面提供了有价值的参考。欢迎大家在评论区留言,分享对这个项目的看法或者使用过程中的经验等。
项目地址
数据统计
数据评估
本站链氪巴士提供的ymcui/Chinese-BERT-wwm:基于全词掩码的中文BERT预训练模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。
相关导航
brightmart/albert_zh是一个基于TensorFlow实现的ALiteBertForSelf - SupervisedLearningLanguageRepresentations项目。提供多种版本的中文ALBERT预训练模型,包括不同参数规模和性能特点的模型。项目涵盖预训练、下游任务微调的代码示例,还有如转换为TensorflowLite格式进行移动端部署的操作及性能测试等内容。详细展示了ALBERT模型对BERT的改进之处,如词嵌入向量参数因式分解、跨层参数共享、段落连续性任务等改进方式。这对于自然语言处理研究和应用开发有很大的参考价值。
PaddleHub是一个基于PaddlePaddle的预训练模型工具包。它包含400多个模型,涵盖图像、文本、音频、视频和跨模态等多个领域,具有容易推理和服务的特点。支持多种平台,如Linux、Windows和MacOS。其模型丰富,涉及计算机视觉、自然语言处理、语音、视频和跨模态等领域,使用简单,仅需3行代码即可对400多个AI模型进行预测,还能一行命令提供模型服务。并且该项目一直在更新,2022年8月19日发布v2.3.0版本,支持ERNIE - ViLG等,2月18日将模型发布到HuggingFace PaddlePaddle Space。所有模型开源免费,欢迎关注并加入官方群交流。