Github项目

ymcui/Chinese-BERT-wwm:基于全词掩码的中文BERT预训练模型

ymcui/Chinese - BERT - wwm项目发布基于全词掩码技术的中文预训练模型及其相关模型。项目详细给出各模型参数、数据来源、下载方式等。并在多类中文数据集(如阅读理解、情感分析...

标签:

【Github】项目名:ymcui/Chinese – BERT – wwm:基于全词掩码的中文BERT预训练模型

一、项目简介

在自然语言处理领域,预训练语言模型是非常重要的基础技术。此项目发布了基于全词掩码(WholeWordMasking)技术的中文预训练模型BERT – wwm,以及相关模型(如BERT – wwm – ext等)。项目提供了模型的详细信息,包括不同版本模型的参数、数据来源、下载方式等内容,并且展示了这些模型在多个中文数据集上进行测试的结果。

二、核心技术

采用全词掩码(WholeWordMasking)技术,在预训练阶段改变训练样本生成策略。以中文为例,若一个完整词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask。在中文中应用该技术时,使用了中文维基百科(包括简体和繁体)进行训练,并且使用了哈工大LTP作为分词工具。

三、实践案例

在多个中文数据集上进行测试,涵盖句子级和篇章级任务,如CMRC2018(简体中文阅读理解)、DRCD(繁体中文阅读理解)、CJRC(司法阅读理解)、XNLI(自然语言推断)、ChnSentiCorp(情感分析)、LCQMC和BQCorpus(句对分类)、THUCNews(篇章级文本分类)等任务,对比了不同模型(包括BERT – wwm及其相关模型、ERNIE等)的效果。

四、项目总结

这个项目为中文自然语言处理提供了多种预训练模型资源和丰富的实验数据。不同模型在不同任务和数据集上各有表现,为研究者在模型选择、预训练和微调等方面提供了有价值的参考。欢迎大家在评论区留言,分享对这个项目的看法或者使用过程中的经验等。

项目地址

GitHub链接直达

数据统计

数据评估

ymcui/Chinese-BERT-wwm:基于全词掩码的中文BERT预训练模型浏览人数已经达到4,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:ymcui/Chinese-BERT-wwm:基于全词掩码的中文BERT预训练模型的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找ymcui/Chinese-BERT-wwm:基于全词掩码的中文BERT预训练模型的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于ymcui/Chinese-BERT-wwm:基于全词掩码的中文BERT预训练模型特别声明

本站链氪巴士提供的ymcui/Chinese-BERT-wwm:基于全词掩码的中文BERT预训练模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。

相关导航

暂无评论

暂无评论...