ymcui/Chinese-BERT-wwm：基于全词掩码的中文BERT预训练模型

文章目录

【Github】项目名：ymcui/Chinese – BERT – wwm：基于全词掩码的中文BERT预训练模型

一、项目简介

在自然语言处理领域，预训练语言模型是非常重要的基础技术。此项目发布了基于全词掩码（WholeWordMasking）技术的中文预训练模型BERT – wwm，以及相关模型（如BERT – wwm – ext等）。项目提供了模型的详细信息，包括不同版本模型的参数、数据来源、下载方式等内容，并且展示了这些模型在多个中文数据集上进行测试的结果。

二、核心技术

采用全词掩码（WholeWordMasking）技术，在预训练阶段改变训练样本生成策略。以中文为例，若一个完整词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask。在中文中应用该技术时，使用了中文维基百科（包括简体和繁体）进行训练，并且使用了哈工大LTP作为分词工具。

三、实践案例

在多个中文数据集上进行测试，涵盖句子级和篇章级任务，如CMRC2018（简体中文阅读理解）、DRCD（繁体中文阅读理解）、CJRC（司法阅读理解）、XNLI（自然语言推断）、ChnSentiCorp（情感分析）、LCQMC和BQCorpus（句对分类）、THUCNews（篇章级文本分类）等任务，对比了不同模型（包括BERT – wwm及其相关模型、ERNIE等）的效果。

四、项目总结

这个项目为中文自然语言处理提供了多种预训练模型资源和丰富的实验数据。不同模型在不同任务和数据集上各有表现，为研究者在模型选择、预训练和微调等方面提供了有价值的参考。欢迎大家在评论区留言，分享对这个项目的看法或者使用过程中的经验等。

项目地址

GitHub链接直达

数据统计

数据评估

ymcui/Chinese-BERT-wwm：基于全词掩码的中文BERT预训练模型浏览人数已经达到371，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：ymcui/Chinese-BERT-wwm：基于全词掩码的中文BERT预训练模型的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找ymcui/Chinese-BERT-wwm：基于全词掩码的中文BERT预训练模型的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站链氪巴士提供的ymcui/Chinese-BERT-wwm：基于全词掩码的中文BERT预训练模型都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由链氪巴士实际控制，在2024年12月6日上午12:00收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，链氪巴士不承担任何责任。

链氪巴士致力于优质、实用的网络站点资源收集与分享！本文地址https://linkedbus.com/sites/21501.html转载请注明

相关导航

TorchGeo-地理空间数据处理的全方位工具

TorchGeo是一个类似于torchvision的PyTorch领域库，专注于地理空间数据相关的数据集、采样器、转换和预训练模型。它能处理多光谱、不同坐标系统和分辨率的地理空间数据集，有多种采样器方便采样，支持特定传感器预训练的模型权重，还与Lightning框架良好集成用于不同任务的训练，包括在多种数据集上的操作示例。这个库为机器学习专家处理地理空间数据以及遥感专家探索机器学习方案提供了极大的便利。

crownpku/Rasa_NLU_Chi：将中文自然语言转换为结构化数据

RasaNLU for Chinese是从RasaHQ/rasa_nlu派生出来的项目。它主要功能是将中文自然语言转化为结构化数据。在使用时需要特定文件，如data/total_word_feature_extractor_zh.dat，该文件由MITIE wordreptools从中文语料库训练得到且训练耗时2 - 3天，并且要先对中文语料库标记化再用于训练，与用户案例匹配的封闭域语料库效果佳，还能从中文维基百科转储和百度百科下载已训练模型，使用时需安装、配置、训练模型并运行服务器等一系列操作。

liuhuanyong/liuhuanyong.github.io-面向中文自然语言处理的学习资源

liuhuanyong/liuhuanyong.github.io是一个丰富的面向中文自然语言处理的学习资源。它包含了六十余类实践项目及学习索引，像语言资源构建、社会计算、自然语言处理组件等多个学习主题都有涵盖。并且还包含作者的个人简介、学习心得等内容，还有语言资源以及工业落地系统等方面的内容。这是一个专门为自然语言处理入门学习者打造的较为全面的学习资源，能够让学习者在这个平台上获取多方面的知识，对中文自然语言处理领域有一个较为全面的初步认识，方便学习者在这个基础上进一步深入学习该领域的知识。

brightmart/albert_zh：海量中文预训练ALBERT模型

brightmart/albert_zh是一个基于TensorFlow实现的ALiteBertForSelf - SupervisedLearningLanguageRepresentations项目。提供多种版本的中文ALBERT预训练模型，包括不同参数规模和性能特点的模型。项目涵盖预训练、下游任务微调的代码示例，还有如转换为TensorflowLite格式进行移动端部署的操作及性能测试等内容。详细展示了ALBERT模型对BERT的改进之处，如词嵌入向量参数因式分解、跨层参数共享、段落连续性任务等改进方式。这对于自然语言处理研究和应用开发有很大的参考价值。

CLUE：中文语言理解测评基准：数据集、模型、语料库与排行榜

CLUE是一个中文语言理解测评基准项目，包含数据集、基准（预训练）模型、语料库和排行榜等重要部分。其数据集涵盖多种任务类型，如语义相似度、新闻分类、自然语言推理等，且具有不同的数据量和任务难度。预训练模型包含BERT、ALBERT、RoBERTa等常见技术，在不同数据集上有着不同的参数设置。项目还给出了各模型在不同任务上的实践结果，为中文自然语言处理提供了全面的参考，无论是模型开发还是应用开发都极具价值。

InsaneLife/ChineseNLPCorpus：中文自然语言处理数据集

InsaneLife/ChineseNLPCorpus是一个综合性的中文自然语言处理数据集项目。它包含多种类型的数据集，像阅读理解数据集有DuReader等不同种类；任务型对话数据集包括MedicalDS等；文本分类、情感分析、实体识别等方面也有诸多相关数据集。这些数据为做相关实验提供了丰富的材料，并且项目欢迎补充提交合并。任何人对这个项目有想法或者有使用经验都可以参与讨论。

暂无评论

暂无评论...

ymcui/Chinese-BERT-wwm：基于全词掩码的中文BERT预训练模型

猜你喜欢

【Github】项目名：ymcui/Chinese – BERT – wwm：基于全词掩码的中文BERT预训练模型

一、项目简介

二、核心技术

三、实践案例

四、项目总结

项目地址

数据统计

数据评估

相关导航

暂无评论

猜你喜欢

科技快讯

猜你喜欢