Github项目

Embedding/Chinese-Word-Vectors:提供100 +预训练中文词向量

Embedding/Chinese - Word - Vectors项目提供100多种预训练中文词向量,这些向量通过不同表示形式、上下文特征和语料库训练。项目提供CA8数据集和评估工具包,向量文件为文本格式...

标签:

【Github】项目名:Embedding/Chinese – Word – Vectors:提供100 +预训练中文词向量

一、项目简介

这个项目提供了100多种预训练的中文词向量(嵌入),这些词向量通过不同的表示形式(密集和稀疏)、上下文特征(单词、n – gram、字符等)以及语料库进行训练。人们可以轻松获取具有不同属性的预训练向量,并将其用于下游任务。此外,该项目还提供了一个中文类比推理数据集CA8和一个评估工具包,方便用户评估其词向量的质量。预训练向量文件为文本格式,每行包含一个单词及其向量,各值之间用空格分隔。

二、核心技术

1. 表示方法:词表示方法分为密集和稀疏两种,其中SGNS模型(word2vec工具包中的一种模型)和PPMI模型分别是这两类的典型方法。SGNS模型通过浅层神经网络训练低维实(密集)向量,也被称为神经嵌入方法;PPMI模型是一种基于正逐点互信息(PPMI)加权方案的稀疏特征袋表示。

2. 上下文特征:在词嵌入文献中,单词、n – gram和字符这三种上下文特征被普遍使用。大多数词表示方法本质上利用单词 – 单词共现统计,即使用单词作为上下文特征(单词特征);受语言建模问题的启发,将n – gram特征引入上下文(同时使用单词 – 单词和单词 – n – gram共现统计进行训练);考虑到汉字往往传达很强的语义,对于中文,使用单词 – 单词和单词 – 字符共现统计来学习词向量。此外,还考虑了其他影响词向量属性的特征,如将整个文本作为上下文特征、使用依存句法分析作为上下文特征等,本项目共考虑了17种共现类型。

3. 语料库:项目组尽力收集了跨多个领域的语料库,所有文本数据都经过预处理,去除了和xml标签,只保留纯文本,并使用HanLP(v_1.5.3)进行分词,同时使用Open Chinese Convert(OpenCC)将繁体中文转换为简体中文。

4. 工具包:所有的词向量都是由ngram2vec工具包训练的,ngram2vec工具包是word2vec和fasttext工具包的超集,支持任意的上下文特征和模型。

三、项目总结

Embedding/Chinese – Word – Vectors项目为中文词向量的研究和应用提供了丰富的资源,包括多种预训练向量、评估数据集和工具包等。如果你对这个项目感兴趣或者有任何想法,欢迎在下方留言参与讨论。

项目地址

GitHub链接直达

数据统计

数据评估

Embedding/Chinese-Word-Vectors:提供100 +预训练中文词向量浏览人数已经达到7,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:Embedding/Chinese-Word-Vectors:提供100 +预训练中文词向量的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找Embedding/Chinese-Word-Vectors:提供100 +预训练中文词向量的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于Embedding/Chinese-Word-Vectors:提供100 +预训练中文词向量特别声明

本站链氪巴士提供的Embedding/Chinese-Word-Vectors:提供100 +预训练中文词向量都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月5日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。

相关导航

暂无评论

暂无评论...