【Github】项目名:Embedding/Chinese – Word – Vectors:提供100 +预训练中文词向量
一、项目简介
这个项目提供了100多种预训练的中文词向量(嵌入),这些词向量通过不同的表示形式(密集和稀疏)、上下文特征(单词、n – gram、字符等)以及语料库进行训练。人们可以轻松获取具有不同属性的预训练向量,并将其用于下游任务。此外,该项目还提供了一个中文类比推理数据集CA8和一个评估工具包,方便用户评估其词向量的质量。预训练向量文件为文本格式,每行包含一个单词及其向量,各值之间用空格分隔。
二、核心技术
1. 表示方法:词表示方法分为密集和稀疏两种,其中SGNS模型(word2vec工具包中的一种模型)和PPMI模型分别是这两类的典型方法。SGNS模型通过浅层神经网络训练低维实(密集)向量,也被称为神经嵌入方法;PPMI模型是一种基于正逐点互信息(PPMI)加权方案的稀疏特征袋表示。
2. 上下文特征:在词嵌入文献中,单词、n – gram和字符这三种上下文特征被普遍使用。大多数词表示方法本质上利用单词 – 单词共现统计,即使用单词作为上下文特征(单词特征);受语言建模问题的启发,将n – gram特征引入上下文(同时使用单词 – 单词和单词 – n – gram共现统计进行训练);考虑到汉字往往传达很强的语义,对于中文,使用单词 – 单词和单词 – 字符共现统计来学习词向量。此外,还考虑了其他影响词向量属性的特征,如将整个文本作为上下文特征、使用依存句法分析作为上下文特征等,本项目共考虑了17种共现类型。
3. 语料库:项目组尽力收集了跨多个领域的语料库,所有文本数据都经过预处理,去除了和xml标签,只保留纯文本,并使用HanLP(v_1.5.3)进行分词,同时使用Open Chinese Convert(OpenCC)将繁体中文转换为简体中文。
4. 工具包:所有的词向量都是由ngram2vec工具包训练的,ngram2vec工具包是word2vec和fasttext工具包的超集,支持任意的上下文特征和模型。
三、项目总结
Embedding/Chinese – Word – Vectors项目为中文词向量的研究和应用提供了丰富的资源,包括多种预训练向量、评估数据集和工具包等。如果你对这个项目感兴趣或者有任何想法,欢迎在下方留言参与讨论。
项目地址
数据统计
数据评估
本站链氪巴士提供的Embedding/Chinese-Word-Vectors:提供100 +预训练中文词向量都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月5日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。
相关导航
Bluesky Social application is available on Web, iOS, and Android. It is a React Native app written in TypeScript with some Golang code. Part of the ATProtocol ecosystem, it has its own set of schemas and APIs. Contributions are accepted with specific rules. Security issues can be reported via email. It is an open - source project under the MIT license. This app offers an alternative in the social media landscape and has its own development and contribution guidelines.