【Github】项目名:Embedding/Chinese – Word – Vectors:提供100 +预训练中文词向量
一、项目简介
这个项目提供了100多种预训练的中文词向量(嵌入),这些词向量通过不同的表示形式(密集和稀疏)、上下文特征(单词、n – gram、字符等)以及语料库进行训练。人们可以轻松获取具有不同属性的预训练向量,并将其用于下游任务。此外,该项目还提供了一个中文类比推理数据集CA8和一个评估工具包,方便用户评估其词向量的质量。预训练向量文件为文本格式,每行包含一个单词及其向量,各值之间用空格分隔。
二、核心技术
1. 表示方法:词表示方法分为密集和稀疏两种,其中SGNS模型(word2vec工具包中的一种模型)和PPMI模型分别是这两类的典型方法。SGNS模型通过浅层神经网络训练低维实(密集)向量,也被称为神经嵌入方法;PPMI模型是一种基于正逐点互信息(PPMI)加权方案的稀疏特征袋表示。
2. 上下文特征:在词嵌入文献中,单词、n – gram和字符这三种上下文特征被普遍使用。大多数词表示方法本质上利用单词 – 单词共现统计,即使用单词作为上下文特征(单词特征);受语言建模问题的启发,将n – gram特征引入上下文(同时使用单词 – 单词和单词 – n – gram共现统计进行训练);考虑到汉字往往传达很强的语义,对于中文,使用单词 – 单词和单词 – 字符共现统计来学习词向量。此外,还考虑了其他影响词向量属性的特征,如将整个文本作为上下文特征、使用依存句法分析作为上下文特征等,本项目共考虑了17种共现类型。
3. 语料库:项目组尽力收集了跨多个领域的语料库,所有文本数据都经过预处理,去除了和xml标签,只保留纯文本,并使用HanLP(v_1.5.3)进行分词,同时使用Open Chinese Convert(OpenCC)将繁体中文转换为简体中文。
4. 工具包:所有的词向量都是由ngram2vec工具包训练的,ngram2vec工具包是word2vec和fasttext工具包的超集,支持任意的上下文特征和模型。
三、项目总结
Embedding/Chinese – Word – Vectors项目为中文词向量的研究和应用提供了丰富的资源,包括多种预训练向量、评估数据集和工具包等。如果你对这个项目感兴趣或者有任何想法,欢迎在下方留言参与讨论。
项目地址
数据统计
数据评估
本站链氪巴士提供的Embedding/Chinese-Word-Vectors:提供100 +预训练中文词向量都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月5日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。