Embedding/Chinese-Word-Vectors：提供100 +预训练中文词向量

文章目录

【Github】项目名：Embedding/Chinese – Word – Vectors：提供100 +预训练中文词向量

一、项目简介

这个项目提供了100多种预训练的中文词向量（嵌入），这些词向量通过不同的表示形式（密集和稀疏）、上下文特征（单词、n – gram、字符等）以及语料库进行训练。人们可以轻松获取具有不同属性的预训练向量，并将其用于下游任务。此外，该项目还提供了一个中文类比推理数据集CA8和一个评估工具包，方便用户评估其词向量的质量。预训练向量文件为文本格式，每行包含一个单词及其向量，各值之间用空格分隔。

二、核心技术

1. 表示方法：词表示方法分为密集和稀疏两种，其中SGNS模型（word2vec工具包中的一种模型）和PPMI模型分别是这两类的典型方法。SGNS模型通过浅层神经网络训练低维实（密集）向量，也被称为神经嵌入方法；PPMI模型是一种基于正逐点互信息（PPMI）加权方案的稀疏特征袋表示。

2. 上下文特征：在词嵌入文献中，单词、n – gram和字符这三种上下文特征被普遍使用。大多数词表示方法本质上利用单词 – 单词共现统计，即使用单词作为上下文特征（单词特征）；受语言建模问题的启发，将n – gram特征引入上下文（同时使用单词 – 单词和单词 – n – gram共现统计进行训练）；考虑到汉字往往传达很强的语义，对于中文，使用单词 – 单词和单词 – 字符共现统计来学习词向量。此外，还考虑了其他影响词向量属性的特征，如将整个文本作为上下文特征、使用依存句法分析作为上下文特征等，本项目共考虑了17种共现类型。

3. 语料库：项目组尽力收集了跨多个领域的语料库，所有文本数据都经过预处理，去除了和xml标签，只保留纯文本，并使用HanLP（v_1.5.3）进行分词，同时使用Open Chinese Convert（OpenCC）将繁体中文转换为简体中文。

4. 工具包：所有的词向量都是由ngram2vec工具包训练的，ngram2vec工具包是word2vec和fasttext工具包的超集，支持任意的上下文特征和模型。

三、项目总结

Embedding/Chinese – Word – Vectors项目为中文词向量的研究和应用提供了丰富的资源，包括多种预训练向量、评估数据集和工具包等。如果你对这个项目感兴趣或者有任何想法，欢迎在下方留言参与讨论。

项目地址

GitHub链接直达

数据统计

数据评估

Embedding/Chinese-Word-Vectors：提供100 +预训练中文词向量浏览人数已经达到110，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：Embedding/Chinese-Word-Vectors：提供100 +预训练中文词向量的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找Embedding/Chinese-Word-Vectors：提供100 +预训练中文词向量的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站链氪巴士提供的Embedding/Chinese-Word-Vectors：提供100 +预训练中文词向量都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由链氪巴士实际控制，在2024年12月5日上午12:00收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，链氪巴士不承担任何责任。

链氪巴士致力于优质、实用的网络站点资源收集与分享！本文地址https://linkedbus.com/sites/21398.html转载请注明

相关导航

nutui：京东风格的移动端Vue组件库

nutui是一个京东风格的轻量级Vue组件库，包含80 +个高质量组件覆盖移动端主流场景。支持一套代码同时开发H5和多端小程序，基于京东APP10.0视觉规范，支持按需引用、TypeScript、服务端渲染（测试阶段）等特性，组件级别可定制主题，有国际化支持且单元测试覆盖率超80%，官方和社区维护着相关生态项目，已投入生产使用且业界广泛应用。

CRN：携程基于ReactNative优化的跨平台开发框架

CRN是CtripReactNative简称，由携程无线平台研发团队基于ReactNative框架优化而来。开源基于ReactNative0.59.0、react16.8.3版本且主要是性能优化部分。功能包括打包支持框架和业务代码拆分等。性能优化效果在iOS和Android上显著，对官方RN的Runtime和CLI工具代码有调整，工程接入有相应方式。

ryanhanwu/How-To-Ask-Questions-The-Smart-Way：教你正确提问并获得满意答案

本项目原文由知名Hacker Eric S. Raymond撰写，内容围绕如何正确提出技术问题并得到满意答案展开。包含提问前的准备工作，如搜索答案、阅读手册等并表明努力过程；提问时的注意事项，像慎选论坛、标题撰写、回复便利性、语句要求、文件格式等；还涉及答案解读、无礼回应处理、避免失败角色、不该问的问题以及如何回答问题等多方面知识，是技术问答领域的实用参考。

zhzyker/exphub：漏洞利用脚本库

Exphub是一个GitHub上的漏洞利用脚本库，包含Webloigc、Struts2、Tomcat、Nexus、Solr、Jboss、Drupal等的漏洞利用脚本，不断有新CVE相关脚本加入。脚本类型多样，涵盖Python、Shell、Java、PHP等格式，有漏洞验证、利用等不同功能，还整合脚本以实现一键扫描和漏洞利用并补全使用文档。

alibaba/x-render：阿里中后台表单/表格/图表解决方案

X - Render是阿里推出的一个中后台解决方案。它包含了FormRender，可像写input一样写表单；TableRender用于协议生成和灵活搜索列表；ChartRender能傻瓜式绘制图表；FormGenerator是表单可视化搭建利器。项目遵循MIT协议，欢迎大家使用并推广，也可贡献代码、解决BUG或提高文档可读性。

KNPhotoBrowser：多功能的iOS图片与视频浏览器

KNPhotoBrowser是一个适用于iOS系统的图片和视频浏览器，能处理本地和网络资源。具有无耦合性、自定义控件等特点，可保存获取资源路径，完美适配iPhone和iPad且支持屏幕旋转。它基于UIViewController构建显示和交互逻辑，依赖SDWebImage处理图片加载等，有众多功能如多种API操作、视频播放相关功能等，类似微信和微博中的浏览器，功能丰富且适配性强，欢迎大家讨论。

暂无评论

暂无评论...

Embedding/Chinese-Word-Vectors：提供100 +预训练中文词向量

猜你喜欢

【Github】项目名：Embedding/Chinese – Word – Vectors：提供100 +预训练中文词向量

一、项目简介

二、核心技术

三、项目总结

项目地址

数据统计

数据评估

相关导航

暂无评论

猜你喜欢

科技快讯

猜你喜欢