pkuseg-python：多领域中文分词工具包

文章目录

【Github】项目名：pkuseg-python：多领域中文分词工具

项目简介

pkuseg是一个基于论文[Luo et.al,2019]的多领域中文分词工具包。它简单易用，支持细分领域分词，提供了不同领域（如新闻、网络、医药、旅游等）的预训练模型，用户可根据需求选择。在性能上，相比其他分词工具包（如jieba、THULAC等），在相同训练和测试数据下，pkuseg有更高的分词准确率，并且支持用户自训练模型和词性标注。

编译和安装

目前仅支持python3。为获得好的效果和速度，建议通过pip install更新到最新版本。可通过PyPI安装（自带模型文件）：pip3 install pkuseg，之后通过import pkuseg来引用，也可更新到最新版本：pip3 install -U pkuseg。若PyPI官方源下载速度不理想，可使用镜像源。如果不使用pip安装方式，选择从GitHub下载，运行pythonsetup.py build_ext -i，但GitHub的代码不包括预训练模型，需要用户自行下载或训练模型。注意安装方式1和2目前仅支持linux(ubuntu)、mac、windows64位的python3版本，非以上系统需用安装方式3进行本地编译安装。

使用方式

在python交互式环境下：
1. 使用默认配置分词（适用于不确定分词领域的情况）：import pkuseg，seg = pkuseg.pkuseg()，text = seg.cut(‘我爱北京天安门’)，print(text)。
2. 细领域分词（明确分词领域时）：import pkuseg，seg = pkuseg.pkuseg(model_name=’medicine’)，text = seg.cut(‘我爱北京天安门’)，print(text)。
3. 分词同时进行词性标注：import pkuseg，seg = pkuseg.pkuseg(postag = True)，text = seg.cut(‘我爱北京天安门’)，print(text)。
4. 对文件分词：import pkuseg，pkuseg.test(‘input.txt’,’output.txt’,nthread = 20)。

项目总结

pkuseg – python是一个功能丰富的多领域中文分词工具包，在中文分词方面有着独特的优势。欢迎大家留言讨论关于这个项目的任何想法、使用心得或者问题等。

项目地址

GitHub链接直达

数据统计

数据评估

pkuseg-python：多领域中文分词工具包浏览人数已经达到121，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：pkuseg-python：多领域中文分词工具包的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找pkuseg-python：多领域中文分词工具包的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站链氪巴士提供的pkuseg-python：多领域中文分词工具包都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由链氪巴士实际控制，在2024年12月6日上午12:00收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，链氪巴士不承担任何责任。

链氪巴士致力于优质、实用的网络站点资源收集与分享！本文地址https://linkedbus.com/sites/21495.html转载请注明

相关导航

ownthink/Jiagu：深度学习自然语言处理工具

Jiagu是一个深度学习自然语言处理工具，使用大规模语料训练而成。它能提供中文分词、词性标注、命名实体识别、情感分析、知识图谱关系抽取、关键词抽取、文本摘要、新词发现、情感分析、文本聚类等功能。安装方式有pip安装和源码安装，使用方式多样，可用于多种自然语言处理任务，如分词、词性标注、命名实体识别等，不同功能都有对应的示例代码可供参考。

SJVideoPlayer-iOS短视频播放器

SJVideoPlayer是一款iOS平台的视频播放器，可充当媒体播放器。它能够接入ijkplayer、aliplayer、alivodplayer、plplayer等。项目详细阐述了从安装到配置的过程，像项目配置旋转就有多个步骤。还有快速开始使用的方法展示，包含导入头文件、创建对象和通过URL播放等操作，并且给出作者联系方式，采用MIT许可证。

UITableViewDynamicLayoutCacheHeight-自动计算视图高度

UITableViewDynamicLayoutCacheHeight是一个高性能的工具，它能自动计算采用Autolayout布局的UITableViewCell和UITableViewHeaderFooterView的高度并自动管理高度缓存。支持横竖屏且兼容Swift，有多种安装方式如CocoaPods和Carthage等，其高度计算原理是提前创建Cell等操作来获取高度，虽有一些缺陷但也实现了简陋的微信朋友圈功能，欢迎大家参与讨论并提出issues和PR。

hotoo/pinyin：汉字拼音转换工具

hotoo/pinyin是一个功能强大的汉字拼音转换工具。它支持Node和Web浏览器环境运行，可用于汉字注音、排序、检索等操作。能根据词组智能匹配拼音，支持多音字和简单繁体，还提供多种拼音风格选择。在开发中可以方便地导入并使用，通过不同参数设置满足多种需求，如处理多音字、分词、选择拼音风格等，命令行也可直接操作，同时在排序方面也有默认及自定义的解决方案。

henson/proxypool：Golang实现的IP代理池

henson/proxypool是一个用Golang编写的IP代理池项目。它旨在采集免费的代理资源，为爬虫提供有效的IP代理。代理池由Getter、Channel、Schedule和Api四部分构成。在代码实现方面，包含api接口相关代码、代理获取接口等内容，并且有配置文件来进行数据库、日志等配置。它使用xorm处理数据库，支持多种数据库类型。安装使用时，因部分代理网站反爬技术需先安装PhantomJS，下载项目后配置app.ini即可启动，可通过相应接口获取代理。项目还支持添加自定义代理采集接口且有容错机制。

ascoders/weekly：前端精读周刊

ascoders/weekly是一个前端精读周刊项目，每周更新内容。它的素材来源广泛，包括结合大厂经验解读的前沿技术、源码解读，也逐渐加入后端技术解读等内容，涵盖编译原理、设计模式等模块，对前端开发者深入理解前沿实用技术很有帮助。

暂无评论

暂无评论...

pkuseg-python：多领域中文分词工具包

猜你喜欢

【Github】项目名：pkuseg-python：多领域中文分词工具

项目简介

编译和安装

使用方式

项目总结

项目地址

数据统计

数据评估

相关导航

暂无评论

猜你喜欢

科技快讯

猜你喜欢