Github项目

pkuseg-python:多领域中文分词工具包

pkuseg - python是一个多领域中文分词工具包,基于特定论文开发。它具有多领域分词特性,支持如新闻、网络、医药等领域。与其他分词工具包相比,使用相同数据时它有更高的准确率。...

标签:

【Github】项目名:pkuseg-python:多领域中文分词工具

项目简介

pkuseg是一个基于论文[Luo et.al,2019]的多领域中文分词工具包。它简单易用,支持细分领域分词,提供了不同领域(如新闻、网络、医药、旅游等)的预训练模型,用户可根据需求选择。在性能上,相比其他分词工具包(如jieba、THULAC等),在相同训练和测试数据下,pkuseg有更高的分词准确率,并且支持用户自训练模型和词性标注。

编译和安装

目前仅支持python3。为获得好的效果和速度,建议通过pip install更新到最新版本。可通过PyPI安装(自带模型文件):pip3 install pkuseg,之后通过import pkuseg来引用,也可更新到最新版本:pip3 install -U pkuseg。若PyPI官方源下载速度不理想,可使用镜像源。如果不使用pip安装方式,选择从GitHub下载,运行pythonsetup.py build_ext -i,但GitHub的代码不包括预训练模型,需要用户自行下载或训练模型。注意安装方式1和2目前仅支持linux(ubuntu)、mac、windows64位的python3版本,非以上系统需用安装方式3进行本地编译安装。

使用方式

在python交互式环境下:
1. 使用默认配置分词(适用于不确定分词领域的情况):import pkuseg,seg = pkuseg.pkuseg(),text = seg.cut(‘我爱北京天安门’),print(text)。
2. 细领域分词(明确分词领域时):import pkuseg,seg = pkuseg.pkuseg(model_name=’medicine’),text = seg.cut(‘我爱北京天安门’),print(text)。
3. 分词同时进行词性标注:import pkuseg,seg = pkuseg.pkuseg(postag = True),text = seg.cut(‘我爱北京天安门’),print(text)。
4. 对文件分词:import pkuseg,pkuseg.test(‘input.txt’,’output.txt’,nthread = 20)。

项目总结

pkuseg – python是一个功能丰富的多领域中文分词工具包,在中文分词方面有着独特的优势。欢迎大家留言讨论关于这个项目的任何想法、使用心得或者问题等。

项目地址

GitHub链接直达

数据统计

数据评估

pkuseg-python:多领域中文分词工具包浏览人数已经达到4,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:pkuseg-python:多领域中文分词工具包的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找pkuseg-python:多领域中文分词工具包的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于pkuseg-python:多领域中文分词工具包特别声明

本站链氪巴士提供的pkuseg-python:多领域中文分词工具包都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。

相关导航

暂无评论

暂无评论...