【Github】项目名:ToolGood.Words:高性能敏感词检测过滤组件
项目简介
ToolGood.Words是一款高性能的敏感词(非法词/脏字)检测过滤组件。它不仅能进行敏感词检测过滤,还附带繁体简体互换、全角半角互换、汉字转拼音以及模糊搜索等功能。该组件采用C#语言,使用StringSearchEx2.Replace过滤,在48k敏感词库上的过滤速度超过3亿字符每秒。
核心技术
项目中的敏感词检测(字符串搜索)有着多种类,如StringSearch、StringSearchEx等。其中IllegalWordsSearch为过滤非法词(敏感词)专用类,可设置跳字长度等多种功能。此外,还有支持部分正则表达式类型的检测类如StringMatch、StringMatchEx等。在拼音操作方面,有ToolGood.Words.Pinyin追求更快加载速度(目前只有C#代码),包含如PinyinMatch等方法。
项目总结
ToolGood.Words功能丰富且性能高效,在敏感词检测过滤以及相关的文本处理方面有着不错的表现。欢迎大家在评论区留言,分享自己对于这个项目的看法或者使用过程中的经验等。
项目地址
数据统计
数据评估
本站链氪巴士提供的ToolGood.Words:高性能敏感词检测过滤组件都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。
相关导航

TinyPinyin是一个在Github上开源的适用于Java和Android的汉字转拼音库。其稳定版本为2.0.3,具有诸多特性,例如生成的拼音不包含声调且为大写,支持简体中文和繁体中文,能自定义词典。在性能方面表现优秀,执行效率是Pinyin4J的4 - 16倍,内存占用在不添加词典时小于30KB。在技术实现上有单字符转拼音的优化、多音字处理方案等,还有实用的API设计,包括字符转拼音、判断是否为汉字、字符串转拼音等功能,词典API可添加城市词典和自定义词典。这个库有效解决了Pinyin4J存在的诸如Jar文件大、首次调用耗时、功能臃肿、不能添加自定义词典、内存占用高的问题。

gnet是一个超快速且轻量级的事件驱动网络框架。它通过利用epoll和kqueue从头构建,在许多特定场景下能以更低的内存消耗实现比Go标准网络库更高的性能。gnet基于TCP/UDP协议和Unix域套接字在传输层工作,开发者可以基于gnet实现自己的应用层协议(如HTTP、RPC、WebSocket、Redis等)来构建多样化的网络服务。一些企业/组织在生产环境中将gnet用作底层网络服务。在TechEmpower的基准测试中,gnet在全球486个涵盖各种编程语言的框架中排名前50,在Go框架的完整排名中,gnet超越了其他所有框架,成为Go中最快的网络框架。不过其在TechEmpower上的HTTP实现是为了基准测试目的而进行的半完成品,远未达到生产就绪状态。