【Github】项目名:ToolGood.Words:高性能敏感词检测过滤组件
项目简介
ToolGood.Words是一款高性能的敏感词(非法词/脏字)检测过滤组件。它不仅能进行敏感词检测过滤,还附带繁体简体互换、全角半角互换、汉字转拼音以及模糊搜索等功能。该组件采用C#语言,使用StringSearchEx2.Replace过滤,在48k敏感词库上的过滤速度超过3亿字符每秒。
核心技术
项目中的敏感词检测(字符串搜索)有着多种类,如StringSearch、StringSearchEx等。其中IllegalWordsSearch为过滤非法词(敏感词)专用类,可设置跳字长度等多种功能。此外,还有支持部分正则表达式类型的检测类如StringMatch、StringMatchEx等。在拼音操作方面,有ToolGood.Words.Pinyin追求更快加载速度(目前只有C#代码),包含如PinyinMatch等方法。
项目总结
ToolGood.Words功能丰富且性能高效,在敏感词检测过滤以及相关的文本处理方面有着不错的表现。欢迎大家在评论区留言,分享自己对于这个项目的看法或者使用过程中的经验等。
项目地址
数据统计
数据评估
本站链氪巴士提供的ToolGood.Words:高性能敏感词检测过滤组件都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。
相关导航
TinyPinyin是一个在Github上开源的适用于Java和Android的汉字转拼音库。其稳定版本为2.0.3,具有诸多特性,例如生成的拼音不包含声调且为大写,支持简体中文和繁体中文,能自定义词典。在性能方面表现优秀,执行效率是Pinyin4J的4 - 16倍,内存占用在不添加词典时小于30KB。在技术实现上有单字符转拼音的优化、多音字处理方案等,还有实用的API设计,包括字符转拼音、判断是否为汉字、字符串转拼音等功能,词典API可添加城市词典和自定义词典。这个库有效解决了Pinyin4J存在的诸如Jar文件大、首次调用耗时、功能臃肿、不能添加自定义词典、内存占用高的问题。