【Github】项目名:candlewill/Dialog_Corpus:用于训练中英文对话系统的语料库
项目简介
这一项目收集了从网络获取的用于训练中文(英文)聊天机器人的对话语料。其中包含多种公开语料,如中文电影对白语料(dgk_shooter_min.conv.zip)但噪音大且问答关系对应不佳;包含中文和英文短消息的TheNUSSMSCorpus;ChatterBot中文基本聊天语料;自然语言处理相关的英文数据集(DatasetsforNaturalLanguageProcessing);小黄鸡语料(已分词xiaohuangji50w_fenciA.conv.zip和未分词xiaohuangji50w_nofenci.conv.zip);白鹭时代中文问答语料;来自各种开源的Chatcorpusrepository;保险行业QA语料库等,还有部分未公开语料。
项目总结
这个项目为训练中英文对话系统提供了丰富的语料资源,无论是对聊天机器人开发者还是研究自然语言处理的人员都有一定的价值。希望大家能积极留言讨论这个语料库相关的话题,例如如何更好地利用这些语料等。
项目地址
数据统计
数据评估
关于candlewill/Dialog_Corpus:用于训练中英文对话系统的语料库特别声明
本站链氪巴士提供的candlewill/Dialog_Corpus:用于训练中英文对话系统的语料库都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。
相关导航
暂无评论...