【Github】项目名:QASystemOnMedicalKG:构建医药知识图谱并实现自动问答
一、项目简介
本项目构建了一个以疾病为中心的医药领域知识图谱,实体规模约4.4万,实体关系规模约30万。并且基于这个知识图谱搭建了能够回答18类问题的自动问答小系统。数据来源为垂直型医药网站,以neo4j作为存储,采用传统规则方式完成知识问答,以cypher查询语句作为问答搜索sql来提供问答服务。
二、核心技术
1. 知识图谱构建技术
– 业务驱动的知识图谱构建框架,包含如prepare_data/datasoider.py网络资讯采集脚本、prepare_data/max_cut.py基于词典的最大向前/向后切分脚本、build_medicalgraph.py知识图谱入库脚本等。
– 知识schema设计基于对采集的网页结构化数据进行xpath解析。
2. 自动问答技术
– 包括question_classifier.py问句类型分类脚本、question_parser.py问句解析脚本、chatbot_graph.py问答程序脚本等构成自动问答系统的技术组件。
三、项目总结
本项目从无到有,在3天内完成了以垂直网站为数据来源的医疗知识图谱构建和自动问答系统搭建。虽然能够实现多种功能,但也存在不足,如对于疾病的起因、预防等回答是大段文字,可引入事件抽取概念优化。如果您对本项目有任何疑问或者建议,欢迎留言参与讨论。
项目地址
数据统计
数据评估
本站链氪巴士提供的QASystemOnMedicalKG:构建医药知识图谱并实现自动问答都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。
相关导航
Computer - Networking - A - Top - Down - Approach - NOTES项目主要围绕《计算机网络-自顶向下方法(原书第6版)》展开。它包含编程作业以及Wireshark实验文档相关内容。在编程作业方面,涵盖了从应用层到网络层不同类型的作业解答,像套接字编程作业里的Web服务器、UDP ping程序、邮件客户端等作业的解答。对于Wireshark实验,有HTTP、DNS、TCP等众多实验官方文档的翻译和解答。这是一个对学习该课程人员非常有帮助的资源库。