GeneralNewsExtractor是一个新闻网页正文通用抽取器的Beta版。源于知网的一篇算法论文,作者用Python实现。在原论文基础上增加了标题、发布时间和作者的自动化探测与提取功能。处于早期Demo阶段,不保证版本兼容。输入为HTML,输出为字典。有在线体验和不同安装使用方式、开发环境说明等,虽然目前只适用于新闻页抽取且存在问题,但有改进计划。