GeneralNewsExtractor：新闻网页正文通用抽取器Beta版

文章目录

【Github】项目名：GeneralNewsExtractor – 新闻网页正文通用抽取器Beta版

项目简介

这个项目是一个新闻网页正文通用抽取器的Beta版。它源于作者在知网看到的一篇关于自动化抽取新闻类网站正文算法的论文，论文只阐述算法原理，作者用Python将其实现。目前在原论文正文提取基础上增加了标题、发布时间和文章作者的自动化探测与提取功能，但还处于非常早期的Demo阶段，不保证版本向下兼容。项目输入为HTML，输出为字典，需要使用者自行获取目标网站HTML，不会提供主动请求HTML的功能。

项目目的

发布出来是希望能够尽快得到大家的使用反馈，从而能够更好地有针对性地进行开发。

如何使用

在线体验

如果想先体验GNE的提取效果，可以访问http://gne.kingname.info/。一般把网页粘贴到多行文本框，点击提取按钮即可，附加更多参数可让提取更精确，具体可参阅API。

使用环境

如果想体验GNE功能，可以选择pip或者pipenv安装，例如使用pip安装：pip install –upgrade gne；使用pipenv安装：pipenv install gne。然后使用相关代码进行正文提取。示例代码：

>>>from gne import GeneralNewsExtractor
>>>='''经过渲染的网页HTML代码'''
>>>extractor = GeneralNewsExtractor()
>>>result = extractor.extract(,noise_node_list=['//div[@class="comment-list"]'])
>>>print(result)
{"title":"xxxx","publish_time":"2019-09-10 11:12:13","author":"yyy","content":"zzzz","images":["/xxx.jpg","/yyy.png"]}

更多使用说明，请参阅GNE的文档。还有提取列表页（测试版）的功能及相关代码示例。

开发环境

如果要参与项目开发，首先要安装Pipenv（若不知Pipenv是什么可点击相关链接跳转），然后按照如下步骤运行代码：

git clone https://github.com/kingname/GeneralNewsExtractor.git
cd GeneralNewsExtractor
pipenv install
pipenv shell
python3 example.py

项目代码中的example.py提供了基本使用示例，测试代码在tests文件夹中。项目输入的HTML为经过JavaScript渲染后的HTML，适用于后端渲染、Ajax异步加载等情况。还介绍了手动测试新目标网站或新闻时获取源代码的方法以及提取信息的代码示例，还有针对标题自动提取失败的解决方法等。

项目总结

这个GeneralNewsExtractor项目为新闻网页正文等信息的抽取提供了方便的工具，虽然目前只适用于新闻页的信息提取且存在一些已知问题，如非新闻页抽取结果可能不符合预期、部分新闻抽取作者可能为空字符串等，但也有相应的改进计划。欢迎大家体验这个项目，如果有任何想法或建议，欢迎在评论区留言参与讨论。

项目地址

GitHub链接直达

数据统计

数据评估

GeneralNewsExtractor：新闻网页正文通用抽取器Beta版浏览人数已经达到300，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：GeneralNewsExtractor：新闻网页正文通用抽取器Beta版的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找GeneralNewsExtractor：新闻网页正文通用抽取器Beta版的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站链氪巴士提供的GeneralNewsExtractor：新闻网页正文通用抽取器Beta版都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由链氪巴士实际控制，在2024年12月6日上午12:00收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，链氪巴士不承担任何责任。

链氪巴士致力于优质、实用的网络站点资源收集与分享！本文地址https://linkedbus.com/sites/21558.html转载请注明

相关导航

fzlee/alipay：Python支付宝SDK支持SHA1/SHA256

fzlee/alipay是一个Python的支付宝SDK项目，支持SHA1和SHA256。项目涵盖初始化与验证、API等内容，3.0版本有新特性，如新函数替代旧API且保持向后兼容，测试方式也有说明，为Python环境下支付宝相关开发提供了工具。

seaborn-Python中的统计数据可视化库

Seaborn是一个基于matplotlib的Python可视化库，它提供了绘制统计图形的高级接口。其文档涵盖教程、示例图库等内容。支持Python3.8+，可从PyPI或通过conda安装，测试需额外依赖项。开发在Github进行，使用问题可在StackOverflow交流。

ruia：基于asyncio的Python3.6+异步网络爬虫微框架

Ruia是一个用于网络爬虫的微框架，基于asyncio和aiohttp编写。它采用声明式编程，易于使用。在速度方面，由asyncio驱动，具有快速的特点。框架具备可扩展性，有中间件和插件。并且还支持JavaScript。无论是对于Linux、Mac还是Windows系统都有相应的安装方式，在网络爬虫领域是一个值得关注的项目。

PSpider：简单易用的Python爬虫框架

PSpider是一个用Python编写的网络爬虫框架，需要Python3.8及以上版本。它支持多线程爬取模式，支持使用代理进行爬取，还定义了实用的函数和类。框架分为几个模块，各有其功能。代码行数较少，易于阅读、理解和扩展。欢迎对该项目感兴趣的朋友留言讨论。

项目名：pytdx-Python tdx数据接口

pytdx是一个Python的tdx数据接口项目，由开发者为个人学习目的所开发。该项目于2020年4月15日被所有者归档，成为只读项目。由于开发者在2018年加入新公司后缺乏维护精力，项目代码老旧过时。开发者现在专注于其他编程语言的学习与开发，包括前端开发语言TypeScript、Swift、Kotlin以及系统级开发语言Rust、Golang，Python新版本和新特性很久未跟进学习。不过该项目也曾在Python数据接口方面有过一定意义，希望大家理解项目归档情况并欢迎留言交流。

SeanChang/running_page-与Xuanyuan.me相关的GitHub项目

SeanChang/running_page是一个与Xuanyuan.me有关的GitHub项目。其在GitHub平台上，拥有MIT许可证。项目主要使用JavaScript、Python等语言，其中JavaScript占94.8%，Python占4.9%，其他占0.3%。目前该项目的星星数为0，叉子数为0，关注者有1人，且还未发布版本和包等情况，但关于其具体功能等详细信息目前获取有限。

暂无评论

暂无评论...

GeneralNewsExtractor：新闻网页正文通用抽取器Beta版

猜你喜欢

【Github】项目名：GeneralNewsExtractor – 新闻网页正文通用抽取器Beta版

项目简介

项目目的

如何使用

在线体验

使用环境

开发环境

项目总结

项目地址

数据统计

数据评估

相关导航

暂无评论

猜你喜欢

科技快讯

猜你喜欢