nghuyong/WeiboSpider：持续维护的新浪微博采集工具

文章目录

【Github】项目名：nghuyong/WeiboSpider：持续维护的新浪微博采集工具

一、项目简介

nghuyong/WeiboSpider是一个持续维护的新浪微博采集工具。它基于weibo.com的新版API构建，拥有丰富的字段信息。这个工具具备多种采集模式，可采集微博用户、推文、粉丝、关注、转发、评论、关键词搜索等内容。其核心代码仅100行，代码可读性高，便于快速按需定制化改造。

二、快速开始

拉取&安装：
- git clone https://github.com/nghuyong/WeiboSpider.git –depth 1
- cd WeiboSpider
- pip install -r requirements.txt
替换Cookie：
- 访问https://weibo.com/，登陆账号，打开浏览器的开发者模式，再次刷新复制weibo.com数据包，network中的cookie值。
- 编辑weibospider/cookie.txt并替换成刚刚复制的Cookie。
添加代理IP（可选）：重写fetch_proxy方法，该方法需要返回一个代理ip。
运行程序：根据自己实际需要重写./weibospider/spiders/中的start_requests函数，采集的数据存在output文件中，命名为{spider.name}_{datetime}.jsonl。

三、采集示例

用户信息采集：cd weibospider; python run_spider.py user。示例中采集到雷军的用户信息，包括头像、昵称、认证情况、粉丝数等众多信息。
用户粉丝列表采集：python run_spider.py fan。
用户关注列表采集：python run_spider.py follow。
微博评论采集：python run_spider.py comment。
微博转发采集：python run_spider.py repost。
基于微博ID的微博采集：python run_spider.pytweet_by_tweet_id。
基于用户ID的微博采集：python run_spider.pytweet_by_user_id。
基于关键词的微博采集：python run_spider.pytweet_by_keyword。

四、更新日志

2024.02:支持采集自己推文的阅读量#313。
2024.02:支持采集视频的播放量#315。
2024.01:支持转发推文溯源到原推文#314。
2023.12:支持采集推文的二级评论#302。
2023.12:支持采集指定时间段的用户推文#308。
2023.04:支持针对推文id的推文采集#272。
2022.11:支持针对单个关键词获取单天超过1200页的检索结果#257。
2022.11:支持长微博全文的获取。
2022.11:基于关键词微博搜索支持指定时间范围。
2022.10:添加IP归属地信息的采集，包括用户数据，微博数据和微博评论数据。
2022.10:基于weibo.com站点对项目进行重构。

五、项目总结

nghuyong/WeiboSpider是一个功能强大的新浪微博采集工具，在数据采集方面有着诸多便利之处，无论是对于需要进行微博数据分析的研究者，还是对微博数据有特定需求的开发者等都有很大的价值。如果你对这个项目有任何想法或者建议，欢迎在评论区留言讨论。

项目地址

GitHub链接直达

数据统计

数据评估

nghuyong/WeiboSpider：持续维护的新浪微博采集工具浏览人数已经达到276，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：nghuyong/WeiboSpider：持续维护的新浪微博采集工具的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找nghuyong/WeiboSpider：持续维护的新浪微博采集工具的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站链氪巴士提供的nghuyong/WeiboSpider：持续维护的新浪微博采集工具都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由链氪巴士实际控制，在2024年12月6日上午12:00收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，链氪巴士不承担任何责任。

链氪巴士致力于优质、实用的网络站点资源收集与分享！本文地址https://linkedbus.com/sites/21545.html转载请注明

相关导航

vue-llplatform：基于vue、element搭建的后台管理平台

vue - llplatform是一个基于vue、element搭建的后台管理平台。其技术栈包含ES6、vue、vue - router、axios和element - ui，所有请求数据使用Mock.js模拟。具有登录相关（如注册、注销、自动登录等）、全局功能（如国际化多语言、自定义主题等）和功能页面（如表格、表单、富文本编辑器等）等功能，未实现移动端适配，且配套有教程文章辅助学习和实践。

cjql/archive-计算机、文史、财经等资源收藏库

cjql/archive是一个在GitHub上的资源收藏仓库，主要收藏计算机、文史、财经等多领域的资源。其中包含各种电子书和网址等内容。该仓库最初为方便创建者跨设备查询而建，未公开推广却被很多人通过搜索CFA发现。创建者为方便大众阅读查询等操作，进行了一系列优化操作，如开通网页并迁移Wiki内容到Code区等。

AndroidProject-安卓开发的GitHub项目资源

AndroidProject是GitHub上的安卓开发项目。它涵盖多方面内容，为开发者提供范例，有开源等优势也有局限性，欢迎大家留言讨论。

Android-skin-support项目简介与分析

Android - skin - support是GitHub上的一个Android换肤支持库。本文介绍其项目背景、目的、核心技术等，分析优势局限性，欢迎留言讨论。

ToolJet：低代码构建商业应用平台

ToolJet是一个开源的低代码框架，用于构建和部署内部工具。它的拖放式前端构建器可快速创建前端，能集成多种数据源，如数据库、API端点、SaaS工具和对象存储服务等。拥有众多功能，包括丰富组件、多数据源集成、良好适应性与扩展性、安全保障等。支持多种入门方式、有教程示例，还有文档、社区支持和贡献相关内容等。

xunsearch：免费开源的中文搜索引擎

Xunsearch是免费开源的专业中文全文检索解决方案。它包含后端索引、搜索服务程序和前端SDK，前后端可分离部署。适用于多种检索领域，底层基于特定技术，具备多种搜索引擎功能，使用GPL协议发布，可获取源代码进行修改和再分发，官方网站提供项目最新消息、社区讨论和免费技术支持等。

暂无评论

暂无评论...

nghuyong/WeiboSpider：持续维护的新浪微博采集工具

猜你喜欢

【Github】项目名：nghuyong/WeiboSpider：持续维护的新浪微博采集工具

一、项目简介

二、快速开始

三、采集示例

四、更新日志

五、项目总结

项目地址

数据统计

数据评估

相关导航

暂无评论

猜你喜欢

科技快讯

猜你喜欢