【Github】项目名:nghuyong/WeiboSpider:持续维护的新浪微博采集工具
一、项目简介
nghuyong/WeiboSpider是一个持续维护的新浪微博采集工具。它基于weibo.com的新版API构建,拥有丰富的字段信息。这个工具具备多种采集模式,可采集微博用户、推文、粉丝、关注、转发、评论、关键词搜索等内容。其核心代码仅100行,代码可读性高,便于快速按需定制化改造。
二、快速开始
- 拉取&安装:
- git clone https://github.com/nghuyong/WeiboSpider.git –depth 1
- cd WeiboSpider
- pip install -r requirements.txt
- 替换Cookie:
- 访问https://weibo.com/,登陆账号,打开浏览器的开发者模式,再次刷新复制weibo.com数据包,network中的cookie值。
- 编辑weibospider/cookie.txt并替换成刚刚复制的Cookie。
- 添加代理IP(可选):重写fetch_proxy方法,该方法需要返回一个代理ip。
- 运行程序:根据自己实际需要重写./weibospider/spiders/中的start_requests函数,采集的数据存在output文件中,命名为{spider.name}_{datetime}.jsonl。
三、采集示例
- 用户信息采集:cd weibospider; python run_spider.py user。示例中采集到雷军的用户信息,包括头像、昵称、认证情况、粉丝数等众多信息。
- 用户粉丝列表采集:python run_spider.py fan。
- 用户关注列表采集:python run_spider.py follow。
- 微博评论采集:python run_spider.py comment。
- 微博转发采集:python run_spider.py repost。
- 基于微博ID的微博采集:python run_spider.pytweet_by_tweet_id。
- 基于用户ID的微博采集:python run_spider.pytweet_by_user_id。
- 基于关键词的微博采集:python run_spider.pytweet_by_keyword。
四、更新日志
- 2024.02:支持采集自己推文的阅读量#313。
- 2024.02:支持采集视频的播放量#315。
- 2024.01:支持转发推文溯源到原推文#314。
- 2023.12:支持采集推文的二级评论#302。
- 2023.12:支持采集指定时间段的用户推文#308。
- 2023.04:支持针对推文id的推文采集#272。
- 2022.11:支持针对单个关键词获取单天超过1200页的检索结果#257。
- 2022.11:支持长微博全文的获取。
- 2022.11:基于关键词微博搜索支持指定时间范围。
- 2022.10:添加IP归属地信息的采集,包括用户数据,微博数据和微博评论数据。
- 2022.10:基于weibo.com站点对项目进行重构。
五、项目总结
nghuyong/WeiboSpider是一个功能强大的新浪微博采集工具,在数据采集方面有着诸多便利之处,无论是对于需要进行微博数据分析的研究者,还是对微博数据有特定需求的开发者等都有很大的价值。如果你对这个项目有任何想法或者建议,欢迎在评论区留言讨论。
项目地址
数据统计
数据评估
关于nghuyong/WeiboSpider:持续维护的新浪微博采集工具特别声明
本站链氪巴士提供的nghuyong/WeiboSpider:持续维护的新浪微博采集工具都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。
相关导航
暂无评论...