Github项目

nghuyong/WeiboSpider:持续维护的新浪微博采集工具

nghuyong/WeiboSpider是一个持续维护的新浪微博采集工具。它基于weibo.com新版API构建,具备多种采集模式如采集用户、推文、粉丝等内容,核心代码仅100行,可读性高便于定制。有详...

标签:

【Github】项目名:nghuyong/WeiboSpider:持续维护的新浪微博采集工具

一、项目简介

nghuyong/WeiboSpider是一个持续维护的新浪微博采集工具。它基于weibo.com的新版API构建,拥有丰富的字段信息。这个工具具备多种采集模式,可采集微博用户、推文、粉丝、关注、转发、评论、关键词搜索等内容。其核心代码仅100行,代码可读性高,便于快速按需定制化改造。

二、快速开始

  1. 拉取&安装:
    • git clone https://github.com/nghuyong/WeiboSpider.git –depth 1
    • cd WeiboSpider
    • pip install -r requirements.txt
  2. 替换Cookie:
    • 访问https://weibo.com/,登陆账号,打开浏览器的开发者模式,再次刷新复制weibo.com数据包,network中的cookie值。
    • 编辑weibospider/cookie.txt并替换成刚刚复制的Cookie。
  3. 添加代理IP(可选):重写fetch_proxy方法,该方法需要返回一个代理ip。
  4. 运行程序:根据自己实际需要重写./weibospider/spiders/中的start_requests函数,采集的数据存在output文件中,命名为{spider.name}_{datetime}.jsonl。

三、采集示例

  1. 用户信息采集:cd weibospider; python run_spider.py user。示例中采集到雷军的用户信息,包括头像、昵称、认证情况、粉丝数等众多信息。
  2. 用户粉丝列表采集:python run_spider.py fan。
  3. 用户关注列表采集:python run_spider.py follow。
  4. 微博评论采集:python run_spider.py comment。
  5. 微博转发采集:python run_spider.py repost。
  6. 基于微博ID的微博采集:python run_spider.pytweet_by_tweet_id。
  7. 基于用户ID的微博采集:python run_spider.pytweet_by_user_id。
  8. 基于关键词的微博采集:python run_spider.pytweet_by_keyword。

四、更新日志

  • 2024.02:支持采集自己推文的阅读量#313。
  • 2024.02:支持采集视频的播放量#315。
  • 2024.01:支持转发推文溯源到原推文#314。
  • 2023.12:支持采集推文的二级评论#302。
  • 2023.12:支持采集指定时间段的用户推文#308。
  • 2023.04:支持针对推文id的推文采集#272。
  • 2022.11:支持针对单个关键词获取单天超过1200页的检索结果#257。
  • 2022.11:支持长微博全文的获取。
  • 2022.11:基于关键词微博搜索支持指定时间范围。
  • 2022.10:添加IP归属地信息的采集,包括用户数据,微博数据和微博评论数据。
  • 2022.10:基于weibo.com站点对项目进行重构。

五、项目总结

nghuyong/WeiboSpider是一个功能强大的新浪微博采集工具,在数据采集方面有着诸多便利之处,无论是对于需要进行微博数据分析的研究者,还是对微博数据有特定需求的开发者等都有很大的价值。如果你对这个项目有任何想法或者建议,欢迎在评论区留言讨论。

项目地址

GitHub链接直达

数据统计

数据评估

nghuyong/WeiboSpider:持续维护的新浪微博采集工具浏览人数已经达到3,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:nghuyong/WeiboSpider:持续维护的新浪微博采集工具的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找nghuyong/WeiboSpider:持续维护的新浪微博采集工具的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于nghuyong/WeiboSpider:持续维护的新浪微博采集工具特别声明

本站链氪巴士提供的nghuyong/WeiboSpider:持续维护的新浪微博采集工具都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。

相关导航

暂无评论

暂无评论...